不确定性系统故障原因

_相关内容

HTTP(S)健康检查

BGP节点和运营商节点的差别:BGP节点会优选运营商网络线路,例如以上海市BGP节点为例,若上海移动线路故障,探测点可能会选择上海电信线路探测,除非所有线路均故障。而运营商节点表示探测节点就使用该运营商网络,没有优选机制。若您在...

IIS Web网站访问故障

本文介绍IIS(Internet Information Service)作为Web服务的网站,访问故障相关的问题及解决方案。本文介绍的IIS Web网站访问故障相关问题如下:访问部署在Windows实例上的基于IIS搭建的Web网站时,提示“500-内部服务器错误”,如何处理?...

Windows实例中数据恢复

在处理磁盘相关问题时,您可能会碰到操作系统中数据盘分区丢失的情况。本文介绍了Windows系统下常见的数据盘分区丢失的问题以及对应的处理方法,同时提供了使用云盘的常见误区以及最佳实践,避免可能的数据丢失风险。前提条件 已注册阿里云...

如何管理故障

可对故障根因进行原因检查并结构化录入,检查点包括:故障原因、最近活动、注入方式、恢复方式等;关联故障期间的故障变更,新增故障改进措施等操作。故障状态 处理中:处理中仍未恢复的故障;已恢复:故障对处理中的故障做 恢复 操作后是...

故障隔离

故障隔离是在服务实例出现故障时,实现实例级别的精细化摘流隔离,使故障影响范围更小,提高服务的可用。添加故障隔离规则 登录 SOFAStack 控制台。在左侧菜单栏选择 中间件>微服务平台>服务网格>服务治理,然后单击 故障隔离 页签。单击...

什么是故障

包括根因检查点(如故障原因、最近活动、注入方式、恢复方式等)、故障变更检查、监控检查,并需要对每一个故障明确责任人及团队;故障改进:支持对故障制定明确的改进及验收措施、责任人及完成时间,确保每个深度复盘后的故障都能对业务...

ContainerOS概述

每个镜像经过内部严格的测试之后才会上线,相较于传统操作系统基于单个RPM包的升级带来的不确定性,镜像粒度的测试发布更能保证升级后系统的稳定性。关于ContainerOS的升级方式,请参见 升级ContainerOS。功能优势 优势 说明 容器场景垂直...

单实例快速恢复

为了能够快速恢复系统故障,Hologres提供了单实例快速恢复的机制。本文为您介绍单实例快速恢复的触发条件和行为。实例快速恢复逻辑说明 Hologres在 V2.0版本之前,Hologres计算节点均为容器调度(即下图中的Worker Node),资源管理器...

跟踪概览

故障诊断与运维 服务故障分析:在出现服务中断或性能下降时,可以使用跟踪日志来分析事件前后的操作,以帮助确定故障原因。配置变更追踪:记录对云资源配置的所有更改,帮助识别可能导致服务中断的配置错误。基本概念 概念 说明 跟踪 跟踪...

光伏发电异常检测提效

同时,无法有效排除环境因素的干扰,例如一天不同的时段发电量不同,也受天气影响巨大,按照该检测方法无法动态适应各个变化的情况,为运维工作增加了不确定性,并带来运维负担。解决方案 物联网平台的数据服务提供数据智能功能,可以基于...

无法连接Windows实例

阿里云对第三方产品的性能、可靠以及操作可能带来的潜在影响,做任何暗示或其他形式的承诺。问题描述 用户无法连接Windows实例。问题原因 无法连接Windows实例的原因较多,不同的问题原因均可能导致无法连接Windows实例。此处列举较为...

消息(Message)

消息持久化 云消息队列 RocketMQ 版 会默认对消息进行持久化,即将接收到的消息存储到 云消息队列 RocketMQ 版 服务端的存储文件中,保证消息的可回溯系统故障场景下的可恢复。模型关系 在整个 云消息队列 RocketMQ 版 的领域模型中...

概述

但随着各公司业务范围的扩展和软件系统架构持续迭代升级,系统的复杂度随之增加,面对更多的非预期事件风险,如各类软硬件故障、错误的变更、突发流量,甚至到光纤挖断、自然灾害等引起的整个机房可用情况,如何保障系统稳定具有很大...

应用场景

在线业务弹性扩容 根据业务流量自动对业务进行扩容(基于Kubernetes HPA),无需人工干预,避免流量激增扩容及时导致系统故障,以及平时大量闲置资源造成的浪费。在使用阿里云容器服务ACK场景下,支持将一个应用按比例部署到ECS或ECI上,...

回切至本地物理机

本地恢复 注意 目前仅支持本地磁盘恢复,暂支持FC共享存储、iSCSI存储、动态磁盘、UEFI启动系统等物理机的恢复。准备工作。由于物理机的特殊,目前仅支持恢复到原物理机,且磁盘型号、大小、顺序务必要保持一致。请务必在本地恢复前,...

什么是消息演练

随着应用规模的扩大,系统变得越来越复杂,可避免地会走向分布式化。各种中间组件会相继被引入系统,其中分布式消息服务更是系统中必可少的一...需要注意的是演练场景仅是组件表象,其内部故障原因可能是多种多样的,需要进一步进行分析。

功能概述

数据库发生故障后,无法在发生故障时定位到原因,可以通过智能压测功能,在克隆库上复现故障场景,定位故障原因。功能架构 智能压测的功能架构如下图所示:源数据库:将要进行大促、将要业务变更或者已经发生故障,需要进行流量捕获的数据...

服务等级说明

2.3 除外情形 因下述原因导致的服务可用的时长计入服务可用时间:(1)阿里云预先通知客户后进行系统维护所引起的,包括割接、维修、升级和模拟故障演练;(2)任何阿里云所属设备以外的网络、设备故障或配置调整引起的;(3)客户的...

SLA服务等级协议

2.3 除外情形 因下述原因导致的服务可用的时长计入服务可用时间:(1)阿里云预先通知客户后进行系统维护所引起的,包括割接、维修、升级和模拟故障演练;(2)任何阿里云所属设备以外的网络、设备故障或配置调整引起的;(3)客户的...

Redis客户端重连指南

引发暂时性故障原因 原因 说明 故障触发了高可用机制 云数据库Redis支持节点健康状态监测,当监测到实例中的主节点可用时,会自动触发主备切换,例如将主节点和从节点进行互换,保障实例的高可用。此时,客户端可能会遇到下列暂时...

Tair客户端重连指南

引发暂时性故障原因 原因 说明 故障触发了高可用机制 云原生内存数据库Tair 支持节点健康状态监测,当监测到实例中的主节点可用时,会自动触发主备切换,例如将主节点和从节点进行互换,保障实例的高可用。此时,客户端可能会遇到...

服务等级协议

2.3除外情形 因 下述原因导致的服务可用的时长计入服务可用时间:(1)阿里云预先通知客户后进行系统维护所引起的,包括割接、维修、升级和模拟故障演练;(2)任何阿里云所属设备以外的网络、设备故障或配置调整引起的;(3)客户的...

云盘三副本技术

阿里云云盘三副本技术通过分布式文件系统为云服务器ECS提供稳定、高效、可靠的数据随机访问能力,为ECS实例实现99.9999999%的数据可靠保证。本文介绍三副本的概念及原理。三副本介绍 您对云盘的读写最终都会被映射为对阿里云数据存储平台...

地址标准化服务等级协议

2.3除外情形 因下述原因导致的服务可用的时长计入服务可用时间:(1)阿里云预先通知客户后进行系统维护所引起的,包括割接、维修、升级和模拟故障演练;(2)任何阿里云所属设备以外的网络、设备故障或配置调整引起的;(3)客户的...

事件告警概览

故障排查:通过审计日志和告警来分析系统故障或性能问题的原因。功能特性 实时检测事件:当您设置告警规则后,操作审计将实时检测云上异常事件,快速发现风险。支持设置告警规则:操作审计内置关于账号安全、权限管理、资源管理等多条告警...

企业邮箱服务等级协议

赔偿范围包括以下原因所导致的服务可用时间:(1)阿里云预先通知客户后进行系统维护所引起的,包括割接、维修、升级和模拟故障演练;(2)任何阿里云所属设备以外的网络、设备故障或配置调整引起的;(3)客户的应用程序受到黑客攻击...

服务协议

赔偿范围包括以下原因所导致的请求失败或服务可用:(1)阿里云预先通知客户后进行系统维护所引起的,包括割接、维修、升级和模拟故障演练;(2)任何阿里云所属设备以外的网络、设备故障或配置调整引起的;(3)客户的应用程序受到...

监控指标说明

该指标协助您进行作业诊断,排查作业Task级别的故障原因。次数 TM GC Time 每次TM GC时间。长时间GC会导致占用过大内存空间,从而影响作业性能。该指标协助您进行作业诊断,排查作业级别的故障原因。毫秒(ms)TM ClassLoader/...

功能概览

当主系统发生故障时,业务系统切换到容灾系统,有效避免了地域灾害导致的系统故障,保障业务的可用,满足业务的RTO/RPO核心指标。云盘异步复制是一种基于块存储数据复制能力实现跨地域或者跨可用区数据保护的功能。更多信息,请参见 云...

功能概览

当主系统发生故障时,业务系统切换到容灾系统,有效避免了地域灾害导致的系统故障,保障业务的可用,满足业务的RTO、RPO核心指标。云盘异步复制是一种基于块存储数据复制能力实现跨地域或者跨可用区数据保护的功能。更多信息,请参见 ...

EMR Kafka磁盘故障运维

当出现磁盘故障时,需要根据故障原因、故障影响程度、业务需求(是否接受数据丢失、是否允许服务较长时间可用)、集群状态等综合考虑恢复采取的策略。如果业务优先保证服务可用,但允许丢失部分数据,则应考虑在可能会丢失数据的情况下,...

使用快照(公测)

在执行可能影响云电脑稳定的关键操作之前,例如修改注册表、修改关键系统文件等,建议您提前创建快照,一旦出现系统故障,就可以使用快照恢复数据。本文介绍如何使用快照。背景信息 快照是某一时间点某一块云盘的数据状态文件,可用于...

归档存储服务等级协议

阿里云将对可用时间进行赔偿,但包括以下原因所导致的服务可用时间:(1)阿里云预先通知用户后进行系统维护所引起的,包括割接、维修、升级和模拟故障演练;(2)任何阿里云所属设备以外的网络、设备故障或配置调整引起的;(3)...

阿里云工业大脑服务等级协议

2.3 除外情形 赔偿范围包括以下原因所导致的服务可用时间:(1)阿里云预先通知客户后进行系统维护所引起的,包括割接、维修、升级和模拟故障演练;(2)任何阿里云所属设备以外的网络、设备故障或配置调整引起的;(3)客户的应用程序...

概述

卓越运营第四个关键领域是构建可观测性系统。在云原生时代,架构与应用部署方式的变化是非常频繁的,通过获取系统内部的信息,来主动发现问题显得非常重要,构建可观测系统可以协助企业提升发现问题-判断和决策-解决问题的能力。

托管节点池节点自动恢复

当发现节点故障时,ACK会根据故障原因触发对应恢复任务,并记录相应的事件。当恢复任务完成后,故障状态解除,节点恢复正常状态。当恢复任务完成后,故障状态依然存在,节点会被置为恢复失败状态。说明 如果集群中存在多个节点池,节点池...

故障复盘

复盘文档一般包含以下内容:故障简述:故障概述、影响面、处理人等 故障背景:故障发生时的业务链路 故障时间线:着重强调故障引入、故障发生、故障发现、业务响应、恢复执行、故障恢复几个时间点 故障原因分析:建议先一句话总结,再进行...

主从(备)切换

MyBase MySQL 实例支持主从(备)切换,当主实例可用时,备(从)实例会切换为新的主实例,保障实例的高可用。此外,您还可以手动切换主从(备)实例。背景信息 自动切换:高可用版实例默认开启自动切换,当主实例出现故障无法访问时,...

主备方案介绍

主备容灾:当云数据库HBase实例因可预料的原因(例如设备故障、机房断电断网等)发生故障,容灾机制可用于保障数据的一致和业务可用。功能优势 主备双活:请求低毛刺。故障自动容错。资源利用率高。主备容灾:支持云数据库HBase、EMR...

使用须知

服务可用性不包括以下原因导致的可用时间:运营商核心网异常、阿里云预先通知用户后进行的系统维护、任何阿里云以外的网络和设备异常、客户原因引起的异常等。边缘节点存在割接情况,一般割接频率高于1次/月/节点,每次持续时间多于6...
< 1 2 3 4 ... 200 >
共有200页 跳转至: GO
新人特惠 爆款特惠 最新活动 免费试用