不确定性系统发生故障怎么办-不确定性系统发生故障怎么办文档介绍内容-移动阿里云

设计原则

再加上产品迭代加快，版本繁多，同时某些业务对实时性有较高要求，运维的不确定性和复杂性大幅增加。建议通过精细化的管理和可观测手段，如版本控制、灰度发布、监控告警、自动巡检等手段，旨在提高运维效率、确定性和稳定性。面向风险的...

云盘恢复

当ECS挂载的云盘发生系统故障或者错误操作时，您可以通过云盘在源地域的备份点或者复制到目标地域后的备份点，进行恢复原盘或者创建新盘操作实现数据恢复。本文介绍云盘恢复的相关操作。前提条件已创建云盘备份。更多信息，请参见创建云...

概述

在高速场景中，存在大量不确定事件（如交通事故、恶劣天气、突发交通拥堵、临时施工等），且由于事件发生时间、地点、类型等的不确定性，在事件发生后再根据经验进行调控的方法存在较大滞后性。策略中心模块即提供将常见交通场景事件及其...

如何通过 mPaaS 框架解决 App 线上问题

使用场景通过“开关”切换代码执行路径通过开关，可以将一些新开发的、或者是将稳定性不太确定的代码包起来。如果真的在线上发生故障，开发者就可以通过服务器推送开关，及时将故障代码关闭。这种推拉结合的方式，即时到达率 100%。发布 H...

功能概览

当主系统发生故障时，业务系统切换到容灾系统，有效避免了地域性灾害导致的系统故障，保障业务的可用性，满足业务的RTO/RPO核心指标。云盘异步复制是一种基于块存储数据复制能力实现跨地域或者跨可用区数据保护的功能。更多信息，请参见云...

功能概览

当主系统发生故障时，业务系统切换到容灾系统，有效避免了地域性灾害导致的系统故障，保障业务的可用性，满足业务的RTO、RPO核心指标。云盘异步复制是一种基于块存储数据复制能力实现跨地域或者跨可用区数据保护的功能。更多信息，请参见 ...

设计方案

系统可预见的稳定性风险包含软硬件故障和不可预期的流量，小到线程级风险，大到地域级灾难，从此出发可通过容灾、容错、容量三方面建立系统架构稳定性。容灾容灾就是在灾难发生时，在保证生产系统的数据尽量少丢失的情况下，保持生存系统...

消息（Message）

消息持久化云消息队列 RocketMQ 版会默认对消息进行持久化，即将接收到的消息存储到云消息队列 RocketMQ 版服务端的存储文件中，保证消息的可回溯性和系统故障场景下的可恢复性。模型关系在整个云消息队列 RocketMQ 版的领域模型中...

强弱依赖治理概述

异常发生时，不影响核心业务流程，不影响系统可用性的依赖称作弱依赖，反之为强依赖。以商品详情页为例。商品详情页后台系统架构如下。如果商品详情页对下游依赖是强依赖，例如当下游依赖库存、优惠、物流出现故障的时候，将导致业务流程...

云数据库Redis版产品选型必读

选择容灾方案当云数据库Redis实例因不可预料的原因（例如设备故障、机房断电等）发生故障，容灾机制可用于保障数据的一致性和业务可用性。云数据库Redis提供多种灾备方案供您选择，可满足不同的业务场景。选择大版本推荐使用更新的大版本...

副本集实例设置主备切换

当某个节点发生故障时，云数据库的高可用系统会自动触发切换操作，保障整体的可用性。同时，云数据库MongoDB提供主备切换功能，供用户在日常容灾演练等场景自行触发切换操作。背景信息通过控制台或接口 SwitchDBInstanceHA 操作主备切换后...

Tair选型指南

3 选择容灾方案云原生内存数据库Tair 实例若因不可预料的原因（例如设备故障、机房断电等）发生故障，容灾机制保障数据的一致性和业务可用性。云原生内存数据库Tair 提供多种灾备方案供您选择，可满足不同的业务场景。4 预估内存规格提前...

实例的节点故障处理机制

当节点发生故障后，系统会对故障节点进行检查与修复。节点故障期间实例的相关服务不可用。说明单节点实例适用于测试、培训、非核心业务等场景，生产环境建议使用副本集实例或分片集群实例以保障服务的高可用性。副本集图 1.副本集架构 ...

跨可用区批量克隆ECS实例

功能介绍跨可用区克隆实例功能允许用户在不同的可用区之间创建相同的实例，实现以下目标：故障切换：当一个可用区出现异常或故障时，可以将实例迅速克隆到另一个可用区，以确保业务的高可用性和持续性。负载均衡：为了实现多个可用区之间...

分片集群实例设置主备切换

MongoDB分片集群实例的每个Shard节点都默认含有三个节点，当某个节点发生故障时，云数据库MongoDB的高可用系统会自动触发主备切换，保障整体的可用性。同时您也可以在日常容灾演练等场景中，手动触发云数据库MongoDB主备切换功能。主备切换...

故障管理

故障改进：支持对故障制定明确的改进及验收措施、责任人及完成时间，确保每个深度复盘后的故障都能对业务连续性形成改进，避免历史同类故障重复发生。最佳实践运维事件中心是阿里云提供的云上故障管理服务。制定故障应急响应流程机制。可...

通过CADT实现ALB可用区级容灾演练

云速搭CADT（Cloud Architect Design Tools）容灾管理服务提供规划、部署、演练高可用业务的能力，在业务上线前及业务上线后定期进行容灾演练，验证系统是否能够抵御资源故障或者可用区故障，保障系统健壮性。本文为您介绍如何通过CADT实现...

通过快照一致性组回滚云盘

当您的系统遇到故障，如硬件或软件问题，或者由于误操作而导致的数据损失或异常时，您可以通过快照一致性组回滚一个或多个云盘，将您的云盘数据恢复到误操作发生前的状态，保证数据的持续性和业务的连续性。本文介绍如何使用快照一致性组回...

监控、诊断和故障排除

另外，通过日志的时间戳，不仅可以迅速查找和定位日志范围，还能够了解在请求发生时间点范围内，客户端应用、网络或者服务系统发生的其他事件，有利于问题的分析和调查。RequestID OSS服务会为接收的每个请求分配唯一的服务器请求ID，即...

自动或手动主备切换

当主实例发生故障或不可用时（例如操作系统错误、硬件故障等），系统会自动触发主备切换，主实例和备实例将进行互换，切换后实例地址保持不变，应用程序会自动连接到新的主实例（原备实例），从而保障业务的连续性和高可用性。此外，您还...

设计原则

数据容灾是指在数据中心或服务器发生故障、灾难或意外情况时，能够保证数据的安全性和可用性的一系列措施和策略。数据容灾的目标是确保在不可避免的情况下，数据的完整性、可恢复性和可用性不受到严重影响，以保障业务的持续运行和数据的...

流量回放和压测

此外，在数据库发生故障且无法定位原因时，可以利用克隆库复现故障场景，以便更好地定位故障原因。前提条件源数据库支持：RDS MySQL PolarDB MySQL版说明不支持 PolarDB MySQL版的企业版单节点实例。PolarDB-X 2.0。目标数据库实例...

智能压测

此外，在数据库发生故障且无法定位原因时，可以利用克隆库复现故障场景，以便更好地定位故障原因。前提条件源数据库支持：RDS MySQL PolarDB MySQL版说明不支持 PolarDB MySQL版的企业版单节点实例。PolarDB-X 2.0。目标数据库实例...

智能分析-异常根因定位分析利器

开发需要依赖更多的人员和部门，部署模式和运行环境也变得更加动态和不确定。IT行业已经进入需要更加系统化、体系化进行观测的这一过程。可观测性概念最早出现于20世纪70年代的电气工程，其核心思想是根据外部输出去推断系统目前运行的状态...

ADP底座/本地运维控制台

新增部署预检功能，对部署所需的OS、kernel、hostname、节点资源、时钟服务、网络、存储等进行检测，帮助Trident在交付前减少底层环境的不确定性；新增部署后检功能，对集群部署后的K8s基础组件、网络状况、存储状况、DNS、docker、kubelet...

RDS SQL Server异地容灾

RDS SQL Server提供了异地容灾方案，可以将源实例的业务数据自动同步至容灾实例中，当源实例所在地域的RDS实例发生故障时，可手动切换系统到容灾地域的RDS实例上，从而保障业务的连续性和可用性。前提条件已在地域A和地域B分别创建了RDS ...

分配辅助私网IP地址

故障转移场景：当实例发生故障时，您可以将辅助弹性网卡从故障实例解绑并绑定至备用实例，通过其辅助私网IP访问的请求流量也随之切换到备用实例，实现故障转移。负载均衡场景：通过为实例分配多个辅助私网IP地址，可以实现负载均衡机制，将...

跨地域灾备

当主集群发生故障后，阿里云确认主集群不可恢复，开放将项目切换到备份集群所在地域的能力，切换按钮可用，由您选择触发切换，操作步骤如下。重要您需要谨慎操作切换功能。因为备份非实时，不支持PiTR，所以切换可能会有数据丢失。如果...

演练场景

故障演练是业务系统上线前必要的演练环节，旨在对应急预案的可行性，进一步完成应急预案，从而帮助提升产品、集群、机房的稳定性，减少故障的发生，提高故障应急效率，进而提升产品竞争力。一个完整的故障演练过程为创建故障原子服务>创建...

GxP欧盟附录11标准合规包

业务背景 GxP欧盟附录11（GxP EU Annex 11）是欧盟对于计算机化系统使用的规范性要求，主要针对在制药、生物技术和医疗器械领域中使用计算机化系统的企业和组织。他要求涵盖了计算机化系统的开发、验证、操作、维护和监测等方面，以确保...

健康检查

为确保ALB后端服务器的业务可用性，您可以通过为ALB服务器组配置健康检查来检查服务器组的运行状况，以避免后端服务器异常对业务的影响，并提升业务可靠性。本文为您介绍如何创建、编辑和删除健康检查等操作。背景信息 ALB 支持基于每个...

云监控告警

事件名称事件所属类型说明 IP流量告警数据监控告警您可以设置数据监控报警通知，及时获知指标数据发生的异常，并在发生故障时及时发现问题，缩短故障处理时间，以便尽快恢复业务。连接数告警 QPS告警状态码告警 DDoS黑洞事件告警事件...

实例启动异常常见错误与对应解决方案

针对实例启动过程中因操作系统内配置异常、异常关机等问题导致操作系统无法正常启动的情况，您可以通过VNC登录实例发现的启动异常或者实例健康诊断工具返回的异常字段，在本文查看此类问题的解决方案。Windows 1662001135：Windows系统因...

什么是多活容灾

阶段三，可信的量化问题经过阶段二，“基础设施”和“业务系统”已经初步具备确定性。这时候需要开始关注“保障工具”、“生产制度”、“应急人员”这三个动态因素对整体结果带来的影响。这一阶段可以采用类似攻防对抗、突袭的方式来驱动...

推空保护

当服务下所有实例全部移除时，集群将针对该服务自动开启1分钟的推空保护，防止因网络抖动、服务提供者短时间内发生故障等问题导致的异常推空，以保证此场景下用户业务可用性。说明为保证业务的最高可用性，建议打开 ...

基于Kubernetes容器集群的容灾架构与方案

在进行系统架构设计时，您必须考虑到信息系统和基础设施可能遇到的各种潜在威胁，例如：硬件故障、软件系统崩溃、人为操作失误、安全攻击、自然灾害等。为了确保系统能够在各种异常故障场景下快速恢复并保持业务连续性，您必须为系统设计...

高压缩引擎（X-Engine）介绍

高压缩引擎（X-Engine）多节点架构可用于保障集群的高可用，当系统发生故障时，可读写的主节点和只读节点之间会自动进行故障切换（Failover），保证了服务可用性不低于99.99%。高压缩引擎（X-Engine）多节点架构图如下：产品优势超大存储...

使用快照（公测）

在执行可能影响云电脑稳定性的关键操作之前，例如修改注册表、修改关键系统文件等，建议您提前创建快照，一旦出现系统故障，就可以使用快照恢复数据。本文介绍如何使用快照。背景信息快照是某一时间点某一块云盘的数据状态文件，可用于...

使用ASM构建分布式系统的容错能力

分布式系统存在高度复杂性的特点，在基础设施、应用逻辑、运维流程等环节都可能存在稳定性风险而导致业务系统的失效。因此构建一个具有容错能力的分布式系统非常重要。本文介绍如何通过ASM设置超时、重试、隔板和熔断机制构建分布式系统的...

使用ASM构建分布式系统的容错能力

分布式系统存在高度复杂性的特点，在基础设施、应用逻辑、运维流程等环节都可能存在稳定性风险而导致业务系统的失效。因此构建一个具有容错能力的分布式系统非常重要。本文介绍如何通过ASM设置超时、重试、隔板和熔断机制构建分布式系统的...