自动机理论故障排除-自动机理论故障排除文档介绍内容-移动阿里云

V3.2.36版本升级通知

尊敬的阿里云用户：为了给您提供更稳定可靠的服务，我们计划从2023年09月04日开始对V3.2.33、V3.2.34版本的用户推送堡垒机V3.2.36版本升级。V3.2.36版本优化过载保护进程，提升产品组件稳定性，为您提供更好的运维体验。请您提前安排好运维...

如何配置流转规则

升级规则：可配置故障自动升级规则。当故障持续时长达到一定长度，立即触发自动升级策略。如 P3 故障持续 60分钟未解决后，自动升级至 P2。故障升级仅支持逐级上升，不可跨级上升。业务监控来源：触发事件&报警&故障重要以下规则仅适用...

V3.2.37.2版本升级通知

尊敬的阿里云用户，您好：为了给您提供更优质的服务，我们计划从2023年11月28日开始针对V3.2.X版本推送堡垒机V3.2.37.2版本升级。V3.2.37.2版本新增特性包括支持PolarDB数据库运维、支持自定义运维令牌有效期及续期次数、支持导出用户列表...

用户管理

在云盾堡垒机Web管理页面，您可以执行以下与用户相关的操作：新建本地用户、新建或导入云子账号、导入AD或LDAP用户、修改用户、配置公钥、搜索用户、删除用户。新建本地用户参照以下步骤新建本地用户：登录云盾堡垒机Web管理页面。在左侧...

查询专有宿主机自动续费状态

调用DescribeDedicatedHostAutoRenew查询一台或多台包年包月专有宿主机自动续费状态。调试您可以在OpenAPI Explorer中直接运行该接口，免去您计算签名的困扰。运行成功后，OpenAPI Explorer可以自动生成SDK代码示例。调试授权信息下表是...

堡垒机运维常见报错提示

如果仍然无法登录，请参考以下方法进行排查：情况一：检查Windows系统远程设置是否勾选“只允许通过网络级别身份验证”，若此项被勾选上，且满足以下三项之一，则通过堡垒机自动登录Windows会报错。堡垒机中未托管Windows的账号密码。未将...

FAQs

GTM是集成了DNS的智能解析功能、云监控的应用服务监控功能，为客户输出不同网络或地区用户访问实现就近接入、应用服务运行状态的健康检查、故障自动切换等能力。GTM 是现有云解析DNS中全局负载均衡（GSLB）的升级和替代产品，GTM比GSLB支持...

常见问题-FAQ

GTM是集成了DNS的智能解析功能、云监控的应用服务监控功能，为客户输出不同网络或地区用户访问实现就近接入、应用服务运行状态的健康检查、故障自动切换等能力。全局流量管理（GTM）的CNAME接入域名是否能直接通过URL访问？答：不可以使用 ...

设计方案

容错容错是指在分布式系统中，系统出现故障时，通过设计和实现可靠的机制和策略，使系统能够自动检测、排除或者纠正错误，保证系统能够正常运行，从而提高系统的可靠性和稳定性。容量容量是在一定时间内，系统能够处理的最大工作量或数据...

创建VMware无代理迁移任务

常见错误及修复方案的更多信息，请参见 SMC FAQ 和 故障排除。可选：迁移下一个VMware虚拟机。如果在配置待迁移的虚拟机时，您添加了多个虚拟机ID，完成一个VMware虚拟机迁移操作后，可以关掉SMC客户端进程，然后迁移下一个VMware虚拟机...

故障管理

故障管理概述故障管理是源于ITIL的一个概念，在IT企业或者互联网企业进行故障管理的目的是当生产环境出现重大宕机时尽快恢复正常的服务运营，将组件失败对业务所造成的负面影响降到最低，从而确保满足事先与业务客户之间所约定的服务级别...

围绕混沌工程的平台实践

因此混沌工程是一门学科，它提供了基本的理论指导，而故障演练是混沌工程的具体实践，通过向目标系统注入真实可能发生的故障来考量系统的稳定性。混沌工程和AHAS Chaos AHAS Chaos是以混沌工程为理论指导的故障演练平台，目标是成为混沌...

DeviceLinkDown

DeviceLinkDown事件提示您线下机构侧动态路由邻居发生故障或者静态接入链路发生故障。告警信息事件名称事件级别状态码状态描述 DeviceLinkDown CRITICAL linkdown Device Link State Change 可能原因用户侧交换机设备故障。用户侧交换...

产品功能

分布式架构，单节点故障业务不受影响云数据库Memcache版采用分布式集群架构，每个节点均由双机热备架构组成，具备自动容灾及故障迁移能力。多种规格可适配不同的业务压力，数据库性能支持无限扩展。支持数据持久化及备份恢复策略，有效的...

监控服务概览

OpenAPI访问监控数据 OSS服务的相关监控指标数据可以通过云监控提供的OpenAPI访问，使用方法请参见：云监控SDK参考访问监控数据监控、诊断和故障排除 监控诊断和故障排除 通过详细介绍以下各个方面的内容帮助您更好地了解OSS服务的运行...

高性能版实例

高可用 AnalyticDB PostgreSQL版高性能版由于减少了一个副本，在高可用方面出现了一些下降，在物理机故障等极端情况下，集群恢复的时间会变长（8小时以内）。高性能版通过ESSD多副本技术，保留了完整的数据可靠性，并且阿里云团队通过更改...

演练场景说明

Java 场景名称特性虚拟机场景故障演练支持的虚拟机场景。代码逻辑场景故障演练支持的代码逻辑场景。JVM注入动态脚本向指定的Java方法注入一段动态代码，您可通过代码方式实施任意故障场景，例如篡改方法入参、篡改方法返回值等。K8s类...

基于ack-lingjun-aiast组件实现集群自动化运维

组件介绍安装灵骏AI助手开启PAI的作业监控和恢复功能后，当发生故障或异常时，灵骏AI助手的告警系统可以自动和PAI进行交互，并上报故障信息，并根据故障触发阶段和并行策略选择规避故障的方法，自动隔离故障节点，并通过checkpoint快速...

故障协同处理（基于钉钉）

2.故障应急场景群：事件升级故障后，群内推出故障处理中消息卡片，如果满足自动生成故障场景群的需求（下文详细介绍创建故障场景群逻辑），故障场景群内同时推出故障处理中消息卡片。本群故障消息卡片包含按钮：签到、签到记录、应急...

回切至本地VMware

本文主要介绍如何利用阿里云连续复制型容灾（CDR）服务，在本地虚拟机出现问题后把云上恢复出来的ECS回切到云下VMware环境中。前提条件已部署CDR网关。更多信息，请参见步骤三：部署CDR网关。已在被保护的Windows服务器上安装阿里云复制...

演练概述

基于阿里巴巴多年业务的真实线上故障库的积累，AHAS故障演练模块为您预定义了丰富的测试任务...当故障演练自动结束、您主动终止或者演练中的任何环节出现异常后，系统都会进入恢复阶段，自动清除相应的故障，使故障演练对象恢复演练前的状态。

停止演练

除了设置故障演练自动结束时间外，还可以手动停止演练。停止演练后，系统会进入恢复阶段，自动清除相应的故障，使故障演练对象恢复演练前的状态。背景信息一次完整的故障演练包括以下四个阶段：安装故障演练探针创建演练执行演练停止...

自动/手动主备切换

当系统发生故障时，PolarDB 集群会自动进行主备切换。您也可以手动进行主备切换，指定一个只读节点为新的主节点。注意事项不论是自动切换还是手动切换，切换过程中，都可能会出现30秒左右的闪断，因此切换前请务必确保应用具备重连机制。...

自动/手动主备切换

当系统发生故障时，PolarDB 集群会自动进行主备切换。您也可以手动进行主备切换，指定一个只读节点为新的主节点。注意事项不论是自动切换还是手动切换，切换过程中，都可能会出现30秒左右的闪断，因此切换前请务必确保应用具备重连机制。...

基础设施安全

可用区间故障隔离可用区是指在同一地域内，电力和网络互相独立的物理区域。在同一地域内，可用区与可用区之间内网互通。各可用区之间可以实现故障隔离，即如果一个可用区出现故障，不会影响其他可用区的正常运行。每个地域完全独立，不同...

故障应急协同

故障通告及更新基于7x24监控值班工作特性，对于业务异常达到故障等级时，以用户定制的（语音、短信、IM）的方式在约定时间内将故障影响信息以及处理进展通知给对应的接收人/组，并持续更新直至故障结束。故障应急协同群故障发生后，可以...

实例的节点故障处理机制

本文档介绍云数据库MongoDB版实例的节点故障处理机制。...当使用Connection String URI进行连接时，如果某个Mongos节点出现故障，客户端能自动进行故障切换，将请求分散到状态正常的Mongos节点上，详情请参见分片集群实例连接说明。

灾备方案

图 1.Tair 容灾架构演进灾备方案灾备级别说明单可用区高可用方案★主备节点部署在同一可用区中的不同机器上，当任一节点发生故障时，由高可用HA（High Availability）系统自动执行故障切换，避免单点故障引起的服务中断。同城容灾方案...

灾备方案介绍

图 1.Redis容灾架构演进灾备方案灾备级别说明单可用区高可用方案★主备节点部署在同一可用区中的不同机器上，当任一节点发生故障时，由高可用HA（High Availability）系统自动执行故障切换，避免单点故障引起的服务中断。同城容灾方案...

API概览

专有宿主机是单租户独享的物理机资源，您可以在专有宿主机上自行创建ECS实例和获取物理服务器属性等信息。DescribeDedicatedHosts 查询专有宿主机详细信息调用DescribeDedicatedHosts查询一台或多台专有宿主机的详细信息，包括物理性能...

DATASOURCE:ECS:DedicatedHosts

即故障潜伏期，其物理机处于可用状态，但可能导致专有宿主机中的ECS实例出现问题。PermanentFailure：故障。永久性故障，专有宿主机不可用。ZoneId String 否是可用区ID。无 ResourceGroupId String 否是资源组ID。无 ...

功能概览

当主系统发生故障时，业务系统切换到容灾系统，有效避免了地域性灾害导致的系统故障，保障业务的可用性，满足业务的RTO、RPO核心指标。云盘异步复制是一种基于块存储数据复制能力实现跨地域或者跨可用区数据保护的功能。更多信息，请参见 ...

功能概览

当主系统发生故障时，业务系统切换到容灾系统，有效避免了地域性灾害导致的系统故障，保障业务的可用性，满足业务的RTO/RPO核心指标。云盘异步复制是一种基于块存储数据复制能力实现跨地域或者跨可用区数据保护的功能。更多信息，请参见云...

使用限制

没有例外自动宕机迁移本地SSD型DDH不支持自动宕机迁移。没有例外 ECS实例使用的镜像限制在中国内地以外的地域，ddh.c6s、ddh.g6s或ddh.r6s规格的DDH不支持使用Windows镜像创建ECS实例。没有例外 ECS实例数量限制以下DDH规格单台DDH上最...

故障止损恢复

故障初因定位集成企业内部可利用的所有稳定性相关数据（变更事件，数据库、MQ等中间件异常事件），以及集成各业务自建的定位工具能力，并在故障及风险预警的应急过程中进行可疑原因定位，帮助促进故障及风险预警初因定位的时长缩短。...

如何管理故障

更新故障通知：在故障处理的过程中，当故障进展发生变化，包括进度更新、影响恶化、故障等级变化、原因明确、根因定位等场景下，可更新故障过程中的内容，并在故障详情页点击更新故障通知，选择需要的故障通告类型，并最终确认发出故障...

应用场景

当其中一部分ECS实例发生故障后，CLB 会自动屏蔽故障的ECS实例，将请求分发给正常运行的ECS实例，保证应用系统仍能正常工作。同城容灾（多可用区容灾）为了提供更加稳定可靠的 CLB 服务，CLB 已在各地域部署了多可用区以实现同地域容灾。当...

自动/手动主备切换

当系统发生故障时，PolarDB 集群会自动进行主备切换。您也可以手动进行主备切换，指定一个只读节点为新的主节点。注意事项不论是自动切换还是手动切换，当只读节点未开启热备时，主备切换过程中可能会出现20~30秒左右的闪断，因此切换前请...

ack-node-repairer

当Node Problem Detector（简称NPD）组件检测到节点上的故障并生成节点的事件（Event）或者Condition上报给集群时，ACK的自愈系统（ACK Node Repairer）会监听每个节点上的新故障事件，并根据配置对故障节点进行相应的修复操作。...

支持计划

配置指导以及故障排除 配置指导以及故障排除 配置指导以及故障排除 专属技术服务经理不支持不支持专属技术服务经理（TAM）健康检查可免费使用智能顾问Advisor 可免费使用智能顾问Advisor 可免费使用智能顾问Advisor。专属技术服务经理...