故障纠正可以干啥-故障纠正可以干啥文档介绍内容-移动阿里云

设计方案

容错容错是指在分布式系统中，系统出现故障时，通过设计和实现可靠的机制和策略，使系统能够自动检测、排除或者纠正错误，保证系统能够正常运行，从而提高系统的可靠性和稳定性。容量容量是在一定时间内，系统能够处理的最大工作量或数据...

实时分析链路数据

如果您的应用遇到流量不均、单机故障、慢接口治理、业务流量统计、灰度发布监控等问题，可以通过应用监控的调用链分析快速定位问题代码。本文介绍如何通过调用链分析快速定位五种经典线上问题，更直观地了解调用链分析的用法与价值。背景...

自助诊断GPU节点问题

ACK集群提供节点级别的GPU诊断功能，供您进行部分GPU相关问题的故障排查。如果您在ACK Pro版集群中使用GPU节点时遇到问题，可以启用GPU节点自助诊断，采集GPU诊断的基础指标进行问题排查。本文介绍如何使用节点诊断功能，自助排查GPU节点...

使用说明

本文介绍将业务程序与远程登录程序进行进程隔离，以保证设备在故障时可以进行远程运维。背景信息设备基于物联网平台的消息通信能力开展业务，由于不同设备业务的复杂性，以及业务需要定期变更升级，导致设备的业务程序容易出现故障，导致...

混合云解决方案

如果MASTER 宕机，发生了故障转移，此时SLAVE如果要提供服务，日志读取器会等待镜像日志先同步，再做发布，但如果MASTER发生硬件故障，此时SLAVE需要打开一个跟踪标记1448，在镜像故障的情况下可以继续分发数据。说明 1448标记用于在事务...

申请退换货

申请退货收到AP后的7天内，有性能故障，可以申请退货。申请更换硬件填写换货原因，提交换货申请。换货申请通过后，请确认AP的SN码（机身便签上）、是否拆包、退回时间、退回单号和快递方、退货地址。仓库确认收到退货，同意换货，填写...

安装探针概述

为您的主机等资源安装应用高可用探针后，即可使用AHAS架构感知和故障演练功能，能直观地看到应用对基础架构的依赖关系、组件间的依赖关系，以及对指定机器进行故障演练。接入 AHAS架构感知和故障演练可以接入云服务器ECS、自建Kubernetes、...

诊断决策树

您可以通过诊断决策树，编排故障排查的过程。对于已知的明确故障，可以根据诊断现象，编排诊断决策树，进而故障发生时执行，完成故障定位。对于未知的故障，您可以依据运维经验，编排出常见的排查路径，辅助快速故障定位。新建诊断决策树 ...

应用场景

机房级容灾同城双活同一个城市，建设两个机房环境，两地距离 50 km 以内，万兆光纤专线互连，业务应用层面可以两个机房同时提供业务服务，当一个机房故障，不影响另外一个机房业务使用。异地主备满足容灾需求，两地不同城市分别建设两个...

如何管理事件

故障状态：处理中（升级时故障还在处理中），输入发现故障的时间、已恢复（升级时故障已恢复），输入故障生成的时间和故障恢复的时间；所属服务：升级故障所属的服务；影响服务：选择影响服务（可多选）；进展摘要：处理人将事件升级为...

云端发布

SOFABoot 应用不仅能在本地运行，也能部署至 SOFAStack 平台，为更多的用户提供应用服务。本文将介绍将应用工程发布至...日志查看应用在云端发布过程中，如果遇到故障，可以查看日志进行故障排查。日志的存放目录等详情，请参见工程日志。

查看实例的系统日志和屏幕截图

您可以利用这些功能分析排查实例故障，例如诊断操作系统无响应、异常重启或者无法连接实例等。前提条件实例必须处于运行中（Running）状态才能获取系统日志和屏幕截图。背景信息云服务器ECS的系统日志是运维诊断的重要一环。如果您需要...

应用场景

此种部署既可以避免因为单个可用区的故障而导致对外服务的不可用，也可以通过不同产品间可用区的选择来降低延迟。如果您采取如下图所示的部署方案，即在 CLB 实例的主可用区下绑定多台ECS实例，而在备可用区没有任何ECS实例。正常情况下，...

如何管理故障

更新故障通知：在故障处理的过程中，当故障进展发生变化，包括进度更新、影响恶化、故障等级变化、原因明确、根因定位等场景下，可更新故障过程中的内容，并在故障详情页点击更新故障通知，选择需要的故障通告类型，并最终确认发出故障...

查看ECS实例的操作记录

如果您在使用ECS实例的过程中遇到故障，可以通过查看ECS实例的操作记录识别可能的故障原因。背景信息操作记录以ECS实例为入口，对实例及其关联资源的所有操作进行操作审计，并且对操作记录的影响等级进行标注，在众多操作记录中高亮出...

设置Pod故障处理策略

如果您希望尽快得到创建结果以便及时处理故障，可以修改Pod故障处理策略。配置说明在虚拟节点上创建ECI Pod时，可能会因为库存不足等原因导致Pod创建失败，默认情况下，系统会自动进行重调度，尝试重新创建Pod。您可以通过添加 k8s.aliyun...

故障演练

故障演练就是这个背景下诞生的，沉淀通用的故障场景，以可控成本在线上故障重放，以持续性的演练和回归方式的运营来暴露问题，不断验证和推动系统、工具、流程、人员能力的提升，从而提前发现并修复可避免的重大问题，或通过验证故障发现...

诊断网页加载过慢的问题

步骤二：定位故障您可以通过两种不同入口的方式来定位故障，两种方式均能达到使用慢会话追踪功能诊断网页性能问题的目的。方式一：从访问速度开始排查登录 ARMS控制台，在左侧导航栏选择前端监控>前端列表。在前端列表页面顶部选择...

高可靠模式

概述高速通道的高可靠模式具备当您其中一条线路故障时可以通过冗余线路进行流量切换的能力。当您的业务对容灾能力有一定要求时，建议您在购买物理端口时选择高速通道的高可靠模式。高可靠模式为您提供了多种多线连接的组合类型，您可以...

通过一致性复制组实现容灾恢复

当您创建并启动一致性复制组后，如果生产站点中的云盘发生严重故障，您可以通过一致性复制组批量对生产站点的云盘数据进行容灾恢复。本文主要介绍如何通过一致性复制组进行容灾恢复。背景信息一致性复制组支持故障切换和反向复制功能，当...

通过异步复制功能实现容灾恢复

当您创建并启动云盘异步复制关系后，如果主盘发生故障，您可以通过异步复制功能对主盘进行容灾恢复。本文主要介绍如何进行容灾恢复操作。前提条件反向复制前，请确保源云盘（主盘）已经从对应的ECS实例上卸载，即主盘处于未挂载状态。具体...

故障注入

您可以通过故障注入功能向测试应用注入故障，检测应用面对异常时的处理情况。您可以根据检测的情况调整您的应用，以减少应用在正式使用时出现的异常问题。多用于测试环境。配置故障注入规则登录 SOFAStack 控制台。在左侧菜单栏选择 ...

故障注入

您可以通过故障注入功能向测试应用注入故障，检测应用面对异常时的处理情况。您可以根据检测的情况调整您的应用，以减少应用在正式使用时出现的异常问题。多用于测试环境。功能简介故障注入流程如下所示：在微服务中，其实现方式为：管控...

响应云盒维修事件

流程说明运行中的ECS实例出现故障风险时，会向您发送ECS故障事件（Reboot事件）通知，收到ECS故障事件通知后，您可以响应故障事件并按照建议进行处理，例如：将现有业务迁移到冗余资源保证业务正常运行，将出现故障风险的ECS实例作为备机...

故障管理

故障管理概述故障管理是源于ITIL的一个概念，在IT企业或者互联网企业进行故障管理的目的是当生产环境出现重大宕机时尽快恢复正常的服务运营，将组件失败对业务所造成的负面影响降到最低，从而确保满足事先与业务客户之间所约定的服务级别...

如何配置通知订阅

全部时段：所有优先级/影响程度下的报警、事件、故障都可以统一设置群通知（保障所有的事件都能够被通知）；工作日时段：大家都在电脑面前工作，可将P1高优先等级的报警或事件补充电话通知（处理人将会收到群通知+电话通知，保障高优重要的...

服务管控和治理

将 SOFA、Dubbo、SpringCloud 类型的微服务发布成功后，您可以在服务网格控制台上进行服务管控和服务治理的操作。操作视频您可以根据以下视频快速了解如何进行服务管控和治理：服务管控服务管控提供服务查询、服务消费者和提供者信息查询...

故障演练

故障演练的意义故障演练将被容灾保护的服务器在云上拉起并验证应用正确性，是容灾流程整体中及其重要的一环，它的核心意义在于：方便地验证被容灾保护的应用可以在容灾站点正常拉起。确保操作人员熟悉容灾恢复流程，确保在生成站点真正...

故障演练

故障演练的意义故障演练将被容灾保护的服务器在云上拉起并验证应用正确性，是容灾流程整体中及其重要的一环，它的核心意义在于：方便地验证被容灾保护的应用可以在容灾站点正常拉起。确保操作人员熟悉容灾恢复流程，确保在生成站点真正...

灾备规划

云上容灾为减少因应用故障导致的业务损失，当数据中心出现严重故障无法快速恢复时，混合云容灾服务可以高效地在ECS上快速恢复您的应用。RTO和RPO要求应用容灾有两个核心的指标：RPO：指应用发生故障时可以容忍的数据丢失量。数据越重要，...

EMR Kafka磁盘故障运维

磁盘故障及其运维通常伴随着磁盘上的数据销毁。在进行磁盘运维时，您应考虑数据是否需要迁移备份。对于Kafka集群，您还需要考虑Topic分区副本数据是否可以从其他Broker节点分区副本同步恢复。本文以EMR Kafka 2.4.1版本为例，介绍Kafka磁盘...

通过云原生网关管理多个ACK集群

例如，集群A部署在可用区A，集群B部署在可用区B，A与B两个集群部署的服务一致，当其中一个集群故障时可以快速切换流量。云原生网关为了支持业务的高可用部署诉求，提供了多ACK集群接入功能。即用一个云原生网关实例同时关联A、B两个集群，...

产品优势

分钟级容灾切换多活容灾MSHA基于对容灾架构的设计和全栈管控，提炼各类机房级故障场景下的一键切换，可以做到分钟级的RTO和RPO，非极端故障场景下可以做到秒级RTO。借助多活容灾MSHA提供的多活架构、常态化巡检监控以及日常容灾演练，不仅...

如何排查Java场景下故障注入不生效的问题

为解决此类问题，在创建或编辑演练时，您可以在故障执行阶段选择开启Debug模式，并通过相关的日志信息来了解故障注入失败的原因。开启Debug模式在查看目标演练的故障注入日志前，您需要先确认该演练的故障执行步骤是否已开启Debug模式。若...

执行演练

在执行故障演练过程中，您可以实时查看演练进度、每个演练活动的运行状态及结果，同时也能够随时结束演练，进行恢复阶段的活动，清除故障演练影响。背景信息一次完整的故障演练包括以下四个阶段：安装故障演练探针创建演练执行演练停止...

应用容灾

当某机房出现故障，可以做到机房级的快速切换。更精细化的场景，如果是某中心内某应用的故障，还需要做到应用级的切换。为了实现机房间的流量调度，同城应用多活架构下，建立多个服务部署的逻辑区，这个逻辑区称之为“单元格（Cell）”。每...

常见问题-FAQ

重要标准版最快可在4分钟左右准确发现故障并切换故障发现时间：GTM可保障故障发现时间，目前默认的健康检查配置可以在故障的4分钟左右准确发现故障并切换；全网生效时间：GTM无法保障全网的最终生效时间，因受限于全国各地运营商的TTL...

FAQs

重要故障发现时间：GTM可保障故障发现时间，目前默认的健康检查配置可以在故障的4分钟左右准确发现故障并切换；DNS切换同步时间：GTM无法保障全网的最终生效时间，因受限于全国各地运营商的TTL缓存设置以及网络环境不同，所以全网生效时间...

地域及可用区

可用区之间故障隔离，可以避免故障扩散，保证业务的连续性。说明大型灾害或者大型电力故障除外。注意事项创建阿里云实时计算Flink版时，选择的地域和可用区，在资源创建成功后，无法更改。不同地域资源的开放情况会根据实际业务使用情况...

步骤七：故障切换

保护组进入增量复制状态后，您就可以进行故障切换操作。本文介绍故障切换和恢复的基本操作。故障切换类型数据同步后切换该故障切换会先停止保护组中被保护的实例，并且等到所有被保护的实例停止后再进行最后一轮数据同步，等待数据同步...