故障管理概述 故障管理是源于ITIL的一个概念,在IT企业或者互联网企业进行故障管理的目的是当生产环境出现重大宕机时尽快恢复正常的服务运营,将组件失败对业务所造成的负面影响降到最低,从而确保满足事先与业务客户之间所约定的服务级别...
故障演练 为不断提升产品高可用能力,通过高可用管理平台的故障演练模块,设计并规划演练计划和恢复方案,继而在演练过程中不断发现、解决容灾预案存在的问题。以此,降低产品使用过程中故障发生概率,提高故障恢复效率,进而实现产品高...
服务网格 ASM支持故障注入,您可以使用虚拟服务在应用层进行测试。本文介绍如何配置故障注入。前提条件 已完成准备工作,并部署httpbin服务和sleep服务。具体操作,请参见 准备工作。操作步骤 验证服务配置是否生效。在ACK集群对应的...
服务网格 ASM支持故障注入,您可以使用虚拟服务在应用层进行测试。本文介绍如何配置故障注入。前提条件 已完成准备工作,并部署httpbin服务和sleep服务。具体操作,请参见 准备工作。操作步骤 验证服务配置是否生效。在ACK集群对应的...
说明 在故障切换或者切换恢复点完成,并且已经确认被容灾保护的服务器恢复出的应用已经接管了业务的情况下,完成故障切换操作是为了清理容灾复制在云上占用的资源,节约资源使用。如果检查后发现当前时间点应用状态不符合要求,例如数据库...
CPU 已经过度使用无法容忍节点故障,节点资源使用的总量超过节点的 CPU 总量,所以如果有节点故障将影响集群资源运行因为所需资源将无法被分配 KubeMemoryOvercommit 集群内存过度使用。内存已经过度使用无法容忍节点故障,节点资源使用的...
故障复盘规范 故障复盘作为故障体系中的重要一环,整体复盘流程包括故障处理过程、改进分析、故障定责,基于包含标准化的复盘SOP、对应预防action推荐、问责管理机制,全面地回溯线上故障的发生,产出故障复盘报告和改进措施,避免故障重复...
勾选表示复制过程中使用SSD,使用SSD可以显著提高服务器迁移或故障切换后云上ECS的IO性能,但是会增加使用成本,请按需选择。复制网络 从下拉列表中选择复制网络。HDR使用该网络复制容灾数据到云上。HDR默认读取从站VPC网络的可用虚拟交换...
如果使用的是ACK,请 提工单 联系ACK技术支持协助排查CoreDNS故障原因。方案二:使用ping命令 使用 ping${mse.nacos.host} 指令尝试解析。如果提示 unknown host,则无法解析域名。如果提示 PING${mse.nacos.host}(xxx.xx.xx.xx)56(84)...
“用户体验下降”说明故障的核心要关注用户感受,可通过客服渠道获知用户投诉,也可通过监控渠道推知用户端的使用情况;“服务中断、服务品质下降”说明即使用户没有投诉(甚至没有用户使用),但是如企业提供的服务出了问题,也是故障;...
勾选表示复制过程中使用SSD,使用SSD可以显著提高服务器迁移或故障切换后云上ECS的IO性能,但是会增加使用成本,请按需选择。复制网络 从下拉列表中选择复制网络。HDR使用该网络复制容灾数据到云上。HDR默认读取从站VPC网络的可用虚拟交换...
当生产站点因为不可抗力因素(比如机房火灾、断电)或者设备故障(软、硬件破坏)导致应用在短时间内无法恢复时,ECS容灾服务支持业务的跨可用区(Availability Zone)的容灾能力,对整体的应用做容灾备份来应对单地区的故障,满足业务的...
为您的主机等资源安装应用高可用探针后,即可使用AHAS架构感知和故障演练功能,能直观地看到应用对基础架构的依赖关系、组件间的依赖关系,以及对指定机器进行故障演练。接入 AHAS架构感知和故障演练可以接入云服务器ECS、自建Kubernetes、...
步骤二:应用故障注入 这里使用阿里云故障演练产品,对阿里云-北京地域的商品应用注入故障。登录 AHAS控制台。在左侧导航栏选择 故障演练>我的空间,并在顶部选择地域。在 我的空间 页面搜索配置好的演练(50%概率网络丢包),然后在该演练...
高速通道故障演练功能是一种模拟故障场景的工具。例如,模拟在高速通道冗余链路中的一条链路发生故障时,网络流量会自动切换至其他冗余链路的场景。借助该工具,您可以测试和验证您与阿里云组建的混合云组网的可靠性。重要 故障演练会通过...
API 描述 CreateProblem 故障升级 GetProblemImprovement 故障复盘改进详情 GetProblemPreview 获取故障通知预览 UpdateProblemImprovement 更新故障复盘改进详情 CancelProblem 取消故障 CreateProblemSubtotal 故障新增备注小计 ...
容灾恢复时,Cloud Backup使用该网络恢复容灾数据,例如容灾演练或故障切换时恢复出来的ECS使用该网络创建。Cloud Backup默认读取从站VPC网络的可用虚拟交换机。复制网络和恢复网络的交换机可以是同一个,同一个网络做恢复时速度更快。复制...
FailoverDiskReplicaGroup 故障恢复,在主端故障场景下使用,恢复灾备端从盘读写能力。FailoverDiskReplicaPair 启用云盘异步复制故障切换。ListTagResources 查询资源标签服务。ModifyDedicatedBlockStorageClusterAttribute 修改专属集群...
如果是可用区故障,多可用区的实例可以快速自动恢复,单可用区的实例需要等待故障修复或切换使用灾备实例。如果是地域级别的灾难,可以切换使用灾备实例,或者通过跨地域备份将数据恢复到新的实例上使用。如何恢复数据请参见如下文档:恢复...
本文列出了故障演练支持的代码逻辑场景。篡改Java方法返回值 修改Java指定方法的返回值,返回指定的值。具体示例,请参见 JVM注入动态脚本。参数名称 是否必选 默认值 参数说明 类名 是 无 完整的类名,包含包名。例如:...
使用场景 在日常业务运行的过程中,监控大盘帮助您及时了解账号下全部云电脑资源的全局情况,实时监控提供更详细的数据指标和故障预警信息,帮助您了解终端用户使用云电脑的情况,及时解决故障。同时,报警功能可以帮助您了解核心资源的...
如果业务需要高可用与数据不丢失,则您需要通过合理的集群配置、使用Kafka方式提高系统容错能力来避免出现一块盘故障就导致数据会丢失的情况出现。如果发现因为故障盘IO性能下降导致集群整体性能下降,影响业务,则应快速隔离故障盘来进行...
立即启动恢复,会导致数据有部分丢失,主要用在容灾站点确实发生短期无法恢复的故障,需立即将业务恢复到生产站点的场景。数据同步后切换 正向保护-故障切换 请参考以下步骤进行正向保护故障切换操作。登录 云备份Cloud Backup控制台。在...
立即启动恢复,会导致数据有部分丢失,主要用在容灾站点确实发生短期无法恢复的故障,需立即将业务恢复到生产站点的场景。数据同步后切换 正向保护-故障切换 请参考以下步骤进行正向保护故障切换操作。登录 混合云容灾管理控制台。在左侧...
网站无法访问时,可参考以下故障诊断命令,定位故障点。使用 ping 命令检测IP或域名的连通性。如果出现ping丢包或ping不通的情况,请根据系统类型参见以下方案进行排查:Linux:Linux实例网站访问丢包延时高的排查方法 Windows:Windows...
④ 故障切换:指当健康检查结果发现用户访问的默认地址池出现整体不可用时,系统会自动把用户访问流量切换到备用地址上,可确保应用服务地址故障时,能够用备用地址池来响应用户的DNS查询请求,从而实现降低业务中断的风险,保障业务的稳定...
DisableServiceGroupWebhook 禁用用服务组的Webhook。DisableSubscription 禁用通知订阅。EnableEscalationPlan 启用升级计划。EnableIntegrationConfig 启用集成配置。EnableRouteRule 启用规则。EnableServiceGroupWebhook 启用服务组的...
本文档描述产品的主要使用场景。一站式运维事件管理 应用场景 满足各类监控场景下报警统一事件化管理需求,支持集成对接各监控系统,支持服务器自定义推送异常事件,对报警、事件、故障进行全流程一站式管理,提升企业运维效率。能够解决 ...
如果您的AD服务器是集中部署在一个数据中心,可能发生同一时间离线的情况,建议您:用混合云灾备一体机保护AD服务器,在云下发生故障时首先恢复这台AD服务器。在云上VPC里部署一个从AD服务器,与云下的主AD服务器保持连接。云下发生故障时...
基于地理位置的访问策略为何不生效?...答:可以添加,但是无法达到健康检查和故障转移的最佳效果,一般CDN的节点非常多,而GTM的健康检查监测节点有限,所以无法获取准确的健康检查状态并进行切换,请尽量避免此使用方法。
故障详情。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。请求头 该接口使用公共请求头,无特殊请求头。请参见公共请求参数文档。请求语法 POST/problem/...
PROBLEM_UPDATE 通告类型 PROBLEM_NOTIFY:故障通告 PROBLEM_UPDATE:故障更新 PROBLEM_UPGRADE:故障升级 PROBLEM_DEGRADE:故障降级 PROBLEM_RECOVER:故障恢复 PROBLEM_REISSUE:故障补发 PROBLEM_CANCEL:故障取消 返回数据 名称 类型 ...
故障取消 调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。请求头 该接口使用公共请求头,无特殊请求头。请参见公共请求参数文档。请求语法 POST/problem/...
NOTIFY:故障通告 PROBLEM_UPDATE:故障更新 PROBLEM_UPGRADE:故障升级 PROBLEM_DEGRADE:故障降级 PROBLEM_RECOVER:故障恢复 PROBLEM_REISSUE:故障补发 PROBLEM_CANCEL:故障取消 clientToken String Body 否 FD200FAE-E98F-496E-BFE6-...
故障演练是整体容灾流程中极其重要的一环。本文介绍ECS容灾中故障演练的操作流程。故障演练的意义 故障演练将被容灾保护的服务器在云上拉起并验证应用正确性,是容灾流程整体中及其重要的一环,它的核心意义在于:方便地验证被容灾保护的...
故障演练是整体容灾流程中极其重要的一环。本文介绍ECS容灾中故障演练的操作流程。故障演练的意义 故障演练将被容灾保护的服务器在云上拉起并验证应用正确性,是容灾流程整体中及其重要的一环,它的核心意义在于:方便地验证被容灾保护的...
您可以参考以下方法定位电源故障并进行处理流程。诊断流程 电源故障详细处理流程,如下图所示。处理步骤 测量输入电压。使用万用表测量输入电压,根据电源适配器的工作电压范围判断输入电压是否异常。插拔电源适配器。把电源适配器以及电源...
故障升级 PROBLEM_DEGRADE:故障降级 PROBLEM_RECOVER:故障恢复 PROBLEM_REISSUE:故障补发 PROBLEM_CANCEL:故障取消 problemId Long Body 否 1312 故障Id clientToken String Body 否 4361a0e1-6747-4834-96ce-0c4840fd3812 幂等校验Id ...
本文介绍您在使用 ACK Serverless集群 时可能遇到的故障以及解决方案。如果您在使用 ACK Serverless集群 时出现故障,可根据以下故障分类匹配故障场景和解决方案,帮助您快速排查问题,提升运维效率。分类 相关文档 集群资源和集群组件异常...
基础资源类场景 场景名称 特性 CPU类场景 CPU场景包含指定CPU使用率负载和指定核使用率满载,旨在让CPU在特定负载下,验证服务质量、监控告警、流量调度、弹性伸缩等能力。网络类场景 网络故障场景包含网络延迟、网络丢包和篡改域名解析。...