服务器发生故障-服务器发生故障文档介绍内容-移动阿里云

跨可用区容灾

确保操作人员熟悉容灾恢复流程，确保在主站真正发生故障时，操作人员可以顺畅地进行容灾切换。按如下步骤进行容灾演练：在受保护服务器 页签，单击要启动容灾演练服务器右侧对应的操作列表下的容灾演练。在容灾演练面板，选择恢复...

故障演练

故障演练支持的场景演练场景说明宕机演练 服务器宕机是一种常见的故障现象，其根源来自于软件和硬件上发生的异常，且几乎无法避免。通过模拟内核故障造成的ECS宕机，可以测试业务系统在宕机时的反应、检测系统恢复能力、验证监控和告警...

跨地域容灾

容灾系统部署在阿里云的两个地域中，当生产站点发生故障（例如海啸、地震）时，业务系统切换到容灾站点。生产站点和容灾站点部署在不同的地域，提供容灾即服务，RPO低至1分钟、RTO低至15分钟的高可靠的业务持续性保障，有效避免了地域性...

跨可用区容灾

确保操作人员熟悉容灾恢复流程，确保在主站真正发生故障时，操作人员可以顺畅地进行容灾切换。容灾演练操作步骤如下：登录混合云容灾管理控制台。单击切换到连续复制型容灾。在概览页面，单击目标容灾站点对。在容灾中心页面，单击受...

快速入门-ECS容灾

而当您的主站发生重大故障，需要在云上马上重启核心业务时，则需要进行故障切换操作。方向复制被保护服务器的应用完成从某个地域（如地域A）容灾复制到另一个地域（如地域B）后，还可以实施反向复制，即从地域B反向复制到地域A。

宕机演练

服务器宕机是一种常见的故障现象，其根源来自于软件和硬件上发生的异常，且几乎无法避免。通过模拟内核故障造成的ECS宕机，可以测试业务系统在宕机时的反应、检测系统恢复能力、验证监控和告警机制的有效性等，并基于演练结果制定应对策略...

高可用和容灾设计

可通过集群可读地址访问备节点，在发生故障切换时，RDS的高可用系统会自动执行以下三个步骤：将一个备节点提升为主节点，该备节点从集群可读地址中移除，同时清除该备节点上的可读连接，此时集群可读地址会发生闪断。故障主节点从集群读写...

采集客户端数据的高可用方案

当Logstore A发生故障时，Logstore B的数据仍然实时可用。当Logstore B发生故障时，Logstore A的数据仍然实时可用。操作步骤：在日志服务控制台上，创建Project和Logstore。创建A地域的Project A和Logstore A。创建B地域的Project B和...

如何解决MSE Nacos实例域名无法解析的问题？

应用节点所配置的DNS服务器或NameServer故障，特别是Kubernetes集群所依赖的CoreDNS故障，导致无法解析MSE域名。解决方案方案一：使用dig命令执行如下命令安装dig工具。yum install-y bind-utils 如下代码所示，使用 dig 命令，尝试解析...

新功能发布记录

2023-06-30 响应云盒维修事件新增地域新增以下两个地域：华东2（上海）华北1（青岛）2023-06-21 关联地域 2023年5月功能名称功能概述发布时间相关文档 故障服务器维修方案云盒内的服务器出现故障时，阿里云将按照流程拆除和更换故障...

混合云解决方案

Distributor 重要需要一个单独的服务器作为分发服务器，不要将分发服务器放在发布服务器上，否则一旦主备发生切换，分发服务器将不能正常工作。安装SQL Server，安装时必须要选择replication功能。配置分发服务器。USE master EXEC sp_...

响应云盒维修事件

当云盒中的硬件设备发生故障需要更换时，阿里云会向您发送云盒维修事件通知，您需要授权同意阿里云上门更换并维修硬件设备。本文为您介绍云盒维修相关的流程，以及如何响应云盒维修事件。背景信息配置云盒计算资源时，您需要配置一定的...

功能概览

当主系统发生故障时，业务系统切换到容灾系统，有效避免了地域性灾害导致的系统故障，保障业务的可用性，满足业务的RTO、RPO核心指标。云盘异步复制是一种基于块存储数据复制能力实现跨地域或者跨可用区数据保护的功能。更多信息，请参见 ...

故障演练

对于很多大型企业（如阿里巴巴）来说，经过多年的技术演进，系统工具和架构已经高度垂直化，服务器规模也达到了比较大的体量。当服务规模大于一定量（如10000台）时，小概率的硬件故障每天都会发生。这时如果需要人的干预，系统就无法可靠...

功能概览

当主系统发生故障时，业务系统切换到容灾系统，有效避免了地域性灾害导致的系统故障，保障业务的可用性，满足业务的RTO/RPO核心指标。云盘异步复制是一种基于块存储数据复制能力实现跨地域或者跨可用区数据保护的功能。更多信息，请参见云...

应用场景

平时，您还可以方便地进行容灾演练，确保真实故障发生时恢复流程顺畅，保证容灾计划的准确性。混合云容灾服务让您无需承担自建灾备中心的巨大投入，也无需担心传统容灾方案复杂的软硬件部署运维，极大减少了异地容灾的成本，提高容灾的有效...

设计方案

基于稳定性支柱设计原则，整体稳定性设计方案可参考如下：架构设计原则软件系统从所有的功能都在一个应用程序内运行的单体应用架构，到不同的功能模块分别部署在不同的服务器上的传统分布式应用架构，再到服务细分通过轻量级的通信机制...

GTM如何实现异地容灾

两地三中心容灾架构，是指在同城双中心的基础上，在异地的城市建立一个备份的灾备中心，用于双中心的数据备份，当双中心出现自然灾害等原因而发生故障时，异地灾备中心可以用备份数据进行业务的恢复。目标读者企业网络部、业务运维部工作...

故障演练

确保操作人员熟悉容灾恢复流程，确保在生成站点真正发生故障时，操作人员可以顺畅地进行容灾切换。前提条件保护组处于增量复制中或者已有恢复点之后，您就可以进行故障演练。如何创建跨可用区和跨地域容灾的保护组，请参见跨可用区容灾...

故障演练

确保操作人员熟悉容灾恢复流程，确保在生成站点真正发生故障时，操作人员可以顺畅地进行容灾切换。前提条件保护组处于增量复制中或者已有恢复点之后，您就可以进行故障演练。如何创建跨可用区和跨地域容灾的保护组，请参见跨可用区容灾...

跨可用区迁移操作

更改ECS实例的可用区在同一地域的不同可用区部署应用实例，可以确保即使某个可用区发生故障，服务仍然能够快速切换到另一个可用区继续运行，从而提高系统的整体可用性和稳定性。使用限制不支持计费类型为抢占式实例。仅限同规格族内变配...

标准版-双副本

主节点提供日常服务访问，备节点提供HA高可用，当主节点发生故障，系统会自动在30秒内切换至备节点，保证业务平稳运行。特点可靠性服务可靠采用双机主从（master-replica）架构，主从节点位于不同物理机。主节点对外提供访问，用户可...

功能概览

跨地域容灾容灾系统部署在阿里云的两个地域中，当生产站点发生故障（例如海啸、地震）时，业务系统切换到容灾站点。生产站点和容灾站点部署在不同的地域，提供容灾即服务，RPO低至1分钟、RTO低至15分钟的高可靠的业务连续性保障，有效避免...

使用救援连接服务器

使用场景故障排查当服务器的vCPU消耗较高或者因修改服务器SSH配置等原因，导致您无法使用Workbench和第三方远程连接工具（例如PuTTY、Xshell、SecureCRT等）连接服务器时，通过VNC连接服务器后排查问题。图形化桌面登录 Ubuntu等系统搭建...

跨可用区更改实例规格

更改ECS实例的可用区在同一地域的不同可用区部署应用实例，可以确保即使某个可用区发生故障，服务仍然能够快速切换到另一个可用区继续运行，从而提高系统的整体可用性和稳定性。使用限制不支持计费类型为抢占式实例。仅限同规格族内变配...

FAQs

答：经过测试团队对GTM多次测试验证，当应用服务发生故障时，GTM能在 3分钟左右准确发现故障并切换。全网故障恢复时间=故障发现时间+全网生效时间。说明受限于拨测平台探点发生变化和全国各地运营商TTL缓存原因，如使用不同的拨测平台、...

常见问题-FAQ

答：经过测试团队对GTM多次测试验证，当应用服务发生故障时，GTM最快可在1分钟左右准确发现故障并切换。全网故障恢复时间=故障发现时间+全网生效时间。说明受限于拨测平台探点发生变化和全国各地运营商TTL缓存原因，如使用不同的拨测平台...

GTM如何实现同城容灾

创建1个全局访问策略，解析请求流量选择全局，主地址池集合选择「业务中心01」地址池和「业务中心02」地址池，负载均衡策略选择返回全部地址，此设置可实现两个数据中心同时提供服务和发生故障时系统自动摘除故障地址的效果。...

如何管理故障

更新故障通知：在故障处理的过程中，当故障进展发生变化，包括进度更新、影响恶化、故障等级变化、原因明确、根因定位等场景下，可更新故障过程中的内容，并在故障详情页点击更新故障通知，选择需要的故障通告类型，并最终确认发出故障...

网络架构容灾

当地址池中地址发生故障时，HealthCheck模块会准确的检测到异常情况并与DNS交互（如下图中序号3所示），摘除故障地址（如下图中序号4所示），这样用户端会自动解析到可用的地址池（如下图中序号5所示）。并当故障地址恢复时，自动恢复至...

产品架构

传统型负载均衡基础架构采用集群部署，提供四层（TCP和UDP协议）和七层（HTTP和HTTPS协议）的负载均衡，可实现会话同步，消除服务器单点故障，提升冗余性和服务稳定性。基础架构说明负载均衡作为流量转发服务，将来自客户端的请求通过负载...

常见问题

答：经过测试团队对GTM多次测试验证，当应用服务发生故障时，GTM旗舰版最快可在1分钟左右准确发现故障并切换。全网故障恢复时间=故障发现时间+全网生效时间。重要标准版最快可在3分钟左右准确发现故障并切换：故障发现时间：健康检查间隔...

功能特性

继而在风险事件发生时，将例行化、程式化、标准化的排查过程，通过故障决策树自动执行，并直接反馈诊断结果。通过故障诊断平台，能够极大地缩短故障排查时间。同时，屏蔽了不同运维人员在故障排查时的经验和技能差异，实现故障的快速定位。...

客户端离线排查

如果DNS服务无法运行，重启您的服务器，或者检查服务器DNS服务是否有故障。检查服务器是否设置了防火墙ACL规则或阿里云安全组规则。如果有，请确认已将云安全中心的服务端IP加入防火墙白名单（仅出方向需添加，入方向无需配置）以允许网络...

通过ALB连接优雅中断实现业务平稳下线

当您移除某个后端服务器或者后端服务器健康检查异常时，该后端服务器已建立的连接不会立即中断，客户端访问时仍持续有请求转发至这些后端服务器。此时会导致后端服务器的业务长期无法下线或出现请求错误。为了避免该问题，您可以使用ALB的...

配置DDoS高防后访问网站提示502错误

问题原因在DDoS高防作为代理服务器尝试执行请求时，从上游服务器收到了无效的响应，导致发生502错误。因此，说明DDoS高防服务和源站之间的连接存在问题。在完成网站业务切换后，网站的正常访问流量经过DDoS高防实例清洗，并由DDoS高防回源...

词汇表

这意味着如果一个可用区发生故障，其他可用区仍能保持正常运行，从而保证了高可用性。同一地域内的不同可用区之间内网互通，使用低时延链路相连。不同地域之间的可用区完全隔离。下图以地域1（包含3个可用区）和地域2（包含3个可用区）为例...

实例容灾

它是将物理服务器部署在不同的可用区，当一个可用区出现故障时流量可以在短时间内切换到另一个可用区。整个切换过程对用户透明，应用代码无需变更。重要发生主备切换时应用到实例的连接会断开，需要应用重新连接实例。迁移可用区请参见：...

实例容灾

它是将物理服务器部署在不同的可用区，当一个可用区出现故障时流量可以在短时间内切换到另一个可用区。整个切换过程对用户透明，应用代码无需变更。重要发生主备切换时应用到实例的连接会断开，需要应用重新连接实例。迁移可用区请参见：...

实例容灾

它是将物理服务器部署在不同的可用区，当一个可用区出现故障时流量可以在短时间内切换到另一个可用区。整个切换过程对用户透明，应用代码无需变更。重要发生主备切换时应用到实例的连接会断开，需要应用重新连接实例。通过DTS实现数据灾备...