阿里云ECS跨地域整站容灾操作指南

本文涉及的产品
对象存储 OSS,20GB 3个月
云备份 Cloud Backup,100GB 3个月
对象存储 OSS,恶意文件检测 1000次 1年
简介: 混合云容灾服务(HDR)可以让用户在阿里云上通过非常简单的操作实现ECS应用的异地容灾。HDR有秒级RPO,分钟级RTO,操作简单,演练方便,一键切换能等特性。本文描述了使用HDR实现阿里云上整站跨地域容灾的完整步骤。

一、 概述

混合云容灾服务(HDR)是阿里云提供的低成本高性能业务连续性保障的服务,可以为企业内部关键应用,互联网应用,乃至Hadoop大数据集群提供容灾服务。

其中的连续复制型(CDR)基于磁盘数据连续复制技术,可以为企业关键业务提供低至秒级RPO,分钟级RTO的容灾服务,极大缩短业务宕机时间,减少数据丢失损失。其一键演练,全链路监控,自动化运维等功能更是解决了传统容灾服务操作难,验证难,维护难的问题,极大提高了容灾系统的可用性,释放了容灾系统的价值。

CDR近期推出了针对阿里云上环境的跨地域和跨可用区容灾方案,可以为云上应用的业务连续性,等保合规要求等提供保障。本操作指南介绍的是一个典型的阿里云上应用跨地域整站异地容灾场景的操作方法。

二、 场景介绍

某客户已经在阿里云上杭州地域通过双AZ部署应用,做到了多可用区双活,因为业务连续指标以及合规要求,需要在异地做应用容灾。核心要求是

  1. 生产在杭州地域,要求容灾地域物理距离大,选择北京地域
  2. 5分钟以内RPO,15分钟以内RTO。
  3. 整站容灾,所有服务器在异地拉起后IP不变,避免应用配置过多修改,影响RTO
  4. 一键演练,运维人员需要每3个月在不影响生产环境的情况下,做一次操作演练

容灾架构概略图如下
f87aa527c8cd4ee25ef0062a8ff6b6ff5561c10a.jpeg

  1. 全站的ECS服务器通过HDR-CDR实现秒级RPO的容灾复制
  2. RDS数据库基于RDS跨地域复制实现数据库异地容灾
  3. 北京地域VPC网络配置保持与杭州地域一致 (仅多加一个vSwitch用于接收复制数据),北京地域容灾站点所有ECS仅运行复影最小规格复影ECS,只有在容灾演练和故障切换时按需拉起全规格ECS,接管业务
  4. 整体容灾演练,切换,回切操作都有HDR容灾控制台来操作

本文将介绍整个容灾操作的全流程,主要包括以下内容。整体环境做了较大简化(简化应用,未包含RDS),便于关注操作流程

  1. 环境准备
  2. 启动容灾复制
  3. 容灾演练
  4. 故障切换
  5. 故障恢复

三、 环境准备

生产站点(杭州地域)

  1. 我们创建VPC(官网服务VPC),以及网段为192.168.1.0/24的虚拟交换机(生产vSwitch)
    f39a14dccbb01927301224ef3ea4d3336eb0676c.jpeg
  2. 在它的虚拟交换机(生产vSwitch)下面部署了3台ECS。1台windows ECS-IISSvr,2台Centos 分别为:oraclesvr,midwaresvr。(ECS的数量,规格,数据盘,操作系统等配置等都可以按照实际情况自行决定,注意操作系统仅可选择支持列表中的类型。)
    8a58ba6efc4b860b5e251a737a1d3ef42951a5d1.jpeg


容灾站点 (北京地域)

为了实现跨地域整站容灾,需要在另一个地域创建一个一致的VPC,我们选择在北京地域。

  1. 创建好VPC,以及2个虚拟交换机,容灾切换虚拟机(容灾切换vSwitch)和容灾复制虚拟机(容灾复制VSwitch)
    注意,这里的容灾切换虚拟机(容灾切换vSwitch)需要与杭州地域的虚拟交换机(生产vSwitch)一样网段的虚拟交换机192.168.1.0。这个虚拟交换机用于在容灾演练和容灾切换时,用原始IP拉起ECS。容灾复制虚拟机(容灾复制VSwitch)用于在平时容灾复制是从源端接收数据,创建为192.168.2.0网段。

另外,因为做容灾复制和容灾切换时,都需要确保有ECS库存,我们建议在靠后的可用区,如G区等。
90dd7ffefcd766e5a9a03cb65fe693c2093f51ee.jpeg

四、 启动容灾复制

1. 登录混合云容灾控制台,创建容灾站点对

进入混合云容灾控制台,创建连续复制型容灾站点对,选择区域容灾到区域场景。在这里我们选取杭州的官网服务VPC作为主站,北京的容灾VPC作为从站(如下图)。
_
_sitepair

2.注册ECS

进入容灾站点对,点击受保护服务器页签,点击添加按钮,选择要保护的ECS。
reg_ECS_1
reg_ecs_2


添加ECS后,连续复制Agent就会被自动安装到指定的ECS中。CentOS服务器会变成以初始化的状态,而Windows服务器比较特殊,控制台会提示您请重启的信息,您手动重启后,Windows服务器会变成以初始化的状态。
reg_ecs3
reg_ecs4

3. 启动复制

注册完成后,点击启动复制,从更多-故障切换-启动复制入口进。
_

在启动复制设置页面,在恢复点策略这里选择打快照的频率,我们会对这些恢复点保留一个月的历史数据,便于快速恢复到历史时间点。在复制网络选择容灾复制VSwitch,在恢复网络选择容灾切换vSwitch。
_

启动复制后可以通过任务列表页签查看进度。复制分为两阶段,全量复制和实时复制两阶段,全量复制即初始整机全量复制,实时复制是指全量复制已经完成,所有实时IO正在被立即复制到容灾端。
_
_

当服务器处于实时复制中阶段,可以通过右侧的查看复制信息,RPO等。
点击复制信息,可以查看复制网络等信息。RPO则表示该时间段内的数据延迟。

4. 容灾演练

等服务器处于实时复制状态时,您就可以进行容灾演练。容灾演练是指在不影响容灾复制的情况下,验证应用是否可以在容灾站点拉起起并正常工作,是一个按预定计划进行的操作(可能几个月一次)的操作。初次容灾演练因需要在目标端打出初始快照,可能耗时较长。点击容灾演练即可开始演练。您可以更改实例名称,实例规格(CPU,内存),选择从站下不同虚拟机网络,3种IP设置(我们这里选择保留当前IP,对于整站容灾,保留原IP将使得某些配置大大简化),是否使用SSD,选择历史恢复点或当前时间点,是否绑定弹性公网IP,以及添加切换后执行脚本(比如用户的环境对RDS有依赖。做容灾时,RDS复制由RDS系统解决,那么在目标站需要修改配置时,可以用脚本自动解决)。
_

容灾演练成功,可以通过链接点击进去查看拉起的ECS配置,通过远程连接查看ECS内容。结束后,需要清空演练环境。
_

5. 故障切换

当生产端发生宕机故障,您就需要做故障切换操作,来将业务切换到容灾站点。
注意,点击故障切换后,容灾复制将停止。在非故障情况下,请使用容灾演练在验证容灾系统可用性
故障切换入口:更多-故障切换-故障切换。
_

故障切换的设置同容灾演练设置一样,不过因窗口大小的原因,切换后执行脚本这一项设置为现出。
_

故障切换完成,可以通过链接进入查看拉起的ECS配置以及内容,如果不是你需要的,可以通过切换恢复点,重新更改配置。切换恢复点入口:更多-故障切换-切换恢复点。
_

注意,故障切换也允许您切换恢复点,以便恢复到历史时间点
故障切换完成,通过链接确认是你需要的ECS,需要确认故障切换。入口:更多-故障切换-确认故障切换。

七、 反向复制与故障恢复

在故障切换后,容灾站点会承载生产业务。一般情况下,您需要在一定时间内,将业务切回生产站点。但此时容灾端已经产生了心的业务数据,您就需要将容灾站点的ECS反向复制回到生产站点

1、 ECS反向注册

在北京地域拉起的ECS需要反向注册,入口:更多-故障恢复-反向注册。
反向注册后,服务器的状态会变成已反向初始化。
_
_

2、启动反向复制

注册完成后点击启动反向复制(可以选择原机恢复恢复至初始ECS)。入口:更多-故障恢复-启动反向复制。启动反向复制设置,可以选择主站杭州地域的虚拟交换机作为复制网络和恢复网络。注意,这里的复制网络和恢复网络必须选用同一可用区。
同时还可以选择原机恢复,如下图所示。点击原机恢复,要注意,启动反向复制后,原机ECS内容会被清除,变成shadow vm。
_

反向复制也包括两阶段,全量复制,增量复制即反向实时复制中阶段。
_

3、故障恢复

当服务器处于实时复制中阶段,就可以进行故障恢复。故障恢复入口:更多-故障恢复-故障恢复。点击故障恢复后,可以更改实例名称,查看相关信息,添加恢复后执行脚本。
_

故障恢复完成,可以通过链接进入查看相关配置,内容等,到此一个循环结束。之后可以进行注销该服务器,或者注册故障恢复的ECS。注销入口:更多-服务器操作-注销 ,注册入口:更多-故障切换-注册。

相关实践学习
快速体验PolarDB开源数据库
本实验环境已内置PostgreSQL数据库以及PolarDB开源数据库:PolarDB PostgreSQL版和PolarDB分布式版,支持一键拉起使用,方便各位开发者学习使用。
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
倾随
+关注
目录
打赏
0
0
0
2
2969
分享
相关文章
阿里云特惠云服务器99元与199元配置与性能和适用场景解析:高性价比之选
2025年,阿里云长效特惠活动继续推出两款极具吸引力的特惠云服务器套餐:99元1年的经济型e实例2核2G云服务器和199元1年的通用算力型u1实例2核4G云服务器。这两款云服务器不仅价格亲民,而且性能稳定可靠,为入门级用户和普通企业级用户提供了理想的选择。本文将对这两款云服务器进行深度剖析,包括配置介绍、实例规格、使用场景、性能表现以及购买策略等方面,帮助用户更好地了解这两款云服务器,以供参考和选择。
DeepSeek服务器繁忙解决方法:使用阿里云一键部署DeepSeek个人网站!
通过阿里云一键部署DeepSeek个人网站,解决服务器繁忙问题。学生用户可领取300元代金券实现0成本部署,普通用户则可用99元/年的服务器。教程涵盖从选择套餐、设置密码到获取百炼API-KEY的全流程,助您快速搭建专属大模型主页,体验DeepSeek、Qwen-max、Llama等多款模型,无需代码,最快5分钟完成部署。支持绑定个人域名,共享亲友使用,日均成本仅约1元。
130 10
|
2天前
|
阿里云linux服务器使用脚本通过安全组屏蔽异常海外访问ip
公网网站可能会遭受黑客攻击导致访问异常,使用此脚本可以屏蔽掉异常IP 恢复访问。也可自行设置定时任务定期检测屏蔽。
77 28
在Linux环境下备份Docker中的MySQL数据并传输到其他服务器以实现数据级别的容灾
以上就是在Linux环境下备份Docker中的MySQL数据并传输到其他服务器以实现数据级别的容灾的步骤。这个过程就像是一场接力赛,数据从MySQL数据库中接力棒一样传递到备份文件,再从备份文件传递到其他服务器,最后再传递回MySQL数据库。这样,即使在灾难发生时,我们也可以快速恢复数据,保证业务的正常运行。
61 28
阿里云服务器付费类型、地域、镜像、存储、带宽和安全组设置与选择注意事项参考
在我们通过自定义购买的方式购买阿里云服务器器ECS时,会有多个选项,有的新手用户可能并不是很清楚这些选项是什么,选择或设置时需要注意什么,本文将从付费类型、地域与可用区、镜像、存储、带宽和安全组等多个方面,为您详细解析云服务器购买过程中各个参数与配置的选择注意事项,以供参考。
207 66
阿里云第八代云服务器c8i与g8i深度解析:技术对比、场景适配与选购指南
阿里云服务器计算型c8i与通用型g8i实例属于阿里云的第八代云服务器实例规格,是除了计算型c7与c8y和通用型g7与g8y之外同样深受用户喜欢的云服务器实例规格。本文将详细解析计算型c8i与通用型g8i实例的技术特性、适用场景、性能优势,以及最新的活动价格情况,并为用户提供购买建议。
【阿里云】控制台使用指南:从创建ECS到系统诊断测评
本文介绍了如何通过阿里云获取ECS云服务器并进行操作系统配置与组件安装,以实现高效的资源管理和系统监控。阿里云凭借强大的基础设施和丰富的服务成为用户首选。文中详细描述了获取ECS、RAM授权、开通操作系统控制台及组件安装的步骤,并展示了如何利用控制台实时监控性能指标、诊断系统问题及优化性能。特别针对idle进程进行了深入分析,提出了优化建议。最后,建议定期进行系统健康检查,并希望阿里云能推出更友好的低成本套餐,满足学生等群体的需求。
136 17
【阿里云】控制台使用指南:从创建ECS到系统诊断测评
玩转云服务器——阿里云操作系统控制台体验测评
在云服务器日益普及的背景下,运维人员对操作系统管理工具的要求不断提高。我们需要一款既能直观展示系统状态,又能智能诊断问题,提供专业指导的控制台。阿里云操作系统管理平台正是基于API、SDK、CLI等多种管理方式,致力于提升操作效率,为用户带来全新的系统运维体验。阿里云操作系统控制台凭借便捷易用的设计和高效的管理功能,成为云服务器运维的强力助手。本次测评基于真实体验截图,对其整体表现进行了深入探索。
120 33
阿里云操作系统控制台——ECS操作及云计算应用实践
本文详细介绍了云服务器ECS的使用流程,包括开通服务、系统配置、权限管理、组件安装及内存全景诊断等关键步骤。通过开通阿里云操作系统服务、授予RAM用户权限和安装必要组件,可实现对服务器的有效管理与维护。在内存诊断部分,展示了如何发起诊断并解析结果,帮助精准定位内存问题。此外,文章还讲解了利用ECS训练模型的操作方法,从上传文件到终端命令执行,直至完成模型训练。最后总结指出,掌握这些技能不仅提升了对云服务器架构的理解,还为实际业务提供了高效解决方案,展现了ECS在数据处理与分析中的重要价值。
122 8
阿里云操作系统控制台——ECS操作及云计算应用实践

云存储

+关注
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等