公共数据库发生故障怎么办-公共数据库发生故障怎么办文档介绍内容-移动阿里云

主从（备）切换原因

实例故障阿里云检测到实例发生故障，无法正常使用，系统会发起主从（备）切换，及时恢复业务正常运转，缩小故障影响范围。主从（备）切换完成后，实例状态会显示运行中，您不需要进行任何操作，实例可以正常运行。您可以在服务可用性 ...

术语

本文介绍云原生数据库PolarDB 使用过程中遇到的术语。名词描述地域（Region）数据中心所在的地理位置。可用区（Zone）可用区是指在某一地域内，具有独立电力和网络的物理区域。同一可用区内实例之间的网络延时更小。集群（Cluster）...

自动或手动主备切换

当主实例发生故障或不可用时（例如操作系统错误、硬件故障等），系统会自动触发主备切换，主实例和备实例将进行互换，切换后实例地址保持不变，应用程序会自动连接到新的主实例（原备实例），从而保障业务的连续性和高可用性。此外，您还...

设计方案

知识图谱可以使用各种工具和技术，如自然语言处理、图数据库等。故障恢复定位故障原因后，按照应急预案快速恢复业务，并在事后进行复盘总结。预案执行：在故障响应的过程中，需要按照事先制定的应急预案进行执行。应急预案包括了应急响应...

故障复盘

复盘文档一般包含以下内容：故障简述：故障概述、影响面、处理人等故障背景：故障发生时的业务链路故障时间线：着重强调故障引入、故障发生、故障发现、业务响应、恢复执行、故障恢复几个时间点故障原因分析：建议先一句话总结，再进行...

自治服务（CloudDBA）

背景信息 数据库自治服务DAS（Database Autonomy Service），是一种基于机器学习和专家经验实现数据库自感知、自修复、自优化、自运维及自安全的云服务，帮助用户消除数据库管理的复杂性及人工操作引发的服务故障，有效保障数据库服务的...

概述

分布式系统将计算任务和数据分布在多个节点上以实现更高的性能、可靠性和可扩展性，当一个节点发生故障或错误时，其他节点可以继续工作，相比于单机系统，架构本身就有较高的节点容错性。但随着服务拆分，更多组件的引入，分布式系统的复杂...

通过异步复制功能实现容灾恢复

当您创建并启动云盘异步复制关系后，如果主盘发生故障，您可以通过异步复制功能对主盘进行容灾恢复。本文主要介绍如何进行容灾恢复操作。前提条件反向复制前，请确保源云盘（主盘）已经从对应的ECS实例上卸载，即主盘处于未挂载状态。具体...

术语

主地址（Primary Endpoint）主节点的访问点，当发生故障切换（Failover）后，系统会将访问点自动指向新的主节点。集群地址（Cluster Endpoint）整合集群下的多个节点，对外提供一个统一的读写地址，可以设置为只读或读写。集群地址具有自动...

Tair Proxy特性说明

云原生内存数据库Tair 的集群架构和读写分离架构中，代理服务器（Proxy）承担着路由转发、负载均衡与故障转移等职责，可以帮助您简化客户端的逻辑，同时支持多数据库（DB）、缓存热点数据等高级功能。通过了解Proxy的路由转发规则和特定...

Redis Proxy特性说明

在云数据库 Redis 版集群架构和读写分离架构中，代理服务器（Proxy）承担着路由转发、负载均衡和故障转移等职责，可以帮助您简化客户端的逻辑，同时支持多数据库（DB）、缓存热点数据等高级功能。通过了解Proxy的路由转发规则和特定命令...

AI助手使用说明

安装AI助手并开启PAI的作业监控和恢复功能后，当训练任务发生故障或异常时，能自动上报故障信息、隔离问题节点，无需人工干预即可快速恢复任务。本文为您介绍AI助手的具体配置方法。前提条件已创建带有ACK灵骏托管版的集群。具体操作，请...

标准版-双副本

主节点提供日常服务访问，备节点提供HA高可用，当主节点发生故障，系统会自动在30秒内切换至备节点，保证业务平稳运行。特点可靠性服务可靠采用双机主从（master-replica）架构，主从节点位于不同物理机。主节点对外提供访问，用户可...

主备切换

实例底层主机故障阿里云检测到实例底层主机发生故障，例如进程异常中断、实例负载过高导致内存异常等无法正常使用时，系统会立即触发主备切换，及时恢复实例，降低故障影响时长。此类触发方式会以短信或站内信、邮件等形式通知到您，...

功能特性

云原生内存数据库Tair 云原生内存数据库Tair是阿里云自研数据库，兼容Redis的同时提供更多数据结构和企业级能力，包括全球多活、任意时间点恢复和透明加密等。支持多种存储介质和不同场景性价比需求：内存型支持超高吞吐，性能为Redis三倍...

主备切换

实例底层主机故障阿里云检测到实例底层主机发生故障，例如进程异常中断、实例负载过高导致内存异常等无法正常使用时，系统会立即触发主备切换，及时恢复实例，降低故障影响时长。此类触发方式会以短信或站内信、邮件等形式通知到您，...

什么是故障演练

适用场景故障演练可适用于以下典型场景：衡量微服务的容错能力通过模拟调用延迟、服务不可用、机器资源满载等，查看发生故障的节点或实例是否被自动隔离、下线，流量调度是否正确，预案是否有效，同时观察系统整体的QPS或RT是否受影响。...

高性能版实例

即使计算节点发生故障，也可以保证实例无数据丢失。高可用 AnalyticDB PostgreSQL版高性能版由于减少了一个副本，在高可用方面出现了一些下降，在物理机故障等极端情况下，集群恢复的时间会变长（8小时以内）。高性能版通过ESSD多副本技术...

通过一致性复制组实现容灾恢复

警告故障切换功能会暂停异步复制功能，您需要确保您的生产站点发生故障时再使用故障切换功能，避免数据丢失。登录块存储EBS控制台。在左侧导航栏，选择企业级特性>一致性复制组。在页面左侧顶部，选择目标资源所在的地域。找到故障生产...

产品架构介绍

主备切换：单云故障，支持数据库跨云主备切换，MshaSDK能够将应用原本连接A云的数据源，切换为连接到B云的数据源。切换过程中还具备禁写保护能力，避免产生数据脏写等数据质量问题。数据双活：异地双活单元化架构下，支持表级别的数据类型...

功能概览

保护实例 Protected Instance 被保护的ECS实例或未来支持的数据库等。角色分为主和备。主指当前运行业务的实例，备指当前用作容灾使用的实例。生产站点 Production Site 用户生产业务初始运行的可用区或地域。容灾站点 DR Site 用户用于...

功能概览

保护实例 Protected Instance 被保护的ECS实例或未来支持的数据库等。角色分为主和备。主指当前运行业务的实例，备指当前用作容灾使用的实例。生产站点 Production Site 用户生产业务初始运行的可用区或地域。容灾站点 DR Site 用户用于...

集群架构

云原生内存数据库Tair 提供双副本集群架构实例，可轻松突破Redis自身单线程瓶颈，满足大容量、高性能的业务需求。集群架构支持代理和直连两种连接模式，您可以根据本章节的说明，选择适合业务需求的连接模式。注意事项云原生版集群架构不...

读写分离版

针对读多写少的业务场景，云数据库 Redis 版推出了读写分离架构，提供高可用、高性能、灵活的读写分离服务，满足热点数据集中及高并发读取的业务需求。同时，读写分离架构实例由阿里云 Tair 团队自研的Proxy组件进行数据分发、故障切换等...

响应云盒维修事件

当云盒中的硬件设备发生故障需要更换时，阿里云会向您发送云盒维修事件通知，您需要授权同意阿里云上门更换并维修硬件设备。本文为您介绍云盒维修相关的流程，以及如何响应云盒维修事件。背景信息配置云盒计算资源时，您需要配置一定的...

读多写少型业务场景多活实践

在杭州单元发生故障的情况下，可以使用MSHA切流功能将受影响的用户流量切换到另外的单元，进行快速业务恢复（这里区别于传统的思路，不是去排查、处理和修复故障，而是立即使用切流进行恢复，将业务恢复和故障恢复解耦）。容灾切换预期：将...

步骤五：应用容灾

如果检查后发现当前时间点应用状态不符合要求，例如数据库一致性问题，或者源端被污染的数据已经被同步到另一个地域，请在确认故障切换前，选择更多>故障切换>切换恢复点。说明切换恢复点操作与故障切换操作类似，仅需选择更早的恢复点...

跨地域容灾

容灾系统部署在阿里云的两个地域中，当生产站点发生故障（例如海啸、地震）时，业务系统切换到容灾站点。生产站点和容灾站点部署在不同的地域，提供容灾即服务，RPO低至1分钟、RTO低至15分钟的高可靠的业务持续性保障，有效避免了地域性...

云盘异步复制概述

您可以通过该功能建立关键业务的容灾能力，在保护数据库数据的同时提升业务的连续性。应用场景云盘异步复制功能适用于对数据安全有较高要求，需要对业务数据进行容灾恢复和跨地域迁移的行业。容灾恢复场景当主盘出现故障时，您可以通过...

流水单据型业务场景多活实践

多活改造和MSHA接入包括以下方面：改造范围：下单应用和订单数据库进行两地域部署。MSHA接入：将下单链路的应用安装上Agent，从而无侵入的实现SpringCloud RPC跨单元路由功能和数据防脏写功能。管控配置：进入MSHA控制台进行各层多活资源的...

EMR Kafka磁盘故障运维

当磁盘发生故障时，应及时完成相关故障的处理，及时恢复集群的容错能力。磁盘运维概述本文从磁盘监控和磁盘故障恢复角度来介绍磁盘运维策略。磁盘监控以下内容从Kafka服务层面以及ECS系统层面来简单了解一下磁盘的监控策略。Kafka服务...

故障演练

例如，模拟在高速通道冗余链路中的一条链路发生故障时，网络流量会自动切换至其他冗余链路的场景。借助该工具，您可以测试和验证您与阿里云组建的混合云组网的可靠性。重要故障演练会通过将被演练的资源关闭，使资源处于人工构造的故障...

采集客户端数据的高可用方案

当Logstore A发生故障时，Logstore B的数据仍然实时可用。当Logstore B发生故障时，Logstore A的数据仍然实时可用。操作步骤：在日志服务控制台上，创建Project和Logstore。创建A地域的Project A和Logstore A。创建B地域的Project B和...

跨可用区容灾

如果检查后发现当前时间点应用状态不符合要求，例如数据库一致性问题，或者源端被污染的数据已经被同步到另一个地域，请在确认故障切换前，选择更多>故障切换>更换恢复点。说明切换恢复点操作与故障切换操作类似，仅需选择更早的恢复点...

组复制简介

数据强一致性在组复制中，事务总是先传输到集群中其他节点，然后写入Binlog文件，这保证无论主节点在什么时刻发生故障，重新启动后数据都不会比集群选出的新主节点多。旧主节点故障重启后，能够自动加回集群，拉取它缺失的Binlog，就...

GTM如何实现异地容灾

两地三中心容灾架构，是指在同城双中心的基础上，在异地的城市建立一个备份的灾备中心，用于双中心的数据备份，当双中心出现自然灾害等原因而发生故障时，异地灾备中心可以用备份数据进行业务的恢复。目标读者企业网络部、业务运维部工作...

跨地域容灾

容灾系统部署在阿里云的两个地域中，当生产站点发生故障（例如海啸、地震）时，业务系统切换到容灾站点。生产站点和容灾站点部署在不同的地域，提供容灾即服务，RPO低至1分钟、RTO低至15分钟的高可靠的业务持续性保障，有效避免了地域性...

常见问题-FAQ

答：经过测试团队对GTM多次测试验证，当应用服务发生故障时，GTM最快可在1分钟左右准确发现故障并切换。全网故障恢复时间=故障发现时间+全网生效时间。说明受限于拨测平台探点发生变化和全国各地运营商TTL缓存原因，如使用不同的拨测平台...

GTM如何实现同城容灾

创建1个全局访问策略，解析请求流量选择全局，主地址池集合选择「业务中心01」地址池和「业务中心02」地址池，负载均衡策略选择返回全部地址，此设置可实现两个数据中心同时提供服务和发生故障时系统自动摘除故障地址的效果。...

FAQs

答：经过测试团队对GTM多次测试验证，当应用服务发生故障时，GTM能在 3分钟左右准确发现故障并切换。全网故障恢复时间=故障发现时间+全网生效时间。说明受限于拨测平台探点发生变化和全国各地运营商TTL缓存原因，如使用不同的拨测平台、...