介质故障是干嘛的-介质故障是干嘛的文档介绍内容-移动阿里云

常见问题-FAQ

重要标准版最快可在4分钟左右准确发现故障并切换故障发现时间：GTM可保障故障发现时间，目前默认的健康检查配置可以在故障的4分钟左右准确发现故障并切换；全网生效时间：GTM无法保障全网的最终生效时间，因受限于全国各地运营商的TTL...

组复制简介

例如，5个节点的集群，3个节点收到Binlog，2个节点未收到Binlog，此时有2个节点故障：如果故障的2个节点是收到Binlog的节点，那至少还有1个节点上有数据。如果故障的2个节点是没收到Binlog的节点，那至少还有3个节点上有数据。说明多数派...

FAQs

重要故障发现时间：GTM可保障故障发现时间，目前默认的健康检查配置可以在故障的4分钟左右准确发现故障并切换；DNS切换同步时间：GTM无法保障全网的最终生效时间，因受限于全国各地运营商的TTL缓存设置以及网络环境不同，所以全网生效时间...

应用诊断

应用诊断是对应用的单独故障诊断，可以由链路诊断触发或人工触发。高可用管理平台通过应用诊断初步定位问题，锁定可疑应用，再通过 Arthas 和线程分析进一步确认问题。目前，应用诊断支持用户应用和蚂蚁应用。应用诊断是故障诊断的原子能力...

常见问题

重要标准版最快可在3分钟左右准确发现故障并切换：故障发现时间：健康检查间隔设置为60秒、TTL为60秒、连续失败次数达到2次的情况下，则可以在3分钟左右的时间准确发现故障并切换。全网生效时间：GTM无法保障全网的最终生效时间，因受限于...

集群规格选型

在选定了存储介质后，集群的存储介质不可以再更改，其中云盘可以通过扩容或者增加Core节点来增加容量，但本地盘只能通过增加Core节点扩容。例外的是冷存储，冷存储功能不一定需要在开通HBase集群时购买，可以在之后的使用过程中随时开通和...

基于ack-lingjun-aiast组件实现集群自动化运维

组件介绍安装灵骏AI助手开启PAI的作业监控和恢复功能后，当发生故障或异常时，灵骏AI助手的告警系统可以自动和PAI进行交互，并上报故障信息，并根据故障触发阶段和并行策略选择规避故障的方法，自动隔离故障节点，并通过checkpoint快速...

功能说明

健康检查针对地址池，可以配置健康检查，开启健康检查是指对地址池中的IP地址配置健康检查，开启后可实现实时监测应用服务的可用性状态，并最终帮助企业实现自动故障隔离和自动故障切换的功效。健康检查支持的方式：ping、tcp、http(s)。...

设备无法上电

设备的外接电源有故障。设备的电源适配器有故障。解决方案确认设备电源开关是否打开。确认设备电源线缆是否插牢。确认外接电源是否有故障。更换其它可以正常供电的外接电源，如果设备可以正常上电，则可以确认是设备的外接电源有故障。...

AI助手使用说明

当发生故障或异常时，通过AI助手底层的告警系统可以自动和PAI进行交互，上报故障信息，并根据故障触发阶段和并行策略选择规避故障方法，对故障机自动进行隔离，并从Checkpoint快速恢复任务。AI助手提供的具体功能如下：异常采集和上报：...

常见问题

做故障诊断时，执行诊断功能 3 分钟，随后自动切回到正常运行状态。Node.js 性能平台运行时提供了哪些额外的功能 Node.js 虚拟机 V8 的运行时内存状态监控；libuv 运行时状态监控；在线故障诊断功能：堆快照、CPU Profile、GC Trace 等。...

故障应急协同

故障通告及更新基于7x24监控值班工作特性，对于业务异常达到故障等级时，以用户定制的（语音、短信、IM）的方式在约定时间内将故障影响信息以及处理进展通知给对应的接收人/组，并持续更新直至故障结束。故障应急协同群故障发生后，可以...

故障止损恢复

故障初因定位集成企业内部可利用的所有稳定性相关数据（变更事件，数据库、MQ等中间件异常事件），以及集成各业务自建的定位工具能力，并在故障及风险预警的应急过程中进行可疑原因定位，帮助促进故障及风险预警初因定位的时长缩短。...

什么是消息演练

AHAS提供了强大且高灵活度的故障演练功能，可以根据不同的场景注入对应的故障类型。为了使您的演练服务更便捷，故障演练还提供消息演练功能。本文介绍消息演练的基本概念。消息演练概述目前市面上有RocketMQ、Kafka、RabbitMQ等流行的消息...

设计方案

从提前发现系统风险、提升测试质量、完善风险预案、加强监控告警、提升故障应急效率等方面做到故障发生前有效预防，故障发生时及时应对，故障恢复后回归验证。基于故障本身打造分布式系统韧性，持续提升软件质量，增强团队对软件生产运行的...

读多写少型业务场景多活实践

在杭州单元发生故障的情况下，可以使用MSHA切流功能将受影响的用户流量切换到另外的单元，进行快速业务恢复（这里区别于传统的思路，不是去排查、处理和修复故障，而是立即使用切流进行恢复，将业务恢复和故障恢复解耦）。容灾切换预期：将...

跨可用区容灾

当生产站点因为不可抗力因素（比如机房火灾、断电）或者设备故障（软、硬件破坏）导致应用在短时间内无法恢复时，ECS容灾服务支持业务的跨可用区（Availability Zone）的容灾能力，对整体的应用做容灾备份来应对单地区的故障，满足业务的...

停止演练

除了设置故障演练自动结束时间外，还可以手动停止演练。停止演练后，系统会进入恢复阶段，自动清除相应的故障，使故障演练对象恢复演练前的状态。背景信息一次完整的故障演练包括以下四个阶段：安装故障演练探针创建演练执行演练停止...

演练原子操作

故障演练原子操作指最小单元的故障。在故障演练>演练原子操作页面中，展示了平台上可用于故障演练的原子服务。可根据原子服务状态分类，查看当前环境中的故障原子操作信息，包括原子操作名称、操作编码、添加时间、状态、被引用次数等...

【通知】故障演练功能模块退市公告

由于业务及技术架构调整，阿里云将于2024年05月01日起停止应用高可用服务AHAS下的故障演练功能模块的技术支持，并于2024年11月01日正式下线该模块，但飞天企业版的应用高可用服务AHAS的故障演练CHAOS模块将持续发展。此外，应用高可用服务...

应用场景

故障跟踪：支持对故障进展、故障影响面、舆情反馈、Timeline进行在线化管理、协同，提升故障处理效率。故障复盘：基于最佳实践经验，沉淀了对故障进行深度复盘的结构化要求，形成了线上检查点，以产品的方式承载流程落地。故障改进：支持对...

故障演练

高速通道故障演练功能是一种模拟故障场景的工具。例如，模拟在高速通道冗余链路中的一条链路发生故障时，网络流量会自动切换至其他冗余链路的场景。借助该工具，您可以测试和验证您与阿里云组建的混合云组网的可靠性。重要故障演练会通过...

概述

PolarDB PostgreSQL版支持冷热数据分层存储功能，使用OSS等更低成本的存储介质，将冷热数据进行分层存储。将访问频率和更新频率低的数据转存到OSS中，可以有效降低存储成本。本文介绍了冷数据分层存储的优势和技术原理。功能优势当开启...

概述

PolarDB PostgreSQL版（兼容Oracle）支持冷热数据分层存储功能，使用OSS等更低成本的存储介质，将冷热数据进行分层存储。将访问频率和更新频率低的数据转存到OSS中，可以有效降低存储成本。本文介绍了冷数据分层存储的优势和技术原理。功能...

概述

PolarDB PostgreSQL版（兼容Oracle）支持冷热数据分层存储功能，使用OSS等更低成本的存储介质，将冷热数据进行分层存储。将访问频率和更新频率低的数据转存到OSS中，可以有效降低存储成本。本文介绍了冷数据分层存储的优势和技术原理。功能...

应用故障自动诊断

如果发现问题，则会在应用总览页面上方闪现一个红色盾牌图标，单击该图标即可弹出故障诊断报告，故障报告上的故障定界和根因分析可以帮助您更好地发现和解决问题。常见的故障自动诊断场景 RT突增下游业务导致的本应用的RT突增，您可以联系...

为何Pod中仍存在已恢复故障的“僵尸进程”？

在K8s环境中，下发的故障已经被恢复了，但是Pod中仍存在该故障的“僵尸进程”。本文介绍该情况可能的原因以及解决方案。可能原因这是因为容器中存在PID Namespace隔离。在容器中，故障演练进程的父进程是PID=1的进程，容器中的一号进程不...

如何解决MSE Nacos实例域名无法解析的问题？

应用节点所配置的DNS服务器或NameServer故障，特别是Kubernetes集群所依赖的CoreDNS故障，导致无法解析MSE域名。解决方案方案一：使用dig命令执行如下命令安装dig工具。yum install-y bind-utils 如下代码所示，使用 dig 命令，尝试解析...

使用OpenAPI诊断工具进行故障排查

本文介绍如何使用OpenAPI诊断工具进行故障排查。您可以登录 OpenAPI使用诊断，输入完整的RequestID或SDK报错信息，然后单击诊断，获取您的故障排查结果及对应的解决方案。如果诊断工具仍未能解决您的问题，您可以参考故障排除、常见问题 ...

创建演练

背景信息一次完整的故障演练包括以下四个阶段：安装故障演练探针创建演练执行演练停止演练操作步骤登录 AHAS控制台，在左侧导航栏中选择故障演练>我的空间。在我的空间页面，单击新建演练。选择新建空白演练或从经验库新建。...

什么是容器报警演练

容器演练是针对Kubernetes集群定制的故障演练，可以对Kubernetes集群中至关重要的高可用特性进行验证。目前AHAS仅支持容器演练中的报警演练。本文主要介绍容器演练中的报警演练功能。报警演练功能概述 Kubernetes集群的自动报警功能是保障...

应用场景

场景一：面向大中型企业的多地容灾高可用网络架构当本地数据中心的关键业务对可用性要求极高时，建议在多个接入点建立专线连接，该拓扑确保了因光纤切断、设备故障或接入点位置故障导致的连接故障的恢复能力。自主申请专线和共享合作伙伴...

冷热分离介绍

Lindorm宽表引擎的冷热分离功能可以将冷热数据分别存储在不同的介质上，有效降低了数据的存储成本。同时，通过定期将数据迁移至冷存储介质，降低了查询基数，提升了热数据查询效率。本文介绍冷热分离功能的原理及相关注意事项。背景信息在...

高可用性

在索引配置了副本的情况下，当某一可用区出现故障时，剩余的可用区依然可以不间断地提供服务，显著增强了集群的可用性。同时通过切流操作，隔离出现故障的可用区，并自动在剩余的可用区中补充计算资源，满足业务对资源的需求。当可用区故障...

使用可视化演练

登录 AHAS控制台，在左侧导航栏选择故障演练>概览。在故障演练页面的左侧导航栏选择可视化演练。界面展示可视化演练的全局架构视图。左侧显示所有应用列表。列出了应用的机器数量和演练数量，并支持按名称搜索。您可通过应用名称来搜索...

基础设施安全

各可用区之间可以实现故障隔离，即使一个可用区出现故障，也不会影响其他可用区的正常运行。不同地域之间，每个地域是完全独立，且不同地域的可用区也完全隔离。弹性自愈弹性伸缩支持开启健康检查功能，您可以选择用户自定义健康检查、...

诊断决策树

您可以通过诊断决策树，编排故障排查的过程。对于已知的明确故障，可以根据诊断现象，编排诊断决策树，进而故障发生时执行，完成故障定位。对于未知的故障，您可以依据运维经验，编排出常见的排查路径，辅助快速故障定位。新建诊断决策树 ...

故障应急

故障管理体系是围绕故障全生命周期采取的一系列控制流程，包括故障基础数据管理（故障等级定义、应急场景监控覆盖、服务组&值班表管理、故障订阅管理），故障发现（7*24监控值班、智能基线告警），故障应急协同（故障通告及更新、故障应急...

托管节点池节点自动恢复

当节点的运行状态发生变化并持续一段时间后，ACK将判定该状态符合故障状态，存在节点故障。当发现节点故障时，ACK会根据故障原因触发对应恢复任务，并记录相应的事件。当恢复任务完成后，故障状态解除，节点恢复正常状态。当恢复任务完成后...

HTTPDNS的高可用性如何保证

HTTPDNS通过以下方式保证高可用：为客户端提供多组服务IP，个别...采用Anycast IP网络多地域部署，在单个地域节点出现故障的情况下，流量可无缝切换到其他地域节点。同地域多可用区独立部署，单机房的故障不会导致该地域节点的服务中断异常。