采样过程发生故障怎么办-采样过程发生故障怎么办文档介绍内容-移动阿里云

代码逻辑场景

受影响的请求数否 0 限制最多发生故障的请求总数，每生效一次故障计数加1，累计发生故障请求数超出设定值后，请求则不再发生故障。填写数值小于等于0时，则表示不限制。受影响的请求占比（%）否 0 限制发生故障的请求数占所有应该发生故障...

降采样操作

本文介绍时序数据的降采样操作。前提条件已创建Project和MetricStore。具体操作，请参见创建Project 和创建MetricStore。已采集到时序数据。创建降采样配置登录日志服务控制台。在Project列表区域，单击目标Project。在时序存储>时序...

功能特性

继而在风险事件发生时，将例行化、程式化、标准化的排查过程，通过故障决策树自动执行，并直接反馈诊断结果。通过故障诊断平台，能够极大地缩短故障排查时间。同时，屏蔽了不同运维人员在故障排查时的经验和技能差异，实现故障的快速定位。...

ECS整机恢复

当ECS整机发生系统故障或者错误操作时，您可以通过备份点的克隆和恢复功能，实现ECS整机回退和创建新的ECS整机。本文介绍整机恢复的相关操作。前提条件已创建ECS整机备份。具体操作，请参见备份ECS整机。重要当源ECS存在时，支持直接...

云盘恢复

当ECS挂载的云盘发生系统故障或者错误操作时，您可以通过云盘在源地域的备份点或者复制到目标地域后的备份点，进行原盘恢复或者创建新盘操作来实现数据恢复。前提条件已创建ECS整机备份。具体操作，请参见备份ECS整机。背景信息云盘恢复...

DeviceWanLinkSwitched

告警信息事件名称事件级别状态码状态描述 DeviceWanLinkSwitched WARN up Device Wan Link Switched 可能原因 WAN链路原有链路发生了故障，切换到备用链路。处理方法提醒用户WAN链路发生了切换，用户查看原有WAN链路并决定是否主动切...

云盘恢复

当ECS挂载的云盘发生系统故障或者错误操作时，您可以通过云盘在源地域的备份点或者复制到目标地域后的备份点，进行恢复原盘或者创建新盘操作实现数据恢复。本文介绍云盘恢复的相关操作。前提条件已创建云盘备份。更多信息，请参见创建云...

故障处理流程

当智能接入网关设备发生网络故障后，您可以先观察现象、收集信息，然后对现象和信息进行分析诊断，尝试修复问题。本文为您介绍智能接入网关设备故障处理流程。SAG-100WM故障处理流程说明通过SAG-100WM访问阿里云，发现故障，请参见以下...

JVM注入动态脚本

受影响的请求数否 0 限制最多发生故障的请求总数，每生效一次故障计数加1，累计发生故障请求数超出设定值后，请求则不再发生故障。填写数值小于等于0时，则表示不限制。受影响的请求占比（%）否 0 限制发生故障的请求数占所有应该发生故障...

自动/手动主备切换

当系统发生故障时，PolarDB 集群会自动进行主备切换。您也可以手动进行主备切换，指定一个只读节点为新的主节点。注意事项不论是自动切换还是手动切换，切换过程中，都可能会出现30秒左右的闪断，因此切换前请务必确保应用具备重连机制。...

自动/手动主备切换

当系统发生故障时，PolarDB 集群会自动进行主备切换。您也可以手动进行主备切换，指定一个只读节点为新的主节点。注意事项不论是自动切换还是手动切换，切换过程中，都可能会出现30秒左右的闪断，因此切换前请务必确保应用具备重连机制。...

混合云解决方案

如果MASTER 宕机，发生了故障转移，此时SLAVE如果要提供服务，日志读取器会等待镜像日志先同步，再做发布，但如果MASTER发生硬件故障，此时SLAVE需要打开一个跟踪标记1448，在镜像故障的情况下可以继续分发数据。说明 1448标记用于在事务...

快速入门-ECS容灾

而当您的主站发生重大故障，需要在云上马上重启核心业务时，则需要进行故障切换操作。方向复制被保护服务器的应用完成从某个地域（如地域A）容灾复制到另一个地域（如地域B）后，还可以实施反向复制，即从地域B反向复制到地域A。

应用故障自动诊断

如果发现问题，则会在应用总览页面上方闪现一个红色盾牌图标，单击该图标即可弹出故障诊断报告，故障报告上的故障定界和根因分析可以帮助您更好地发现和解决问题。常见的故障自动诊断场景 RT突增下游业务导致的本应用的RT突增，您可以联系...

围绕混沌工程的平台实践

因此混沌工程是一门学科，它提供了基本的理论指导，而故障演练是混沌工程的具体实践，通过向目标系统注入真实可能发生的故障来考量系统的稳定性。混沌工程和AHAS Chaos AHAS Chaos是以混沌工程为理论指导的故障演练平台，目标是成为混沌...

冷备操作手册

在后续运行中，如一体机发生硬件故障，本文档描述如何一键替换主机，快速恢复现场业务。一支持声明冷备支持机型物业管理一体机-停车版、物业管理一体机-人行版、物业管理一体机-视频版、物业管理一体机-EBA版、物业管理一体机-通行版、...

故障发现

故障处理过程需要人工组织跟进；故障应急争分夺秒，Oncall时效难以保障。7*24监控值班的主要考核指标有：通告及时率、通告准确率、快恢执行率。智能基线告警智能基线告警是一套集成了统计学方法与机器学习算法，自动学习指标数据的历史...

演练场景

故障演练是业务系统上线前必要的演练环节，旨在对应急预案的可行性，进一步完成应急预案，从而帮助提升产品、集群、机房的稳定性，减少故障的发生，提高故障应急效率，进而提升产品竞争力。一个完整的故障演练过程为创建故障原子服务>创建...

自助诊断GPU节点问题

ACK集群提供节点级别的GPU诊断功能，供您进行部分GPU相关问题的故障排查。如果您在ACK Pro版集群中使用GPU节点时遇到问题，可以启用GPU节点自助诊断，采集GPU诊断的基础指标进行问题排查。本文介绍如何使用节点诊断功能，自助排查GPU节点...

设计原则

数据容灾是指在数据中心或服务器发生故障、灾难或意外情况时，能够保证数据的安全性和可用性的一系列措施和策略。数据容灾的目标是确保在不可避免的情况下，数据的完整性、可恢复性和可用性不受到严重影响，以保障业务的持续运行和数据的...

INTO子句

INTO子句将查询结果写入到用户指定的measurement中。...连续查询其中一个用途就是使降采样的过程自动化。InfluxDB® is a trademark registered by InfluxData,which is not affiliated with,and does not endorse,TSDB for InfluxDB®.

什么是故障

本文主要介绍什么是故障。定义在日常运营中，无论什么原因导致业务服务中断、服务品质...故障改进：支持对故障制定明确的改进及验收措施、责任人及完成时间，确保每个深度复盘后的故障都能对业务连续性形成改进，避免历史同类故障重复发生。

故障演练常见问题

欢迎您反馈在使用故障演练过程中遇到的问题，目前提供以下常见问题供您参考。单个演练活动成功状态怎么判断？因为一个活动可能会有很多目标机器，当所有机器执行完毕之后，如果有机器没有执行成功，那么这个演练活动就会被系统判断为失败。...

服务发布策略

当新版本v2存在问题或者发生故障时，可以快速切回旧版本v1。蓝绿部署的优点：部署结构简单，运维方便。服务升级过程操作简单，周期短。蓝绿部署的缺点：资源冗余，需要部署两套生产环境。新版本故障影响范围大。A/B测试 A/B测试基于用户...

自动/手动主备切换

当系统发生故障时，PolarDB 集群会自动进行主备切换。您也可以手动进行主备切换，指定一个只读节点为新的主节点。注意事项不论是自动切换还是手动切换，当只读节点未开启热备时，主备切换过程中可能会出现20~30秒左右的闪断，因此切换前请...

算子探查（公测）

支持设置1～30min的采样时间，采样过程中如果达到最大存储上限会提前终止采样。单击开始探查。探查状态变更为采样中。说明在探查没有停止前，无法再次进行探查。查看探查结果。您可以单击提示中的 TM 日志列表进入到运行日志页面，...

执行演练

在执行故障演练过程中，您可以实时查看演练进度、每个演练活动的运行状态及结果，同时也能够随时结束演练，进行恢复阶段的活动，清除故障演练影响。背景信息一次完整的故障演练包括以下四个阶段：安装故障演练探针创建演练执行演练停止...

什么是复影实例？

复影实例是容灾切换或故障演练过程中一个中间状态的实例，仅负责容灾端对数据的实时写入，该实例只在数据复制阶段产生。当您确认故障切换完成后，复影实例自动会被删除。该实例由HDR官方镜像创建，操作系统、实例规格等可能与源端实例不同...

什么是故障演练

适用场景故障演练可适用于以下典型场景：衡量微服务的容错能力通过模拟调用延迟、服务不可用、机器资源满载等，查看发生故障的节点或实例是否被自动隔离、下线，流量调度是否正确，预案是否有效，同时观察系统整体的QPS或RT是否受影响。...

诊断决策树

您可以通过诊断决策树，编排故障排查的过程。对于已知的明确故障，可以根据诊断现象，编排诊断决策树，进而故障发生时执行，完成故障定位。对于未知的故障，您可以依据运维经验，编排出常见的排查路径，辅助快速故障定位。新建诊断决策树 ...

约束与限制

故障切换：实例协调节点和计算节点均采用主备HA架构，当主节点发生异常或者硬件故障时，会在30秒内切换到备节点。切换过程中有30秒左右的连接闪断，需要您提前做好准备，通过连接池等机制，设置好程序的自动重连。指标限制用户最大连接数...

高可用和容灾设计

可通过集群可读地址访问备节点，在发生故障切换时，RDS的高可用系统会自动执行以下三个步骤：将一个备节点提升为主节点，该备节点从集群可读地址中移除，同时清除该备节点上的可读连接，此时集群可读地址会发生闪断。故障主节点从集群读写...

主备方案介绍

主备容灾：当云数据库HBase实例因不可预料的原因（例如设备故障、机房断电断网等）发生故障，容灾机制可用于保障数据的一致性和业务可用性。功能优势主备双活：请求低毛刺。故障自动容错。资源利用率高。主备容灾：支持云数据库HBase、EMR...

开通备份恢复

说明数据恢复点目标（Recovery Point Objective，简称RPO），指应用发生故障时预期的数据丢失量。例如，RPO为15分钟，表示在应用发生故障时，最近15分钟的数据无法在云上恢复。默认全库备份，支持对单个表或多个表进行备份恢复。指定时间...

EMR Kafka磁盘故障运维

当磁盘发生故障时，应及时完成相关故障的处理，及时恢复集群的容错能力。磁盘运维概述本文从磁盘监控和磁盘故障恢复角度来介绍磁盘运维策略。磁盘监控以下内容从Kafka服务层面以及ECS系统层面来简单了解一下磁盘的监控策略。Kafka服务...

灾备方案

Tair 容灾架构演进当 Tair 实例因不可预料的原因（例如设备故障、机房断电等）发生故障，容灾机制可用于保障数据的一致性和业务可用性。Tair 提供多种灾备方案供您选择，可满足不同的业务场景。图 1.Tair 容灾架构演进灾备方案灾备级别 ...

灾备方案介绍

云数据库Redis容灾架构演进当云数据库Redis实例因不可预料的原因（例如设备故障、机房断电等）发生故障，容灾机制可用于保障数据的一致性和业务可用性。云数据库Redis提供多种灾备方案供您选择，可满足不同的业务场景。图 1.Redis容灾架构...

设计原则

在一些场景下，即使设计了各种技术手段去提高系统的冗余、保持业务的高可用，但还是避免不了生产系统故障的发生，所以需要面对故障建立一个高效的故障应急流程机制和稳定的技术平台，实现故障风险实时发现、应急团队有效协同、处理过程准确...

通过CADT实现NLB可用区级容灾演练

NLB实例的可用区J 发生故障时，NLB能够在短时间内停用该可用区，并继续使用其他启用的可用区提供服务。步骤四：容灾切回演练容灾切回功能：NLB可用区故障恢复后，验证NLB的容灾恢复能力。容灾切回概念：与容灾切换相反，将资源切回到执行...

通过异步复制功能实现容灾恢复

当您创建并启动云盘异步复制关系后，如果主盘发生故障，您可以通过异步复制功能对主盘进行容灾恢复。本文主要介绍如何进行容灾恢复操作。前提条件反向复制前，请确保源云盘（主盘）已经从对应的ECS实例上卸载，即主盘处于未挂载状态。具体...