故障预测与健康管理是啥-故障预测与健康管理是啥文档介绍内容-移动阿里云

云产品事件触发器概述

事件总线EventBridge 与函数计算集成后，接入事件总线EventBridge 的事件源能够触发相关函数执行，完成对阿里云官方事件源相关事件的处理。以上流程构成云产品事件触发器。实现原理在事件驱动模型中，事件源是事件的生产者，函数是事件...

阿里云官方事件源

VPN网关事件 VPN网关事件类型包括证书到期、健康检查失败和健康检查成功等。私网连接事件私网连接事件类型包括终端节点连接被接受、终端节点连接被拒绝和终端节点新增zone建立连接等。云解析PrivateZone事件云解析PrivateZone事件类型仅...

故障管理

故障管理概述 故障管理是源于ITIL的一个概念，在IT企业或者互联网企业进行故障管理的目的是当生产环境出现重大宕机时尽快恢复正常的服务运营，将组件失败对业务所造成的负面影响降到最低，从而确保满足事先与业务客户之间所约定的服务级别...

故障基础数据管理

故障场景等级定义日常运营中，除用户方环境或自身操作引起的问题外，无论什么原因导致的服务中断、服务品质下降或用户服务体验下降的现象，都称为故障。对故障影响程度的划分就是故障等级定义。定义故障等级是为了指定故障等级定义作为各...

GTM如何实现异地容灾

概述方案介绍异地容灾是指应用服务部署在不同地域时，当其中一地出现故障时，全局流量管理（简称GTM）可以将出现故障地域的用户访问流量，调度至异地灾备中心，保障用户访问连续不间断。本文将以两地三中心灾备架构为读者讲解异地灾备的...

类目预测功能介绍

什么是类目预测搜索引擎效果优化在查询意图理解阶段有语义理解、命名实体识别、词权重分析、拼写纠错等手段，在排序阶段有文本相关度、人气模型、类目预测等手段。通过配置查询分析策略和调整排序公式，搜索效果优化有很大的提升空间，再...

管理演练空间

演练空间可以统计您执行过的演练数据，便于您根据不同的业务，组织不同演练，管理各个演练和用户。本文介绍如何管理演练空间。背景信息关于演练空间概念的更多信息，请参见演练空间概述。管理我的空间我的空间是一个特殊的空间，每个...

什么是全局流量管理？

产品概述全局流量管理（Global Traffic Manager），简称GTM，它可以帮助企业实现用户访问应用服务的就近接入、高并发负载均摊、应用服务的健康检查，并能够根据健康检查结果实现故障隔离或流量切换，方便企业灵活快速的构建同城多活和异地...

什么是全局流量管理？

产品概述全局流量管理（Global Traffic Manager），简称GTM，它可以帮助企业实现用户访问应用服务的就近接入、高并发负载均摊、应用服务的健康检查，并能够根据健康检查结果实现故障隔离或流量切换，方便企业灵活快速的构建同城多活和异地...

开源ChaosBlade与商业化AHAS CHAOS故障演练对比

ChaosBlade是一款简单易用且功能强大的混沌实验实施工具，AHAS CHAOS故障演练是ChaosBlade的商业化产品。本文介绍AHAS CHAOS故障演练与开源ChaosBlade的能力对比。产品简介开源ChaosBlade与商业化AHAS CHAOS故障演练的特点如下：开源...

产品简介

什么是运维事件中心运维事件中心是企业业务连续性的运营管理平台，提供丰富的监控集成、强大的报警降噪、可靠的通知、灵活的事件流转、基于ITIL的故障管理等功能；一站式管理、多端协同，帮助企业实现更实时的数字化管理、更快的故障响应...

单实例快速恢复

实例快速恢复逻辑说明 Hologres在 V2.0版本之前，Hologres计算节点均为容器调度（即下图中的Worker Node），资源管理器（Resource Manager）负责周期性健康检查。当出现1分钟容器响应超时（可能是内存溢出、硬件故障、软件Bug等原因导致）...

开启健康检查

开启健康检查是指对地址池中的地址配置健康检查策略，开启后可监测应用服务的可用性状态，并最终帮助企业实现自动故障隔离和自动故障切换的功效。健康检查的类型包括：Ping监控、TCP监控、HTTP（S）监控。前提条件已完成创建实例、创建...

产品正式商业化发布

体系化故障闭环管理：基于阿里多年base ITIL实践经验沉淀的故障管理体系，满足企业重大故障的流程化、在线化管理需求，持续提升业务连续性。云钉运维协同：基于钉钉，进行运维问题的协同处理，提升信息流转效率，加速问题解决。更多能力...

使用API终止和恢复VBR来确认冗余物理专线

本文介绍本地IDC（Internet Data Center）通过冗余专线接入阿里云后，您如何使用白屏化的OpenAPI工具调用API来完成专线故障演练。背景信息当本地IDC通过冗余物理专线正常接入阿里云后，您需要通过单条专线故障演练来确认冗余物理专线。您...

GTM实现跨网访问加速与故障切换

概述方案介绍大部分企业的应用服务都会使用多个运营商的IP地址，因此可能会存在跨网延迟、丢包、故障不可用等问题，而全局流量管理产品方案可以根据用户请求源地址的运营商，解析就近的应用服务器IP地址，实现就近接入、访问加速、故障...

事件分析概述

事件总线EventBridge 的事件分析平台提供消息Schema管理与消息内容查询能力，为消息可视化提供更完整的解决方案。云产品领域：云产品在极大程度降低了基础设施建设的复杂性，但同样带来了诸多问题。以云服务器ECS为例，很多情况会因系统...

什么是故障

本文主要介绍什么是故障。定义在日常运营中，无论什么原因导致业务服务中断、服务品质下降或用户服务体验下降的现象，称为故障，但不包括用户侧环境或用户自身操作引起的问题。“用户体验下降”说明故障的核心要关注用户感受，可通过客服...

故障演练

高速通道故障演练功能是一种模拟故障场景的工具。例如，模拟在高速通道冗余链路中的一条链路发生故障时，网络流量会自动切换至其他冗余链路的场景。借助该工具，您可以测试和验证您与阿里云组建的混合云组网的可靠性。重要故障演练会通过...

运营阶段

通过前期的设计，到构建，服务进入日常运营环节。在这个阶段往往会产生大量的运营事件，比如日常的资源申请。企业在持续运营过程中也会产生或大或小的生产故障，需要做好线上故障管理，提升服务SLA。

变更管理简介

变更管理是运维流程的重要环节，有效防控变更风险，降低由变更操作引起的故障，保证业务连续性。变更管理的目标：规范化、标准化变更。降低变更风险。有计划、受管控的变更操作降低故障发生率、业务连续性异常。规范变更准备及变更方案，...

应用场景

通过温度传感器对整个风机的温度测点进行实时监控，并对海量温度数据进行深度学习，构建风机故障检测与感知预测模型，最终做到提前1-2周识别风机微小故障并预警，单台风机单次重大事件维护成本大大降低。生产工艺优化您可以使用工业大脑...

什么是云拨测

故障定位与诊断：云拨测利用先进的Traceroute诊断技术，快速发现并定位网络故障，提供详细的故障报告和解决建议。实时告警与通知：云拨测提供实时告警功能，当业务出现异常时，会主动发送告警通知，快速响应并处理问题。数据可视化：通过...

GBDT二分类预测V2

GBDT二分类预测V2组件提供了针对GBDT二分类V2组件的预测功能，使用梯度提升决策树(Gradient Boosting Decision Trees)算法，对数据进行二分类问题的预测。本文介绍GBDT二分类预测V2组件的配置方法。支持计算资源支持的计算引擎为...

支持计划FAQ

关于阿里云服务与产品功能、容量、架构的咨询使用、配置阿里云产品的最佳实践阿里云的产品相关的技术问题、故障诊断阿里云API 和阿里云SDK问题的故障诊断与阿里云资源相关的操作或系统问题的技术支持与阿里云的管理控制台或其他阿里云...

诊断规则

通过故障诊断平台，运维人员可以将诊断过程、排查顺序进行图形化编排与设计，即故障诊断决策树。而后，在实际故障发生时，即可执行自动化、标准化的故障排查，并直接输出诊断报告，反馈诊断结果。故障诊断功能有效提升了故障排查效率，实现...

管理健康检查项

E-MapReduce自动根据健康检查项对集群的节点和服务进行健康检查，及时对异常或风险点进行处理。当健康检查发现异常时，对应节点或者组件的健康状态会同步变化，以便用户快速定位问题。本文介绍如何查看健康检查项，并根据实际需求自定义...

应用场景

日志服务的查询与分析功能提供了十多种机器学习算法，包括单时序数据的多种平滑操作、预测与分解操作，多时序的聚类，多字段的模式挖掘等，可以直接应用在告警监控任务中。更多信息，请参见机器学习函数。机器学习服务提供流式统计或图...

动态与公告

全局流量管理（GTM）新版发布计划（20201116）阿里DNS将于2020年11月16日对全局流量管理进行版本升级，新版本发布后，原历史版本在云解析DNS控制台仍可继续使用，使用历史版本的用户不受影响。发布内容新版GTM提供标准版、旗舰版两个版本...

产品优势

本文档描述产品的主要使用优势。主要优势多监控系统集成：支持10+常见监控系统集成，简单配置即可快速完成对接；灵活的报警降噪能力：支持横向抑制、...阿里巴巴故障管理最佳实践输出：帮助云上企业构建故障管理体系，持续提升业务连续性。

跟踪概览

故障诊断与运维服务故障分析：在出现服务中断或性能下降时，可以使用跟踪日志来分析事件前后的操作，以帮助确定故障原因。配置变更追踪：记录对云资源配置的所有更改，帮助识别可能导致服务中断的配置错误。基本概念概念说明跟踪跟踪...

常见问题旧版索引

使用Terway网络的ENI模式出现网络异常 Terway网络场景中交换机的IP资源不足 ACK集群中SLB实例的具体用途集群管理容器服务ACK集群故障排查添加Kubernetes集群节点的常见问题删除Kubernetes集群失败通过CloudShell管理集群出现超时问题 ...

ECS系统事件概述

说明计划内运维事件也称主动运维事件，是阿里云基于百万级服务器的管理运维经验，服务上万家大型企业客户的能力沉淀，以及达摩院的前沿机器学习算法，对底层宿主机的软硬件故障风险进行预测和主动规避。当宿主机上的故障风险无法规避时，...

人群预测

算法模型训练成功后，您可以使用算法模型进行复购预测，得到用户的未来N天购买概率。说明“未来N天”是指以算法模型使用的行为数据集的最近行为时间为基准，从该天起的未来N天，N的取值已在创建算法模型时设置。例如：今天是20210910，行为...

网站耗资源（客户程序故障）常见问题

本文汇总了使用云虚拟主机出现网站耗资源（客户程序故障）时的常见问题。什么是网站耗资源（客户程序故障）？网站程序占用CPU及内存过多，是对资源的一种浪费。当您使用普通版共享云虚拟主机建站后，可能会因为网站程序编写不合理、代码...

CLB健康检查工作原理

说明当前UDP协议服务健康检查可能存在服务真实状态与健康检查不一致的问题：如果后端服务器是Linux服务器，在大并发场景下，由于Linux的防ICMP攻击保护机制，会限制服务器发送ICMP的速度。此时，即便服务已经出现异常，但由于无法向前端...

监控预警

管理预算并预警对云上成本进行预算管理是管控云上成本的有效手段，通过预算编制、预警和预测、滚动调整预算、预实分析和优化，建立起基于预算的成本闭环管理链路。企业可以使用预算管理工具进行事前的云上成本规划与预算编制、事中预算...

产品架构

数据管理DMS的产品架构分为三层：数据源、数据运营与管理和商业应用。数据源关系型数据库：MySQL、SQL Server、PostgreSQL、PolarDB MySQL版、PolarDB PostgreSQL版（兼容Oracle）、PolarDB分布式版、OceanBase、Oracle、达梦DamengDB等。...

功能特性

风险管理风险管理是高可用管理平台核心，是风险事件汇集、处置的中枢平台，具体如下。风险事件风险事件汇集：负责将监控、巡检、诊断产生的风险或告警信息进行汇总。风险事件处置：支持直接在风险事件列表中，对风险事件进行处理。在...

成本分析

预测费用是根据用户的历史后付费费用估算的，因此仅预测后付费费用变化，可能与预测时段内的实际费用不同，预测数据仅供参考，最大支持12个月的预测（详见费用预测）。查看费用趋势在费用趋势板块，可查看多类维度下的费用变化趋势。分类...