阿里云服务故障

_相关内容

可观测概述

可观测性在云原生应用中扮演着非常重要的角色,它可以帮助我们实时监控服务的运行情况和性能指标,发现并解决服务故障和瓶颈,从而提高应用的可靠性和性能。阿里云服务网格ASM提供了统一标准化方式,为您提供一种收敛后的可观测数据生成与...

新功能发布记录

2023-06-30 响应云盒维修事件 新增地域 新增以下两个地域:华东2(上海)华北1(青岛)2023-06-21 关联地域 2023年5月 功能名称 功能概述 发布时间 相关文档 故障服务器维修方案 云盒内的服务器出现故障时,阿里云将按照流程拆除和更换故障...

响应云盒维修事件

背景信息 配置云盒计算资源时,您需要配置一定的冗余资源或购买SLA服务包,以便在硬件故障时,可以迁移业务。关于如何更好地配置计算资源,请参见 云盒计算资源配置最佳实践。流程说明 运行中的ECS实例出现故障风险时,会向您发送ECS故障 ...

UpdateMeshFeature-更新服务网格的功能配置

{/当北京地域服务故障时,流量转移到杭州同服务。from:"cn-beijing",to:"cn-hangzhou",}]distribute:跨地域流量分布配置,例如:distribute:[/struct,跨地域流量分布配置。{/路由到北京地域的流量 70%分配到北京,30%分配到杭州。from":...

基本概念

本文主要介绍运维事件中心的基本概念。集成中心 名词概念 说明 监控源 监控源表示上游监控系统,包括阿里云监控系统、开源...更多请查看 什么是故障 服务中心 名词概念 说明 服务 服务是企业业务连续性管理的最小单元。更多请查看 什么是服务

云盒计算资源配置最佳实践

背景信息 云盒的硬件设计中,各类硬件设备的保障如下:网络设备:采用双机冗余双上连设计,确保云盒内网络的高连续性,且不存在单点故障。存储设备:可以 确保在两台存储服务器同时宕机的情况下,数据的安全可靠。计算设备:支持宕机迁移和...

【Fault Injection】故障注入

故意破坏服务,以暴露弱点的测试方法可以提高容错能力,发现客户端的错误,或者识别您所面临的故障情况。服务网格 ASM支持故障注入,您可以使用虚拟服务在应用层进行测试。本文介绍如何配置故障注入。前提条件 已完成准备工作,并部署...

跨地域容灾

生产站点和容灾站点部署在不同的地域,提供容灾即服务,RPO低至1分钟、RTO低至15分钟的高可靠的业务持续性保障,有效避免了地域性灾害导致的系统故障。本文介绍跨地域容灾的操作步骤。前提条件 在实现跨地域容灾之前,您需要选择一个不同于...

跨可用区容灾

当生产站点因为不可抗力因素(比如机房火灾、断电)或者设备故障(软、硬件破坏)导致应用在短时间内无法恢复时,ECS容灾服务支持业务的跨可用区(Availability Zone)的容灾能力,对整体的应用做容灾备份来应对单地区的故障,满足业务的...

监控服务

使用方法请参见:云监控SDK参考 访问监控数据 监控、诊断和故障排除 监控诊断和故障排除 通过详细介绍以下各个方面的内容帮助您更好地了解OSS服务的运行状态并进行自主诊断和故障排除:服务监控 介绍如何使用监控服务持续监控OSS存储服务的...

政企公共云支持计划

时效:故障发生后2小时内介入处理《故障复盘报告》(按需,由商务经理BTE提供)顶级支持计划 当客户在使用阿里云产品与技术的过程中,遇到阿里云侧的产品故障,专属技术服务经理(CRE)作为阿里云侧的负责人,负责故障响应、故障判断、报障...

移动解析场景借助HTTPDNS内置权威应对公网解析故障

本文介绍如何使用 移动解析HTTPDNS 的 内置权威,帮助您在App或IoT终端的公网域名...步骤三:解析恢复检测 解析流量分析 访问 移动解析HTTPDNS-日志服务 查看出现故障的 解析域名 的 解析结果 是否恢复正常。业务侧查看:查看故障是否已恢复。

结合ASM与GTM应对地域级故障容灾

当地域级故障发生时,特定地域下任何可用区内的服务都面临着无法连接、数据丢失以及工作负载无法运行等风险。服务网格 ASM(Service Mesh)支持将ASM入口网关部署在Kubernetes集群或 弹性容器实例 ECI(Elastic Container Instance)中,...

使用云助手插件ecsgo-scarlet进行ECS故障演练

为验证应用或运维体系在面对常见的操作系统异常(如资源耗尽、服务不可用)时的韧性与响应能力,可以使用云助手插件 ecsgo-scarlet 在测试实例中安全、可控地模拟这些故障场景。操作步骤 警告 故障注入属于破坏性操作,可能导致实例网络...

监控、诊断和故障排除

OSS存储服务提供了全面的监控指标和详细的日志记录功能,协助您深入洞察程序运行行为,快速发现潜在问题,并精准定位故障根源,从而大幅提升问题解决效率。本文主要描述如何使用OSS监控服务、日志记录功能以及其他第三方工具来监控、诊断和...

故障演练

故障演练是实现系统稳定性保障的关键手段,它通过向系统注入可控的特定故障,以验证和促进系统的高可用性建设,以及训练相关人员应急能力、验证故障处理机制,从而减少真实故障发生时的故障恢复时间(MTTR,Mean Time To Repair)。...

GPU稳定性最佳实践

为保障服务器稳定运行,阿里云提供巡检服务以提前发现硬件故障,支持您通过自助诊断功能快速定位问题。重要 本文仅适用于Linux操作系统。应用场景 GPU服务器问题诊断 通过阿里云ECS自主诊断服务功能对GPU服务器潜在隐患进行诊断,从而能够...

使用集群诊断

阿里云容器计算服务ACS 使用 容器智能运维平台 提供一键故障诊断能力,包括Pod诊断、Service诊断、Ingress诊断,可以辅助您定位集群中出现的问题。本文介绍如何在ACS集群中使用集群诊断功能。诊断功能介绍 容器智能运维平台 提供的诊断功能...

使用集群诊断

容器智能运维平台 提供一键故障诊断能力,包括节点诊断、Pod诊断、Service诊断、Ingress诊断、内存诊断、网络诊断、AI Profiling,可以辅助您定位集群中出现的问题。本文介绍如何在ACK集群中使用集群诊断功能。前提条件 已创建Kubernetes...

故障基础数据管理

服务组与故障业务线的关系:一个服务组对应故障中一个角色,但可以服务多条故障业务线 服务组与工单问题分类的关系:一个服务组可以服务工单多个问题分类 服务组与组织架构的关系:一个服务组可以服务多个组织架构,一个组织架构可以拆分为...

故障演练

说明 例如多台ECS通过负载均衡SLB对外提供服务的场景,您需要为业务配置负载均衡SLB、域名、安全组(开放端口)等。可以自定义演练后新创建的ECS实例名称的前缀,有利于您快速识别故障演练ECS。自行规划和创建演练环境资源。包括手动创建...

DeleteProblemEffectionService-删除影响服务

删除影响服务。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。调试 授权信息 当前API暂无授权信息透出。请求语法 POST/problem/process/effectionService/...

常见问题-FAQ

GTM是集成了DNS的智能解析功能、云监控的应用服务监控功能,为客户提供不同网络或地区用户访问的就近接入、应用服务运行状态的健康检查、故障自动切换等能力。全局流量管理(GTM)的CNAME接入域名是否能直接通过URL访问?答:不可以使用 ...

ack-lingjun-aiast

组件介绍 安装灵骏AI助手开启PAI的作业监控和恢复功能后,当发生故障或异常时,灵骏AI助手的告警系统可以自动和PAI进行交互,并上报故障信息,并根据故障触发阶段和并行策略选择规避故障的方法,自动隔离故障节点,并通过checkpoint快速...

如何管理故障

新增影响服务故障处理过程,可以新增、变更故障所影响的服务,确保相关信息准确。新增时间线:时间线是指故障从触发到恢复并完成复盘的全路径。新增故障改进措施:故障复盘过程中,对当前故障进行总结复盘,设定故障的改进措施,避免类似...

常见问题

答:经过测试团队对GTM多次测试验证,当应用服务发生故障时,GTM旗舰版最快可在1分钟左右准确发现故障并切换。全网故障恢复时间=故障发现时间+全网生效时间。重要 标准版最快可在3分钟左右准确发现故障并切换:故障发现时间:健康检查间隔...

宕机演练

关于如何开启Kdump服务,请参见 Linux实例如何开启Kdump服务。使用指南 演练准备 请确保您的ECS实例已安装 云助手Agent,并且 云助手状态 为 正常。具体操作,请参见 查看云助手状态及异常状态处理。故障注入 登录ECS实例。具体操作,请...

API概览

UpdateProblemEffectionService 更新故障影响服务 更新故障影响服务。DeleteProblemEffectionService 删除影响服务 删除影响服务。UpdateProblemMeasure 更新故障改进措施 更新故障改进措施。DeleteProblem 删除故障 删除故障。GetProblem ...

故障注入

服务 配置注入故障的服务。单击 切换输入模式 可在手动填写与下拉选择之间切换。方法 配置故障注入的方法。星号(*)表示所有方法。运行模式 配置故障注入规则的运行模式,取值如下:拦截模式:满足条件的故障注入请求会被注入。观察者模式...

设计原则

数据容灾是指在数据中心或服务器发生故障、灾难或意外情况时,能够保证数据的安全性和可用性的一系列措施和策略。数据容灾的目标是确保在不可避免的情况下,数据的完整性、可恢复性和可用性不受到严重影响,以保障业务的持续运行和数据的...

如何配置流转规则

选择 触发故障 需要配置故障影响服务故障等级覆盖。配置完成之后单击 提交 即可。仅触发报警:确定 报警触发规则:设置触发的持续时长和次数对报警进行收敛降噪;如,某个规则在持续5分钟内触发3次才会触发报警,只要将时长和次数分别...

故障管理

故障管理概述 故障管理是源于ITIL的一个概念,在IT企业或者互联网企业进行故障管理的目的是当生产环境出现重大宕机时尽快恢复正常的服务运营,将组件失败对业务所造成的负面影响降到最低,从而确保满足事先与业务客户之间所约定的服务级别...

运维事件中心的审计事件

GetProblemEffectionService 查询故障影响服务详情。GetProblemImprovement 查询故障复盘改进详情。GetProblemPreview 获取故障通知预览。GetResourceStatistics 获取资源统计。GetRichText 查询字段的扩展信息。GetRouteRule 查询规则详情...

如何管理事件

所属服务 升级故障所属的服务。影响服务 选择影响服务(可多选)。进展摘要 处理人将事件升级为故障故障当时的一个进展情况。主要处理人 故障应急处理的小组应急主要处理人,默认为事件默认分配人。应急协同组 故障应急处理小组(可多选...

故障协同处理(基于钉钉)

故障状态:展示故障实时状态变化,PC端和移动端故障状态保持一致,分为四个故障操作节点记录故障状态变换,方便用户查询操作记录。时间线:展示故障的时间线记录,其中有7个节点必须完善详细内容,节点已用红星标注,包含:故障发生、故障...

GTM实现分运营商线路解析与故障切换

应用场景 大部分企业的应用服务都会使用多个运营商的IP地址,因此可能会存在跨网延迟、丢包、故障不可用等问题,而全局流量管理产品方案可以根据用户请求来源的运营商,返回对应运营商网络内的应用服务器IP地址,实现就近接入、访问加速。...

步骤五:应用容灾

当被保护的服务器完成阿里云复制服务(AReS)安装并重启后,您就可以对受保护的服务器启动、停止容灾复制、故障切换、容灾演练等一系列的应用容灾操作。前提条件 已安装阿里云复制服务。更多信息,请参见 步骤四:安装阿里云复制服务。操作...

流量防护

当某个服务出现故障或者执行时间过长时,可以触发熔断规则,停止向该服务发送请求,从而保护系统的稳定性和可用性。详情可参见 配置熔断规则。配置热点参数防护规则 MSE的热点参数防护规则配置根据请求类型分为RPC 请求和HTTP请求,详情可...

GTM如何实现主/备数据中心场景分线路解析及故障切换

应用场景 大部分企业的应用服务都会使用多个运营商的IP地址,因此可能会存在跨网延迟、丢包、故障不可用等问题,而全局流量管理产品方案可以根据用户请求来源的运营商,返回对应运营商网络内的应用服务器IP地址,实现就近接入、访问加速。...

演练场景

一个完整的故障演练过程为 创建故障原子服务 创建故障演练场景 创建并发布演练方案 创建演练执行单并执行 查看演练报告 导出演练方案。演练场景模块允许您根据容灾需要,自行设计故障演练场景,并对已创建的演练场景进行管理。此外,演练...
< 1 2 3 4 ... 200 >
共有200页 跳转至: GO
新人特惠 爆款特惠 最新活动 免费试用