阿里云服务故障

_相关内容

云盒故障服务器维修流程

背景信息 当云盒内的服务器出现故障,需要更换和维修时,出于客户成本考虑,云盒内没有部署数据擦除服务,阿里云不在客户现场进行数据擦除。重要 在您购买云盒时同意的服务条款中已明确提出阿里云 不提供现场数据擦除服务,具体请参见 阿里...

使用服务网格应对服务故障容灾

服务故障是云上云原生业务可能遭遇到的一类较为常见的故障类型,故障范围将小于可用区级别,但仍会因为服务单点故障造成业务不可用或降级问题。服务网格ASM支持打通多个集群的服务发现以及网络互访,结合多地域、多集群的服务对等部署...

GetProblemEffectionService-故障影响服务详情

故障影响服务详情。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。调试 授权信息 当前API暂无授权信息透出。请求语法 POST/problem/process/...

UpdateProblemEffectionService-更新故障影响服务

更新故障影响服务。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。调试 授权信息 当前API暂无授权信息透出。请求语法 POST/problem/process/...

使用服务网格应对可用区级故障容灾

步骤二:观测服务指标 当故障发生时,与工作负载相关的日志及指标等可观测信息以及相关的告警可以帮助我们尽快发现故障事件、确定故障范围以及初步了解故障影响或理解故障成因。为请求指标添加可用区维度。网格代理可以自动检测工作负载...

应用故障自动诊断

应用的某个接口或者服务故障导致的整体故障。应用的下游应用故障导致本应用故障。根因分析:这一部分包含了诊断模型推测出来的深层原因,深层原因比较多,根据实际的情况有所不同。数据支持:这一部分包含了得到推测结论的数据支持,不同...

常见问题

运维管理 容器应用服务常见问题 经典应用服务常见问题 中间件 SOFABoot 常见问题 微服务常见问题 微服务故障排查之 DRM 微服务故障排查之限流 微服务故障排查之 RPC 服务网格-故障排查 消息队列常见问题 任务调度常见问题 分布式链路跟踪...

数据库自治服务

数据库自治服务DAS(Database Autonomy Service)是一种基于机器学习和专家经验实现数据库自感知、自修复、自优化、自运维及自安全的云服务,帮助您消除人工操作引发的服务故障,有效保障数据库服务的稳定、安全及高效。

GPU Pod故障监控和恢复

故障通知 重要 建议您在收到故障信息后,将故障的Pod尽快驱逐重建。ACS将确保重建的GPU Pod正常运行。建议您搭配kube-eventer配置告警条件以便及时处理,详见 kube-eventer。对于故障的GPU Pod,ACS将以Pod Event和Condition等形式提供故障...

故障演练

云消息队列 RocketMQ 版 支持故障演练功能,能够模拟可用区级别的容灾过程,帮助您提升服务的高可用性和稳定性。背景信息 可用区(AZ)故障可能导致部署在该区域的服务实例不可用,从而引发局部乃至全局服务中断或者不可用等问题。云消息...

故障注入

服务 配置注入故障的服务。单击 切换输入模式 可在手动填写与下拉选择之间切换。方法 配置故障注入的方法。星号(*)表示所有方法。运行模式 配置故障注入规则的运行模式,取值如下:拦截模式:满足条件的故障注入请求会被注入。观察者模式...

服务管控和治理

将 SOFA、Dubbo、...故障隔离 某个服务故障或者异常时,如果该服务触发熔断会造成整个服务的不可用。而故障隔离能够定位到异常的服务实例,实现实例级别精细化的隔离和摘流,使故障影响的范围更小、更可控。更多信息,请参见 故障隔离。

容灾恢复

解决了服务故障持续影响业务的问题,避免了雪崩效应,提高系统可用率。功能原理 单机故障剔除会统计一个时间窗口内的调用次数和异常次数,并计算每个服务对应 IP 的异常率和该服务的平均异常率。当 IP 的异常率大于服务平均异常率,且达到...

日志审计

身份体系往往是企业信息化建设的最基本构件之一,该组件内的任何活动都可能对企业服务产生深远影响,轻则影响到调用服务的状态或表现,重则对企业服务...故障排查:在发生服务故障或异常时,通过日志审计快速定位问题原因,加速故障恢复过程。

故障隔离

故障隔离是在服务实例出现故障时,实现实例级别的精细化摘流隔离,使故障影响范围更小,提高服务的可用性。添加故障隔离规则 登录 服务网格控制台。在左侧菜单栏单击 服务治理,然后单击 故障隔离 页签。单击 添加隔离组规则,然后配置以下...

业务连续性

借助边缘节点服务部署应用,可以让终端用户访问服务时延迟大幅降低,提升体验。但提升体验的同时,关注应用的...主服务故障期间,流量切换到了备服务,数据会记录在备服务的存储服务中。因此在故障恢复后,还需要将备地域的数据同步回主地域。

基于ACK One ALB多集群网关实现异地容灾

只有在地域1发生地质灾害或ALB服务故障时,GTM才会基于健康检查将流量切换到地域2的ALB。前提条件 已 购买GTM实例。已 开启舰队管理功能。已从 ACK One控制台 获取Fleet实例的KubeConfig,并通过kubectl连接至Fleet实例。步骤一:规划网络...

不同VPC下多ACK集群的容灾场景(基于CEN连通VPC网络)

服务网格 ASM为应用服务提供了跨地域流量分布和跨地域故障转移能力。跨地域流量分布功能可以将流量按照设定的权重路由至多个集群,实现多地域负载均衡。跨地域故障转移功能可以在某地域服务发生故障时,将该地域流量转移至其他地域,实现跨...

数据库代理服务概述

本页面为您介绍云数据库 OceanBase 数据库代理服务的概念。使用限制 目前仅集群实例支持开启代理服务,租户实例暂不支持该功能。背景信息 OceanBase 数据库代理位于客户端和数据库之间,负责接收客户端的请求,并将请求转发到后端的 ...

CoreDNS托管版性能说明

推荐您将热点访问或需要重点保护的域名 添加缓存,提高公网域名在PrivateZone的解析速度,且在权威DNS厂商服务故障期间会以缓存结果持续应答。相关文档 您可通过使用DNS缓存组件提高DNS性能。具体操作,请参见 使用NodeLocal DNSCache组件

CoreDNS托管版性能说明

推荐您将热点访问或需要重点保护的域名 添加缓存,提高公网域名在PrivateZone的解析速度,且在权威DNS厂商服务故障期间会以缓存结果持续应答。相关文档 您可通过使用DNS缓存组件提高DNS性能。具体操作,请参见 使用Alibaba DNS Cache提升...

服务等级协议

1.5 每5分钟错误率:根据区域的不同 以每5分钟为单位按照如下方式计算:每5分钟错误率=每5分钟失败请求数/每5分钟有效总请求数x100%注:当出现平台服务故障而无法获取失败请求数时,将通过计算前7个自然日用户每分钟请求数的平均值,用该...

CoreDNS托管版性能说明

推荐您将热点访问或需要重点保护的域名 添加缓存,提高公网域名在PrivateZone的解析速度,且在权威DNS厂商服务故障期间会以缓存结果持续应答。相关文档 您可通过使用DNS缓存组件提高DNS性能。具体操作,请参见 管理BlazingDNS组件。

基于ACK One ALB多集群网关实现异地容灾

只有在地域1发生地质灾害或ALB服务故障时,GTM才会基于健康检查将流量切换到地域2的ALB。前提条件 已 购买GTM实例。已 开启舰队管理功能。已从 ACK One控制台 获取Fleet实例的KubeConfig,并通过kubectl连接至Fleet实例。步骤一:规划网络...

什么是数据库自治服务DAS

数据库自治服务DAS(Database Autonomy Service)是一种基于机器学习和专家经验实现数据库自感知、自修复、自优化、自运维及自安全的云服务,帮助用户消除数据库管理的复杂性及人工操作引发的服务故障,保障数据库服务的稳定、安全及高效。...

计算巢代运维能力概述

什么场景下需要使用代运维 在实际使用中,使用代运维一般有如下几个场景 私有化部署的服务实例,发生了服务故障,客户无法自行排查问题。此时需联系服务商,由服务商操作申请权限,由客户审批授权给服务商运维服务实例。此种属于临时授权。...

名词解释

备地址池集合 应用服务故障时,自动将用户访问流量从主地址池集合切换到备地址池集合,降低服务中断时间。地址池 多个提供相同服务的IP地址组成的一组IP地址列表,用来同时提供给用户访问以降低单个IP地址的访问压力,为了方便管理,这里...

实例健康诊断

实例健康诊断功能可以对 轻量应用服务器 实例的计算服务状态、网络服务、存储服务和配置管理等进行全方位的诊断,帮助您了解实例的健康状态,及时发现并解决常见的问题。前提条件 轻量应用服务器 实例需处于 运行中 状态。操作场景 推荐您...

服务协议

失败请求:文字识别将状态码为5XX(HTTP请求)或者5XXXXXXX(非HTTP请求)的请求和因为文字识别服务故障导致的用户正常请求未能到达文字识别服务器端的请求视为失败请求。有效请求:文字识别服务器端收到的请求视为有效请求,但不包括以下...

网络资源

容灾:建立容灾和高可用的系统架构,将系统部署在多个地理位置或数据中心,并使用负载均衡和故障切换技术,以确保即使发生网络分区,系统仍然可以继续提供服务。网络闪断故障 指网络连接在短时间内频繁中断和恢复,造成网络连接不稳定的...

HarmonyOS SDK快速入门

7 服务错误 服务故障。请 提工单 申请联系技术支持。8 数据被丢弃 一般是设备时间与服务器时间不同步导致,SDK会自动重新发送。9 与服务器时间不同步 设备时间与服务器时间不同步,SDK会自动修复该问题。10 SDK销毁时,缓存数据还没有发出 ...

跟踪概览

故障诊断与运维 服务故障分析:在出现服务中断或性能下降时,可以使用跟踪日志来分析事件前后的操作,以帮助确定故障原因。配置变更追踪:记录对云资源配置的所有更改,帮助识别可能导致服务中断的配置错误。基本概念 概念 说明 跟踪 跟踪...

部署高可用及共享存储Web服务

1个公网负载均衡CLB:基于对流量按需分发的能力,可以将流量分发到不同的后端服务器,消除系统中的单点故障,当某个服务器发生故障时,CLB会自动将请求分配到其他正常的服务器上,从而保证服务的连续性和稳定性。2个文件存储NAS:实现多个...

告警设置

解析服务QPS总量突降告警 严重 DNS解析服务的每秒查询数突然大幅下降,可能是服务故障或流量异常。当前阈值:五分钟内降低50%。解析数据分发出现延迟 严重 DNS解析数据在分发过程中出现延迟,影响数据同步和服务一致性。当前阈值:连续5...

ECS灾备解决方案

为了保障企业业务稳定、IT系统功能正常以及数据安全,灾备解决方案变得越来越重要,并且正在迅速...即使其中一台ECS服务器故障或资源利用超负荷,服务仍然可以持续对外提供,从而保障业务的连续性和可用性。更多信息,请参见 部署高可用架构。

密码机监控与报警

同时,检查阿里云状态页或站内信,确认当前地域是否存在服务故障或计划内维护。网络排查:检查应用服务器与密码机实例所属VPC的安全组和网络ACL规则,确保服务端口的网络访问是通畅的。CPU/内存使用率过高 关联分析:在监控页面,对比出...

连接保持

因此 PolarDB 新增支持连接保持功能,避免由于一些运维操作或非运维操作故障导致的应用程序服务短暂不可用问题,进一步提高 PolarDB 集群的高可用性。实现原理 主节点切换 从连接建立的角度看,PolarDB 中的一个会话(Session)包含了一个...

可观测概述

可观测性在云原生应用中扮演着非常重要的角色,它可以帮助我们实时监控服务的运行情况和性能指标,发现并解决服务故障和瓶颈,从而提高应用的可靠性和性能。阿里云服务网格ASM提供了统一标准化方式,为您提供一种收敛后的可观测数据生成与...

分布式系统的高可用能力构建

流量熔断:隔离故障节点以防止雪崩效应 熔断机制是分布式系统中不可或缺的一环,它的作用是在某个服务出现异常时迅速切断对其的依赖,及时隔离故障服务,从而避免故障扩散到整个系统。ASM在多个维度和级别上提供流量熔断功能:连接池级熔断...

分布式系统的高可用能力构建

流量熔断:隔离故障节点以防止雪崩效应 熔断机制是分布式系统中不可或缺的一环,它的作用是在某个服务出现异常时迅速切断对其的依赖,及时隔离故障服务,从而避免故障扩散到整个系统。ASM在多个维度和级别上提供流量熔断功能:连接池级熔断...
< 1 2 3 4 ... 200 >
共有200页 跳转至: GO
新人特惠 爆款特惠 最新活动 免费试用