本文介绍ARMS告警管理如何应对大规模系统的告警配置。背景知识 在告警管理中有一个非常重要的指标Mean Time To Contain(MTTC),MTTC描述了从检测到故障事件到控制和解决该事件所需的平均时间。它是一个关键指标,因为它衡量了一个组织对...
偶发不通、速度慢或提示丢包 NAT网关实例出现偶发不通、速度慢或提示丢包的问题,可根据以下情况分别进行排查:访问有时通有时不通 访问有时通说明NAT网关的SNAT或者DNAT工作正常,出现这种状况一般需要检查EIP是否有超带宽丢弃的情况、NAT...
智能媒体管理(IMM)新版已经正式开放,相比旧版,新版提供了更多更强大的能力。为了帮助您更好地使用我们的服务,本文将为您介绍新旧版本的区别对比以及最佳实践。新版优势 智能媒体管理(IMM)集成了更多实用能力,帮助您更好地分析、...
容错 容错是指在分布式系统中,系统出现故障时,通过设计和实现可靠的机制和策略,使系统能够自动检测、排除或者纠正错误,保证系统能够正常运行,从而提高系统的可靠性和稳定性。容量 容量是在一定时间内,系统能够处理的最大工作量或数据...
容器智能运维平台 提供一键故障诊断能力,包括节点诊断、Pod诊断、Service诊断、Ingress诊断、内存诊断、网络诊断,可以辅助您定位集群中出现的问题。本文介绍如何在ACK集群中使用集群诊断功能。前提条件 已创建Kubernetes托管版集群。具体...
注意事项 当只读节点未开启热备时,主备切换过程中可能会出现20~30秒左右的闪断,因此切换前请务必确保应用具备重连机制;当只读节点开启了热备功能时,主备切换将在3~10秒内完成。热备节点规格需要与主节点规格保持一致。热备切换功能中的...
重要 部分特殊情况,输入IP地址可能会出现部署证书不成功问题,请您删除后,再尝试部署。端口:默认为 443,无需修改。说明 如果您设置了其他端口,则通过浏览器访问网站时,必须在网站域名后输入端口号才能访问网站。例如,您的域名为...
本文汇总了您在使用数字证书管理服务时可能遇到的各类常见问题和对应的解决方案。SSL证书售前相关问题 什么是公钥和私钥?阿里云SSL证书私钥保护原理是怎样的?HTTPS与HTTP有什么不同?常见SSL证书都有哪些格式?通配符域名证书都支持哪些...
重要 提交OV或EV证书申请后,CA中心一般会在1个工作日(具体时间以CA中心所在地的时间为准,如遇节假日该时间会顺延)内向您提交证书申请时填写的邮箱中发送证书初审邮件或电话确认,请您及时接听来自CA中心的电话或确认来自CA中心的邮件。...
购买证书时选择不同的...普通提醒策略:证书到期前30天,数字证书管理服务 会向您在阿里云账号中设置的阿里云联系人、证书联系人(申请证书时设置的联系人)、数字证书管理服务控制台 信息管理 页面中接收续费提醒的联系人发送一次续费提醒。
蓝绿部署通过使用额外的实例资源来解决服务发布期间的不可用问题,当服务新版本出现故障时,也可以快速将流量切回旧版本。如下图所示,某服务旧版本为v1,对新版本v2进行冗余部署。版本升级时,将现有流量全部切换为新版本v2。当新版本v2...
本文主要介绍在阿里云数据管理DMS控制台登录数据库时,常见的问题及解决方案。如何正确的填写登录DMS的数据库账号与密码?数据库账号指用户账号,密码指用户账号的密码。如下以在DMS登录RDS MySQL数据库举例。获取数据库账号与密码。在 RDS...
本文目录 类别 内容 诊断流程 诊断流程 常见排查方法 检查Pod的状态 检查Pod的详情 检查Pod的配置 检查Pod的事件 检查Pod的日志 检查Pod的监控 使用终端进入容器 Pod故障诊断 常见问题及解决方案 常见的Pod异常状态及处理方式 Pod OOM异常...
什么是OOS 系统运维管理 OOS(CloudOps Orchestration Service),简称OOS,是全面、免费的云上自动化运维平台,提供运维任务的管理和执行。典型使用场景包括:事件驱动运维,批量操作运维,定时运维任务,跨地域运维等,OOS为重要运维场景...
2020-02-12 微服务治理实践之离群实例摘除 微服务架构中,由于服务集群中的某些实例出现故障,但仅仅因此而进行服务降级,对应用的伤害过大。是否可以通过自动地对故障实例进行短暂隔离,待实例恢复后再继续处理业务请求,以便保障服务的高...
因为服务端出现故障更加真实,所以可以从服务端层面去制造故障,但对于问题定位和排查的要求会更高。注入故障,观察指标的变化。缓存监控指标 目前支持的可监控的缓存指标如下:指标 说明 缓存QPS QPS是最通用也是最易观察的指标。缓存命中...
使用水印提取功能时,需要保证文件中数据超过200条,否则可能会出现水印提取失败(未提取到水印)的情况。水印嵌入 水印嵌入是指将标识信息嵌入到数据或文件中,使其具备一定的标识度。在创建结果集导出工单前设置水印 该方式需要在配置...
监控专有宿主机 运维 故障迁移 如果一台DDH有潜在故障风险,其物理机处于可用状态,但随时可能出现故障,导致DDH中的ECS实例出现问题。您可以自主迁移有潜在故障风险的DDH到其他物理机,避免相关业务因DDH故障受到影响。迁移有潜在故障风险...
使用云消息队列 Kafka 版时客户端的报错及解决方案 无法ping通云消息队列 Kafka 版的接入点 客户端消费问题 订阅者最佳实践 客户端首次接入云消息队列 Kafka 版时出现异常的排查方法 使用云消息队列 Kafka 版时出现消息堆积 为什么消费客户...
节点文件系统只读状态 节点出现文件系统只读,通常是因为磁盘故障,会导致节点无法写入数据,可能造成业务异常。请尝试在节点上使用fsck命令修复文件系统,然后重启节点。节点硬件时间 检查节点硬件时钟与系统时间是否一致,时间相差超过2...
节点文件系统只读状态 节点出现文件系统只读,通常是因为磁盘故障,会导致节点无法写入数据,可能造成业务异常。请尝试在节点上使用fsck命令修复文件系统,然后重启节点。节点硬件时间 检查节点硬件时钟与系统时间是否一致,时间相差超过2...
在Java类型应用中,如果出现故障Pod实例,可以借助Arthas诊断,排查Pod故障点。相关文档,请参见 Arthas诊断。如果应用无法正常启动,可以将启动命令修改为 sleep,再通过 kubectl exec 手动启动进程,观察输出并分析原因。相关文档,请...
如果发现问题,则会在应用总览页面上方闪现一个红色盾牌图标,单击该图标即可弹出故障诊断报告,故障报告上的故障定界和根因分析可以帮助您更好地发现和解决问题。常见的故障自动诊断场景 RT突增 下游业务导致的本应用的RT突增,您可以联系...
实例健康诊断功能是一种自助诊断方式,可以对实例的计算服务状态、存储服务状态、网络服务状态、实例配置管理和实例操作系统内相关配置进行全方位的诊断,帮助您了解实例的健康情况,及时发现并解决常见的问题。本文介绍轻量应用服务器支持...
当某机房出现故障,可以做到机房级的快速切换。更精细化的场景,如果是某中心内某应用的故障,还需要做到应用级的切换。为了实现机房间的流量调度,同城应用多活架构下,建立多个服务部署的逻辑区,这个逻辑区称之为“单元格(Cell)”。每...
通过Pod的健康监测和就绪监测,再加上应用暴露一个健康监测接口(比如SpringBoot的Actuator的health)即可简单实现故障自动重启,在应用初期问题较多的时候,或者发生突发问题的时候,自动重启大多数都能立马缓解问题,虽然不能根本解决,...
本文介绍了管理成员过程中可能会遇到的常见问题。成员基本操作 管理账号、成员、资源账号、云账号、根用户、RAM用户之间的区别是什么?管理账号 管理账号(Management Account,简称MA)是一个经过 企业实名认证 的阿里云账号。您可以使用...
本文记录了使用云电脑期间可能会遇到的常见问题,包括连接与上网、文件与传输、配置与权限等类别的问题。索引 类别 常见问题 连接与上网 无法启动云电脑怎么办?云电脑无法上网怎么办?云电脑内无法访问网站,怎么办?Ubuntu云电脑中...
本文介绍了管理成员过程中可能会遇到的常见问题。成员基本操作 管理账号、成员、资源账号、云账号、根用户、RAM用户之间的区别是什么?管理账号 管理账号(Management Account,简称MA)是一个经过 企业实名认证 的阿里云账号。您可以使用...
告警日志是GTM 针对健康检查报警/恢复、地址池不可用/恢复、访问策略切换等行为记录的日志信息。...2.左侧目录单击 全局流量管理 菜单,单击需要管理的实例ID,会默认进入全局配置页面,选择 告警日志 页签,进入告警日志页面。
什么是告警日志 告警日志是GTM 针对健康检查报警/恢复、地址池集合不可用/恢复、主备地址池切换等行为记录的日志信息。功能说明 健康检查报警 当健康检查发现地址池集合中的地址出现异常时,会记录在日志信息里。记录内容包括:异常时间、...
本文介绍了管理资源目录过程中可能会遇到的一些常见问题。开通资源目录的方式有几种?如何选择?开通资源目录时,系统会自动检查当前登录账号的企业实名认证、安全信息(手机号码或电子邮箱)及资源保有情况,然后判断其是否具备开通资源...
常见问题 Q:主备数据双向同步中是否会循环发送?A:不会,双向同步中会根据集群ID区分是数据同步写入的数据还是客户端写入的数据,保证数据不会循环发送。Q:目标实例出现异常无法写入时,LTS是否会缓存数据?A:LTS不会缓存数据,数据...
例如:日志级别的变更出现错误,会改变系统的日志量,此外一般不会有其它负面的影响。而连接池、线程池、限流阈值、主机配置等的变更往往是一个 Server 级别或者一个应用服务集群级别的影响。分布式系统如全局路由规则、负载均衡策略、网络...
为了保证您的站点能够安全、稳定的运行,阿里云的监控系统会实时关注您的站点运行状态。当您的站点出现因过度消耗资源导致运行速度下降或严重影响服务器性能时,系统会根据影响程度采取不同的处理方式以保证网站正常运行。耗资源即程序异常...
Proxy会实时探测只读节点的状态,当出现下述情况时,Proxy会执行流量管控动作:只读节点处于异常状态:Proxy会降低该节点的服务权重,如果多次无法连接该节点,Proxy会停止该节点的服务(即不再将流量转发至该节点),待该异常被修复后重新...
保护组进入增量复制状态后,您就可以进行故障切换操作。本文介绍故障切换和恢复的基本操作。故障切换类型 数据同步后切换 该故障切换会先停止保护组中被保护的实例,并且等到所有被保护的实例停止后再进行最后一轮数据同步,等待数据同步...
保护组进入增量复制状态后,您就可以进行故障切换操作。本文介绍故障切换和恢复的基本操作。故障切换类型 数据同步后切换 该故障切换会先停止保护组中被保护的实例,并且等到所有被保护的实例停止后再进行最后一轮数据同步,等待数据同步...
对生成的ic对象进一步操作说明 初始化 module.init 完成之后,我们会返回一个实例化的ic对象,示例代码中存在 window.ic 变量中。在该对象中我们提供例一些方法,您可以按需对返回的ic对象进行进一步的操作。调用方式为 window.ic[方法名]...
运维管理 SOFAStack CAFE(Cloud Application Fabric Engine)云应用引擎,提供应用管理、发布部署、运维编排、监控分析、容灾应急等全生命周期管理的 PaaS 平台产品,满足金融场景中经典架构和云原生架构的运维需求,帮助传统架构平滑过渡...