VM故障排除

_相关内容

Pod诊断

节点出现内存碎片化,请先尝试登录节点,执行命令 echo 3>/proc/sys/vm/drop_caches 清理缓存。如问题仍未解决,请收集节点日志并 提交工单 处理。关于收集节点日志操作,请参见 一键采集节点的诊断日志。节点内存交换区开启情况 检查节点...

使用负载感知调度

args:'-vm'-'2'-'-vm-bytes'-'1600M'-'-c'-'2'-'-vm-hang'-'2' command:stress image:polinux/stress imagePullPolicy:Always name:stress resources:limits:cpu:'2' memory:4Gi requests:cpu:'2' memory:4Gi restartPolicy:Always 执行...

网站被劫持问题概述

DNS解析一般都与DNS有关,如果有这类故障,请先排除本地绑定hosts的情况后,再收集出口DNS信息和被劫持的IP地址。如下所示,异常的DNS解析没有经过阿里云CNAME解析,即被劫持到2个IP地址。您可以通过使用阿里云的 HTTPDNS,防止被劫持。...

故障复盘

故障复盘规范 故障复盘作为故障体系中的重要一环,整体复盘流程包括故障处理过程、改进分析、故障定责,基于包含标准化的复盘SOP、对应预防action推荐、问责管理机制,全面地回溯线上故障的发生,产出故障复盘报告和改进措施,避免故障重复...

设备无法连接SSID

问题症状 无线终端连接SSID,显示未连接,无法关联SSID。解决方案 检查AP配置中的最大连接数,最大可设置为128.2.DHCP不在AP上要检查一下地址池的使用情况,检查可用地址是否够用。3.更换新的AP,排除是否是AP故障。适用于 云AP

目标规则(Destination Rule)CRD说明

consecutiveLocalOriginFailures UInt32Value 否 触发排除需要的连续本地故障数。默认为5。该字段仅在 splitExternalLocalOriginErrors 设置为true时生效。consecutiveGatewayErrors UInt32Value 否 将主机排除出连接池需要的网关错误数。...

网络类场景

排除端口 无需注入网络延迟调用故障的端口,与本地服务端口和远程服务端口功能互斥。可以指定多个,使用逗号分隔,使用连接符表示范围。例如80,8000-8080。远端服务IP 指定演练对象访问的远端服务IP。可以通过子网掩码来指定一个网段的IP...

无法连接Windows实例

故障现象 无法ping通ECS实例,在排除Iptables和网卡IP配置问题且回滚系统后,仍然无法ping通。故障原因 可能是ECS实例安全组默认的公网规则被删除。解决方法 重新配置ECS实例的安全组公网规则,具体操作请参见 ECS实例安全组默认的公网规则...

状态卡片

[{"Cluster":"华东","VM":"vm-001","Status":"正常"},{"Cluster":"华南","VM":"vm-002","Status":"未连接"},{"Cluster":"华西","VM":"vm-003","Status":"故障"},{"Cluster":"华北","VM":"vm-004","Status":"正常"}]单击 状态卡片,修改状态...

状态卡片

[{"Cluster":"华东","VM":"vm-001","Status":"正常"},{"Cluster":"华南","VM":"vm-002","Status":"未连接"},{"Cluster":"华西","VM":"vm-003","Status":"故障"},{"Cluster":"华北","VM":"vm-004","Status":"正常"}]单击状态卡片,修改状态...

电源故障定位

您可以参考以下方法定位电源故障并进行处理流程。诊断流程 电源故障详细处理流程,如下图所示。处理步骤 测量输入电压。使用万用表测量输入电压,根据电源适配器的工作电压范围判断输入电压是否异常。插拔电源适配器。把电源适配器以及电源...

设计方案

容错 容错是指在分布式系统中,系统出现故障时,通过设计和实现可靠的机制和策略,使系统能够自动检测、排除或者纠正错误,保证系统能够正常运行,从而提高系统的可靠性和稳定性。容量 容量是在一定时间内,系统能够处理的最大工作量或数据...

配置DDoS高防后访问网站提示502错误

网络出现拥塞或抖动 在已经排除以上两种原因后,偶发的局部网络抖动、运营商线路故障等因素,也可能导致502错误。相关文档 常见问题概览 配置DDoS高防后访问网站提示504错误 适用于 DDoS高防 如果您的问题仍未解决,您可以在阿里云社区 ...

故障排查

Service无法正常工作 在排除网络插件自身的问题外,最可能的是 label 配置有问题,您可以通过查看 endpoints 进行故障排查。具体操作,请参见 检查Service。如何升级集群?升级集群的Kubernetes版本,具体操作,请参见 手动升级ACK集群。从...

背景知识

使用VM:|-job|-task|-VM(用户指定的 VM,支持 Windows 和 Linux)|-program(用户程序)#使用Docker模式:|-job|-task|-VM(支持 docker 的 Ubuntu)|-Docker-Container(用户指定的 Docker 的容器镜像)|-program(用户程序)2.使用Docker和不使用...

创建自定义集成并发送测试事件

{"message":"{{$labels.idc_id}}机房的 {{$labels.vm_name}}服务器(ip:{{$labels.vm_ip}},id:{{$labels.vm_id}})当前内存使用率为{{$value|humanizePercentage}},大于80%,触发告警。vm_name":"No.01","vm_id":"i-123","vm_ip":"192...

处理异常

10201 VM_INTERGER_OVERFLOW 1.浮点数到整数转换出现了溢出。2.用有符号数的最小值除以-1导致溢出。例如:char最小值-128,-128/-1为128导致溢出。10201 VM_DIVIDE_BY_ZERO 除0错误。10201 VM_COVERT_NAN_TO_INT NAN浮点无法强制转换Int。...

资源购买事件

eventId":"2546c4b7-6b56-403e-97d3-500d8d29*","additionalEventData":{"orderIds":"2105464*","2105464*":{"resourceId":"i-bp67acfmxazb4p*","articleConfig":{"vm_yundun_monitor":"1","iooptimized":"optimized","vm_cpu":"4","vm_iz...

处理异常

10201 VM_INTERGER_OVERFLOW 1.浮点数到整数转换出现了溢出。2.用有符号数的最小值除以-1导致溢出。例如:char最小值-128,-128/-1为128导致溢出。10201 VM_DIVIDE_BY_ZERO 除0错误。10201 VM_COVERT_NAN_TO_INT NAN浮点无法强制转换Int。...

监控专有宿主机

规则描述 专有宿主机上VM总的CPU利用率 1分钟周期 持续3个周期 监控值>=80%以1分钟为周期,如果DDH上所有ECS实例的CPU使用率均值持续3个周期大于等于80%,则触发报警。通道沉默周期 30分钟 如果发生报警后30分钟仍然满足报警条件,重复发送...

获取Linux镜像文件

操作步骤 打开Oracle VM VirtualBox管理器,选择虚拟机,例如 centos VM。单击 设置。依次选择 存储>centos VM.vhd。在右侧 明细 列表中,查看磁盘文件的存储位置,例如 C:\Users\Administrator\VirtualBox VMs\centos VM\centos VM.vhd。...

如何管理故障

更新故障通知:在故障处理的过程中,当故障进展发生变化,包括进度更新、影响恶化、故障等级变化、原因明确、根因定位等场景下,可更新故障过程中的内容,并在 故障详情 页点击更新故障通知,选择需要的故障通告类型,并最终确认发出故障...

创建TDX机密虚拟机计算节点池

pod 被调度 TDX 虚拟机实例上 nodepool-label:tdx-vm-pool 执行以下命令,部署pod-tdx-vm.yaml,创建一个名为pod-tdx-vm的应用Pod。kubectl apply-f pod-tdx-vm.yaml 执行以下命令,确认应用部署成功。kubectl get pod pod-tdx-vm 预期输出...

故障协同处理(基于钉钉)

2.故障应急场景群:事件升级故障后,群内推出 故障处理中 消息卡片,如果满足自动生成故障场景群的需求(下文详细介绍创建故障场景群逻辑),故障场景群内同时推出 故障处理中 消息卡片。本群故障消息卡片包含按钮:签到、签到记录、应急...

获取Windows镜像文件

操作步骤 打开Oracle VM VirtualBox管理器,选择虚拟机,例如 Windows VM。单击 设置。依次选择 存储>Windows VM.vhd。在右侧 明细 列表中,查看磁盘文件的存储位置,例如 C:\Users\Administrator\VirtualBox VMs\Windows VM\Windows VM....

故障管理

故障管理概述 故障管理是源于ITIL的一个概念,在IT企业或者互联网企业进行故障管理的目的是当生产环境出现重大宕机时尽快恢复正常的服务运营,将组件失败对业务所造成的负面影响降到最低,从而确保满足事先与业务客户之间所约定的服务级别...

资源续费事件

cloud_ssd,40,true","instance_type":"ecs.g6,ecs-5,ecs.g6.large","vm_os":"linux,64,centos_8_3_x64_20G_alibase_2021*.vhd","vm_ram":"8192","vm_web_type":"1"} },"orderIds":"2105464*"},"errorCode":"","errorMessage":"",...

故障应急协同

故障通告及更新 基于7x24监控值班工作特性,对于业务异常达到故障等级时,以用户定制的(语音、短信、IM)的方式在约定时间内将故障影响信息以及处理进展通知给对应的接收人/组,并持续更新直至故障结束。故障应急协同群 故障发生后,可以...

故障排查

本文介绍微服务引擎MSE在使用过程中常见问题的故障分析和排查流程。微服务注册配置中心问题排查 在浏览器中输入 XXX:8848/nacos,访问MSE的Nacos注册中心时返回404错误。具体操作,请参见 通过“XXX:8848/nacos”访问MSE的Nacos注册中心时...

什么是故障

本文主要介绍什么是故障。定义 在日常运营中,无论什么原因导致业务服务中断、服务品质下降或用户服务体验下降的现象,称为故障,但不包括用户侧环境或用户自身操作引起的问题。“用户体验下降”说明故障的核心要关注用户感受,可通过客服...

故障应急

故障管理体系是围绕故障全生命周期采取的一系列控制流程,包括故障基础数据管理(故障等级定义、应急场景监控覆盖、服务组&值班表管理、故障订阅管理),故障发现(7*24监控值班、智能基线告警),故障应急协同(故障通告及更新、故障应急...

故障注入

您可以通过故障注入功能向测试应用注入故障,检测应用面对异常时的处理情况。您可以根据检测的情况调整您的应用,以减少应用在正式使用时出现的异常问题。多用于测试环境。配置故障注入规则 登录 SOFAStack 控制台。在左侧菜单栏选择 ...

故障注入

您可以通过故障注入功能向测试应用注入故障,检测应用面对异常时的处理情况。您可以根据检测的情况调整您的应用,以减少应用在正式使用时出现的异常问题。多用于测试环境。功能简介 故障注入流程如下所示:在微服务中,其实现方式为:管控...

故障演练

故障演练就是这个背景下诞生的,沉淀通用的故障场景,以可控成本在线上故障重放,以持续性的演练和回归方式的运营来暴露问题,不断验证和推动系统、工具、流程、人员能力的提升,从而提前发现并修复可避免的重大问题,或通过验证故障发现...

故障基础数据管理

故障场景等级定义 日常运营中,除用户方环境或自身操作引起的问题外,无论什么原因导致的服务中断、服务品质下降或用户服务体验下降的现象,都称为故障。对故障影响程度的划分就是故障等级定义。定义故障等级是为了指定故障等级定义作为各...

故障演练

高速通道故障演练功能是一种模拟故障场景的工具。例如,模拟在高速通道冗余链路中的一条链路发生故障时,网络流量会自动切换至其他冗余链路的场景。借助该工具,您可以测试和验证您与阿里云组建的混合云组网的可靠性。重要 故障演练会通过...

故障隔离

故障隔离是在服务实例出现故障时,实现实例级别的精细化摘流隔离,使故障影响范围更小,提高服务的可用性。添加故障隔离规则 登录 SOFAStack 控制台。在左侧菜单栏选择 中间件>微服务平台>服务网格>服务治理,然后单击 故障隔离 页签。单击...

恢复VMware虚拟机

背景信息 完成VMware虚拟机备份任务后,您可以在VMware虚拟机出现故障时,在Cloud Backup控制台将其备份时的状态迅速恢复至本地或者阿里云VMware服务,以保证业务连续性。虚机备份服务从1.0.13开始支持在Cloud Backup控制台上统一管控备份...

API概览

API 描述 CreateProblem 故障升级 GetProblemImprovement 故障复盘改进详情 GetProblemPreview 获取故障通知预览 UpdateProblemImprovement 更新故障复盘改进详情 CancelProblem 取消故障 CreateProblemSubtotal 故障新增备注小计 ...

演练概述

基于阿里巴巴多年业务的真实线上故障库的积累,AHAS故障演练模块为您预定义了丰富的测试任务,检验应用的高可用能力。故障演练支持对部署在阿里云ECS实例、容器服务Kubernetes集群、K8s架构类应用、Java类应用进行故障演练。完整的故障演练...
< 1 2 3 4 ... 124 >
共有124页 跳转至: GO
新人特惠 爆款特惠 最新活动 免费试用