数字集群技术设备故障原因

_相关内容

故障管理

相关设备故障:包括UPS失效引起的电力中断。自然灾害,包括洪水、火灾、地震。这里以阿里集团为例。为降低故障的影响,阿里集团故障管理体系从整体体系化治理的角度出发,将影响真实业务的场景定义、发现和应急能力以及后续治理都纳入故障...

自助诊断GPU节点问题

ACK集群提供节点级别的GPU诊断功能,供您进行部分GPU相关问题的故障排查。如果您在ACK Pro版集群中使用GPU节点时遇到问题,可以启用GPU节点自助诊断,采集GPU诊断的基础指标进行问题排查。本文介绍如何使用节点诊断功能,自助排查GPU节点...

创建Kubernetes托管版集群

创建Kubernetes托管版集群时,您只需创建节点,无需维护控制面板。控制面板由阿里云容器服务创建并托管,降低了运维成本,帮助您聚焦业务应用。本文介绍如何通过容器服务控制台创建Kubernetes托管版集群。索引 前提条件 使用限制 计费相关 ...

控制台发布记录

2022-12-16 冷数据归档 2022年11月 功能名称 功能描述 发布时间 相关文档 新增集群保护锁 开启集群保护锁,可以有效避免因操作疏忽、团队成员沟通不及时等原因造成的集群释放。2022-11-20 集群保护锁 新增全局只读节点 在产品系列为多主...

主备方案介绍

主备容灾:当云数据库HBase实例因不可预料的原因(例如设备故障、机房断电断网等)发生故障,容灾机制可用于保障数据的一致性和业务可用性。功能优势 主备双活:请求低毛刺。故障自动容错。资源利用率高。主备容灾:支持云数据库HBase、EMR...

集群联邦发布容灾

背景信息 当站点因为不可抗力因素或者设备故障导致应用在短时间内无法恢复时,LHC 可提供多集群联邦发布容灾保护。当站点故障时,通过简单的配置,即可在容灾站点迅速恢复业务。容灾是一个范畴比较广泛的概念。广义上,容灾是一个系统工程...

故障排查与常见问题

故障排查索引 集群类型 相关文档 托管版与专有版容器集群ACK 使用OpenAPI诊断工具进行故障排查 Service异常问题排查 Nginx Ingress异常问题排查 DNS解析异常问题排查 使用DNSTAP Analyser诊断异常 Pod异常问题排查 节点异常问题排查 存储...

查看集群概况

智能运维系统通过红黄绿3种颜色来展示集群的健康状况:红色:表示集群已经出现了很严重的问题或者很严重的隐患,已经影响了您的使用,需要立即处理,否则会存在数据丢失,集群故障等问题。黄色:表示集群存在较严重的问题或隐患,可能会...

集群管理FAQ

journalctl-u kubelet 集群常见问题 下表罗列了一部分ACK集群常见的故障原因以及处理方法。故障场景 处理方法 API Server组件停止或Master组件停止:不能创建、停止、更新Pod、Service、Deployment等资源。已有的Pod和Service仍然能够正常...

通过CCR跨集群复制解决跨集群容灾场景

Elasticsearch(简称ES)集群出现灾难性事件,例如,硬件故障、软件错误、数据中心故障、自然灾害或其他导致服务中断的情况,可使用跨集群复制CCR(Cross Cluster Replication)实现跨地域或跨资源的容灾能力,本文分别介绍新老网络架构下...

通过云原生网关管理多个ACK集群

例如,集群A部署在可用区A,集群B部署在可用区B,A与B两个集群部署的服务一致,当其中一个集群故障时可以快速切换流量。云原生网关为了支持业务的高可用部署诉求,提供了多ACK集群接入功能。即用一个云原生网关实例同时关联A、B两个集群,...

基于MSE云原生网关实现同城多活

在同城多活的场景下,能够确保对跨可用区的多个业务集群的请求实现高效负载均衡分配,在单个可用区内的业务集群发生故障时,可在1秒内完成故障节点的自动摘除从而实现故障转移,有效的保障服务连续性和高可用性。容灾概述 目前云上容灾主要...

常见问题旧版索引

使用Terway网络的ENI模式出现网络异常 Terway网络场景中交换机的IP资源不足 ACK集群中SLB实例的具体用途 集群管理 容器服务ACK集群故障排查 添加Kubernetes集群节点的常见问题 删除Kubernetes集群失败 通过CloudShell管理集群出现超时问题 ...

智能门禁

设备的SN码和别名进行录入 设备SN码为设备面板或包装上打印的数字 设备名称为您对这台设备设置的别名,用于理解设备作用和安装位置 通行住户范围为这台门禁机允许哪些楼栋的住户通行,配置完成后,楼栋关联的用户人脸及二维码将下发至...

灾备方案

Tair 容灾架构演进 当 Tair 实例因不可预料的原因(例如设备故障、机房断电等)发生故障,容灾机制可用于保障数据的一致性和业务可用性。Tair 提供多种灾备方案供您选择,可满足不同的业务场景。图 1.Tair 容灾架构演进 灾备方案 灾备级别 ...

停车管理

点击右侧添加设备,将设备SN码、设备别名以及设备位置进行录入 设备SN码为设备或包装上打印的数字 设备名称为您对这台设备设置的别名,用于理解设备作用 设备位置为这台设备所安装的小区具体出入口位置 选择车辆权限管理,对小区的车辆进出...

灾备方案介绍

云数据库Redis容灾架构演进 当云数据库Redis实例因不可预料的原因(例如设备故障、机房断电等)发生故障,容灾机制可用于保障数据的一致性和业务可用性。云数据库Redis提供多种灾备方案供您选择,可满足不同的业务场景。图 1.Redis容灾架构...

故障排查

ACK集群异常 添加Kubernetes集群节点的常见问题 容器镜像仓库构建服务失败问题排查 容器镜像服务源码绑定失败问题排查 Kubernetes集群如何指定安全组 Kubernetes集群网络异常的排查方法 容器服务ACK应用故障排查 如何升级集群?排查故障的...

安装云原生AI套件

云原生AI套件支持安装在ACK Pro版集群、ACK Serverless集群Pro版、ACK Edge集群Pro版,且集群版本为1.18及以上。本文介绍如何安装云原生AI套件,以及如何安装配置云原生AI运维控制台和开发控制台。前提条件 已创建ACK Pro版集群、ACK ...

功能发布记录

全部 使用KubeConfig回收站 清除KubeConfig 通过ack-ram-tool清理集群中指定用户的权限 新增支持GPU设备隔离 在ACK集群的独占GPU调度场景下,为了应对GPU设备故障的情况,ACK提供一个机制,可以对GPU节点上的某个设备进行隔离,以避免新的...

创建GPU集群

NVIDIA GPU设备多用于科学计算、图形渲染等场景,为这些计算应用提供加速计算能力。容器服务 Kubernetes 版支持对各种型号的计算型GPU资源进行统一调度和运维管理,能够显著提高GPU集群资源的使用效率。本文介绍如何创建GPU集群及查看节点...

使用集群API Server审计功能

ACK集群提供API Server的审计日志,帮助集群管理人员排查“什么人在什么时间对什么资源做了什么操作”,可用于追溯集群操作历史、排查集群故障等,降低集群安全运维压力。使用说明 本文仅适用于 ACK托管集群、ACK专有集群、ACK Serverless...

使用集群API Server审计功能

ACK集群提供API Server的审计日志,帮助集群管理人员排查“什么人在什么时间对什么资源做了什么操作”,可用于追溯集群操作历史、排查集群故障等,降低集群安全运维压力。使用说明 本文仅适用于 ACK托管集群、ACK专有集群、ACK Serverless...

创建FPGA集群

本文介绍如何通过容器服务管理控制台创建FPGA集群及查看节点挂载的FPGA设备。前提条件 已创建ACK Pro版集群 或 已创建ACK专有版集群。根据各个地域和可用区支持的FPGA实例规格情况,选择创建托管FPGA集群的地域。关于ECS实例规格可购买地域...

集群异常状态

ACK会定时检测集群运行状态,如果集群符合特定的异常条件,集群状态将自动变更为“不活跃(inactive)”或“不可用(unavailable)”。集群变更为“不活跃”或“不可用”状态时,ACK将会通过短信、邮件、站内信的方式向您发送相关通知。...

创建ASIC集群

查看节点挂载的ASIC设备 集群创建成功后,可查看节点挂载的ASIC设备。登录 容器服务管理控制台,在左侧导航栏选择 集群。在 集群列表 页面,单击目标集群名称,然后在左侧导航栏,选择 节点管理>节点。在创建集群时配置的Worker节点所在行...

常见问题

A:只读节点间负载不均衡的原因有只读节点连接数较少、自定义集群地址分配时未包括某个只读节点等。Q:造成主节点负载高或低的原因是什么?A:造成主节点(主库)负载高的原因有直连主地址、主库接受读请求、存在大量的事务请求、主从复制...

组件异常问题排查

常见异常原因和解决方案 原因一:Pod无法被调度 对应事件内容:FailedScheduling 原因详述:集群中的节点无法满足Pod的调度要求,可能由以下一种或多种原因导致。可以通过事件的详细描述确定具体原因集群节点可用的CPU、内存资源不足,...

历史功能发布记录(2022年)

全部 创建集群 ACK Serverless支持集群故障诊断和集群巡检 ACK Serverless集群 巡检可以定时扫描集群运行状况,发现集群中潜在的风险,如云资源配额余量、Kuberrnetes集群关键资源水位等。ACK Serverless集群 故障诊断包括Pod诊断、网络...

管理从集群

全球数据库网络(Global Database Network,简称GDN)是由分布在同一个国家不同地域的多个 PolarDB 集群组成的网络,网络中所有集群的数据保持同步。当您的业务部署在多个地域时,利用GDN可以实现应用访问数据库的低延迟和高稳定性。本文...

常见问题

如果因为各种异常原因初始化失败,那么会导致整个集群初始化失败。metricbeat:依赖ES服务,ES由BizWorks直接提供。如果ES的地址配置失败,会导致 metricbeat 无法启动,从而导致集群初始化失败。log-pilot:依赖Kafka,且需用BizWorks的...

节点诊断

容器智能运维平台 提供节点诊断功能,帮助您诊断集群中存在异常的节点。本文介绍节点诊断对应的检查项以及修复方案。容器智能运维平台 构建了基于专家经验的故障诊断系统,并基于海量数据训练了AI智能故障诊断模型。基于专家经验和AI智能...

Pod诊断

重要 使用故障诊断功能时,系统将在您的集群 节点上 执行数据采集程序并收集检查结果。采集的信息包括系统版本,以及负载、Docker、Kubelet等运行状态及系统日志中关键错误信息。数据采集程序不会采集您的业务信息及敏感数据。诊断支持的...

集群管理常见问题

本文汇总了集群管理的常见问题。EMR支持哪些地域?EMR集群是否支持升级版本?高可用集群为什么部署3个Master节点?如何开启磁盘加密?开启后有什么影响?如何清理创建失败的集群?创建集群时报错“ECS库存不足”,该如何处理?是否支持磁盘...

ACK集群概述

用户画像 期望降低成本 更关注业务应用 Kubernetes刚上手 减少Kubernetes运维投入 不用维护集群控制面板 成本相对不敏感 懂Kubernetes 有运维技术能力 资源规划明确 对集群控制面板(Master节点)有定制需求 可以完全自管集群 集群创建 ...

创建加密计算托管集群

本文介绍如何在控制台创建阿里云容器服务安全加密计算托管集群(Alibaba Cloud Container Service for Kubernetes-Trusted Execution Environment,简称ACK-TEE)。索引 前提条件 使用限制 步骤一:登录容器服务管理控制台 步骤二:配置...

创建集群

集群模板资源组 根据需要选择已有的资源组,方便对模板进行分组管理。如果需要创建新的资源组,您可以单击下方的 创建资源组,详情请参见 创建资源组。单击 确定。即会在 管理集群模板 面板中新增一个集群模板。集群模板的详细信息,请参见...

集群高可用架构推荐配置

容器服务 Kubernetes 版 基于Kubernetes架构提供了多种集群高可用保障机制,以确保集群控制面、节点与节点池、工作负载、负载均衡等维度的高可用,帮助您构建稳定、安全、可靠的集群和应用架构。本文使用指引 本文主要面向 容器服务 ...

阿里云Elasticsearch实例FAQ

以上未提到的配置,请在集群升配页面或者降配页面进行查验,详情请参见 升配集群 和 降配集群。ES购买页的版本具体对应的是哪个版本?购买页版本 具体版本 8.9 8.9.1 8.5 8.5.1 7.16 7.16.2 7.10 7.10.0 7.7 7.7.1 6.8 6.8.6 6.7 6.7.0 6.3...

历史功能发布记录(2020年及之前)

全部 热迁移ACK标准版集群至ACK Pro版集群 集群访问SLB支持选择规格 集群创建时API Server访问的入口SLB实例已支持自选规格,您可根据自身需求选择不同规格的SLB实例,满足对API Server的不同访问压力。全部 创建ACK Pro版集群 节点池支持...
< 1 2 3 4 ... 200 >
共有200页 跳转至: GO
新人特惠 爆款特惠 最新活动 免费试用