容器服务Kubernetes(ACK)及相关云环境几次故障和问题排查记录

本文涉及的产品
容器镜像服务 ACR,镜像仓库100个 不限时长
简介: 容器服务Kubernetes(ACK)及相关云环境几次故障和问题排查记录

1. 镜像仓库被设置为公有,导致镜像泄露风险:   

   错误现象:
  公有镜像仓库可能会被云上其它用户拉取,导致泄露镜像安全风险;部分运维或者开发同学,因为没有设置准确的 secret 到 Deployment,为了解决无法拉取镜像问题,直接开放镜像仓库为公有。
   解决方法:
   镜像仓库的命名空间一定要设置为私有,准确设置绑定云效中docker 镜像账号,通过云效发布应用;
   严格设定容器镜像仓库的维护权限;

2. 镜像拉取失败:

   错误现象:

## 查看 pod 部署日志   
kubectl logs {pod}     
## 错误信息
Failed to pull image "registry-vpc.{region_id}.aliyuncs.com/{app_name}-daily/{app_name}:20190823150817": 
rpc error: code = Unknown desc = Error response from daemon: 
pull access denied for registry-vpc.{region_id}.aliyuncs.com/{app_name}-daily/{app_name}, repository does not exist or may require 'docker login'

  错误原因:   

  • 当前 tag 的镜像不存在、镜像地址错误、镜像网络不通,没法访问;        
       解决方法:

   只需修改正确地址或者打通网络即可;   

  • Deployment 或者 Statefulset 的imagePullSecrets 没有设置或者设置错误 
      解决方法:

  控制台或者使用命令建立保密字典,然后使用 imagePullSecrets 引入,或者自己建立 Secret:       

## deplyment yaml 设置: 
imagePullSecrets:            
    - name: acr-credential-be5ac8be6a88c42ac1d831b85135a585            

3. SLB被容器服务清除,导致故障,需要重建和安全配置:

   错误现象:
与容器服务关联配置的负载均衡(SLB)被清除;
   错误原因:
   因为有状态副本或者 Deployment集部署删除,存在级联删除 Service 情况,开发和运维人员使用重建方式修改自己配置的时候,导致 service 级联相应 SLB 被删除,导致故障,需要紧急重建 SLB 并多方增加访问控制等配置。
   Service 配置任意修改或者删除,比如将 SLB 模式修改为 NodePort 或者 Cluster 模式,导致 SLB 负载均衡配置被清除。
   解决与防止方法:
   kubernetes 使用 NodePort,再通过手动建立负载均衡(SLB)与 NodePort 关联,解耦 Service 与 SLB 级联关系。
   使用 Ingress 暴露服务,Service 使用虚拟集群 IP,与 Ingress 关联。

使用此种方式需要注意 SLB 到后端服务的负载均衡,具体参考负载均衡 中负载均衡请求部分。

4. ECS 添加到集群失败:

   错误现象:
  集群增加已有节点或者扩容失败。
错误日志例如下:

2019-07-31 19:44:59cf7c629dbf1dc4088a5a6b316fa5e561a | Wait k8s node i-9dpfd2n6ijvdd5tb642r join cluster timeout  
2019-07-31 19:44:59cf7c629dbf1dc4088a5a6b316fa5e561a | Failed to check instance i-9dpfd2n6ijvdd5tb642r healthy : Wait for cn-north-2-gov-1.i-9dpfd2n6ijvdd5tb642r join to cluster cf7c629dbf1dc4088a5a6b316fa5e561a timeout  
2019-07-31 19:44:59cf7c629dbf1dc4088a5a6b316fa5e561a | Failed to init instance i-9dpfd2n6ijvdd5tb642r, err Wait for cn-north-2-gov-1.i-9dpfd2n6ijvdd5tb642r join to cluster cf7c629dbf1dc4088a5a6b316fa5e561a timeout
2019-07-31 19:44:59cf7c629dbf1dc4088a5a6b316fa5e561a | Failed to attach node i-9dpfd2n6ijvdd5tb642r, err Wait for cn-north-2-gov-1.i-9dpfd2n6ijvdd5tb642r join to cluster cf7c629dbf1dc4088a5a6b316fa5e561a timeout  

   错误原因:

  • 单个集群内节点数量配额达到阈值,导致 ECS 几点没法加入;
  • 虚拟网络 VPC中路由表的路由条目达到阈值,导致新增节点没法添加路由条目;
  • kubernetes apiserver 的 SLB 负载均衡设置有访问控制,导致添加的 ECS 没法访问 ApiServer;
  • 添加的 ECS 节点自身安全组限制或者底层网络故障,导致没法访问 apiserver;

   解决方法:

  • 联系阿里云同学增加集群或者路由表阈值;
  • 配置 SLB 访问控制,增加白名单;
  • 配置安全组,增加白名单,或者重建 ECS,释放故障 ECS;

5. 集群中,个别 POD 网络访问不通:

   错误现象:
   个别应用产生一定比例的访问超时错误报告,经过监控系统 sunfire 配置发现特定的A 应用 pod 与另外一个应用B pod 网络不通;
网络测试:

  • A pod 访问不通 B pod;
  • B pod 能访问通 A pod;
  • A pod 宿主机 ECS 能访问通 B pod宿主机 ECS;
  • B pod 宿主机 ECS 能访问通 A pod宿主机 ECS;
  • A pod 访问通 B pod宿主机 ECS;
  • B pod 访问通 A pod宿主机 ECS;
    抓包并与阿里云同学网络排查发现, 云上 VPC 的 NC 网络控制模块没有正确下发路由信息,导致网络故障。

   解决方法:

联系阿里云 vpc 同学,排查 vpc 中 NC 路由下发问题。

6. 部分 ECS 网络故障,Master 访问Node 的 kube-proxy 端口访问不通: 

   错误现象:
新添加一批 ECS 节点,个别 ECS 总是添加失败,报告超时,排除 SLB 访问控制等原因;
监控 kubelet-TelnetStatus.Value 报警;

【阿里云监控】应用分组-k8s-cbf861623f10144c488813375a8a0d489-worker-1个实例发生报警, 触发规则:kubelet-TelnetStatus.Value   
14:16 可用性监控[kubelet dingtalk-a-prod-node-X06/172.16.6.9] ,状态码(631>400 ),持续时间1天3分钟

   错误原因:
经过观察和多次测试,失败的 ECS 网络很不稳定,经常网络不通;
该故障排查错层较长,一直没怀疑机器问题;
ECS 宿主机基础设施有问题,排除释放此宿主机上的 ECS。
   解决方法:
新建 ECS, 释放故障 ECS,重新加入 kubernetes 集群。

相关实践学习
通过workbench远程登录ECS,快速搭建Docker环境
本教程指导用户体验通过workbench远程登录ECS,完成搭建Docker环境的快速搭建,并使用Docker部署一个Nginx服务。
深入解析Docker容器化技术
Docker是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的Linux机器上,也可以实现虚拟化,容器是完全使用沙箱机制,相互之间不会有任何接口。Docker是世界领先的软件容器平台。开发人员利用Docker可以消除协作编码时“在我的机器上可正常工作”的问题。运维人员利用Docker可以在隔离容器中并行运行和管理应用,获得更好的计算密度。企业利用Docker可以构建敏捷的软件交付管道,以更快的速度、更高的安全性和可靠的信誉为Linux和Windows Server应用发布新功能。 在本套课程中,我们将全面的讲解Docker技术栈,从环境安装到容器、镜像操作以及生产环境如何部署开发的微服务应用。本课程由黑马程序员提供。     相关的阿里云产品:容器服务 ACK 容器服务 Kubernetes 版(简称 ACK)提供高性能可伸缩的容器应用管理能力,支持企业级容器化应用的全生命周期管理。整合阿里云虚拟化、存储、网络和安全能力,打造云端最佳容器化应用运行环境。 了解产品详情: https://www.aliyun.com/product/kubernetes
目录
相关文章
|
14天前
|
存储 Kubernetes API
K8S上生产环境后,90%都会遇到这个故障
K8S上生产环境后,90%都会遇到这个故障
22 0
|
26天前
|
缓存 Kubernetes Docker
容器服务ACK常见问题之容器服务ACK ingress websocket配置失败如何解决
容器服务ACK(阿里云容器服务 Kubernetes 版)是阿里云提供的一种托管式Kubernetes服务,帮助用户轻松使用Kubernetes进行应用部署、管理和扩展。本汇总收集了容器服务ACK使用中的常见问题及答案,包括集群管理、应用部署、服务访问、网络配置、存储使用、安全保障等方面,旨在帮助用户快速解决使用过程中遇到的难题,提升容器管理和运维效率。
|
15天前
|
Kubernetes 容器
k8s容器时间与服务器时间不一致问题
k8s容器时间与服务器时间不一致问题
13 0
|
4天前
|
JSON Kubernetes Go
无缝集成:在IntelliJ IDEA中利用Kubernetes插件轻松管理容器化应用
无缝集成:在IntelliJ IDEA中利用Kubernetes插件轻松管理容器化应用
14 0
无缝集成:在IntelliJ IDEA中利用Kubernetes插件轻松管理容器化应用
|
18天前
|
Kubernetes 网络协议 Docker
K8S核心插件-coredns服务
K8S核心插件-coredns服务
15 0
|
26天前
|
存储 Kubernetes 监控
容器服务ACK常见问题之容器服务ACK启动时readiness告警如何解决
容器服务ACK(阿里云容器服务 Kubernetes 版)是阿里云提供的一种托管式Kubernetes服务,帮助用户轻松使用Kubernetes进行应用部署、管理和扩展。本汇总收集了容器服务ACK使用中的常见问题及答案,包括集群管理、应用部署、服务访问、网络配置、存储使用、安全保障等方面,旨在帮助用户快速解决使用过程中遇到的难题,提升容器管理和运维效率。
|
26天前
|
存储 监控 Kubernetes
容器服务ACK常见问题之cmonitor-agent容器一直没起来如何解决
容器服务ACK(阿里云容器服务 Kubernetes 版)是阿里云提供的一种托管式Kubernetes服务,帮助用户轻松使用Kubernetes进行应用部署、管理和扩展。本汇总收集了容器服务ACK使用中的常见问题及答案,包括集群管理、应用部署、服务访问、网络配置、存储使用、安全保障等方面,旨在帮助用户快速解决使用过程中遇到的难题,提升容器管理和运维效率。
|
26天前
|
存储 Kubernetes 监控
容器服务ACK常见问题之容器服务ACK worker节点选择不同地域失败如何解决
容器服务ACK(阿里云容器服务 Kubernetes 版)是阿里云提供的一种托管式Kubernetes服务,帮助用户轻松使用Kubernetes进行应用部署、管理和扩展。本汇总收集了容器服务ACK使用中的常见问题及答案,包括集群管理、应用部署、服务访问、网络配置、存储使用、安全保障等方面,旨在帮助用户快速解决使用过程中遇到的难题,提升容器管理和运维效率。
|
26天前
|
弹性计算 运维 Kubernetes
容器服务ACK常见问题之线上的K8s一直waiting如何解决
容器服务ACK(阿里云容器服务 Kubernetes 版)是阿里云提供的一种托管式Kubernetes服务,帮助用户轻松使用Kubernetes进行应用部署、管理和扩展。本汇总收集了容器服务ACK使用中的常见问题及答案,包括集群管理、应用部署、服务访问、网络配置、存储使用、安全保障等方面,旨在帮助用户快速解决使用过程中遇到的难题,提升容器管理和运维效率。
|
27天前
|
Prometheus 监控 Kubernetes
Kubernetes 集群监控与日志管理实践
【2月更文挑战第29天】 在微服务架构日益普及的当下,Kubernetes 已成为容器编排的事实标准。然而,随着集群规模的扩大和业务复杂度的提升,有效的监控和日志管理变得至关重要。本文将探讨构建高效 Kubernetes 集群监控系统的策略,以及实施日志聚合和分析的最佳实践。通过引入如 Prometheus 和 Fluentd 等开源工具,我们旨在为运维专家提供一套完整的解决方案,以保障系统的稳定性和可靠性。

相关产品

  • 容器计算服务
  • 容器服务Kubernetes版
  • 推荐镜像

    更多