kubernetes集群问题排查

简介: 本文CSDN博客地址:http://blog.csdn.net/huwh_/article/details/71308301 1. 查看系统Event事件 [plain] view plain copy kubectl describe pod  --namespace=   该命令可以显示Pod创建时的配置定义、状态等信息和最近的Event事件,事件信息可用于排错。

版权声明:本文为博主原创文章,未经博主允许不得转载。如需转载请联系本人,并标明出处和作者。

本文CSDN博客地址:http://blog.csdn.net/huwh_/article/details/71308301


1. 查看系统Event事件

[plain]  view plain  copy
  1. kubectl describe pod <PodName> --namespace=<NAMESPACE>  

该命令可以显示Pod创建时的配置定义、状态等信息和最近的Event事件,事件信息可用于排错。例如当Pod状态为Pending,可通过查看Event事件确认原因,一般原因有几种:

  • 没有可用的Node可调度
  • 开启了资源配额管理并且当前Pod的目标节点上恰好没有可用的资源
  • 正在下载镜像(镜像拉取耗时太久)

kubectl describe还可以查看其它k8s对象:NODE,RC,Service,Namespace,Secrets。

1.1. Pod

kubectl describe pod <PodName> --namespace=<NAMESPACE>

1.2. NODE

kubectl describe NODE

[plain]  view plain  copy
  1. Name:           runtime2.foshan2.wae.haplat.net  
  2. Labels:         kubernetes.io/hostname=runtime2.foshan2.wae.haplat.net,namespace/test=true  
  3. CreationTimestamp:  Fri, 01 Apr 2016 17:34:16 +0800  
  4. Phase:  
  5. Conditions:  
  6.   Type      Status  LastHeartbeatTime           LastTransitionTime          Reason              Message  
  7.   ────      ──────  ─────────────────           ──────────────────          ──────              ───────  
  8.   Ready     True    Sat, 08 Apr 2017 14:15:41 +0800     Sun, 26 Mar 2017 08:58:04 +0800     KubeletReady            kubelet is posting ready status  
  9.   OutOfDisk     False   Sat, 08 Apr 2017 14:15:41 +0800     Fri, 01 Apr 2016 17:34:16 +0800     KubeletHasSufficientDisk    kubelet hassufficient disk space available  
  10. Addresses:  221.5.100.100,221.5.100.100  
  11. Capacity:  
  12.  memory:    134975102976  
  13.  pods:      40  
  14.  cpu:       32  
  15. System Info:  
  16.  Machine ID:            120de474f77e4d75a670a74eea6d1e45  
  17.  System UUID:           1C929431-8D94-11E1-BD1D-001E6744D094  
  18.  Boot ID:           2a154beb-86e4-40e3-acce-4f83b1ea5ed2  
  19.  Kernel Version:        3.10.0-229.20.1.el7.x86_64  
  20.  OS Image:          CentOS Linux 7 (Core)  
  21.  Container Runtime Version: docker://1.8.2-el7.centos  
  22.  Kubelet Version:       v1.1.1-wae2-12  
  23.  Kube-Proxy Version:        v1.1.1-wae2-12  
  24. ExternalID:         runtime2.foshan2.wae.haplat.net  
  25. Non-terminated Pods:        (6 in total)  
  26.   Namespace         Name                    CPU Requests    CPU Limits  Memory Requests     Memory Limits  
  27.   ─────────         ────                    ────────────    ──────────  ───────────────     ─────────────  
  28.   acp               acp-ui-1-4-0-16j3a          4 (12%)     4 (12%)     8589934592 (6%)     8589934592 (6%)  
  29.   acp               acp-ui-1-4-1-kou20          4 (12%)     4 (12%)     8589934592 (6%)     8589934592 (6%)  
  30.   acp               acp-ui-api-1-4-0-u3w4f          4 (12%)     4 (12%)     8589934592 (6%)     8589934592 (6%)  
  31.   cloud-eye         cloud-eye-dim2-1-6-6-1-9g16i        4 (12%)     4 (12%)     34359738368 (25%)   34359738368 (25%)  
  32.   cloud-wst         cloud-wst-ceba-1-12-0-1-hjdk2       2 (6%)      2 (6%)      8589934592 (6%)     8589934592 (6%)  
  33.   cms-fd            cms-fd-schedule-3-9-1-3-wzqa1       8 (25%)     8 (25%)     21474836480 (15%)   21474836480 (15%)  
  34. Allocated resources:  
  35.   (Total limits may be over 100%, i.e., overcommitted. More info: http://releases.k8s.io/HEAD/docs/user-guide/compute-resources.md)  
  36.   CPU Requests  CPU Limits  Memory Requests     Memory Limits  
  37.   ────────────  ──────────  ───────────────     ─────────────  
  38.   26 (81%)  26 (81%)    90194313216 (66%)   90194313216 (66%)  
  39. No events.  

1.3. RC

kubectl describe rc --namespace=rmp

 
[plain]  view plain  copy
  1. [root@node5 ~]# kubectl describe rc --namespace=rmp  
  2. Name:       rmp-web-2-15-3-1  
  3. Namespace:  rmp  
  4. Image(s):   registry.wae.haplat.net/rmp/rmp-web:2.15.3-1  
  5. Selector:   app=rmp-web,appVersion=2.15.3-1  
  6. Labels:     app=rmp-web,appVersion=2.15.3-1,env=product,zone=foshan2  
  7. Replicas:   1 current / 1 desired  
  8. Pods Status:    1 Running / 0 Waiting / 0 Succeeded / 0 Failed  
  9. No volumes.  
  10. No events.  

1.4. NAMESPACE

kubectl describe NAMESPACE

[plain]  view plain  copy
  1. [root@node5 ~]# kubectl describe NAMESPACE  
  2. Name:   acp  
  3. Labels: <none>  
  4. Status: Active  
  5. Resource Quotas  
  6.  Resource       Used        Hard  
  7.  ---            ---     ---  
  8.  cpu            24      20  
  9.  memory         51539607552 53687091200  
  10.  persistentvolumeclaims 0       10  
  11.  pods           6       10  
  12.  replicationcontrollers 6       10  
  13.  resourcequotas     1       1  
  14.  secrets        2       10  
  15.  services       6       10  
  16. No resource limits.  

1.5. Service

kubectl describe Service --namespace=rmp

 
[plain]  view plain  copy
  1. [root@node5 ~]# kubectl describe Service --namespace=rmp  
  2. Name:           rmp-web-2-15-3-1  
  3. Namespace:      rmp  
  4. Labels:         app=rmp-web,appVersion=2.15.3-1,waeEnv=product,waeZone=foshan2  
  5. Selector:       app=rmp-web,appVersion=2.15.3-1  
  6. Type:           ClusterIP  
  7. IP:         10.254.201.163  
  8. Port:           port-l7-tcp-80  80/TCP  
  9. Endpoints:      10.0.68.240:80  
  10. Session Affinity:   None  
  11. No events.  

2. 查看容器日志

1、查看指定pod的日志

kubectl logs <pod_name>

kubectl logs -f <pod_name> #类似tail -f的方式查看

2、查看上一个pod的日志

kubectl logs -p <pod_name>

3、查看指定pod中指定容器的日志

kubectl logs <pod_name> -c <container_name>

[root@node5 ~] # kubectl logs --help
Print the logs  for  a container  in  a pod. If the pod has only one container, the container name is optional.
Usage:
   kubectl logs [-f] [-p] POD [-c CONTAINER] [flags]
Aliases:
   logs, log
 
Examples:
# Return snapshot logs from pod nginx with only one container
$ kubectl logs nginx
# Return snapshot of previous terminated ruby container logs from pod web-1
$ kubectl logs -p -c ruby web-1
# Begin streaming the logs of the ruby container in pod web-1
$ kubectl logs -f -c ruby web-1
# Display only the most recent 20 lines of output in pod nginx
$ kubectl logs -- tail =20 nginx
# Show all logs from pod nginx written in the last hour
$ kubectl logs --since=1h nginx

3. 查看k8s服务日志

3.1. journalctl

Linux系统上systemd系统来管理kubernetes服务,并且journal系统会接管服务程序的输出日志,可以通过systemctl status <xxx>或journalctl -u <xxx> -f来查看kubernetes服务的日志。

其中kubernetes组件包括:

kube-apiserver    
kube-controller-manager Pod扩容相关或RC相关  
kube-scheduler Pod扩容相关或RC相关  
kubelet Pod生命周期相关:创建、停止等  
etcd    

3.2. 日志文件

也可以通过指定日志存放目录来保存和查看日志

  • --logtostderr=false:不输出到stderr
  • --log-dir=/var/log/kubernetes:日志的存放目录
  • --alsologtostderr=false:设置为true表示日志输出到文件也输出到stderr
  • --v=0:glog的日志级别
  • --vmodule=gfs*=2,test*=4:glog基于模块的详细日志级别

4. 常见问题

4.1. Pod状态一直为Pending

kubectl describe <pod_name> --namespace=<NAMESPACE>

查看该POD的事件。

  • 正在下载镜像但拉取不下来(镜像拉取耗时太久)[一般都是该原因]
  • 没有可用的Node可调度
  • 开启了资源配额管理并且当前Pod的目标节点上恰好没有可用的资源

解决方法:

  1. 查看该POD所在宿主机与镜像仓库之间的网络是否有问题,可以手动拉取镜像
  2. 删除POD实例,让POD调度到别的宿主机上

4.2. Pod创建后不断重启

kubectl get pods中Pod状态一会running,一会不是,且RESTARTS次数不断增加。

一般原因为容器启动命令不是阻塞式命令,导致容器运行后马上退出。

非阻塞式命令:

  • 本身CMD指定的命令就是非阻塞式命令
  • 将服务启动方式设置为后台运行

解决方法:

1、将命令改为阻塞式命令(前台运行),例如:zkServer.sh start-foreground

2、Java运行程序的启动脚本将 nohup xxx &的nobup和&去掉,例如:

nohup $JAVA_HOME/bin/java $JAVA_OPTS -cp $CLASSPATH com.cnc.open.processor.Main &

改为:

$JAVA_HOME/bin/java $JAVA_OPTS -cp $CLASSPATH com.cnc.open.processor.Main


文章参考:

《Kubernetes权威指南》

相关实践学习
容器服务Serverless版ACK Serverless 快速入门:在线魔方应用部署和监控
通过本实验,您将了解到容器服务Serverless版ACK Serverless 的基本产品能力,即可以实现快速部署一个在线魔方应用,并借助阿里云容器服务成熟的产品生态,实现在线应用的企业级监控,提升应用稳定性。
云原生实践公开课
课程大纲 开篇:如何学习并实践云原生技术 基础篇: 5 步上手 Kubernetes 进阶篇:生产环境下的 K8s 实践 相关的阿里云产品:容器服务&nbsp;ACK 容器服务&nbsp;Kubernetes&nbsp;版(简称&nbsp;ACK)提供高性能可伸缩的容器应用管理能力,支持企业级容器化应用的全生命周期管理。整合阿里云虚拟化、存储、网络和安全能力,打造云端最佳容器化应用运行环境。 了解产品详情:&nbsp;https://www.aliyun.com/product/kubernetes
目录
相关文章
|
4天前
|
存储 运维 监控
Kubernetes 集群监控与日志管理实践
【5月更文挑战第28天】在微服务架构日益普及的当下,容器编排工具如 Kubernetes 已成为运维工作的核心。有效的集群监控和日志管理是确保系统稳定性和服务可靠性的关键。本文将深入探讨 Kubernetes 集群的监控策略,以及如何利用现有的工具进行日志收集、存储和分析,以实现对集群健康状况的实时掌握和问题快速定位。
|
5天前
|
存储 监控 Kubernetes
Kubernetes 集群监控与日志管理实践
【5月更文挑战第27天】 在微服务架构日益普及的当下,容器化技术与编排工具如Kubernetes已成为现代云原生应用的基石。然而,随着集群规模的不断扩大和复杂性的增加,如何有效监控和管理这些动态变化的服务成为了维护系统稳定性的关键。本文将深入探讨Kubernetes环境下的监控策略和日志管理的最佳实践,旨在为运维人员提供一套系统的解决思路,确保应用性能的最优化和问题的快速定位。
|
1天前
|
运维 Kubernetes 调度
【kubernetes】关于k8s集群的污点、容忍、驱逐以及k8s集群故障排查思路
【kubernetes】关于k8s集群的污点、容忍、驱逐以及k8s集群故障排查思路
|
1天前
|
Kubernetes 微服务 容器
Aspire项目发布到win11本地k8s集群
Aspire项目发布到win11本地k8s集群
4 0
Aspire项目发布到win11本地k8s集群
|
2天前
|
运维 Prometheus 监控
Kubernetes 集群的监控与维护策略
【5月更文挑战第30天】 在微服务架构日益普及的背景下,容器编排工具如Kubernetes成为确保服务高效运行的关键。本文聚焦于Kubernetes集群的监控和维护,首先探讨了监控系统的重要性及其对集群健康的影响,随后详细介绍了一套综合监控策略,包括节点性能监控、应用服务质量跟踪以及日志管理等方面。此外,文章还提出了一系列实用的集群维护技巧和最佳实践,旨在帮助运维人员预防故障发生,快速定位问题,并确保集群长期稳定运行。
|
2天前
|
Prometheus 监控 Kubernetes
Kubernetes 集群的监控与日志管理实践深入理解PHP的命名空间与自动加载机制
【5月更文挑战第30天】 在容器化和微服务架构日益普及的背景下,Kubernetes 已成为众多企业的首选容器编排工具。然而,随之而来的挑战是集群的监控与日志管理。本文将深入探讨 Kubernetes 集群监控的最佳实践,包括节点资源使用情况、Pods 健康状态以及网络流量分析等关键指标的监控方法。同时,我们也将讨论日志聚合、存储和查询策略,以确保快速定位问题并优化系统性能。文中将介绍常用的开源工具如 Prometheus 和 Fluentd,并分享如何结合这些工具构建高效、可靠的监控和日志管理系统。
|
2天前
|
Prometheus 监控 Kubernetes
Kubernetes 集群的监控与维护最佳实践
【5月更文挑战第30天】 在现代云计算环境中,容器编排工具如Kubernetes已成为部署和管理微服务的关键。随着其日益广泛的应用,对集群进行有效的监控和维护显得尤为重要。本文将深入探讨Kubernetes集群监控的策略,并分享维护的最佳实践,以确保系统的稳定性和性能优化。我们将从监控工具的选择、关键指标的跟踪到故障排除流程等方面进行详细阐述,并提供实用的操作建议。
|
2天前
|
存储 运维 Kubernetes
Kubernetes 集群的持续性能优化策略
【5月更文挑战第30天】 在动态且日益复杂的云计算环境中,保持 Kubernetes 集群的高性能和稳定性是一个持续的挑战。本文将探讨一系列实用的性能优化策略,旨在帮助运维专家识别并解决可能影响集群性能的问题。我们将从节点资源配置、网络优化、存储管理以及集群监控等方面入手,提供一系列经过实践检验的调优技巧,并分享最佳实践案例。这些策略不仅有助于提升现有集群的性能,也为规划新的 Kubernetes 部署提供了参考依据。
|
2天前
|
运维 Kubernetes 监控
Kubernetes 集群的持续性能优化实践
【5月更文挑战第30天】 在动态且日益复杂的云原生环境中,维持 Kubernetes 集群的高性能运行是一个持续的挑战。本文将探讨一系列针对性能监控、问题定位及优化措施的实践方法,旨在帮助运维专家确保其 Kubernetes 环境能够高效、稳定地服务于不断变化的业务需求。通过深入分析系统瓶颈,我们不仅提供即时的性能提升方案,同时给出长期维护的策略建议,确保集群性能的可持续性。
|
3天前
|
存储 Kubernetes 监控
Kubernetes 集群的持续性能优化实践
【5月更文挑战第29天】 在动态且复杂的微服务架构中,确保应用性能的稳定性与可预测性是一大挑战。本文将探讨一系列针对 Kubernetes 集群的持续性能优化策略,涵盖监控、资源管理、调度优化和网络效率等方面。通过分析真实案例并结合最新的运维实践,我们旨在提供一套系统化的性能调优框架,帮助运维工程师有效识别瓶颈,实施优化措施,并持续追踪改进效果,从而推动企业应用向更高效、稳定的方向发展。