阿里云容器Kubernetes监控(四) - 使用钉钉实现Kubernetes监控告警

本文涉及的产品
容器镜像服务 ACR,镜像仓库100个 不限时长
简介: 前言 容器应用的监控和传统应用的监控有很大的不同,在本系列的前面几篇文章中提到了关于自顶向下的传统监控策略以及在容器中常用的自底向上的反向监控策略与问题以及阿里云是如何通过数据链路与逻辑链路分离的方式解决上述问题的,文章直达连接。

前言

容器应用的监控和传统应用的监控有很大的不同,在本系列的前面几篇文章中提到了关于自顶向下的传统监控策略以及在容器中常用的自底向上的反向监控策略与问题以及阿里云是如何通过数据链路与逻辑链路分离的方式解决上述问题的,文章直达连接

但是基于数据采集的监控对于告警而言,会有很大的时延,特别是对于容器的场景,一旦容器在采集间隔中Panic后被拉起,那么很有可能会造成对异常的告警静默。那么对于这种场景改通过什么方式来解决呢?在传统的应用中是通过接入层检测或者定期检测的方式进行保活,这种方式在Kubernetes中一样也可以通过配置来实现,那么怎么将这些内容通过告警的方式进行通知呢?

在回答这个问题之前,我们首先要先讲一下Kubernetes中的状态机制,在Kubernetes中有针对于不同场景的抽象,例如Deployment表示普通的部署、StatefulSet表示有状态的服务,DaemonSet表示在每个节点运行的后台服务等等,每个不同的抽象都可以通过相应的Yaml语法进行描述,当开发者将Yaml提交给Kubernetes后,相应的变更逻辑就会进行执行。如果此时我们通过Dashboard查看刚才我们不是的Yaml文件时,我们会发现,其中有很多的字段并不是原本就存在的,而是后来通过Kubernetes内部添加上的。例如:

lALPBY0V49ZFXNrNAzjNBQ8_1295_824_png_620x10000q90g

值得特别关注的是status这个字段,这个字段中包含了当前抽象的各种状态,以及目前预置的支持的状态条件。如果状态条件的status字段为True,那么说明此时处在当前的状态。例如此例中,这个Deployment就处在AvailableProgressing两个状态。这种机制有一个非常好的用途,当我们发现当前抽象异常的时候,可以通过查看status的内容来判断大致的问题进而进行解决。

有了这个机制,我们还需要的就是如何快速感知到状态的异常并进行处理。在Kubernetes中针对这个问题,提供了事件的机制,将事件和抽象进行绑定,将状态对应的影响和事件的类型进行分类,比如常规事件的类型是Normal而异常类型的事件为Warning。也就是说,一旦集群中出现了Warning类型的事件,那么此时就需要开发者接入进行甄别是否需要手动介入进行处理。

那么如何实时的获取集群中的异常事件呢?对于这种实时性较强的告警策略而言,ChatOps或许是最佳的方式,大部分阿里云容器服务的开发者都会有自己的钉钉群,将事件同步到群中即可实现故障的快速处理。

具体的操作步骤如下:

1.在钉钉群中加入钉钉机器人,并拷贝记录下webhook地址
lALPBY0V49ZGuhjNAm3NA74_958_621_png_620x10000q90g
lALPBY0V49ZGujbNAh_NAqE_673_543_png_620x10000q90g

2.在容器服务控制台中下发eventer组件

apiVersion: extensions/v1beta1
kind: Deployment
metadata:
  name: kube-eventer
  namespace: kube-system
spec:
  replicas: 1
  template:
    metadata:
      labels:
        task: monitoring
        k8s-app: kube-eventer
      annotations:
        scheduler.alpha.kubernetes.io/critical-pod: ''
    spec:
      serviceAccount: admin
      containers:
      - name: kube-eventer
        image: registry.cn-hangzhou.aliyuncs.com/acs/kube-eventer-amd64:v1.0.0-d9898e1-aliyun
        imagePullPolicy: IfNotPresent
        command:
        - /kube-eventer
        - --source=kubernetes:https://kubernetes.default
        - --sink=dingtalk:[your_webhook_url]&label=[your_cluster_id]&level=[可选参数:Normal或者Warning,默认值为:Warning]

3.部署成功后30s,eventer即开始生效,当事件等级超过阈值等级的时候即可收到如下告警。
lALPBY0V49ZHdYLNAlvNAoo_650_603_png_620x10000q90g

最后

由于eventer属于kubernetes的Heapster项目,Heapster项目目前被官方列入deprecated阶段,但是这并不妨碍eventer成为Kubernetes实时告警中的唯一选择,包含钉钉告警的代码仓库地址:https://github.com/AliyunContainerService/heapster,有兴趣的开发者可以一同参与。

相关实践学习
容器服务Serverless版ACK Serverless 快速入门:在线魔方应用部署和监控
通过本实验,您将了解到容器服务Serverless版ACK Serverless 的基本产品能力,即可以实现快速部署一个在线魔方应用,并借助阿里云容器服务成熟的产品生态,实现在线应用的企业级监控,提升应用稳定性。
云原生实践公开课
课程大纲 开篇:如何学习并实践云原生技术 基础篇: 5 步上手 Kubernetes 进阶篇:生产环境下的 K8s 实践 相关的阿里云产品:容器服务 ACK 容器服务 Kubernetes 版(简称 ACK)提供高性能可伸缩的容器应用管理能力,支持企业级容器化应用的全生命周期管理。整合阿里云虚拟化、存储、网络和安全能力,打造云端最佳容器化应用运行环境。 了解产品详情: https://www.aliyun.com/product/kubernetes
目录
相关文章
|
9天前
|
存储 运维 Kubernetes
Kubernetes 集群的监控与维护策略
【4月更文挑战第23天】 在微服务架构日益盛行的当下,容器编排工具如 Kubernetes 成为了运维工作的重要环节。然而,随着集群规模的增长和复杂性的提升,如何确保 Kubernetes 集群的高效稳定运行成为了一大挑战。本文将深入探讨 Kubernetes 集群的监控要点、常见问题及解决方案,并提出一系列切实可行的维护策略,旨在帮助运维人员有效管理和维护 Kubernetes 环境,保障服务的持续可用性和性能优化。
|
12天前
|
Kubernetes 调度 Docker
深入探讨容器编排技术:从Docker到Kubernetes
容器编排在现代IT中日益关键,从Docker到Kubernetes,助力应用的自动化部署和扩展。Docker提供容器技术,打包应用及环境为镜像,通过引擎、镜像、容器、网络和存储组件实现隔离运行。Kubernetes作为高级容器编排平台,管理Pod(多容器集合),其核心包括API服务器、控制器管理器、调度器和Kubelet。Kubernetes集群由Master和Worker节点构成,实现Pod的高效调度和运行。
36 6
|
5天前
|
存储 Kubernetes C++
【专栏】Kubernetes VS Docker Swarm:哪个容器编排工具更适合你?
【4月更文挑战第27天】对比Kubernetes和Docker Swarm:K8s在可扩展性和自动化方面出色,有强大社区支持;Swarm以简易用著称,适合初学者。选择取决于项目需求、团队技能和预期收益。高度复杂项目推荐Kubernetes,快速上手小项目则选Docker Swarm。了解两者特点,助力选取合适容器编排工具。
|
2天前
|
Prometheus 监控 Kubernetes
Kubernetes 集群的监控与日志管理策略
【4月更文挑战第30天】 在微服务架构日益普及的当下,容器化技术与编排工具如Kubernetes成为了运维领域的重要话题。有效的监控和日志管理对于保障系统的高可用性和故障快速定位至关重要。本文将探讨在Kubernetes环境中实施监控和日志管理的最佳实践,包括选用合适的工具、部署策略以及如何整合这些工具来提供端到端的可见性。我们将重点讨论Prometheus监控解决方案和EFK(Elasticsearch, Fluentd, Kibana)日志管理堆栈,分析其在Kubernetes集群中的应用,并给出优化建议。
|
8天前
|
运维 Kubernetes Linux
10分钟搭建Kubernetes容器集群平台(kubeadm)
10分钟搭建Kubernetes容器集群平台(kubeadm)
|
8天前
|
Kubernetes Ubuntu Linux
Kubernetes(K8S)集群管理Docker容器(部署篇)
Kubernetes(K8S)集群管理Docker容器(部署篇)
|
8天前
|
存储 Kubernetes Docker
Kubernetes(K8S)集群管理Docker容器(概念篇)
Kubernetes(K8S)集群管理Docker容器(概念篇)
|
8天前
|
Kubernetes Ubuntu Docker
Kubernetes(K8S v1.1版本) 集群管理Docker容器之部署篇
Kubernetes(K8S v1.1版本) 集群管理Docker容器之部署篇
|
3天前
|
域名解析 弹性计算 Linux
阿里云购买云服务器、注册域名、备案及绑定图文教程参考
本文为大家介绍了2024年购买阿里云服务器和注册域名,绑定以及备案的教程,适合需要在阿里云购买云服务器、注册域名并备案的用户参考,新手用户可通过此文您了解在从购买云服务器到完成备案的流程。
阿里云购买云服务器、注册域名、备案及绑定图文教程参考
|
1天前
|
存储 弹性计算 固态存储
阿里云服务器CPU内存配置详细指南,如何选择合适云服务器配置?
阿里云服务器配置选择涉及CPU、内存、公网带宽和磁盘。个人开发者或中小企业推荐使用轻量应用服务器或ECS经济型e实例,如2核2G3M配置,适合低流量网站。企业用户则应选择企业级独享型ECS,如通用算力型u1、计算型c7或通用型g7,至少2核4G配置,公网带宽建议5M,系统盘可选SSD或ESSD云盘。选择时考虑实际应用需求和性能稳定性。

相关产品

  • 容器服务Kubernetes版
  • 推荐镜像

    更多