用自定义监控实现 GPU 异常状况的检查与报警

liboat 2019-09-10

阿里技术协会 高可用 GPU nvidia 云监控 异常检测 钉钉机器人

应用场景

  • 阿里云的云监控已原生支持 GPU 实例,可参考:云监控实现GPU云服务器的GPU监控和报警
  • 小概率场景中,GPU 卡会处于异常状态( 例如因显存校验失败而暂时不可用),导致 GPU 云监控也不可用;但此时业务系统需要感知异常情况,以便快速隔离、迁移业务,重启服务器等等
  • 当业务高可用标准高、服务器数量大时,对这种小概率场景的自动监测、报警,就变得尤为重要
  • 本文将介绍通过云监控的自定义监控 & OpenApi - PutCustomEvent 来做到对这种小概率事件的自动监测、报警,第一时间精准处理。示例图:
  • 6187ccd18489987cd29d74f89bd746d3.png

实践步骤

在云监控控制台配置自定义监控

创建报警 联系人联系组

  • 2d32b23869313f58beba1c0022b2e321.pngf702f2e14371ff201682b5b4b4083743.png

创建应用分组

  • 应用分组创建后,请记录 GroupId,后续上报自定义事件时会用到。下例中 GroupId 为 10008057
  • 12697a3472d018d8a77fa5f2865e6c27.png60131ccccf3c5ca95be382f8dc7c4391.png

创建事件报警

  • 创建完成后,查看对应
登录 后评论
下一篇
云攻略小攻
2092人浏览
2019-10-21
相关推荐
弹性计算双周刊 第 10 期
6016人浏览
2018-07-25 16:47:36
阿里云配置审计 - 规则篇
3419人浏览
2019-10-14 18:02:25
Nagios 监控
762人浏览
2017-11-07 13:34:00
打造云上深度学习实验室
5293人浏览
2017-07-27 11:30:21
0
0
0
552