使用云监控实现GPU云服务器的GPU监控和报警(下)-云监控插件监控

本文涉及的产品
云服务器 ECS,每月免费额度200元 3个月
云服务器ECS,u1 2核4GB 1个月
简介: 目录 使用云监控实现GPU云服务器的GPU监控和报警(上) - 自定义监控 使用云监控实现GPU云服务器的GPU监控和报警(下)-云监控插件监控 1     背景 上一篇文章我们介绍了如何使用阿里云云监控服务提供的自定义监控功能,利用自定义监控提供的API或者SDK,通过自定义脚本可以将GP.

目录

使用云监控实现GPU云服务器的GPU监控和报警(上) - 自定义监控

使用云监控实现GPU云服务器的GPU监控和报警(下)- 云监控插件监控

1     背景

上一篇文章我们介绍了如何使用阿里云云监控服务提供的自定义监控功能,利用自定义监控提供的API或者SDK,通过自定义脚本可以将GPU云主机内采集的GPU数据上报,在云监控控制台上添加相应的GPU监控项,就可以实现对指定GPU实例内指定GPU的相应数据进行监控,对相应监控项设置相应数据的报警规则,就能实现监控数据的自动报警。

         但是自定义监控的采集脚本需要用户自己实现,并且云监控控制台上自定义监控的展示维度也很有限,只能查看指定VM指定GPU的某个数据。

         通过使用阿里云提供的云监控插件,可以一键安装就实现GPU指标的采集和上报,同时展示维度上可以与目前的ECS一样获得更多维度的展示,比如Dashborad监控大盘,可以监控集群级别的GPU指标,主机监控则可以在一个页面显示该实例所有GPU的所有监控指标。

本文将会详细介绍如何通过安装云监控插件来实现更全面、更易用的GPU云监控和报警。

2     云监控Agent安装

云监控插件从1.2.28版本开始支持GPU数据的采集。云监控Agent(即云监控插件)的安装可以参考云监控官方使用文档:云监控Agent安装。同时支持Linux和Window操作系统。

也可以在云监控控制台主机监控部分一键点击安装最新的云监控插件,并查看云监控插件的版本,如下图:

3     如何在云监控控制台查询GPU监控数据

目前只有GPU计算型实例支持GPU云监控,实例必须要安装GPU驱动和云监控插件的1.2.28以上版本,即可在主机监控查看GPU相关监控数据、配置报警规则,或在Dashboard中配置监控图表。

3.1   主机监控

在云监控控制台中进入主机监控,进入需要查看监控数据的实例,点击GPU监控标签页,就可以看到该实例所有GPU的GPU使用率、编码器/解码器使用率、显存使用量、GPU功率、GPU温度等监控数据。

3.2   Dashboard中自定义监控大盘

可以在云监控控制台Dashboard中创建自定义GPU监控大盘,以多种图表类型大盘展示分别分组、实例、GPU维度的各个GPU指标。

3.2.1   折线图

下图是以折线图形式展示特定分组的实例维度GPU显存使用量的平均值,可以一目了然的查看相关实例的显存使用量波动情况。

下图是以折线图形式展示特定分组的分组维度GPU温度的平均值,可以一目了然的查看指定分组相关实例的GPU温度波动情况。

3.2.2   TopN表格

下图是以TopN表格形式展示实例维度GPU温度的最大值,并以倒序方式展示,可以一目了然的查看用户账号下所有GPU实例的实时温度情况,并确定GPU温度最高的实例。

下图是以TopN表格形式展示实例维度GPU功率的平均,并以倒序方式展示,可以一目了然的查看用户账号下所有GPU实例的实时功率情况,并确定GPU功率最高的实例。

TopN表格形式同样能非常方便的查看各个实例的GPU利用率和编码器/解码器利用率以及显存使用情况,从而判断业务运行是否正常,以及判断资源利用是否充分。

4     如何设置报警规则

新增的GPU监控项添加报警规则方式同ECS的其他指标一样,可以针对某一特定指标设置报警规则,如下图:

推荐通过创建模板后将模板应用于分组的方式批量添加GPU报警。查看报警模板最佳实践

5     监控项说明

GPU相关监控指标提供3个维度的数据

5.1   GPU维度监控项

GPU维度的指标,采集每个GPU层面的监控数据。

MetricName

单位

名称

dimensions

gpu_memory_freespace

Bytes

GPU维度显存空闲量

instanceId,gpuId

gpu_memory_totalspace

Bytes

GPU维度显存总量

instanceId,gpuId

gpu_memory_usedspace

Bytes

GPU维度显存使用量

instanceId,gpuId

gpu_gpu_usedutilization

%

GPU维度GPU使用率

instanceId,gpuId

gpu_encoder_utilization

%

GPU维度编码器使用率

instanceId,gpuId

gpu_decoder_utilization

%

GPU维度解码器使用率

instanceId,gpuId

gpu_gpu_temperature

℃ 

GPU维度GPU温度

instanceId,gpuId

gpu_power_readings_power_draw

W

GPU维度GPU功率

instanceId,gpuId

gpu_memory_freeutilization

%

GPU维度显存空闲率

instanceId,gpuId

gpu_memory_useutilization

%

GPU维度显存使用率

instanceId,gpuId

5.2   实例维度监控项

实例维度指标对单个ECS实例上的多个GPU监控数据做最大值、最小值、平均值的聚合。便于查看实例层面的整体使用情况。

MetricName

单位

名称

dimensions

instance_gpu_decoder_utilization

%

实例维度GPU解码器使用率

instanceId

instance_gpu_encoder_utilization

%

实例维度GPU编码器使用率

instanceId

instance_gpu_gpu_temperature

℃ 

实例维度GPU温度

instanceId

instance_gpu_gpu_usedutilization

%

实例维度GPU使用率

instanceId

instance_gpu_memory_freespace

Bytes

实例维度GPU显存空闲量

instanceId

instance_gpu_memory_freeutilization

%

实例维度GPU显存空闲率

instanceId

instance_gpu_memory_totalspace

Bytes

实例维度GPU显存总量

instanceId

instance_gpu_memory_usedspace

Bytes

实例维度GPU显存使用量

instanceId

instance_gpu_memory_usedutilization

%

实例维度GPU显存使用率

instanceId

instance_gpu_power_readings_power_draw

W

实例维度GPU功率

instanceId

5.3   分组维度监控项

分组维度指标对单个应用分组里的多个ECS 实例的监控数据做最大值、最小值、平均值的聚合。便于查看集群层面的整体使用情况。

MetricName

单位

名称

dimensions

group_gpu_decoder_utilization

%

分组维度GPU解码器使用率

groupId

group_gpu_encoder_utilization

%

分组维度GPU编码器使用率

groupId

group_gpu_gpu_temperature

  分组维度GPU温度

groupId

group_gpu_gpu_usedutilization

%

分组维度GPU使用率

groupId

group_gpu_memory_freespace

Bytes

分组维度GPU显存空闲量

groupId

group_gpu_memory_freeutilization

%

分组维度GPU显存空闲率

groupId

group_gpu_memory_totalspace

Bytes

分组维度GPU显存总量

groupId

group_gpu_memory_usedspace

Bytes

分组维度GPU显存使用量

groupId

group_gpu_memory_usedutilization

%

分组维度GPU显存使用率

groupId

group_gpu_power_readings_power_draw

W

分组维度GPU功率

groupId

6     如何通过OpenAPI查询GPU监控数据

可以使用OpenAPI来查询GPU监控数据。参考文档:https://help.aliyun.com/document_detail/51936.html

参数说明:Project=acs_ecs_dashboard,Metric及Dimensions参考上述监控项表格中的GPU指标。

相关实践学习
RocketMQ监控/告警一站式搭建应用
RocketMQ监控/告警一站式搭建演示
目录
相关文章
|
23天前
|
存储 监控 异构计算
【Python】GPU内存监控脚本
【Python】GPU内存监控脚本
|
1月前
|
存储 机器学习/深度学习 并行计算
阿里云服务器X86计算、Arm计算、GPU/FPGA/ASIC、高性能计算架构区别
在我们选购阿里云服务器的时候,云服务器架构有X86计算、ARM计算、GPU/FPGA/ASIC、弹性裸金属服务器、高性能计算可选,有的用户并不清楚他们之间有何区别,本文主要简单介绍下不同类型的云服务器有何不同,主要特点及适用场景有哪些。
阿里云服务器X86计算、Arm计算、GPU/FPGA/ASIC、高性能计算架构区别
|
1月前
|
机器学习/深度学习 存储 弹性计算
阿里云GPU服务器价格多少钱?2024年阿里云GPU服务器价格配置及性能测评
2024年阿里云GPU服务器是一款高性能的计算服务器,基于GPU应用的计算服务,多适用于视频解码、图形渲染、深度学习、科学计算等应用场景。阿里云GPU服务器具有超强的计算能力、网络性能出色、购买方式灵活、高性能实例存储等特点。 阿里云提供了多种配置的GPU服务器,包括gn6v、gn6i、vgn6i-vws和gn6e等,这些服务器配备了不同型号的GPU计算卡、不同规格的内存和存储空间,可以满足不同用户的计算需求。同时,阿里云还为新用户提供了特惠价格,包年购买更是低至3折起,使得用户可以更加经济地购买到高性能的GPU服务器。
157 0
|
2月前
|
弹性计算 大数据 测试技术
2024年阿里云服务器价格配置表汇总(轻量服务器、ECS服务器、游戏服务器、GPU服务器)
今天整理了阿里云服务器价格,包含了阿里云轻量应用服务器、阿里云ECS云服务器、阿里云游戏服务器、阿里云GPU云服务器。阿里云服务器租用费用,云服务器ECS经济型e实例2核2G、3M固定带宽99元一年、ECS u1实例2核4G、5M固定带宽、80G ESSD Entry盘优惠价格199元一年,轻量应用服务器2核2G3M带宽轻量服务器一年61元、2核4G4M带宽轻量服务器一年165元12个月、2核4G服务器30元3个月,幻兽帕鲁4核16G和8核32G服务器配置,云服务器ECS可以选择经济型e实例、通用算力u1实例、ECS计算型c7、通用型g7、c8i、g8i等企业级实例规格。
205 0
|
6月前
|
弹性计算 人工智能 自然语言处理
GPU实验室-通过GPU云服务器生成AI视频
自多态模型GPT-4发布后,AIGC(AI Generated Content,AI生成内容)时代正扑面而来,从单一的文字文本,演化到更丰富的图片、视频、音频、3D模型等。本文基于阿里云GPU服务器和文本生成视频模型,采用Unet3D结构,通过从纯高斯噪声视频中,迭代去噪的过程,实现文本生成视频功能。
|
3月前
|
异构计算 Python
GPU服务器:使用Colab
GPU服务器:使用Colab
89 1
|
4月前
|
机器学习/深度学习 存储 人工智能
南通阿里云代理商:阿里云GPU服务器GA1
@luotuoemo 飞机@TG 【聚搜云】服务器运维专家! 阿里云GPU服务器GA1是一款基于GPU架构的高性能计算机,它能够用于各种科学计算、人工智能、深度学习等应用程序。它不仅支持最新的NVIDIA GPU,还采用了最新的英特尔处理器和千兆以太网网络。
|
4月前
|
机器学习/深度学习 人工智能 运维
阿里云国际站:阿里云GPU计算型云服务器
简介:@luotuoemo 飞机@TG 【聚搜云】服务器运维专家! 提供便捷的管理工具,用户可以通过阿里云控制台轻松管理云服务器。如何使用阿里云GPU计算型云服务器使用阿里云GPU计算型云服务器,需要以下步骤:
|
4月前
|
编解码 监控 调度
GPU实例使用--vGPU资源利用率的提升、监控与告警的实现
随着AI计算及云游戏为代表的图形渲染业务的飞速发展,越来越多的企业和个人开始使用GPU实例。同时,由于GPU算力资源成本较高,对于负载相对较小的业务,客户会更倾向于选择使用1/2或者1/4甚至更小的vGPU实例来运行其业务,vGPU技术随之得以迅速发展。
|
6月前
|
存储 弹性计算 虚拟化
阿里云gpu云服务器价格参考,gpu云服务器最新收费标准与活动价格
阿里云gpu云服务器价格是多少?阿里云的云服务器和gpu云服务器对用户都是有活动的,只是不同时期由于政策不一样,所以活动价格会不一样,收费标准也会随时调整。下面小编来说下阿里云gpu云服务器的最新收费标准与活动价格情况。
阿里云gpu云服务器价格参考,gpu云服务器最新收费标准与活动价格