SLS新版告警入门-监控OSS访问日志-阿里云开发者社区

SLS新版告警入门-监控OSS访问日志

2021-06-08 886

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

对象存储 OSS，20GB 3个月

对象存储 OSS，恶意文件检测 1000次 1年

对象存储 OSS，内容安全 1000次 1年

简介： 在业务中经常会有波峰波谷的现象，使用同一个监控阈值往往不能满足告警需求；基于SLS，可以使用日环比方式，配置SLS新版告警，来监控PV日环比是否有陡增或陡降，比如陡增10%或者陡降10%，会发出告警；本文以此为背景，来讲解如何配置告警并发出通知。

背景

客户A是一家多媒体类公司，主要产品有短视频App，用户可以在上面发短视频，其他用户可以看到用户发的短视频；客户A使用了阿里云OSS来存储用户产生的短视频；App每天的用户活动具有一定周期性，一般情况下深夜的PV较低，其他时段PV较高。一个典型的pv类似下图。

每天9点-10点之间的PV访问基本持平，如果5号9点-10点的PV是50万，6号9点-10点的PV是51万可以理解为正常波动，如果6号9-10点的PV突然变成了100万或者20万，应该告警出来，以提醒运营或者开发人员可能会出现问题；

本文将以此为背景，配置SLS告警，来监控PV日环比是否有陡增或陡降，如果出现陡增或陡降，比如陡增10%或者陡降10%，发出告警，并发送到钉钉机器人。

主要步骤

设置监控目标，OSS访问日志PV日环比变化
配置告警规则：设置触发告警阈值
设置行动策略：设置告警触发后的通知渠道
接收告警通知

配置告警

查询OSS访问PV昨日环比

如果未接入OSS访问日志，可以使用模拟接入来生成OSS访问日志，参考
接入OSS访问日志后，在查询分析中，输入如下语句

__topic__: oss_access_log and http_status < 400 | select diff[1] as curr, diff[2] as pre, round(diff[3]*100 - 100, 2) as ratio from ( select compare(pv, 86400) as diff from (SELECT count(client_ip) AS PV from log))

compare(列名, N)，用于对比当前时间周期内的结果，与N秒之前的时间周期内的计算结果；列名：目标列的列名。该列的值必须为double类型或long类型。
返回值为数据[当前值,N秒前的值,当前值与N秒前的值的比值]
通过 SELECT count(client_ip) AS PV from log求出当前时间周期（比如5分钟）的pv
通过compare(pv, 86400)求出当前5分钟的pv，与一天前（86400秒）的同时期的5分钟的环比数据
通过select diff[1] as curr, diff[2] as pre, round(diff[3]*100 - 100, 2) as ratio，求出当前5分钟pv（curr）, 昨天同时刻的pv（pre），今天比昨天pv的增加百分比（ratio）
查询结果示例

配置告警规则

在上述查询页面中，点击右上角另存为告警

首次配置（每个用户仅需配置一次）：需要选择告警中心Project的存储位置，告警中心Project中默认有一个internal-alert-center-log的logstore（免费），会存储一些告警的重要日志，还有三个重要报表供查询分析

接下来将对结果中的ratio进行监控，如果超过一定阈值，升高10%或者降低10%，将要发出告警给指定的钉钉机器人。
配置告警规则名，触发条件，和添加标注

触发条件这里设置的是如果PV的环比飙高10%或者降低了10%；【触发条件文档】.
触发条件设置为ratio < (-10) || ratio > 10，（对于负数，加上括号）【语法文档】
标注默认包含标题和描述：在标题和描述中我们可以引用查询结果中的变量curr, pre, ratio；
标注标题：OSS访问PV抖动过大
标题描述：OSS访问PV:${curr}，抖动为${ratio}%，昨天PV:${pre}

新增行动策略

行动策略是指告警触发后，需要执行什么动作，比如可以发送邮件，发送钉钉，调用webhook等；这里以首次配置行动策略为例，来讲如何新增行动策略。

点击新增，会跳转到创建行动策略页面，当前页面不要关闭。

接下来在界面上配置行动策略，填写行动策略ID和行动策略名称，点击行动的小icon(上图红框位置)，添加通知渠道；

这里通知渠道例子使用钉钉机器人来通知，需要事先配置好钉钉机器人，注意钉钉机器人的安全设置，可以启用自定义关键词，填入“告警”；行动组，选择渠道钉钉，请求地址写钉钉机器人的Webhook，内容模板选择默认模板（关于内容模板可以【参考】）

点击结束按钮
会增加一个结束节点

点击确认按钮，即创建好了行动策略

配置行动策略

创建完行动策略，返回告警规则页面，点击告警策略的刷新按钮
点击行动策略的下拉框，选择刚才创建的行动策略

其他保持默认，点击确认按钮，保存告警规则

接收告警通知

等待5分钟，在钉钉中可以收到告警消息，点击查询详情可以跳转到告警执行时刻的日志查询页面，点击屏蔽5分钟可以跳转到告警规则页面。

常见问题

如果想尽快收到告警，可以在配置告警规则步骤中，将检查频率设置为1分钟；触发条件设置为ratio < (-1) || ratio > 1，这样更容易触发告警；
昨日环比用的compare(pv, 86400)，在模拟数据时，可能还没有昨天的数据，这时候可以将对比时间窗口减小，比如使用compare(pv, 120)来表示环比前2分钟的数据；
钉钉机器人未收到告警可以排查是否设置了安全关键词；

至此，一个监控OSS PV昨日环比抖动的告警例子就完成了。这里只是一个简单的告警项目，演示了告警的一些基本功能，SLS告警具有非常强大的功能，新版告警提供对日志、时序等各类数据的告警监控，亦可接受三方告警，对告警进行降噪、事件管理、通知管理等，新增40+功能场景，充分考虑研发、运维、安全以及运营人员的告警监控运维需求。【参考】

进一步参考

SLS（日志服务）云原生观测分析平台：https://www.aliyun.com/product/sls
SLS新版告警文档首页：https://help.aliyun.com/document_detail/207609.html
欢迎扫群加入阿里云-日志服务（SLS）技术交流（集团同学请直接搜索群号11702236加入）, 获得第一手资料与支持
后续系列直播与培训视频会同步到B站，敬请留意

最后，如果您还想了解更多智能运维前沿资讯，欢迎您报名参加【数智创新行·智能运维专场】。

6月25日|上海·西岸国际人工智能中心

数智创新行上海站·智能运维专场

阿里云将带来云原生智能运维解决方案，满足海量事件有效感知、高效响应，可观测数据统一分析、故障定位，以及基于AI的异常检测等需求，助力企业构建自己的运维平台，成为开发、运维人员高效可靠的助手。

扫描海报二维码或点击下方链接报名，期待您一起开启智能运维新时代！

https://www.aliyun.com/page-source//developer/special/osssalon

智能运维专场图片.jpg

SLS新版告警入门-监控OSS访问日志

背景

主要步骤

配置告警

查询OSS访问PV昨日环比

配置告警规则

新增行动策略

配置行动策略

接收告警通知

常见问题

更多参考

进一步参考

云存储

热门文章

最新文章

相关产品

相关课程

相关电子书

相关实验场景