【最佳实践】如何使用云监控+日志服务快速完成故障发现和故障定位

简介: 今天分享一篇开发小哥哥如何使用云监控和日志服务快速发现故障定位问题的经历。

今天分享一篇开发小哥哥如何使用云监控和日志服务快速发现故障定位问题的经历。

事件起因

小哥哥正在Coding,突然收到云监控报警,说他的API调用RT过高,小哥哥的业务主要为线上服务提供数据查询,RT过高可能会导致大量页面数据空白,这还了得,赶紧查。

排查过程

收到报警后查看指标趋势,发现突然RT突然增高。

image

查看单台机器维度的指标,发现30.239这台机器RT延时非常大。

image

  • 具体机器的RT走势图:

    ![image](https://yqfile.alicdn.com/9822ac214802431b42d1e4e76fc17b5da5d45d4e.png)
  • 查看存储在日志服务的原始数据,查看发生问题时的原始日志,发生某一次请求的rt突然变的很大,之后的rt都变的很大。

    ![image](https://yqfile.alicdn.com/756a7443ab1bb4bcde52570428a8e4a67ef7df6b.png)
    
  • 同时也收到了健康检查发出的30.239机器的业务java进程hang,端口telnet监控不通的报警。
    image

于是去主机监控看这台机器到底出了什么问题。

  • cpu,load,内存都在波动,网络有明显变化,流量暴增,tcp连接数先增先减
    image

image

image

  • 再看进程监控:发现机器上的主要的业务进程-java进程,指标变化异常,
    image

登录服务器后,查看GC日志

发现在事发时,有大量的fullgc。导致进程hang住。出现以上一系列的现象

image

排查结果

故障结果

结合nginx日志和应用gc日志,再结合实际的业务场景,定位到在某一次大查询时,在内存hold住太多数据,导致内存爆掉,系统不断gc,进程hang住,进一步导致系统指标和进程指标的现象。

进一步发现和优化

通过jstat -gcutil pid1000查看,发现是perm区的fullgc非常多。通过jmap−permstatpid (要谨慎,不要线上做),发现google avaiator相关的类很多,想起使用了google的表达式引擎,看代码发现在compile的时候,没有加cache。
image

加上cache发布后,经过几天的观察,查询前端服务器的内存更加平稳,后台5xx的比例也更低。

image

我也想用小哥哥在用的监控!

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
目录
相关文章
|
6月前
|
XML Java API
SpringBoot3.x日志生产最佳实践原来是这样!
SpringBoot3.x日志生产最佳实践原来是这样!
161 0
|
2月前
|
JSON 监控 Java
Java Web开发中的异常处理与日志记录最佳实践
Java Web开发中的异常处理与日志记录最佳实践
|
4月前
|
SQL 存储 监控
使用CloudLens for SLS监控Project资源配额最佳实践
本文主要介绍如何使用CloudLens for SLS中全局错误日志、监控指标做Project 资源配额的水位监控 、超限监控 以及 如何提交资源配额提升申请。
79337 19
使用CloudLens for SLS监控Project资源配额最佳实践
|
5月前
|
JSON 运维 安全
系统日志规范及最佳实践(2)
系统日志规范及最佳实践
100 0
系统日志规范及最佳实践(2)
|
5月前
|
运维 监控 安全
系统日志规范及最佳实践(1)
系统日志规范及最佳实践
275 0
|
7月前
|
JSON 监控 安全
Python日志模块:实战应用与最佳实践
Python日志模块:实战应用与最佳实践
111 0
|
10月前
|
C# 数据库
【C#编程最佳实践 二十】日志与日志级别
【C#编程最佳实践 二十】日志与日志级别
117 0
|
11月前
|
数据采集 运维 监控
带你读《企业级云原生白皮书项目实战》——4.4.4 最佳实践(上)
带你读《企业级云原生白皮书项目实战》——4.4.4 最佳实践(上)
155 0
|
11月前
|
存储 运维 监控
带你读《企业级云原生白皮书项目实战》——4.4.4 最佳实践(下)
带你读《企业级云原生白皮书项目实战》——4.4.4 最佳实践(下)
148 0
|
11月前
|
机器学习/深度学习 SQL 存储
SLS智能巡检最佳实践:针对有异常标签数据
日志服务 SLS 智能异常分析 APP 提供自动化、智能化模型训练能力,可以根据设定的历史数据区间进行监督建模。您可以使用模型训练任务通过监督的方式加强对自身数据的异常学习,来提升未来的异常预警的准确率,模型训练任务主要有以下优势:直接使用SLS的智能巡检功能,准确率不及预期,可以选择使用SLS的模型训练任务,来提升异常检测的准确性智能巡检检测出来的异常和您所认为的异常之间可能存在gap,这种情况
159 0

相关产品

  • 日志服务