一个系统,搞定闲鱼服务端复杂问题告警-定位-快速处理

闲鱼技术 2019-07-24

监控 性能 线程 服务端 数据采集 存储 问题排查 海量数据 问题定位 后端

作者:闲鱼技术-吴白

引言

服务端问题排查(服务稳定性/基础设施异常/业务数据不符合预期等)对于开发而言是家常便饭,问题并不可怕,但是每天都要花大量时间去处理问题会很可怕;另一方面故障的快速解决至关重要。那么目前问题排查最大的障碍是什么呢?我们认为有几个原因导致:
1) 大量的告警信息。
2) 链路的复杂性。
3) 排查过程繁复。
4) 依赖经验。
然而实际工作中的排查过程并非无迹可寻,其排查思路和手段是可以沉淀出一套经验模型。

沉淀路径

下面是我的订单列表的简单抽象,其执行过程是先拿到我买到的订单列表。订单列表中又用到了卖家,商品以及店铺信息服务,每个服务又关联着单次请求中提供服务对应的主机信息。
我的订单列表
以线上常见的服务超时为例,上图中因为127.123.12.12这台机器出现异常导致商品服务超时,进而导致我的订单列表服务超时。根据日常中排查思路可以总结

登录 后评论
下一篇
冒顿单于
11631人浏览
2019-08-28
相关推荐
运维架构服务监控Open-Falcon
1516人浏览
2017-10-13 15:27:00
谈谈互联网后端基础设施
4604人浏览
2016-12-09 11:17:35
互联网后端基础设施
3204人浏览
2018-07-27 23:39:13
0
0
0
10966