07|监控场景:为什么所有故障都有监控的因素?
白园
你好,我是白园。从这节课开始我们就进入可靠性的第二章——场景实践篇,我会带你学习一些经典的故障案例来把理论应用到实践中。
我经历过的故障里面,绝大部分的故障都有一个优化项,就是需要优化或者补齐监控,虽然监控不是问题的根源,但总有优化的地方。这节课让我们来回顾并分析曾经发生的故障案例,深入了解各个层面的关键监控点和需要注意的事项。
首先,我们分层分析用户请求流程,从顶层的客户端开始,一层层深入到运营商、接入层、服务层、数据层,直至机房。我们会对每一层进行详细分析,确保监控体系能够全面覆盖并有效响应潜在的故障点。
客户端监控
案例简述:2023 年 7 月 27 日小红书故障
7 月 27 日凌晨,部分网友反馈小红书 App 出现闪退问题,官方发布第一个解决办法——卸载重装,官方“劝删”行为引起了部分用户的不满,有网友留言称不敢相信官方解决技术故障问题竟然是让删除 App 重装,也有用户表示按照方法删除重装后依然打不开 App。
案例分析
故障原因:新发版的客户端存在 Bug 导致客户端崩溃,并且在版本发布的小流量阶段并没有及时发现这个问题,然后直接把版本推全,引起了大范围的故障和影响,这里暴露出来一个关键问题。在版本发出的阶段为什么没有及时发现?
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
1. 监控在故障排查和解决中扮演着关键角色,大部分故障都需要优化或补齐监控。 2. 客户端监控应关注客户端性能和客户端与服务端交互,以确保稳定性和响应速度。 3. 运营商监控需要关注用户所在地的运营商和服务IP所在运营商,以保障网络质量和数据传输的效率。 4. 基础平台监控需要及时监控更新和变更,以避免系统故障导致服务异常。 5. 数据层监控需要关注存储服务的可靠性和备份成功率。 6. 机房监控需要关注温度监控和服务器与业务关联监控,以预防硬件故障和保障业务连续性。 7. 机房故障分为突然故障和断电、温度等故障,需要及早发现故障并利用好宝贵的时间窗口。 8. 服务层的故障和监控也是重要的监控领域,需要特别关注。
仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《SRE 实践:服务可靠性案例课》,新⼈⾸单¥59
《SRE 实践:服务可靠性案例课》,新⼈⾸单¥59
立即购买
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
精选留言
由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论