SRE 实践:服务可靠性案例课
白园
前百度资深运维专家,前快手资深 SRE 专家
27 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
SRE 实践:服务可靠性案例课
15
15
1.0x
00:00/00:00
登录|注册

01|监控:如何从业务视角出发添加监控?

你好,我是白园。今天我们就正式开启服务可靠性保障之旅。
可靠性建设是一项系统性的工程,其中包括六个关键组成部分,分别是监控、容量、变更、预案、备份,还有机制。首先,监控为可靠性提供信息支撑,是一切保障手段的基础。所以这节课,我们就来聊一下监控,带你从业务视角出发,建立完善的监控体系
为什么我们选择业务视角去添加监控呢?因为可靠性的最终落脚点,就是为用户提供可靠、稳定的服务,业务视角是最贴近用户体验的视角。这就是我们选择业务视角添加监控的原因。
接下来我们看一下具体怎么做。我会结合我的经历,把我最有感触的经验、教训分享给你。

在故障中完善监控系统

在开篇的时候我就提到过,我在百度负责的就是网盘可靠性维护的工作。在刚开始接手的时候,线索很多,无从下手,而监控也就成了当时我工作的一个重要抓手。所以这里我就以我当时所做的事情为例来说说如何为业务添加监控。
这第一步就是整合信息,完善监控。当时我看了很多业务相关的文档,我发现很大的问题就是,监控的数据都是来自不同的渠道 / 团队,比如 A 同学有自己的一部分,B 同学有自己的一部分,缺乏一个全局视角,获取信息以及收集信息很不方便。所以我建立了一个信息门户,把团队手中的监控数据和相关信息汇总了起来,极大提升了监控信息获取的效率。同时在整理的过程中,我发现了很多遗漏的监控点和报警设置,我们迅速行动,把遗漏的监控点进行了完善。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
  • 解释
  • 总结

1. 监控是可靠性保障的基础,应该从业务视角出发添加监控,以提供稳定的服务。 2. 优秀的监控体系应具备四个能力:发现异常、快速发现异常、快速定位问题、给出影响评估。 3. 添加监控时,可以通过统一监控门户和构建业务监控大盘来实现监控的集中和实时判断业务整体情况。 4. 进一步细化及拆分核心指标可以帮助捕捉到局部问题,提高监控的精细度。 5. 梳理和细化核心链路,寻找业务请求的主干和支流,以便快速定位问题。 6. 统一添加基础指标,确保监控体系没有遗漏任何重要的环节。 7. 关键信息的提取、汇总和初步判断是监控体系的关键能力,有助于及时响应故障,减少业务影响。 8. 报警优化包括报警分级、报警信息合并、调整报警阈值、报警规则优化和建立有效的报警响应流程。 9. 日常巡检、报警响应、定期总结和问题复盘是保障监控长期可靠的关键动作。 10. 监控需要得到团队的持续关注和使用,确保得到适当的维护和更新,是保障它长期运行的关键。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《SRE 实践:服务可靠性案例课》
新⼈⾸单¥59
立即购买
登录 后留言

精选留言

由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论
显示
设置
留言
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部