运维监控系统实战笔记
秦晓辉
快猫星云联合创始人,Open-Falcon、Nightingale、Categraf 核心研发
9147 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
课程目录
已完结/共 25 讲
运维监控系统实战笔记
15
15
1.0x
00:00/00:00
登录|注册

22|事件管理(下):如何保证事件的闭环处理?

你好,我是秦晓辉。
上一讲我们介绍了事件降噪的几个典型手段,用大白话讲就是怎么让告警发得少点儿。这一讲我们介绍事件闭环管理,就是告警发出来得有人处理,所谓的闭环,就是指告警发出、认领、协作处理、问题恢复、复盘改进的整个过程。
虽然事件降噪的几个手段落实之后,事件数量确实变少了,但是处理告警事件显然不是一个让人愉快的事情,不愉快的事情就要团队共担,所以第一个手段就是排班,专人做专事。

排班,专人做专事

这个手段听起来并不高大上,但确实非常有效。值班期间虽然提心吊胆的,生怕背锅,但因为是轮班制,心里总有个盼头,挺过这个周期就好了。
轮班的人在值班期间是第一责任人,会拿出 120% 的精力来处理问题,责任到人显然更容易推进问题解决,其他不值班的人则可以心无旁骛地做一些长线的事情,不至于总是被告警打断。
排班系统通常不开源,通常是作为事件中心的一个功能,PagerDuty 就提供了排班能力,即使没有系统支持,也建议人为制定一个排班表,把这个制度落实下去,对告警闭环处理也会有很大帮助。
值班人员在值班期间,虽然已经高度重视了,但也难免疏漏,这就需要告警升级机制了。

告警升级机制

告警升级是指在第一责任人收到告警之后没有及时响应,然后系统自动通知二线、三线人员的一种机制。一线人员没有及时响应的原因可能有很多,比如手机静音了没有听到,晚上睡着了,或者临时出去有事忘带手机了等等。这个时候系统发现某个告警一直没有恢复,也没有被认领,一段时间之后,就应该通知值班人员的领导或者二线备份人员,如果二线人员也迟迟没有响应,就应该继续往上升级。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

IT运维中的事件管理至关重要,本文介绍了如何确保事件的闭环处理。通过排班制度、告警升级机制、告警收敛逻辑和故障协同处理,可以提高事件闭环率,确保事件得到有效处理。文章涵盖了排班、告警升级、告警收敛、故障协同处理等技术特点,对读者快速了解事件管理的关键内容具有指导意义。 在实际操作中,可以通过配置Webhook实现告警自动处理,Nightingale配合ibex模块可以实现在告警时自动执行脚本。这种自动处理机制可以用于止损、抓取现场信息等场景,提高事件处理效率。 总的来说,本文强调了事件管理中的关键技术和方法,为读者提供了一套完整的事件处理闭环方案。通过这些技术手段,可以有效提高事件处理效率,确保IT运维工作的顺利进行。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《运维监控系统实战笔记》
新⼈⾸单¥59
立即购买
登录 后留言

全部留言(4)

  • 最新
  • 精选
  • peter
    请教老师几个问题: Q1:Prometheus支持webhook吗? Q2:实际的告警处理过程中,是否容易造成冲突?比如运维内部人员之间相互抱怨,运维和开发人员之间相互指责等。 Q3:老师的公司为什么可以没有运维? 上一课请教老师问题,老师说自己的公司没有运维,为什么不需要啊?是因为不是互联网公司而是单纯提供方案吗? 我问这个问题主要是想有个参考:比如我创建一个网站,注册用户五十万,这种情况是否需要运维人员? Q4:能否以加餐形式讲一下移动端监控,安卓或iOS。

    作者回复: 1,Prometheus生态的Webhook一般放在alertmanager里 2,我经历的公司,遇到故障的时候,大家首先想到的是如何快速止损,而非指责,如果一上来就想着指责的,要么是管理问题,要么是人员本身的职场素养太差了 3,我们是ToB公司,提供商业化监控和故障定位的解决方案,我们有交付人员负责落地产品,和ToC的公司是不同的。是否需要运维人员,不能简单的根据注册用户数量来,通常来讲,研发搞不定下载的稳定性、成本问题的时候,研发团队很大、服务模块很多的时候,通常才需要运维,当然我这也只是举例,实际考量的因素很多 4,没有计划 4,

    2023-02-27归属地:北京
    2
  • xyu
    我能想到的需要告警治愈逻辑参与的场景有: 1)不处理的话系统无法自愈且处理逻辑比较规范清晰的场景;(所谓的规范清晰是指流程规范、不会对其它服务或模块产生较大影响) 2)对处理时效性相当敏感的场景;这些场景包括:有对应的及时处理手段且不及时处理会造成较大损失的场景、没有及时处理手段且会造成损失的场景(这种情况下的处理手段是故障现场信息收集便于后续分析问题)
    2023-09-22归属地:浙江
  • 晴空万里
    但是我没有高屋建瓴分析汇聚脚本的能力 只能见到啥就是啥?
    2023-03-02归属地:广东
  • 晴空万里
    我们是研发工程部门 会负责整个公有云机器业务运维 告警自愈脚本确实需要梳理 例如 执行数据库SQL 机器卡住了 使用脚本删除该进程 执行一个定时任务 失败了 然后自动重试
    2023-03-02归属地:广东
收起评论
显示
设置
留言
4
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部