22|事件管理(下):如何保证事件的闭环处理?
秦晓辉
你好,我是秦晓辉。
上一讲我们介绍了事件降噪的几个典型手段,用大白话讲就是怎么让告警发得少点儿。这一讲我们介绍事件闭环管理,就是告警发出来得有人处理,所谓的闭环,就是指告警发出、认领、协作处理、问题恢复、复盘改进的整个过程。
虽然事件降噪的几个手段落实之后,事件数量确实变少了,但是处理告警事件显然不是一个让人愉快的事情,不愉快的事情就要团队共担,所以第一个手段就是排班,专人做专事。
排班,专人做专事
这个手段听起来并不高大上,但确实非常有效。值班期间虽然提心吊胆的,生怕背锅,但因为是轮班制,心里总有个盼头,挺过这个周期就好了。
轮班的人在值班期间是第一责任人,会拿出 120% 的精力来处理问题,责任到人显然更容易推进问题解决,其他不值班的人则可以心无旁骛地做一些长线的事情,不至于总是被告警打断。
排班系统通常不开源,通常是作为事件中心的一个功能,PagerDuty 就提供了排班能力,即使没有系统支持,也建议人为制定一个排班表,把这个制度落实下去,对告警闭环处理也会有很大帮助。
值班人员在值班期间,虽然已经高度重视了,但也难免疏漏,这就需要告警升级机制了。
告警升级机制
告警升级是指在第一责任人收到告警之后没有及时响应,然后系统自动通知二线、三线人员的一种机制。一线人员没有及时响应的原因可能有很多,比如手机静音了没有听到,晚上睡着了,或者临时出去有事忘带手机了等等。这个时候系统发现某个告警一直没有恢复,也没有被认领,一段时间之后,就应该通知值班人员的领导或者二线备份人员,如果二线人员也迟迟没有响应,就应该继续往上升级。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
IT运维中的事件管理至关重要,本文介绍了如何确保事件的闭环处理。通过排班制度、告警升级机制、告警收敛逻辑和故障协同处理,可以提高事件闭环率,确保事件得到有效处理。文章涵盖了排班、告警升级、告警收敛、故障协同处理等技术特点,对读者快速了解事件管理的关键内容具有指导意义。 在实际操作中,可以通过配置Webhook实现告警自动处理,Nightingale配合ibex模块可以实现在告警时自动执行脚本。这种自动处理机制可以用于止损、抓取现场信息等场景,提高事件处理效率。 总的来说,本文强调了事件管理中的关键技术和方法,为读者提供了一套完整的事件处理闭环方案。通过这些技术手段,可以有效提高事件处理效率,确保IT运维工作的顺利进行。
仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《运维监控系统实战笔记》,新⼈⾸单¥59
《运维监控系统实战笔记》,新⼈⾸单¥59
立即购买
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
全部留言(4)
- 最新
- 精选
- peter请教老师几个问题: Q1:Prometheus支持webhook吗? Q2:实际的告警处理过程中,是否容易造成冲突?比如运维内部人员之间相互抱怨,运维和开发人员之间相互指责等。 Q3:老师的公司为什么可以没有运维? 上一课请教老师问题,老师说自己的公司没有运维,为什么不需要啊?是因为不是互联网公司而是单纯提供方案吗? 我问这个问题主要是想有个参考:比如我创建一个网站,注册用户五十万,这种情况是否需要运维人员? Q4:能否以加餐形式讲一下移动端监控,安卓或iOS。
作者回复: 1,Prometheus生态的Webhook一般放在alertmanager里 2,我经历的公司,遇到故障的时候,大家首先想到的是如何快速止损,而非指责,如果一上来就想着指责的,要么是管理问题,要么是人员本身的职场素养太差了 3,我们是ToB公司,提供商业化监控和故障定位的解决方案,我们有交付人员负责落地产品,和ToC的公司是不同的。是否需要运维人员,不能简单的根据注册用户数量来,通常来讲,研发搞不定下载的稳定性、成本问题的时候,研发团队很大、服务模块很多的时候,通常才需要运维,当然我这也只是举例,实际考量的因素很多 4,没有计划 4,
2023-02-27归属地:北京2 - xyu我能想到的需要告警治愈逻辑参与的场景有: 1)不处理的话系统无法自愈且处理逻辑比较规范清晰的场景;(所谓的规范清晰是指流程规范、不会对其它服务或模块产生较大影响) 2)对处理时效性相当敏感的场景;这些场景包括:有对应的及时处理手段且不及时处理会造成较大损失的场景、没有及时处理手段且会造成损失的场景(这种情况下的处理手段是故障现场信息收集便于后续分析问题)2023-09-22归属地:浙江
- 晴空万里但是我没有高屋建瓴分析汇聚脚本的能力 只能见到啥就是啥?2023-03-02归属地:广东
- 晴空万里我们是研发工程部门 会负责整个公有云机器业务运维 告警自愈脚本确实需要梳理 例如 执行数据库SQL 机器卡住了 使用脚本删除该进程 执行一个定时任务 失败了 然后自动重试2023-03-02归属地:广东
收起评论