09|故障:故障不可避免,但追责机制很重要
道哥,晓蕾
你好,我是晓蕾。
阿里绩效考核的 3.25 分咱们或多或少都了解过。道哥也有过两次 3.25 的绩效经历,因为出现过严重的安全故障。
现在说起故障管理,好像已经成了一个体系,有这样那样的方法论,但其实真的发生了故障,特别是有严重后果的故障,怎么解决、怎么面对都不是件容易的事儿。有一种教育叫“优雅失败”,这确实是一门重要的人生功课。
极客时间:你被打了两次 3.25 的绩效?
道哥:对,其实都是自己打的。901 是 2015 年 9 月 1 号,当时把所有的服务器搞挂了。除了 901,还有一次仅次于 901 的大故障。那一年我们在做整个网络的升级改造,我们团队把整个阿里云网络搞挂了,中断了好久,可能至少影响了 40% 的网络流量,我都是要承担主要责任的。
极客时间:901 的时候是什么感觉?
道哥:当时蛮复杂的,肯定着急嘛。但是也顾不上着急,因为我知道在那个时刻必须在一线顶住所有的压力,去把问题处理好、解决掉。等到事后要杀要剐,就是公司决定了。
极客时间:当时团队里的同学是怎么想的?
道哥:团队同学,我觉得他们压力是挺大的,但是他们没有表现出来。
极客时间:为什么没有表现出来?你们团队平常的风格也是这样吗?
道哥:这个可能是人的正常反应。举个例子,比如说你在海上面航行,那艘船快沉了,请问你是什么表现?如果你是个乘客,估计就在那慌了。但如果你是船员,你肯定在想办法补救,所有的注意力必须集中在解决问题上,其他情绪都必须靠边站的,否则这个船就真的沉了,哪还顾得上别人。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
阿里云网络故障案例为我们展示了故障处理和追责机制的重要性。文章通过道哥的分享,强调了真诚和追责机制在处理故障后的重要性,以及领导力和团队建设的关键性。此外,道哥还分享了对PR的看法,认为其本质是为公司业务负责,制造有影响力的事件。通过实际案例和个人经历,深入探讨了故障管理和追责机制在技术领域中的重要性,对技术人员和管理者具有一定的参考价值。同时,文章还提到了如何通过使命愿景的认同感找到同路人。整体而言,本文强调了技术领域中真诚、追责机制和领导力的重要性,对于工程师和管理者具有启发意义。
仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《超级访谈:对话道哥》,新⼈⾸单¥59
《超级访谈:对话道哥》,新⼈⾸单¥59
立即购买
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
全部留言(3)
- 最新
- 精选
- 打卡主持人置顶🎉喜大普奔🎉 道哥将于9月20日做客「极客时间」直播间。 关于道哥,关于自己的成长,你还有什么想问的问题吗? 欢迎在任意一节课下方【留言评论】! 我们会在【赞数较高】的问题中挑选3个,在直播间给出【比留言回复更更更详细】的解答! 还等什么!快来提问吧!😉2023-09-15归属地:北京1
- 种个大西瓜请问 PR 是什么意思?
作者回复: 媒体关系,通俗讲就是发新闻稿
2023-09-22归属地:北京21 - 二师兄23年12月,今年到目前为止已经有语雀,阿里云,滴滴先后出p0级故障了2023-12-08归属地:上海
收起评论