超级访谈:对话道哥
吴翰清(道哥)
前阿里巴巴研究员,计算图书馆发起人
7271 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
课程目录
已完结/共 22 讲
超级访谈:对话道哥
15
15
1.0x
00:00/00:00
登录|注册

09|故障:故障不可避免,但追责机制很重要

你好,我是晓蕾。
阿里绩效考核的 3.25 分咱们或多或少都了解过。道哥也有过两次 3.25 的绩效经历,因为出现过严重的安全故障。
现在说起故障管理,好像已经成了一个体系,有这样那样的方法论,但其实真的发生了故障,特别是有严重后果的故障,怎么解决、怎么面对都不是件容易的事儿。有一种教育叫“优雅失败”,这确实是一门重要的人生功课。
极客时间:你被打了两次 3.25 的绩效?
道哥:对,其实都是自己打的。901 是 2015 年 9 月 1 号,当时把所有的服务器搞挂了。除了 901,还有一次仅次于 901 的大故障。那一年我们在做整个网络的升级改造,我们团队把整个阿里云网络搞挂了,中断了好久,可能至少影响了 40% 的网络流量,我都是要承担主要责任的。
极客时间:901 的时候是什么感觉?
道哥:当时蛮复杂的,肯定着急嘛。但是也顾不上着急,因为我知道在那个时刻必须在一线顶住所有的压力,去把问题处理好、解决掉。等到事后要杀要剐,就是公司决定了。
极客时间:当时团队里的同学是怎么想的?
道哥:团队同学,我觉得他们压力是挺大的,但是他们没有表现出来。
极客时间:为什么没有表现出来?你们团队平常的风格也是这样吗?
道哥:这个可能是人的正常反应。举个例子,比如说你在海上面航行,那艘船快沉了,请问你是什么表现?如果你是个乘客,估计就在那慌了。但如果你是船员,你肯定在想办法补救,所有的注意力必须集中在解决问题上,其他情绪都必须靠边站的,否则这个船就真的沉了,哪还顾得上别人。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

阿里云网络故障案例为我们展示了故障处理和追责机制的重要性。文章通过道哥的分享,强调了真诚和追责机制在处理故障后的重要性,以及领导力和团队建设的关键性。此外,道哥还分享了对PR的看法,认为其本质是为公司业务负责,制造有影响力的事件。通过实际案例和个人经历,深入探讨了故障管理和追责机制在技术领域中的重要性,对技术人员和管理者具有一定的参考价值。同时,文章还提到了如何通过使命愿景的认同感找到同路人。整体而言,本文强调了技术领域中真诚、追责机制和领导力的重要性,对于工程师和管理者具有启发意义。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《超级访谈:对话道哥》
新⼈⾸单¥59
立即购买
登录 后留言

全部留言(3)

  • 最新
  • 精选
  • 打卡主持人
    置顶
    🎉喜大普奔🎉 道哥将于9月20日做客「极客时间」直播间。 关于道哥,关于自己的成长,你还有什么想问的问题吗? 欢迎在任意一节课下方【留言评论】! 我们会在【赞数较高】的问题中挑选3个,在直播间给出【比留言回复更更更详细】的解答! 还等什么!快来提问吧!😉
    2023-09-15归属地:北京
    1
  • 种个大西瓜
    请问 PR 是什么意思?

    作者回复: 媒体关系,通俗讲就是发新闻稿

    2023-09-22归属地:北京
    2
    1
  • 二师兄
    23年12月,今年到目前为止已经有语雀,阿里云,滴滴先后出p0级故障了
    2023-12-08归属地:上海
收起评论
显示
设置
留言
3
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部