朱赟的技术管理课
朱赟
计算机博士,前 Airbnb 技术经理
48935 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
课程目录
已完结/共 39 讲
时长 13:23
时长 13:31
朱赟的技术管理课
15
15
1.0x
00:00/00:00
登录|注册

02 | Bug引发事故,该不该追究责任?

做事仔细的人会觉得不公平
小错没有被及时制止,导致大错
同样的错误一再发生
犹豫指出问题
不关心别人的错误
掩盖错误的坏影响
没有机会处理复杂情况的人得不到锻炼
别人犯错会觉得不关自己的事
有人搞砸了事情会推卸责任
大家都怕闯祸,风险高的事没人做
技术主管面临的情景
培养相互信任、互帮互助的氛围
反复问“为什么”,从根本上发现问题
改善流程、改进制度
思考如何避免下次犯同样的错误
可能出现的情况
结果
难以避免的情况
思考题
员工关系的建立
对事儿不对人
追究责任,但不是惩罚
所有错误都没有任何追究和跟进
每个错误都受到惩罚
对工作中的错误的态度和措施
两种极端情况的假想
Bug引发的一连串事故,该不该追究责任,又如何去追责呢?
程序员生存指南:Bug引发事故,该不该追究责任?

该思维导图由 AI 生成,仅供参考

“人非圣贤,孰能无过?”技术人员也是人,因此编程过程中难免出 Bug,出了 Bug 系统就会出问题,出了问题系统就会宕机。那么,Bug 引发的一连串事故,该不该追究责任,又如何去追责呢?
今天我就和你聊聊 Bug 和责任的问题。
记得有一次,一个国内的访问团来公司参观。在交流的过程中,有人问:“在你们的工作中,工程师的 Bug 或者失误引发的问题,会不会被追究责任,会不会扣工资,会不会被开除?”
当时我很诚实地按照实际情况回答说:“不会。”
这个人又继续问:“那出了事故没有任何惩罚,不会有问题吗?”当时,我围绕着员工的素质、自觉性和责任心进行了回答。后来再次思考这个问题,我越想越觉得有意思。
我在 Airbnb 负责支付和交易业务,这意味着大部分的错误都等价于真金白银。无论是从用户那少收钱,导致公司亏损,还是从用户那多收钱引起法律或者合约的纠纷,只要跟钱沾了边,都不是小事情。
俗话说 “常在河边走,哪有不湿鞋”,各种因为代码问题引起的麻烦也是屡见不鲜。那么,在 Bug 引发问题的情况下,怎样处理才能最大程度上保持团队的主动性、责任感和执行力呢?
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

程序员生存指南:Bug引发事故,该不该追究责任? 技术人员在编程过程中难免出现Bug,而这些Bug可能引发一连串的事故。文章讨论了在这种情况下是否应该追究责任,以及如何处理Bug引发的问题。作者首先提出了两种极端情况下的可能后果:一是对每个错误都进行惩罚,可能导致员工不敢承担风险,推卸责任,或者不愿指出他人的错误;二是对所有错误都不追究责任,可能导致错误反复发生,或者造成严重后果。针对这些情况,作者提出了应对错误的态度和措施:追究责任但不惩罚个人,改善流程和制度以避免同样的错误,反复追问“为什么”以发现问题的根本原因,以及建立相互信任和互帮互助的员工关系。最后,作者留下一个思考题,引发读者对于技术责任的深入思考。 文章通过讨论Bug引发事故的责任追究问题,深入探讨了如何处理技术问题和建立良好的团队氛围。这对于技术人员和管理者都具有重要的参考意义。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《朱赟的技术管理课》
新⼈⾸单¥59
立即购买
登录 后留言

全部留言(51)

  • 最新
  • 精选
  • kilo
    置顶
    大家好,我是极客时间《朱赟的技术管理课》运营负责人小原 ,收到短信加不上我的用户,请关注公众号"极客时间“,回复你的微信号,我会拉你进群。
    2017-11-16
    1
    13
  • rembau
    所以答案就是不惩罚吗? 我有两个疑问: 1,例子中最后推敲到是测试系统不完善,可是如果要完善测试系统需要大量的资源,公司目前资源紧张,协调资源很难,是不是应该在这种情况下顶着压力申请资源改进测试系统呢,是不是每次代码合并都进行一次review更简单有效一点 2,留的题目中,我们继续使用上面例子中追问自己的思路,数据为什么没有备份,没有备份,为什么没有发告警信息呢,因为运维系统不完善。假设运维系统完善了,发告警了,可是运维同事忽略了呢。 所以我觉得有时候人与系统或者流程之间有个均衡,资源充足的公司不断完善系统,让每个人都成为螺丝钉,资源不充足的公司,要培养人的习惯,管理者要把更多的精力放在人身上。

    池建强回复: 是的,一切都是平衡,理论结合实际,知行合一

    2018-02-27
    17
  • ibrothergang
    “如果你是一家公司的技术主管,团队里的一位工程师因为误操作删除了线上的用户数据,这时候你又发现,上个月数据的自动备份因为某些故障停止了,现在你该怎么办呢?” 首先,解决问题。 对外的事情永远应该放在首位解决,首先要考虑的是用户数据没有了怎么做补救。如果实在没有办法挽回数据了,考虑如何将损失降到最低。或者以某种方式补偿用户。用户的利益永远是第一位的。 其次,追究责任。 误操作也好,没有自动备份也罢,肯定需要有人来承担责任。没有责任人的事故很难挖掘到深层次的原因。错了就是错了,就是需要承担起这份错误带来的事故责任。 最后,流程优化。 人和机器最大的不同是人是具有主管能懂性的。机器可以严格按照程序执行,没有喜怒哀乐,但是人不行。谁都会有心情沮丧的阶段,也会有狂喜的时候,这种情况往往就容易犯错。所以如何规避,是不是可以从流程上去杜绝错误出现就是事后需要思考的。那前面的例子,如果删除操作是高危操作,是不是可以制定需要授权,是不是可以规定同时需要多人确定。自动备份是不是可以制定一些预警机制? 个人一些想法,抛个砖,引玉。
    2017-11-15
    141
  • 金鹏
    支持朱赟开直播答疑的赞我
    2017-11-15
    49
  • 朱显杰
    我作为公司运维主管,真真切切的碰到过数据被运维删除的场景,分享下我的一线经验: 首先,先想办法把损失降到最低,是否有其它备份,是否有其它途径重新生成数据等。 其次,作为技术主管,对外主动承担首要责任,不要把责任推给下属。 第三,用why-why法去找深层次原因,就是不断的问为什么,找出根本原因。 第四,针对上述的原因,一个个找解决方案,每个解决方案都要有责任人和时间点,避免重复再犯。 第五,针对事故进行复盘总结,对事不对人,重点不在于惩罚,而是在于吸取经验,总结教训。
    2018-04-27
    29
  • _fenghao_
    苹果支付实在是问题颇多...终于搞定了,先支持安姐,big fan! 以前创业碰到很多这种问题,重大事故大都是有流程,不执行,偷懒所致,因为越是不确定的东西反而自己更重视,反而熟悉的问题总错,所以还是要细心。个人非常不容易罚款,当时CEO逼着订下罚款的细节,我说👌,权责利要匹配,也一并订下奖赏的条款,不说话了……
    2017-11-15
    17
  • Rachel_fang
    现在在的团队,感觉每个人都没有安全感~问题发生后大家想的不是如何解决而是先说是谁的责任~解决问题找到问题根本比追责带来的正向结果会好
    2017-11-16
    11
  • 刘剑
    对于朱老师提出的这个问题,我通过2个角度去看; 1.自身角度,这种问题不会同步出现。首先能够操作正式服务器后台数据的都是经验丰富的主程级别,出现概率极低。就算出现了,我们通过数据库日志也可以恢复数据,把损失降到最小。如果日志损坏了我们还可以通过最多24小时自动备份数据恢复。我相信不会同时都出问题。 还有就是需要及时上报让运营考虑应急预案,让客服做好疏导和安抚工作。必要时候给予出现问题用户一定补偿。 2.如果是很不规范创业公司,开发人员误删了用户数据(我们按最坏的考虑数据清空了),又没有备份,立刻停止任何操作,及时上报问题,立刻切断外网用户的访问,如果数据价值非常大可以请专业数据恢复公司恢复数据,运营、客服都要协调动起来,讨论出善后方案并高效执行。 对于第一种造成损失较少,但需要误删者解释清楚操作细节和原因,这种一般是操作规范的问题,以后严格按规范操作数据,然后需要向公司公开道歉,特别是增加了运营和客服工作量 对于第二种造成损失很大,是操作的问题,也是数据库冗灾没有做好,更是管理上的问题。需要深刻反思反省,加强冗灾能力同时让公司加人手和资源吧。通过这件事老板也不会不舍得投入了(曾见到过创业公司不重视服务器资源投入的问题,还有就是找靠谱的开发人员和技术主管)。
    2017-11-16
    9
  • 愤毛阿青
    前几个月删掉测试环境用户表的飘过
    2017-11-15
    8
  • 亚伦碎语
    日常code diff 一定迭代后 retro看看有什么可以改进的,制定action改进
    2017-11-15
    6
收起评论
显示
设置
留言
51
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部