作者回复: 内部复盘n次,wiki上不少内容,但对外分享(如:Qcon或公众号文章)印象中没有。2015年那个不堪回首夏天后,我们也逐步将PHP相关系统迁移或下线了。其实不止PHP(当年我们自认对PHP驾驭尚可),哪怕我们一直自认驾驭能力最强的Python/Java,一旦面临超高并发,都有可能出现各种意想不到突发情况。一言以蔽之:防火胜于救火。
作者回复: 这里展开不了,细节太多,建议先搜索「饿了么 RMQ 技术运营 徐盎 兰建刚」等关键字
作者回复: 几方面原因: 1、访谈中有提到,root cause 来自一个开源组件 bug,非业务代码或自研框架 bug,QA/SDET 很难测到; 2、即使来自开源组件 bug,触发条件也比较苛刻,否则之前早就爆发了; 3、即使来自开源组件、即使触发条件比较苛刻,在这次爆发前也出现了端倪,负责这个开源组件同学(虽然是开源组件,按技术团队内部规定,也需要确定 owner)和另一位相关同学,在事后复盘时承认当时没引起足够重视:因为 bug 属温水煮青蛙类型,爆发需要一段累积时间,所以错过了最佳修复时间; 4、最终修复其实很简单:升级开源组件即可。而且事后复盘发现,即使不修复开源组件,也有其他 workaround 可以绕过去,就是麻烦一些。
作者回复: 见仁见智,怎么做都会引起波澜。就我经历而言,看团队不同阶段的一些核心变量是否有较大变化,如:味道、氛围、文化、业务规模、组织规模等。以饿了么为例,早期团队、主动(空降)引入团队、被动(被收购)引入团队等时期,核心变量都有不小变化。有较大变化,相应游戏规则(不止故障问责这么细的领域)就要随需应变。
作者回复: 细节主要PMO负责,宗旨就三点:1、可明确(one)owner;2、可量化(数字化或人肉皆可)评估;3、不可模棱两可,否则宁弃之。
作者回复: 并不是,最终我的自请降级也执行了,而且我始终认为我要担主要责任(管理疏忽),不是简单的江湖义气。