下载APP
登录
关闭
讲堂
算法训练营
Python 进阶训练营
企业服务
极客商城
客户端下载
兑换中心
渠道合作
推荐作者

第141期 | 内容生产故障处理方法

2019-11-18 郭蕾

讲述:郭蕾

时长09:50大小9.01M

你好,我是极客时间的总编辑郭蕾,这是我代班的第二周,今天我们来聊聊内容生产故障。对于故障这个词,我估计你比我还熟悉。在我们每一个工程师的工作场景里,肯定都会经常处理线上故障,比如前段时间,我们极客时间支付环节就出了个 bug,影响了用户的购买体验,我们工程师发现之后,三下五除二就赶紧修复了这一故障。
同样,对于我们内容来说,在上线之后也经常会出现一些问题。如果从研发的视角来看,我们每发布一篇文章,就算发布一个新特性,那我们内容团队每天在生产环境的部署次数,少说也得有 20 次。
只要发布新特性,就可能带来新 bug。比如文章中有错别字、头图不清楚、文章没增量信息、内容有知识性错误、音频有重复等等。这是我们内容层面的 bug,如果在上线之前没有检查出来,那到了生产环境,影响了用户体验,就属于生产故障了。
怎么解决内容层面的生产故障呢?说实话,这事曾经困扰过我很长一段时间。因为我每天早上起来,都会打开手机看极客时间的后台留言,也总是会发现问题。那发现问题之后,怎么处理?该不该追责?怎么能快速解决这些故障?这几个点当时我就没想透,可以说一直在左右摇摆,然后具体做事情的时候,又借着之前的惯性往前走,丝毫没有突破。
后来,听了《左耳听风》专栏中关于故障的处理方法后,我大受启发,于是就基于亚马逊等互联网公司的线上故障处理方法,制定了我们的内容故障处理方案,然后一切就变得通畅多了。所以,你看,虽然程序和内容完全不相关,但是很多解决问题的思路,是可以互相参考和借鉴的,这也许就是跨界的价值。
下面,我就先详细说说我们的内容故障处理观。
我们都知道,只要你做事情就会犯错误,并且很多时候都是你做的越多,错的越多。这个道理我不解释了,你应该也深有体会。
那应对故障整体的思路应该是什么呢?我觉得应该做的是在故障面前不断反脆弱。换句话说,在不该出现故障的问题上,我们应该提升能力和优化流程,减少故障出现的概率。出现故障时,我们应该能够快速修复,并且有一套应对故障的流程。
接着说我们的流程。
首先,出故障之后,要迅速确定故障等级。确定等级的目的,是希望团队能对故障的严重程度形成统一的认知。我根据故障的影响范围,对故障做了一个等级划分,具体如下:
一级故障(红色警报):直接全范围影响用户的学习行为。如文章断更、音频断更。
二级故障(橙色警报):直接全范围影响用户的学习体验。如音视频不清晰、文章遭用户集中性吐槽。
三级故障(黄色警报):直接小范围影响用户的学习体验。如错别字、音频错误。
紧接着,有了故障等级,团队也就知道了对应问题的严重程度。这个时候要做的就是调动资源快速修复问题。比如,上周一我代班第一天,卖桃者说的音频就出现了故障,发现问题以后,作为第一负责人,我就得赶紧联系音频的同事处理。
反过来说,要是出了内容故障我们不重视的话,那用户的利益和体验,肯定就没办法保障,况且,从我们角度来看,这些故障本身就应该避免。所以,我也经常和团队说,“出了故障,大家没必要紧张,也不用先去担心领导批评,或者纠结什么其他的点,这时候赶紧第一时间修复问题,才是成年人应有的姿态,才是真正的为用户负责”。
这句话里其实隐藏了一个敏感问题,那就是故障之后是否追责。我觉得制定这套流程之前,得先把是否追责的事情想清楚,不然流程就没有生根发芽的土壤。我是这样想的,对单一的故障我们一定不能追责,出错之后,希望团队以及主要负责人,能够迅速解决故障,尽量缩小影响范围,这一点非常重要。
举个例子,上次后台有个用户吐槽极客时间内容问题,我们确认之后发现确实有问题,于是就加了他微信,给他道歉,并且说了我们的态度,他看到之后,特别感动,认为我们是可信赖的。你看,这就是出故障之后的一个处理方法,我们关注用户体验,虽然出了错,但我们也通过正确的方法尽力挽回了损失。
但是,这里我要说但是,虽然我们对单一的故障肯定不追责,虽然我们也知道,人才就是在不断的犯错中成长起来的。但是如果一个同学不停地在一个地方犯错,那我肯定会怀疑这个同学,是不是基础能力有问题,是这个逻辑吧?
最后,我们非常重视复盘,希望复盘的时候,每一个人都能忘记自己的 EGO,从解决问题的角度反思流程和心态以及能力。看到现象,多问几个为什么,找到问题的本源。同时,复盘之后要确定接下来的优化计划。
复盘的时候,直接 Leader 应该冲在前面,因为他毕竟角色不一样,能看到的东西也应该不一样。这个思想是我从《极限控制》这本书里学到的,它的核心内容就是说,领导者应该承担一切责任,当组织出现任何问题时,领导者首先要从自身的角度寻找原因,然后再逐层分析,直到解决问题。
好了,这就是今天的内容。关于故障处理的事情,我在极客时间团队已经说过很多回了,这次再拿出来也是整理下思路,和你统一下思想,希望得到你的监督。
还是那句话,从个人成长的角度看待故障,出了问题,解决了问题,你变强了,这就是个体最好的结果。
从公司做事的角度看,我们制定了故障的处理流程,制定了规则,这只是第一步。后面更多的是团队一起按照流程和规则做事情,这样效率才能高起来。
怎么处理故障这事,我觉得特别考验人性和智慧,曾国藩说过一句话,我在这里送给你:
立法不难,行法为难。以后总求实实行之,且常常行之。应事接物时,须从人情物理中之极粗极浅处着眼,莫从深处细处看。
好,卖桃者说,我们明天见。
(编辑:夏天) 
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
上一篇
第140期 | 发布系统的核心架构和功能设计
下一篇
第142期 | 工作之余,专业之外
 写留言

精选留言(2)

  • 2019-11-19
    我也反应个问题,我听音频的时候,经常突然断掉,打开手机点击一下有能接着继续。我学习总时常100多小时,此问题出过二三十次了。华为P30,联通4G,坐标江苏无锡。网络问题的概率应该不大吧,手机问题也不应该吧
    1
  • 这个是曾国藩那本书摘录的啊