作者回复: 恩,你说的这种情况还是非常普遍的,无论是部门职能划分的缘故,还是类似金融保险的监管要求。对于互联网公司来说,其实没有这么清晰的边界,像我们这边首先无论你是什么环境,部署的平台和工具都是同一套,当然自建的集群除外。然后无论是部署测试,预发,生产都是研发自己来做,运维不负责应用的发布工作,上线有一定的流程要求,所以这块并没有实现完全的自动化。不过运维该值班还是要的哈,纯无人值守还是有点理想。
作者回复: 悄悄的说,这种事情我在国内某大行也遇到过,幸好是发现了这个问题,没有导致严重的问题,但是这也给我们提了个醒,越是觉得没有问题的地方,就越应该花时间精力去看。所以最近我们也在安排年末的演练,这次的不同之出在于,不仅仅是安排一个任务下去,有人执行并给出执行结果,而是要把恢复过程内部直播,并让更多的人来挑战你,这样才能把事情做到位哈!
作者回复: 其实就像当你知道你的代码会被人Review的时候,你自然会多想想怎么能写的好一些一样,很多时候不公开不透明,就是因为做的烂,真有多少技术含量倒也未必。