作者回复: 分析地恰到好处,你找到了看待这个问题的正确角度。
作者回复: 非常棒的问题,而且“业务恢复”永远都是第一优先级,你的理解非常正确。 这里提到是正常流程,但是实践中我们一定会根据实际情况来活学活用,所以,是不是要定位出根因,还是定位出根因范围就要看取舍了,有时我们大致定位出根因范围,然后就要开始执行响应的恢复和隔离措施了。 有点类似当前我们正在经历的疫情,虽然我们知道是新型病毒,但是根源来自哪里并不清楚,而且也没有预防和有效的治愈良药,这时最有效的办法就是提前发现,然后隔离,这种就不可能等着根因定位清楚,再采取措施。
作者回复: 肯定是越早参与越好,并不一定参与设计本身,但是要知道再哪里提出稳定性要求。比如一个促销场景,要知道可能流量是怎么样的,限流措施要设定在哪些接口上,限流量多大,通过什么方式验证等等,通过这种提要求的方式,倒逼业务开发和架构师思考设计和编码。
作者回复: SRE的一个理念,非常关键,一定要通过技术手段解决运维问题,而不是人肉投入。
作者回复: 理解地非常正确!
作者回复: 你说地对,优秀的SRE就是优秀架构师的水准,甚至比架构师要求更高,而且SRE的成长过程也会比一般开发和架构师更痛苦,要经过更多的磨炼才可以。
作者回复: 你讲到一个非常重要的点,SRE要想做好,必须要对公司业务有全局的了解,甚至是非常深入的了解
作者回复: SRE是DevOps的一项最佳实践。
作者回复: 理解地很深入。
作者回复: 某条业务线是否推行SRE,有个判断依据就是,是不是需要运维或SRE这样的团队介入,如果需要运维或SRE保障,那就要推行后面我们要讲的SRE体系,如果是开发自己维护,没有另外的团队参与,那就自行判断。 关于你的理解,我觉得很棒,特别是B,任何一个岗位或方法的出现,都是因为有问题解决不了被倒逼出来的,从我的角度,DevOps是如此,SRE也是如此。