• Geek_b058b8
    2022-10-07 来自上海
    云原生中的“不可变基础设施”要如何理解?

    作者回复: 这主要是指一种基础设施的实例,被创建之后就不能再对它进行更改。如果需要修改或升级,那就得创建新实例来替换,比如说容器就是这种方式。

    
    2
  • Jxin
    2022-09-29 来自上海
    1.应该算开发吧。 2.线上问题好像只需要自己,也只有自己,不存在合作。端到端对账/异常自修复/无法自修复的主动告警/大量刷数后门。祖传越骚能力越强,加班多了自会思变。

    作者回复: 建立可观测的目的,其实也包括帮助其他团队的同学能更快速的发现和定位问题,避免啥事都直接找开发

    
    2
  • peter
    2022-09-27 来自上海
    请教老师两个问题: Q1:“工程化水平”等于“自动化”吗? 文中提到“而为了实现 SRE,一个很重要的实践就是需要提升整体项目的工程化水平,减少传统运维的行为,尤其是那些手工的、重复的”。 请问:这里的“工程化”等价于“自动化”吗? Q2:为什么叫“遥测数据”? “遥测”一般指距离远,比如卫星遥测数据等。计算机系统运行中的数据,为什么叫“遥测数据”? 第一次见到这个词。

    作者回复: 工程化是指建立体系,利用工具,自动化也是很重要的。遥测数据是指Telemetry data,在这里也就是指采集的可观测数据。

    
    1
  • Geek_fa3bb6
    2022-09-26 来自上海
    我是sre,日常都是通过值班系统,研发有问题及时反馈给当日值班人员进行处理

    作者回复: 你好,感谢分享。这里可以继续探讨一下,你们当日值班人员,是运维,SRE,还是有其他岗位的同学一起轮岗?另外研发有问题,一般是什么样的问题会反馈给值班人员?

    共 2 条评论
    1
  • 依然还有Dream
    2022-09-26 来自上海
    我是运维,运开,SRE, Devops 。。。。你没看错,现在运维都被逼成这样子了。。

    作者回复: 确实,在很多企业运维不再是传统的概念,要负责很多事情,所以建立可观测性减轻负担还是很重要的

    
    1
  • winterxxx
    2022-11-28 来自上海
    从整体看,建立SLO体系是开发角度更全面,更深入;oncall机制,可以使用自动化处置,尽量保留现场的前提下尽快的恢复业务;复盘,主要就是从开发角度进行就好。是不是后续只需要开发就可以搞定

    作者回复: 复盘也并不只是开发的复盘,也需要运维、甚至测试和其他同学一起参与,来分析问题原因以及这一次解决过程中的经验和总结,如何更有效地在下一次进行规避或者更快速的找到问题原因。

    
    
  • 来年
    2022-10-12 来自上海
    算是平台工程师。包含了测开、运维、SRE.....感觉要全知全能,才能继续干下去。希望可观测的搭建可以为我们减负。

    作者回复: 确实需要可观测性,减少很多人肉的关联和分析

    
    