06 | 团队合作:不同团队如何高效共建可观测性?
云原生
- 深入了解
- 翻译
- 解释
- 总结
团队合作在云原生、DevOps和SRE领域的重要性日益凸显。云原生技术的快速发展使得应用程序运行在云上、使用容器技术和微服务的趋势日益明显。而DevOps强调开发和运维的协作,以实现更快速地为用户交付高质量的应用。同时,SRE关注系统可靠性工程,通过提升整体项目的工程化水平和减少传统运维行为来实现。在这一背景下,建立可观测性不仅是运维团队的事情,更是整个开发、测试以及SRE团队的事情,需要全团队共同努力。开发团队从数据采集的插桩开始,必须为可观测性负责,有效地暴露属于自己组件特性的遥测数据。整体而言,团队合作是构建可观测性的关键,需要各团队共同努力,以实现系统的可靠性和高质量的应用交付。文章还介绍了运维团队、测试团队和SRE团队在建立可观测性方面的工作重点和挑战。运维团队需要注重构建和管理基础环境,充分利用云原生特性,收集基础数据并设置监控告警。测试团队需要通过可观测性及时发现问题,并通过压测和混沌工程验证系统可靠性。SRE团队则需要构建可观测性、提供On Call支持和进行事后分析和复盘。最后,文章强调了可观测性对团队问题排查和解决能力的增强,以及系统的持续优化和改进的重要性。
《深入浅出可观测性》,新⼈⾸单¥29
全部留言(7)
- 最新
- 精选
- Geek_b058b8云原生中的“不可变基础设施”要如何理解?
作者回复: 这主要是指一种基础设施的实例,被创建之后就不能再对它进行更改。如果需要修改或升级,那就得创建新实例来替换,比如说容器就是这种方式。
2022-10-07归属地:上海3 - Jxin1.应该算开发吧。 2.线上问题好像只需要自己,也只有自己,不存在合作。端到端对账/异常自修复/无法自修复的主动告警/大量刷数后门。祖传越骚能力越强,加班多了自会思变。
作者回复: 建立可观测的目的,其实也包括帮助其他团队的同学能更快速的发现和定位问题,避免啥事都直接找开发
2022-09-29归属地:上海2 - peter请教老师两个问题: Q1:“工程化水平”等于“自动化”吗? 文中提到“而为了实现 SRE,一个很重要的实践就是需要提升整体项目的工程化水平,减少传统运维的行为,尤其是那些手工的、重复的”。 请问:这里的“工程化”等价于“自动化”吗? Q2:为什么叫“遥测数据”? “遥测”一般指距离远,比如卫星遥测数据等。计算机系统运行中的数据,为什么叫“遥测数据”? 第一次见到这个词。
作者回复: 工程化是指建立体系,利用工具,自动化也是很重要的。遥测数据是指Telemetry data,在这里也就是指采集的可观测数据。
2022-09-27归属地:上海1 - Geek_fa3bb6我是sre,日常都是通过值班系统,研发有问题及时反馈给当日值班人员进行处理
作者回复: 你好,感谢分享。这里可以继续探讨一下,你们当日值班人员,是运维,SRE,还是有其他岗位的同学一起轮岗?另外研发有问题,一般是什么样的问题会反馈给值班人员?
2022-09-26归属地:上海21 - 依然还有Dream我是运维,运开,SRE, Devops 。。。。你没看错,现在运维都被逼成这样子了。。
作者回复: 确实,在很多企业运维不再是传统的概念,要负责很多事情,所以建立可观测性减轻负担还是很重要的
2022-09-26归属地:上海1 - winterxxx从整体看,建立SLO体系是开发角度更全面,更深入;oncall机制,可以使用自动化处置,尽量保留现场的前提下尽快的恢复业务;复盘,主要就是从开发角度进行就好。是不是后续只需要开发就可以搞定
作者回复: 复盘也并不只是开发的复盘,也需要运维、甚至测试和其他同学一起参与,来分析问题原因以及这一次解决过程中的经验和总结,如何更有效地在下一次进行规避或者更快速的找到问题原因。
2022-11-28归属地:上海 - 来年算是平台工程师。包含了测开、运维、SRE.....感觉要全知全能,才能继续干下去。希望可观测的搭建可以为我们减负。
作者回复: 确实需要可观测性,减少很多人肉的关联和分析
2022-10-12归属地:上海