深入浅出可观测性
翁一磊
观测云产品技术总监
4965 人已学习
新⼈⾸单¥29
登录后,你可以任选4讲全文学习
课程目录
已完结/共 18 讲
深入浅出可观测性
15
15
1.0x
00:00/00:00
登录|注册

06 | 团队合作:不同团队如何高效共建可观测性?

你好,我是翁一磊。
通过前面几节课的学习,相信你对可观测性已经有了初步的了解。从这一讲开始,我们进入实战篇。作为这个模块的第一篇文章,我们会重点讨论可观测与云原生、DevOps 和 SRE 之间的关系,然后聊聊如果想要建立和实施系统的可观测性,开发、测试和运维团队应该从哪些方面着手。

云原生

云原生这个词相信你已经看到、听到过很多次了,对于这个词,你一定多少有一些自己的理解。云原生架构和技术是一种方法,它用于设计、构建和管理用云计算模型搭建的工作负载。
让我们来看一下云原生计算基金会提供的标准定义:
云原生技术使组织能够在公有云、私有云和混合云等现代动态环境中构建和运行可扩展的应用程序。容器、服务网格、微服务、不可变基础设施和声明式 API 就是这种方法的例证。这些技术支持具有弹性、可管理和可观测的松散耦合系统。结合强大的自动化功能,它们使工程师能够以最少的工作量频繁且可预测地进行高影响力的更改。
所以说,云原生是注重速度和敏捷性的。
在这一背景之下,不难想象,在未来,更多的应用程序会运行在云上,会使用容器技术和微服务。业务系统正在逐渐演变为提高业务速度、促进业务增长的战略转型武器。我们必须快速将新想法和新功能推向市场。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

团队合作在云原生、DevOps和SRE领域的重要性日益凸显。云原生技术的快速发展使得应用程序运行在云上、使用容器技术和微服务的趋势日益明显。而DevOps强调开发和运维的协作,以实现更快速地为用户交付高质量的应用。同时,SRE关注系统可靠性工程,通过提升整体项目的工程化水平和减少传统运维行为来实现。在这一背景下,建立可观测性不仅是运维团队的事情,更是整个开发、测试以及SRE团队的事情,需要全团队共同努力。开发团队从数据采集的插桩开始,必须为可观测性负责,有效地暴露属于自己组件特性的遥测数据。整体而言,团队合作是构建可观测性的关键,需要各团队共同努力,以实现系统的可靠性和高质量的应用交付。文章还介绍了运维团队、测试团队和SRE团队在建立可观测性方面的工作重点和挑战。运维团队需要注重构建和管理基础环境,充分利用云原生特性,收集基础数据并设置监控告警。测试团队需要通过可观测性及时发现问题,并通过压测和混沌工程验证系统可靠性。SRE团队则需要构建可观测性、提供On Call支持和进行事后分析和复盘。最后,文章强调了可观测性对团队问题排查和解决能力的增强,以及系统的持续优化和改进的重要性。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《深入浅出可观测性》
新⼈⾸单¥29
立即购买
登录 后留言

全部留言(7)

  • 最新
  • 精选
  • Geek_b058b8
    云原生中的“不可变基础设施”要如何理解?

    作者回复: 这主要是指一种基础设施的实例,被创建之后就不能再对它进行更改。如果需要修改或升级,那就得创建新实例来替换,比如说容器就是这种方式。

    2022-10-07归属地:上海
    3
  • Jxin
    1.应该算开发吧。 2.线上问题好像只需要自己,也只有自己,不存在合作。端到端对账/异常自修复/无法自修复的主动告警/大量刷数后门。祖传越骚能力越强,加班多了自会思变。

    作者回复: 建立可观测的目的,其实也包括帮助其他团队的同学能更快速的发现和定位问题,避免啥事都直接找开发

    2022-09-29归属地:上海
    2
  • peter
    请教老师两个问题: Q1:“工程化水平”等于“自动化”吗? 文中提到“而为了实现 SRE,一个很重要的实践就是需要提升整体项目的工程化水平,减少传统运维的行为,尤其是那些手工的、重复的”。 请问:这里的“工程化”等价于“自动化”吗? Q2:为什么叫“遥测数据”? “遥测”一般指距离远,比如卫星遥测数据等。计算机系统运行中的数据,为什么叫“遥测数据”? 第一次见到这个词。

    作者回复: 工程化是指建立体系,利用工具,自动化也是很重要的。遥测数据是指Telemetry data,在这里也就是指采集的可观测数据。

    2022-09-27归属地:上海
    1
  • Geek_fa3bb6
    我是sre,日常都是通过值班系统,研发有问题及时反馈给当日值班人员进行处理

    作者回复: 你好,感谢分享。这里可以继续探讨一下,你们当日值班人员,是运维,SRE,还是有其他岗位的同学一起轮岗?另外研发有问题,一般是什么样的问题会反馈给值班人员?

    2022-09-26归属地:上海
    2
    1
  • 依然还有Dream
    我是运维,运开,SRE, Devops 。。。。你没看错,现在运维都被逼成这样子了。。

    作者回复: 确实,在很多企业运维不再是传统的概念,要负责很多事情,所以建立可观测性减轻负担还是很重要的

    2022-09-26归属地:上海
    1
  • winterxxx
    从整体看,建立SLO体系是开发角度更全面,更深入;oncall机制,可以使用自动化处置,尽量保留现场的前提下尽快的恢复业务;复盘,主要就是从开发角度进行就好。是不是后续只需要开发就可以搞定

    作者回复: 复盘也并不只是开发的复盘,也需要运维、甚至测试和其他同学一起参与,来分析问题原因以及这一次解决过程中的经验和总结,如何更有效地在下一次进行规避或者更快速的找到问题原因。

    2022-11-28归属地:上海
  • 来年
    算是平台工程师。包含了测开、运维、SRE.....感觉要全知全能,才能继续干下去。希望可观测的搭建可以为我们减负。

    作者回复: 确实需要可观测性,减少很多人肉的关联和分析

    2022-10-12归属地:上海
收起评论
显示
设置
留言
7
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部