深入浅出可观测性
翁一磊
观测云产品技术总监
4965 人已学习
新⼈⾸单¥29
登录后,你可以任选4讲全文学习
课程目录
已完结/共 18 讲
深入浅出可观测性
15
15
1.0x
00:00/00:00
登录|注册

03 | 相互对比:可观测性和传统监控有什么区别?

你好,我是翁一磊。
上节课,我们了解了可观测性的基本概念,这节课我们重点介绍在进行调试或者问题排查的时候,使用可观测性工具和使用传统监控工具有什么不同。通过这种对比,相信你可以更好地理解可观测性和传统监控的区别。

传统监控的问题排查方法

构建仪表盘

从运维的角度来看,肯定少不了通过仪表盘来对系统进行监控。传统的监控系统主要用于收集和汇总一定时间间隔内的性能指标,运维同学需要依靠这些指标的变化趋势来分析系统的性能,基于过往的经验判断系统是否正常,哪里可能有问题;或者通过设定监控指标的阈值进行告警。
将这些指标以图表形式展现出来,各种各样图表的组合以及自定义的视图便构成了一个个仪表盘。我们通常会为每一个系统服务设置一个静态的仪表盘,通过它了解系统的运行状态。
然而,当我们在审视仪表盘的各项视图,或是收到告警的时候,我们知道某项指标超出了阈值(比如生产环境的集群 CPU 平均使用率超过了 90%),但却不能完全了解系统究竟发生了什么。换句话说,不知道是什么导致了 CPU 的平均使用率过高。
另一方面,当我们想使用仪表盘来进一步分析问题的时候,会受制于这些仪表盘的预设条件,只能查看预设的维度;如果想分析其他的维度,可能就进行不下去了。因为这个维度的标签很可能并没有提前被添加进来,也就不能提供数据的聚合了。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

可观测性与传统监控的区别在于可观测性通过查看和分析高维度和高基数数据,发现隐藏在复杂系统架构中的问题,而不需要事先预测问题可能发生在哪里,以及问题发生的模式。传统监控则主要用于收集和汇总一定时间间隔内的性能指标,依靠这些指标的变化趋势来分析系统的性能。在现代云原生系统中,使用传统监控进行故障定位具有局限性,因为请求可能跨越多个服务和机器,导致相关指标分裂,难以推断问题发生的原因。传统监控只能解决已知问题,而对于未知问题则束手无策。相比之下,可观测性能够帮助发现未知问题,不受预设条件限制,更适用于复杂系统架构的问题排查。 可观测性和监控的另一个区别在于关注的维度不同。监控更加关注基础设施的资源情况,而可观测性则瞄准应用软件本身,旨在保障应用软件的可靠性和稳定性,解决应用软件在运行时的调试问题。可观测性强调全面收集和关联数据,不仅包括指标数据,还包括数据的一致性和关联关系,从而实现通过数据进行故障排查。 在现代复杂系统中,传统监控的局限性越来越明显,而可观测性通过高维度和高基数的数据分析,允许从任何一个角度分析问题,帮助找到问题或故障的根本原因。相比传统监控,可观测性提供了一种不同的诊断方法,不再只能依赖团队中最有经验的工程师,而是可以全面收集和关联数据,通过探索性的问题来询问系统和应用,通过数据分析和发现来进一步开放式地查询和下钻,直到找到问题或故障的根本原因。 总的来说,可观测性相较于传统监控更适用于现代复杂系统架构,能够帮助发现未知问题,通过数据进行故障排查,提供了一种不同的诊断方法,从而提高了系统的可靠性和稳定性。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《深入浅出可观测性》
新⼈⾸单¥29
立即购买
登录 后留言

全部留言(11)

  • 最新
  • 精选
  • LYy
    可观测性聚焦于业务层与应用层,区别于传统监控大多局限于基础设施层。 随着微服务化、云原生化的普及,故障产生的原因越来越多的集中在应用层、表现在业务层,而传统监控关注的基础设施层很难反向推出应用、业务的具体问题,造成了"我知道有问题,但不知道具体是哪里出了问题"的"known-unknowns"的窘境。

    作者回复: 没错,很好的理解!

    2022-10-14归属地:上海
    2
    4
  • wsp
    老师,我们做业务的可观测性监控。初期试验通过业务逻辑硬编码异常点直接告警,这种有相应案例吗。如何去定义业务的可观测性那,有没有方法论

    作者回复: 业务的可观测可以关注后续的课程,会讲到SLO的构建,保障业务可靠性

    2022-09-20归属地:上海
    2
  • penng
    电子书打不开

    作者回复: 链接没错,是个国外的网站,看是否能够访问 https://www.honeycomb.io,然后从 Learn 菜单进 Blog,搜素 Observability Engineering

    2022-10-21归属地:上海
    1
  • kaizen
    个人觉得可观测性是个程度词,是形容一个复杂系统的可观测程度,也就是系统各个切面以及各个Signal关联程度,而不是将传统监控与可观测直接割裂开,也许两三年后就会出现可观测=监控,毕竟现在都在炒可观测性。 SLO 这个方法论,并不依赖可观测性,甚至可以说 有传统监控就可以有 SLO。

    作者回复: 你的理解是个很好的角度!可能再过一段时间,大家的理解可观测性就是一个整体概念,不用再分监控还是应用链路这些

    2022-10-14归属地:上海
    1
  • peter
    请教老师一个问题: Q1:可观测性是否还需要对基础设施进行监测?

    作者回复: 对基础设施还是需要的,能够了解性能的瓶颈,但只要业务仍然能够正常运行,基础设施维度的监控告警不会影响服务可靠性.SLO,有关SLO的内容会在第8讲中介绍

    2022-09-19归属地:上海
    1
  • includestdio.h
    Java服务器的突然宕机问题我好像经常是用直觉排查和解决的,宕机后第一反应是进机器看系统日志,发现是oom,我们使用的是jenkins,但是好像没有彻底解决过这个问题,我一直归结于是我不太了解jenkins ,应该可以通过某些设置限制

    作者回复: 这时候就需要通过可观测性的建立来找到根本原因,比如通过一些指标发现问题,结合日志进行分析

    2022-09-19归属地:上海
    1
  • 花花大脸猫
    最近也有处理运行时pod吃cpu资源飙高的情况,主要还是依靠自己的直觉自己线程栈的日志,确实显著改善了,但是并没有彻底解决,只是部分场景下,cpu还是会偶发的飙升下!!根因还是业务代码的书写问题,在整点大流量请求背景下,出现了资源瓶颈问题

    作者回复: 这块可以考虑使用 Profiling,来更细颗粒度的分析 CPU 性能,定位具体代码

    2022-10-31归属地:上海
  • wilburJiang
    对于可观测性有了基本的了解。但是与传统监控具体的区别没有真地动手实践,感觉很难体会到,期待后边的实践环节。

    作者回复: 是的,后面会有 4 节实战的环节,具体可以参考课程大纲

    2022-09-22归属地:上海
  • 郑奥学
    医生看病要望闻问切、仪器检测、看度量化验单,然后综合判断精细点哪个地方好,那个地方坏有问题了,开什么药 这玩意也一样,只是用于诊断生产系统的一套检测工具了,数据越全,检索工具越快,能快速的判断出问题并止血就行了,甚至不用太细,场景实用就行,非核心的业务都能降级掉。 而且很多现在都是公有云,很多底层信息你是拿不到的,对于企业的业务来说,对稳定性的容忍度有多少? 可观测性确实是个程度词
    2023-12-07归属地:上海
  • stackWarn
    如果继续通过传统的设定阈值的方式进行故障定位,除非你能提前了解可能会在哪些节点出现问题,否则你将完全不知道故障是如何发生的,甚至都没法设定相关的阈值。 传统监控解决known unknown的事情,对于unknown unknown问题需要引入可观测性
    2022-09-20归属地:北京
收起评论
显示
设置
留言
11
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部