03 | 相互对比:可观测性和传统监控有什么区别?
传统监控的问题排查方法
构建仪表盘
- 深入了解
- 翻译
- 解释
- 总结
可观测性与传统监控的区别在于可观测性通过查看和分析高维度和高基数数据,发现隐藏在复杂系统架构中的问题,而不需要事先预测问题可能发生在哪里,以及问题发生的模式。传统监控则主要用于收集和汇总一定时间间隔内的性能指标,依靠这些指标的变化趋势来分析系统的性能。在现代云原生系统中,使用传统监控进行故障定位具有局限性,因为请求可能跨越多个服务和机器,导致相关指标分裂,难以推断问题发生的原因。传统监控只能解决已知问题,而对于未知问题则束手无策。相比之下,可观测性能够帮助发现未知问题,不受预设条件限制,更适用于复杂系统架构的问题排查。 可观测性和监控的另一个区别在于关注的维度不同。监控更加关注基础设施的资源情况,而可观测性则瞄准应用软件本身,旨在保障应用软件的可靠性和稳定性,解决应用软件在运行时的调试问题。可观测性强调全面收集和关联数据,不仅包括指标数据,还包括数据的一致性和关联关系,从而实现通过数据进行故障排查。 在现代复杂系统中,传统监控的局限性越来越明显,而可观测性通过高维度和高基数的数据分析,允许从任何一个角度分析问题,帮助找到问题或故障的根本原因。相比传统监控,可观测性提供了一种不同的诊断方法,不再只能依赖团队中最有经验的工程师,而是可以全面收集和关联数据,通过探索性的问题来询问系统和应用,通过数据分析和发现来进一步开放式地查询和下钻,直到找到问题或故障的根本原因。 总的来说,可观测性相较于传统监控更适用于现代复杂系统架构,能够帮助发现未知问题,通过数据进行故障排查,提供了一种不同的诊断方法,从而提高了系统的可靠性和稳定性。
《深入浅出可观测性》,新⼈⾸单¥29
全部留言(11)
- 最新
- 精选
- LYy可观测性聚焦于业务层与应用层,区别于传统监控大多局限于基础设施层。 随着微服务化、云原生化的普及,故障产生的原因越来越多的集中在应用层、表现在业务层,而传统监控关注的基础设施层很难反向推出应用、业务的具体问题,造成了"我知道有问题,但不知道具体是哪里出了问题"的"known-unknowns"的窘境。
作者回复: 没错,很好的理解!
2022-10-14归属地:上海24 - wsp老师,我们做业务的可观测性监控。初期试验通过业务逻辑硬编码异常点直接告警,这种有相应案例吗。如何去定义业务的可观测性那,有没有方法论
作者回复: 业务的可观测可以关注后续的课程,会讲到SLO的构建,保障业务可靠性
2022-09-20归属地:上海2 - penng电子书打不开
作者回复: 链接没错,是个国外的网站,看是否能够访问 https://www.honeycomb.io,然后从 Learn 菜单进 Blog,搜素 Observability Engineering
2022-10-21归属地:上海1 - kaizen个人觉得可观测性是个程度词,是形容一个复杂系统的可观测程度,也就是系统各个切面以及各个Signal关联程度,而不是将传统监控与可观测直接割裂开,也许两三年后就会出现可观测=监控,毕竟现在都在炒可观测性。 SLO 这个方法论,并不依赖可观测性,甚至可以说 有传统监控就可以有 SLO。
作者回复: 你的理解是个很好的角度!可能再过一段时间,大家的理解可观测性就是一个整体概念,不用再分监控还是应用链路这些
2022-10-14归属地:上海1 - peter请教老师一个问题: Q1:可观测性是否还需要对基础设施进行监测?
作者回复: 对基础设施还是需要的,能够了解性能的瓶颈,但只要业务仍然能够正常运行,基础设施维度的监控告警不会影响服务可靠性.SLO,有关SLO的内容会在第8讲中介绍
2022-09-19归属地:上海1 - includestdio.hJava服务器的突然宕机问题我好像经常是用直觉排查和解决的,宕机后第一反应是进机器看系统日志,发现是oom,我们使用的是jenkins,但是好像没有彻底解决过这个问题,我一直归结于是我不太了解jenkins ,应该可以通过某些设置限制
作者回复: 这时候就需要通过可观测性的建立来找到根本原因,比如通过一些指标发现问题,结合日志进行分析
2022-09-19归属地:上海1 - 花花大脸猫最近也有处理运行时pod吃cpu资源飙高的情况,主要还是依靠自己的直觉自己线程栈的日志,确实显著改善了,但是并没有彻底解决,只是部分场景下,cpu还是会偶发的飙升下!!根因还是业务代码的书写问题,在整点大流量请求背景下,出现了资源瓶颈问题
作者回复: 这块可以考虑使用 Profiling,来更细颗粒度的分析 CPU 性能,定位具体代码
2022-10-31归属地:上海 - wilburJiang对于可观测性有了基本的了解。但是与传统监控具体的区别没有真地动手实践,感觉很难体会到,期待后边的实践环节。
作者回复: 是的,后面会有 4 节实战的环节,具体可以参考课程大纲
2022-09-22归属地:上海 - 郑奥学医生看病要望闻问切、仪器检测、看度量化验单,然后综合判断精细点哪个地方好,那个地方坏有问题了,开什么药 这玩意也一样,只是用于诊断生产系统的一套检测工具了,数据越全,检索工具越快,能快速的判断出问题并止血就行了,甚至不用太细,场景实用就行,非核心的业务都能降级掉。 而且很多现在都是公有云,很多底层信息你是拿不到的,对于企业的业务来说,对稳定性的容忍度有多少? 可观测性确实是个程度词2023-12-07归属地:上海
- stackWarn如果继续通过传统的设定阈值的方式进行故障定位,除非你能提前了解可能会在哪些节点出现问题,否则你将完全不知道故障是如何发生的,甚至都没法设定相关的阈值。 传统监控解决known unknown的事情,对于unknown unknown问题需要引入可观测性2022-09-20归属地:北京