53 | 套路篇:系统监控的综合思路
倪朋飞
该思维导图由 AI 生成,仅供参考
你好,我是倪朋飞。
在前面的内容中,我为你介绍了很多性能分析的原理、思路以及相关的工具。不过,在实际的性能分析中,一个很常见的现象是,明明发生了性能瓶颈,但当你登录到服务器中想要排查的时候,却发现瓶颈已经消失了。或者说,性能问题总是时不时地发生,但却很难找出发生规律,也很难重现。
当面对这样的场景时,你可能会发现,我们前面介绍的各种工具、方法都“失效“了。为什么呢?因为它们都需要在性能问题发生的时刻才有效,而在这些事后分析的场景中,我们就很难发挥它们的威力了。
那该怎么办呢?置之不理吗?其实以往,很多应用都是等到用户抱怨响应慢了,或者系统崩溃了后,才发现系统或者应用程序的性能出现了问题。虽然最终也能发现问题,但显然,这种方法是不可取的,因为严重影响了用户的体验。
而要解决这个问题,就要搭建监控系统,把系统和应用程序的运行状况监控起来,并定义一系列的策略,在发生问题时第一时间告警通知。一个好的监控系统,不仅可以实时暴露系统的各种问题,更可以根据这些监控到的状态,自动分析和定位大致的瓶颈来源,从而更精确地把问题汇报给相关团队处理。
要做好监控,最核心的就是全面的、可量化的指标,这包括系统和应用两个方面。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
本文深入探讨了系统监控的重要性和方法。通过使用USE法对系统资源的性能指标进行简化,包括使用率、饱和度和错误数,读者可以快速定位系统资源的性能瓶颈。文章还介绍了建立监控系统的步骤,包括数据采集、存储、查询和处理、告警以及可视化展示等多个模块。通过使用开源监控工具如Prometheus,可以实现对系统资源的实时监控和历史追查定位问题。此外,文章还提到了应用程序监控的重要性,并承诺在下一节课继续拆解。整体而言,本文为读者提供了系统监控的基本思路和方法,以及构建监控系统的实际操作指南。读者可以从中了解到系统监控的关键环节,以及如何利用监控工具来保证系统的稳定性和性能。
仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《Linux 性能优化实战》,新⼈⾸单¥68
《Linux 性能优化实战》,新⼈⾸单¥68
立即购买
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
全部留言(26)
- 最新
- 精选
- Adam除了USE原则,还有一个RED原则 。
作者回复: 嗯嗯,RED方法更偏重于应用,在很多微服务中会用到。 Rate (R): The number of requests per second. Errors (E): The number of failed requests. Duration (D): The amount of time to process a request.
2019-03-3133 - 朱林浩如何查看内存饱和度,即内存换页量?
作者回复: 可以使用 sar -B
2019-04-295 - Maxwell文件描述符数,连接数,连接跟踪数这些指标监控系统如何监控呢?
作者回复: 监控系统一般从proc和sys文件系统中读取
2019-03-295 - 霹雳旸神公司交易系统监控还停留在hostmonitor来配置监控的阶段,各产品基本思想都差不多,老师这样一梳理脑子更清晰了,目前自己正在研究如何把交易系统容器化,等把百来套交易系统的集群搞起来后,再把老师推荐的监控方案亲自实践一遍,应该会学的更深刻
作者回复: 👍
2019-03-303 - 蒙遇到的监控问题:有时候单个性能瓶颈往往引起一连串问题,比如swap使用,导致请求响应慢,请求堆积,线程增多,文件句柄数升高,cpu瞬间升高。归因分析比较困难。最后就变成重启大法好
作者回复: 嗯,这就需要熟悉这些基本的原理,结合原理是所有性能分析的基础
2019-03-2922 - zg可以移植到ARM嵌入式Linux系统吗?
作者回复: 要看监控工具是不是支持ARM,比如Prometheus提供了ARM版本
2019-03-311 - 高倪老师,您好,通过您的课程受益匪浅。最近我刚好在生产中遇到了个问题,k8s环境下,因为某个cgroup超出限制,系统不停的重启pod,最后引发系统crash。我们收集到了core dump文件,确定了最后是触发了linux的Bug导致系统crash;系统不停的重启pod,应该是内存泄露导致,引发了oom;通过coredump文件,我找到了一堆java线程,应该是这个所致,但是在分析过程中的一些指标还不是很清楚,希望能够得到指导;如果您方便的话,可以加我微信18910659557,非常期待您的答复
作者回复: 哪些指标不清楚在这里说一下?有疑问发到留言里面,其他同学也可以一起参与讨论
2019-03-311 - code2见过上海超算中心的超级计算机系统性能监控系统,主要监控CPU的使用情况,可以预留部分CPU给重要任务,也是基于linux的操作系统,监控结果图形化显示与一个大屏幕上。
作者回复: 👍
2019-03-301 - slam虚拟机或容器,也能监控吗
作者回复: 当然可以的
2019-08-04 - Wing用什么命令可以得到这个 网络: 带宽使用率,重传报文数, 网卡收发错误数,丢包数。
作者回复: sar、netstat
2019-04-15
收起评论