53 | 套路篇：系统监控的综合思路

倪朋飞



该思维导图由 AI 生成，仅供参考

你好，我是倪朋飞。
在前面的内容中，我为你介绍了很多性能分析的原理、思路以及相关的工具。不过，在实际的性能分析中，一个很常见的现象是，明明发生了性能瓶颈，但当你登录到服务器中想要排查的时候，却发现瓶颈已经消失了。或者说，性能问题总是时不时地发生，但却很难找出发生规律，也很难重现。
当面对这样的场景时，你可能会发现，我们前面介绍的各种工具、方法都“失效“了。为什么呢？因为它们都需要在性能问题发生的时刻才有效，而在这些事后分析的场景中，我们就很难发挥它们的威力了。
那该怎么办呢？置之不理吗？其实以往，很多应用都是等到用户抱怨响应慢了，或者系统崩溃了后，才发现系统或者应用程序的性能出现了问题。虽然最终也能发现问题，但显然，这种方法是不可取的，因为严重影响了用户的体验。
而要解决这个问题，就要搭建监控系统，把系统和应用程序的运行状况监控起来，并定义一系列的策略，在发生问题时第一时间告警通知。一个好的监控系统，不仅可以实时暴露系统的各种问题，更可以根据这些监控到的状态，自动分析和定位大致的瓶颈来源，从而更精确地把问题汇报给相关团队处理。
要做好监控，最核心的就是全面的、可量化的指标，这包括系统和应用两个方面。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

本文深入探讨了系统监控的重要性和方法。通过使用USE法对系统资源的性能指标进行简化，包括使用率、饱和度和错误数，读者可以快速定位系统资源的性能瓶颈。文章还介绍了建立监控系统的步骤，包括数据采集、存储、查询和处理、告警以及可视化展示等多个模块。通过使用开源监控工具如Prometheus，可以实现对系统资源的实时监控和历史追查定位问题。此外，文章还提到了应用程序监控的重要性，并承诺在下一节课继续拆解。整体而言，本文为读者提供了系统监控的基本思路和方法，以及构建监控系统的实际操作指南。读者可以从中了解到系统监控的关键环节，以及如何利用监控工具来保证系统的稳定性和性能。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《Linux 性能优化实战》，新⼈⾸单¥68

立即购买

登录后留言

全部留言(26)

最新
精选

Adam
除了USE原则，还有一个RED原则。
作者回复: 嗯嗯，RED方法更偏重于应用，在很多微服务中会用到。 Rate (R): The number of requests per second. Errors (E): The number of failed requests. Duration (D): The amount of time to process a request.
2019-03-31

33
朱林浩
如何查看内存饱和度，即内存换页量？
作者回复: 可以使用 sar -B
2019-04-29

5
Maxwell
文件描述符数，连接数，连接跟踪数这些指标监控系统如何监控呢？
作者回复: 监控系统一般从proc和sys文件系统中读取
2019-03-29

5
霹雳旸神
公司交易系统监控还停留在hostmonitor来配置监控的阶段，各产品基本思想都差不多，老师这样一梳理脑子更清晰了，目前自己正在研究如何把交易系统容器化，等把百来套交易系统的集群搞起来后，再把老师推荐的监控方案亲自实践一遍，应该会学的更深刻
作者回复: 👍
2019-03-30

3
蒙
遇到的监控问题：有时候单个性能瓶颈往往引起一连串问题，比如swap使用，导致请求响应慢，请求堆积，线程增多，文件句柄数升高，cpu瞬间升高。归因分析比较困难。最后就变成重启大法好
作者回复: 嗯，这就需要熟悉这些基本的原理，结合原理是所有性能分析的基础
2019-03-29
2
2
zg
可以移植到ARM嵌入式Linux系统吗？
作者回复: 要看监控工具是不是支持ARM，比如Prometheus提供了ARM版本
2019-03-31

1
高
倪老师，您好，通过您的课程受益匪浅。最近我刚好在生产中遇到了个问题，k8s环境下，因为某个cgroup超出限制，系统不停的重启pod，最后引发系统crash。我们收集到了core dump文件，确定了最后是触发了linux的Bug导致系统crash；系统不停的重启pod，应该是内存泄露导致，引发了oom；通过coredump文件，我找到了一堆java线程，应该是这个所致，但是在分析过程中的一些指标还不是很清楚，希望能够得到指导；如果您方便的话，可以加我微信18910659557，非常期待您的答复
作者回复: 哪些指标不清楚在这里说一下？有疑问发到留言里面，其他同学也可以一起参与讨论
2019-03-31

1
code2
见过上海超算中心的超级计算机系统性能监控系统，主要监控CPU的使用情况，可以预留部分CPU给重要任务，也是基于linux的操作系统，监控结果图形化显示与一个大屏幕上。
作者回复: 👍
2019-03-30

1
slam
虚拟机或容器，也能监控吗
作者回复: 当然可以的
2019-08-04


Wing
用什么命令可以得到这个网络：带宽使用率，重传报文数，网卡收发错误数，丢包数。
作者回复: sar、netstat
2019-04-15



收起评论