Linux 性能优化实战
倪朋飞
资深 Linux 专家,Kubernetes 项目维护者
87259 人已学习
新⼈⾸单¥68
登录后,你可以任选4讲全文学习
课程目录
已完结/共 65 讲
结束语 (1讲)
Linux 性能优化实战
15
15
1.0x
00:00/00:00
登录|注册

53 | 套路篇:系统监控的综合思路

监控系统的搭建与资源瓶颈的定位
监控系统的性能指标
监控系统性能的方法与思路
监控系统的建立与使用
USE 法的应用
系统监控的核心
可视化展示模块
告警模块
数据查询和处理模块
数据存储模块
数据采集模块
开源监控工具的使用
监控系统的组成模块
数据采集、存储、查询和处理、告警、可视化展示
快速定位系统资源的性能瓶颈
三个类别的指标:使用率、饱和度、错误数
简洁描述系统资源的使用情况
应用程序内部的运行状态监控
系统资源监控
全面的、可量化的指标
影响用户体验的性能问题
监控系统的作用
工具与方法的失效
性能问题的时不时发生
性能瓶颈的发现与排查
思考
总结
Prometheus 监控系统
监控系统的建立
USE 法
监控系统的核心
搭建监控系统的必要性
性能分析的原理、思路及工具
系统监控的综合思路

该思维导图由 AI 生成,仅供参考

你好,我是倪朋飞。
在前面的内容中,我为你介绍了很多性能分析的原理、思路以及相关的工具。不过,在实际的性能分析中,一个很常见的现象是,明明发生了性能瓶颈,但当你登录到服务器中想要排查的时候,却发现瓶颈已经消失了。或者说,性能问题总是时不时地发生,但却很难找出发生规律,也很难重现。
当面对这样的场景时,你可能会发现,我们前面介绍的各种工具、方法都“失效“了。为什么呢?因为它们都需要在性能问题发生的时刻才有效,而在这些事后分析的场景中,我们就很难发挥它们的威力了。
那该怎么办呢?置之不理吗?其实以往,很多应用都是等到用户抱怨响应慢了,或者系统崩溃了后,才发现系统或者应用程序的性能出现了问题。虽然最终也能发现问题,但显然,这种方法是不可取的,因为严重影响了用户的体验。
而要解决这个问题,就要搭建监控系统,把系统和应用程序的运行状况监控起来,并定义一系列的策略,在发生问题时第一时间告警通知。一个好的监控系统,不仅可以实时暴露系统的各种问题,更可以根据这些监控到的状态,自动分析和定位大致的瓶颈来源,从而更精确地把问题汇报给相关团队处理。
要做好监控,最核心的就是全面的、可量化的指标,这包括系统和应用两个方面。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

本文深入探讨了系统监控的重要性和方法。通过使用USE法对系统资源的性能指标进行简化,包括使用率、饱和度和错误数,读者可以快速定位系统资源的性能瓶颈。文章还介绍了建立监控系统的步骤,包括数据采集、存储、查询和处理、告警以及可视化展示等多个模块。通过使用开源监控工具如Prometheus,可以实现对系统资源的实时监控和历史追查定位问题。此外,文章还提到了应用程序监控的重要性,并承诺在下一节课继续拆解。整体而言,本文为读者提供了系统监控的基本思路和方法,以及构建监控系统的实际操作指南。读者可以从中了解到系统监控的关键环节,以及如何利用监控工具来保证系统的稳定性和性能。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《Linux 性能优化实战》
新⼈⾸单¥68
立即购买
登录 后留言

全部留言(26)

  • 最新
  • 精选
  • Adam
    除了USE原则,还有一个RED原则 。

    作者回复: 嗯嗯,RED方法更偏重于应用,在很多微服务中会用到。 Rate (R): The number of requests per second. Errors (E): The number of failed requests. Duration (D): The amount of time to process a request.

    2019-03-31
    33
  • 朱林浩
    如何查看内存饱和度,即内存换页量?

    作者回复: 可以使用 sar -B

    2019-04-29
    5
  • Maxwell
    文件描述符数,连接数,连接跟踪数这些指标监控系统如何监控呢?

    作者回复: 监控系统一般从proc和sys文件系统中读取

    2019-03-29
    5
  • 霹雳旸神
    公司交易系统监控还停留在hostmonitor来配置监控的阶段,各产品基本思想都差不多,老师这样一梳理脑子更清晰了,目前自己正在研究如何把交易系统容器化,等把百来套交易系统的集群搞起来后,再把老师推荐的监控方案亲自实践一遍,应该会学的更深刻

    作者回复: 👍

    2019-03-30
    3
  • 遇到的监控问题:有时候单个性能瓶颈往往引起一连串问题,比如swap使用,导致请求响应慢,请求堆积,线程增多,文件句柄数升高,cpu瞬间升高。归因分析比较困难。最后就变成重启大法好

    作者回复: 嗯,这就需要熟悉这些基本的原理,结合原理是所有性能分析的基础

    2019-03-29
    2
    2
  • zg
    可以移植到ARM嵌入式Linux系统吗?

    作者回复: 要看监控工具是不是支持ARM,比如Prometheus提供了ARM版本

    2019-03-31
    1
  • 倪老师,您好,通过您的课程受益匪浅。最近我刚好在生产中遇到了个问题,k8s环境下,因为某个cgroup超出限制,系统不停的重启pod,最后引发系统crash。我们收集到了core dump文件,确定了最后是触发了linux的Bug导致系统crash;系统不停的重启pod,应该是内存泄露导致,引发了oom;通过coredump文件,我找到了一堆java线程,应该是这个所致,但是在分析过程中的一些指标还不是很清楚,希望能够得到指导;如果您方便的话,可以加我微信18910659557,非常期待您的答复

    作者回复: 哪些指标不清楚在这里说一下?有疑问发到留言里面,其他同学也可以一起参与讨论

    2019-03-31
    1
  • code2
    见过上海超算中心的超级计算机系统性能监控系统,主要监控CPU的使用情况,可以预留部分CPU给重要任务,也是基于linux的操作系统,监控结果图形化显示与一个大屏幕上。

    作者回复: 👍

    2019-03-30
    1
  • slam
    虚拟机或容器,也能监控吗

    作者回复: 当然可以的

    2019-08-04
  • Wing
    用什么命令可以得到这个 网络: 带宽使用率,重传报文数, 网卡收发错误数,丢包数。

    作者回复: sar、netstat

    2019-04-15
收起评论
显示
设置
留言
26
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部