Linux性能优化实战
倪朋飞
微软资深工程师,Kubernetes项目维护者
立即订阅
23395 人已学习
课程目录
已完结 64 讲
0/4登录后,你可以任选4讲全文学习。
开篇词 (2讲)
开篇词 | 别再让Linux性能问题成为你的绊脚石
免费
01 | 如何学习Linux性能优化?
CPU 性能篇 (13讲)
02 | 基础篇:到底应该怎么理解“平均负载”?
03 | 基础篇:经常说的 CPU 上下文切换是什么意思?(上)
04 | 基础篇:经常说的 CPU 上下文切换是什么意思?(下)
05 | 基础篇:某个应用的CPU使用率居然达到100%,我该怎么办?
06 | 案例篇:系统的 CPU 使用率很高,但为啥却找不到高 CPU 的应用?
07 | 案例篇:系统中出现大量不可中断进程和僵尸进程怎么办?(上)
08 | 案例篇:系统中出现大量不可中断进程和僵尸进程怎么办?(下)
09 | 基础篇:怎么理解Linux软中断?
10 | 案例篇:系统的软中断CPU使用率升高,我该怎么办?
11 | 套路篇:如何迅速分析出系统CPU的瓶颈在哪里?
12 | 套路篇:CPU 性能优化的几个思路
13 | 答疑(一):无法模拟出 RES 中断的问题,怎么办?
14 | 答疑(二):如何用perf工具分析Java程序?
内存性能篇 (8讲)
15 | 基础篇:Linux内存是怎么工作的?
16 | 基础篇:怎么理解内存中的Buffer和Cache?
17 | 案例篇:如何利用系统缓存优化程序的运行效率?
18 | 案例篇:内存泄漏了,我该如何定位和处理?
19 | 案例篇:为什么系统的Swap变高了(上)
20 | 案例篇:为什么系统的Swap变高了?(下)
21 | 套路篇:如何“快准狠”找到系统内存的问题?
22 | 答疑(三):文件系统与磁盘的区别是什么?
I/O 性能篇 (10讲)
23 | 基础篇:Linux 文件系统是怎么工作的?
24 | 基础篇:Linux 磁盘I/O是怎么工作的(上)
25 | 基础篇:Linux 磁盘I/O是怎么工作的(下)
26 | 案例篇:如何找出狂打日志的“内鬼”?
27 | 案例篇:为什么我的磁盘I/O延迟很高?
28 | 案例篇:一个SQL查询要15秒,这是怎么回事?
29 | 案例篇:Redis响应严重延迟,如何解决?
30 | 套路篇:如何迅速分析出系统I/O的瓶颈在哪里?
31 | 套路篇:磁盘 I/O 性能优化的几个思路
32 | 答疑(四):阻塞、非阻塞 I/O 与同步、异步 I/O 的区别和联系
网络性能篇 (13讲)
33 | 关于 Linux 网络,你必须知道这些(上)
34 | 关于 Linux 网络,你必须知道这些(下)
35 | 基础篇:C10K 和 C1000K 回顾
36 | 套路篇:怎么评估系统的网络性能?
37 | 案例篇:DNS 解析时快时慢,我该怎么办?
38 | 案例篇:怎么使用 tcpdump 和 Wireshark 分析网络流量?
39 | 案例篇:怎么缓解 DDoS 攻击带来的性能下降问题?
40 | 案例篇:网络请求延迟变大了,我该怎么办?
41 | 案例篇:如何优化 NAT 性能?(上)
42 | 案例篇:如何优化 NAT 性能?(下)
43 | 套路篇:网络性能优化的几个思路(上)
44 | 套路篇:网络性能优化的几个思路(下)
45 | 答疑(五):网络收发过程中,缓冲区位置在哪里?
综合实战篇 (13讲)
46 | 案例篇:为什么应用容器化后,启动慢了很多?
47 | 案例篇:服务器总是时不时丢包,我该怎么办?(上)
48 | 案例篇:服务器总是时不时丢包,我该怎么办?(下)
49 | 案例篇:内核线程 CPU 利用率太高,我该怎么办?
50 | 案例篇:动态追踪怎么用?(上)
51 | 案例篇:动态追踪怎么用?(下)
52 | 案例篇:服务吞吐量下降很厉害,怎么分析?
53 | 套路篇:系统监控的综合思路
54 | 套路篇:应用监控的一般思路
55 | 套路篇:分析性能问题的一般步骤
56 | 套路篇:优化性能问题的一般方法
57 | 套路篇:Linux 性能工具速查
58 | 答疑(六):容器冷启动如何性能分析?
加餐篇 (4讲)
加餐(一) | 书单推荐:性能优化和Linux 系统原理
加餐(二) | 书单推荐:网络原理和 Linux 内核实现
用户故事 | “半路出家 ”,也要顺利拿下性能优化!
用户故事 | 运维和开发工程师们怎么说?
结束语 (1讲)
结束语 | 愿你攻克性能难关
Linux性能优化实战
登录|注册

21 | 套路篇:如何“快准狠”找到系统内存的问题?

倪朋飞 2019-01-07
你好,我是倪朋飞。
前几节,通过几个案例,我们分析了各种常见的内存性能问题。我相信通过它们,你对内存的性能分析已经有了基本的思路,也熟悉了很多分析内存性能的工具。你肯定会想,有没有迅速定位内存问题的方法?当定位出内存的瓶颈后,又有哪些优化内存的思路呢?
今天,我就来帮你梳理一下,怎样可以快速定位系统内存,并且总结了相关的解决思路。

内存性能指标

为了分析内存的性能瓶颈,首先你要知道,怎样衡量内存的性能,也就是性能指标问题。我们先来回顾一下,前几节学过的内存性能指标。
你可以自己先找张纸,凭着记忆写一写;或者打开前面的文章,自己总结一下。
首先,你最容易想到的是系统内存使用情况,比如已用内存、剩余内存、共享内存、可用内存、缓存和缓冲区的用量等。
已用内存和剩余内存很容易理解,就是已经使用和还未使用的内存。
共享内存是通过 tmpfs 实现的,所以它的大小也就是 tmpfs 使用的内存大小。tmpfs 其实也是一种特殊的缓存。
可用内存是新进程可以使用的最大内存,它包括剩余内存和可回收缓存。
缓存包括两部分,一部分是磁盘读取文件的页缓存,用来缓存从磁盘读取的数据,可以加快以后再次访问的速度。另一部分,则是 Slab 分配器中的可回收内存。
缓冲区是对原始磁盘块的临时存储,用来缓存将要写入磁盘的数据。这样,内核就可以把分散的写集中起来,统一优化磁盘写入。
取消
完成
0/1000字
划线
笔记
复制
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
该试读文章来自付费专栏《Linux性能优化实战》,如需阅读全部文章,
请订阅文章所属专栏。
立即订阅
登录 后留言

精选留言(27)

  • allan
    老师,您在文中说到:
    常驻内存是进程实际使用的物理内存,不过,它不包括 Swap 和共享内存。

    但是在下一篇答疑的文章中提到:RSS 表示常驻内存,把进程用到的共享内存也算了进去。

    这是不是矛盾了,是不是这一篇中说到的有问题呢?

    作者回复: 很细心呀,这里概念上和工具给出的指标有些出入,实际使用时要注意工具给出的指标的含义

    2019-01-14
    7
  • 减肥的老郭
    老师好,文中提到的bcc相关的工具都需要版本较高的内核,但是真实生产都无法满足这个要求,有别的替代工具么?

    作者回复: 有的,比如内存泄漏使用valgrind、动态跟踪使用systemtap等。这些工具相对来说更难用一些

    2019-01-07
    4
  • 风飘,吾独思
    打卡
    2019-01-09
    3
  • 深蓝
    我现实中遇到一个奇怪的场景 free -m 查看 used 很高 free buff/cache 都很低 top命令看不到内存占用高的内存,目前系统中可用的工具只有pmap top ps slabtop 请问老师有什么思路来排查这个问题

    作者回复: top有没有按照内存排序?

    2019-07-16
    2
  • shuifa
    打卡,学习是一种习惯
    2019-01-07
    2
  • 无名老卒
    老师能不能举一些实际的例子,我是有遇到过线上内存泄露的案例,每次出现这个问题时,基本上是无解,因为基本上都是直接宕机了。这个可有监控方法?

    其他的内存使用上的问题,如缺页、缓存数据用得过多等异常,基本上没有遇到过,这类问题,老师遇到的次数多吗?

    作者回复: 可以把系统和进程的内存指标监控起来,这样根据历史趋势就可以知道是哪些进程内存泄漏了。

    其他的这些也有,但比较少。实际进程基本上都有一个内存管理模块,统一管理内存。有问题也是这个模块刚开始写的时候比较多,后面就会逐渐稳定起来。

    2019-01-07
    2
  • DJH
    倪老师,我们有一个空闲的docker节点(CentOS 7.4,只有k8s node组件,ceph组件和2个空跑的测试pod),平常只有几十的磁盘iops,每隔若干天后系统磁盘的iops就会持续超过3000,并且降不下来。经过iostat检查发现磁盘读写来自于swap卷,奇怪的是系统空闲内存很多,swap使用率也只有一点点(不到1%),主机上也没什么业务。现在每次碰到这个问题只能重启一下解决。请问这种问题有啥解决思路吗?

    作者回复: 可能跟NUMA配置有关,可以查下是不是允许跨NODE

    2019-01-07
    2
  • 沙漠风暴
    老师好,我们公司生产服务器上面内存使用率总是99%,我用top命令查了,是tomcat站点的java进程的VIRT是15G,RES是5G,机器总物理内存15G,这个VIRT是不是太高了,是什么原因导致的呢,会影响机器和tomcat的性能吗?谢谢指教!

    作者回复: VIRT高没事的,内存使用率高是不是还有其他的进程?或者多进程?

    2019-07-28
    1
  • lin
    例如:mysql 内存占用较高 怎么分析 MySQL 进程具体内存耗用呢?谢谢!

    作者回复: 这在官方文档上就有的 https://dev.mysql.com/doc/refman/8.0/en/memory-use.html

    2019-03-13
    1
    1
  • ninuxer
    打卡day22
    总结篇,紧跟大佬脚步~
    2019-01-07
    1
  • 诺克大叔
    老师您好,如何快速的定位,系统上哪个程序占用较大内存,也就是说内存都去哪了?
    2019-11-18
  • fly2best
    你好,请教一下sar -B 中pgscand的含义
    2019-11-17
  • new
    内存泄露定位实际上操作起来还是很蒙,比如我用pidstat观察到某个进程的Rss值一直在递增,但是总体占用内存又很小,而且每次递增也只有几百kb,用vmstat观察内存也不是一直在增加,这种就不知道怎么回事了,所以内存泄露是要结合多方面来看吗,那这种情况我需要怎么确认这个进程的到底有没有内存泄露呢
    2019-10-11
  • 坤丰
    次缺页多少算高呢?
    如果过高的话,需要怎么处理
    2019-09-10
  • 童童爸爸
    大佬 线上环境发现有内存泄漏 怎么处理

    作者回复: 请参考第18篇

    2019-06-17
  • dao
    学到这了,觉得有点吃力了,记录一下

    作者回复: 加油

    2019-05-11
  • jimmy
    文章说通过ps、top命令查看缺页异常,哪个指标代表缺页异常的

    作者回复: man查手册 这是必会的的一个技能

    2019-05-10
  • Jec
    老师,虽然java的内存分析这些用不上,能分享一下java程序的一些内存高调优的方法和案例吗
    2019-04-21
  • 让熊猫飞上天
    你好,老师,问一下工具valgrind使用时在分析内存泄露时,这个工具不能直接使用pid来定位,只能跟程序文件吗? 感觉没有memleak这个好用

    作者回复: 是的,但是 memleak 内核版本要比较新,valgrind 在很旧的内核上也可以用

    2019-02-26
  • 如果
    day21,打卡
    2019-02-13
收起评论
27
返回
顶部