Linux性能优化实战
倪朋飞
微软资深工程师,Kubernetes项目维护者
立即订阅
23395 人已学习
课程目录
已完结 64 讲
0/4登录后,你可以任选4讲全文学习。
开篇词 (2讲)
开篇词 | 别再让Linux性能问题成为你的绊脚石
免费
01 | 如何学习Linux性能优化?
CPU 性能篇 (13讲)
02 | 基础篇:到底应该怎么理解“平均负载”?
03 | 基础篇:经常说的 CPU 上下文切换是什么意思?(上)
04 | 基础篇:经常说的 CPU 上下文切换是什么意思?(下)
05 | 基础篇:某个应用的CPU使用率居然达到100%,我该怎么办?
06 | 案例篇:系统的 CPU 使用率很高,但为啥却找不到高 CPU 的应用?
07 | 案例篇:系统中出现大量不可中断进程和僵尸进程怎么办?(上)
08 | 案例篇:系统中出现大量不可中断进程和僵尸进程怎么办?(下)
09 | 基础篇:怎么理解Linux软中断?
10 | 案例篇:系统的软中断CPU使用率升高,我该怎么办?
11 | 套路篇:如何迅速分析出系统CPU的瓶颈在哪里?
12 | 套路篇:CPU 性能优化的几个思路
13 | 答疑(一):无法模拟出 RES 中断的问题,怎么办?
14 | 答疑(二):如何用perf工具分析Java程序?
内存性能篇 (8讲)
15 | 基础篇:Linux内存是怎么工作的?
16 | 基础篇:怎么理解内存中的Buffer和Cache?
17 | 案例篇:如何利用系统缓存优化程序的运行效率?
18 | 案例篇:内存泄漏了,我该如何定位和处理?
19 | 案例篇:为什么系统的Swap变高了(上)
20 | 案例篇:为什么系统的Swap变高了?(下)
21 | 套路篇:如何“快准狠”找到系统内存的问题?
22 | 答疑(三):文件系统与磁盘的区别是什么?
I/O 性能篇 (10讲)
23 | 基础篇:Linux 文件系统是怎么工作的?
24 | 基础篇:Linux 磁盘I/O是怎么工作的(上)
25 | 基础篇:Linux 磁盘I/O是怎么工作的(下)
26 | 案例篇:如何找出狂打日志的“内鬼”?
27 | 案例篇:为什么我的磁盘I/O延迟很高?
28 | 案例篇:一个SQL查询要15秒,这是怎么回事?
29 | 案例篇:Redis响应严重延迟,如何解决?
30 | 套路篇:如何迅速分析出系统I/O的瓶颈在哪里?
31 | 套路篇:磁盘 I/O 性能优化的几个思路
32 | 答疑(四):阻塞、非阻塞 I/O 与同步、异步 I/O 的区别和联系
网络性能篇 (13讲)
33 | 关于 Linux 网络,你必须知道这些(上)
34 | 关于 Linux 网络,你必须知道这些(下)
35 | 基础篇:C10K 和 C1000K 回顾
36 | 套路篇:怎么评估系统的网络性能?
37 | 案例篇:DNS 解析时快时慢,我该怎么办?
38 | 案例篇:怎么使用 tcpdump 和 Wireshark 分析网络流量?
39 | 案例篇:怎么缓解 DDoS 攻击带来的性能下降问题?
40 | 案例篇:网络请求延迟变大了,我该怎么办?
41 | 案例篇:如何优化 NAT 性能?(上)
42 | 案例篇:如何优化 NAT 性能?(下)
43 | 套路篇:网络性能优化的几个思路(上)
44 | 套路篇:网络性能优化的几个思路(下)
45 | 答疑(五):网络收发过程中,缓冲区位置在哪里?
综合实战篇 (13讲)
46 | 案例篇:为什么应用容器化后,启动慢了很多?
47 | 案例篇:服务器总是时不时丢包,我该怎么办?(上)
48 | 案例篇:服务器总是时不时丢包,我该怎么办?(下)
49 | 案例篇:内核线程 CPU 利用率太高,我该怎么办?
50 | 案例篇:动态追踪怎么用?(上)
51 | 案例篇:动态追踪怎么用?(下)
52 | 案例篇:服务吞吐量下降很厉害,怎么分析?
53 | 套路篇:系统监控的综合思路
54 | 套路篇:应用监控的一般思路
55 | 套路篇:分析性能问题的一般步骤
56 | 套路篇:优化性能问题的一般方法
57 | 套路篇:Linux 性能工具速查
58 | 答疑(六):容器冷启动如何性能分析?
加餐篇 (4讲)
加餐(一) | 书单推荐:性能优化和Linux 系统原理
加餐(二) | 书单推荐:网络原理和 Linux 内核实现
用户故事 | “半路出家 ”,也要顺利拿下性能优化!
用户故事 | 运维和开发工程师们怎么说?
结束语 (1讲)
结束语 | 愿你攻克性能难关
Linux性能优化实战
登录|注册

17 | 案例篇:如何利用系统缓存优化程序的运行效率?

倪朋飞 2018-12-28
你好,我是倪朋飞。
上一节,我们学习了内存性能中 Buffer 和 Cache 的概念。简单复习一下,Buffer 和 Cache 的设计目的,是为了提升系统的 I/O 性能。它们利用内存,充当起慢速磁盘与快速 CPU 之间的桥梁,可以加速 I/O 的访问速度。
Buffer 和 Cache 分别缓存的是对磁盘和文件系统的读写数据。
从写的角度来说,不仅可以优化磁盘和文件的写入,对应用程序也有好处,应用程序可以在数据真正落盘前,就返回去做其他工作。
从读的角度来说,不仅可以提高那些频繁访问数据的读取速度,也降低了频繁 I/O 对磁盘的压力。
既然 Buffer 和 Cache 对系统性能有很大影响,那我们在软件开发的过程中,能不能利用这一点,来优化 I/O 性能,提升应用程序的运行效率呢?
答案自然是肯定的。今天,我就用几个案例帮助你更好地理解缓存的作用,并学习如何充分利用这些缓存来提高程序效率。
为了方便你理解,Buffer 和 Cache 我仍然用英文表示,避免跟“缓存”一词混淆。而文中的“缓存”,通指数据在内存中的临时存储。

缓存命中率

在案例开始前,你应该习惯性地先问自己一个问题,你想要做成某件事情,结果应该怎么评估?比如说,我们想利用缓存来提升程序的运行效率,应该怎么评估这个效果呢?换句话说,有没有哪个指标可以衡量缓存使用的好坏呢?
取消
完成
0/1000字
划线
笔记
复制
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
该试读文章来自付费专栏《Linux性能优化实战》,如需阅读全部文章,
请订阅文章所属专栏。
立即订阅
登录 后留言

精选留言(77)

  • 我来也
    [D17打卡]
    想不到Buffer 和 Cache还有专门的工具分析, 长见识了!
    暂时只能在自己的机器上玩玩, 生产环境连root权限都没有,更别提升级CentOS内核版本了.
    -----------------
    关于思考题,我是这样想的:
    出现性能问题时的症状可能并不是单一的.
    比如这次同一个案例,从CPU和缓存两个不同的角度, 都是定位到了代码中的open.
    cpu角度分析的流程是:
    1.top 看到了%iowait升高
    2.dstat 看到了wait升高时 read同步升高. 说明跟磁盘相关
    3.$ perf record -g ; $ perf report 定位到了跟磁盘相关的系统调用 sys_read(). new_sync_read 和 blkdev_direct_IO 定位到了跟直接读有关系.
    4.查看代码 找到了跟磁盘相关的系统调用 open.
    缓存角度分析的流程是:
    1.进程5秒缓存命中率100%,但是只命中了1024次,推算使用缓存4MB.实际每秒0.8MB
    2.看日志知道每次读取的是32MB.[实际也可以通过dstat vmstat等工具粗略推算出该值]
    3.预期的32M与实际的0.8M相差甚远. 来找原因.
    4.strace 查看系统调用 定位到了openat 及 直接给出了调用参数 O_DIRECT
    5.查看代码 找到了跟磁盘相关的系统调用 open.
    -----------------
    个人总结:
    顺藤摸瓜, 根据现像找本质原因.
    磁盘io导致性能问题 -> 查看系统调用 -> 定位大致原因 -> 查看源码 -> 确定问题
    还居然在完全不知道程序具体实现的基础上,定位到了引起性能问题的系统调用. 有的甚至还直接给出了参数,太牛了.

    作者回复: 总结的很好,其实两个思路都可以,不过具体实践时可能会受限于可用的性能工具

    2018-12-28
    28
  • noma
    pcstat 不使用代理安装:
    if [ $(uname -m) == "x86_64" ] ; then
        curl -L -o pcstat https://github.com/tobert/pcstat/raw/2014-05-02-01/pcstat.x86_64
    else
        curl -L -o pcstat https://github.com/tobert/pcstat/raw/2014-05-02-01/pcstat.x86_32
    fi
    chmod 755 pcstat
    ./pcstat 即可使用
    2019-01-02
    20
  • 白华
    centos7系统安装bcc-tools的教程我写在了简书上:https://www.jianshu.com/p/997e0a6d8e09大家如果有安装不下来的可以看看
    2018-12-29
    13
  • 念你如昔
    (我是小白)
    1.dd命令前清理了缓存,为什么缓存命中率是百分之49.8呢?(都已经没有缓存了,按理说是0)
    2.绕过了系统缓存,为什么缓存命中率还百分之百?

    作者回复: 1. 预读,2. 还有元数据缓存

    2019-01-04
    11
  • 兔子先生
    这里的direct i/o是不是上一节课里的直接操作磁盘的“裸i/o”呢?如果是的话是不是应该从buffer的角度分析实验二呢?

    作者回复: 不是的,直接IO是跳过Buffer,裸IO是跳过文件系统(还是有buffer的)

    2019-02-17
    1
    9
  • Tech
    有个疑问,既然app那个案例是直接i/o,那为什么还是有缓存了4MB呢?
    2018-12-31
    9
  • 渡渡鸟_linux
    补充下centos7使用yum 安装bcc-tools:
    [root@centos-80 ~]# yum update
    [root@centos-80 ~]# rpm --import https://www.elrepo.org/RPM-GPG-KEY-elrepo.org && rpm -Uvh http://www.elrepo.org/elrepo-release-7.0-2.el7.elrepo.noarch.rpm
    [root@centos-80 ~]# uname -r ##
    3.10.0-862.el7.x86_64
    [root@centos-80 ~]# yum remove kernel-headers kernel-tools kernel-tools-libs
    [root@centos-80 ~]# yum --disablerepo="*" --enablerepo="elrepo-kernel" install kernel-ml kernel-ml-devel kernel-ml-headers kernel-ml-tools kernel-ml-tools-libs kernel-ml-tools-libs-devel
    [root@centos-80 ~]# sed -i '/GRUB_DEFAULT/s/=.*/=0/' /etc/default/grub
    [root@centos-80 ~]# grub2-mkconfig -o /boot/grub2/grub.cfg
    [root@centos-80 ~]# reboot
    [root@centos-80 ~]# uname -r ## 升级成功
    4.20.0-1.el7.elrepo.x86_64
    [root@centos-80 ~]# yum install -y bcc-tools
    [root@centos-80 ~]# echo 'export PATH=$PATH:/usr/share/bcc/tools' > /etc/profile.d/bcc-tools.sh
    [root@centos-80 ~]# . /etc/profile.d/bcc-tools.sh
    [root@centos-80 ~]# cachestat 1 1 ## 测试安装是否成功
       TOTAL MISSES HITS DIRTIES BUFFERS_MB CACHED_MB
           0 0 0 0 2 287
    2019-01-01
    1
    7
  • Johnson
    dd命令也支持直接IO的 有选项oflag和iflag 所以dd也可以用来绕过cache buff做测试

    作者回复: 👍对的

    2018-12-28
    7
  • 苹果xixi
    1024*4K/1024=4m这是怎么算的

    2019-01-01
    1
    6
  • mj4ever
    老师:
    1、不知道是不是固态硬盘的原因,调整了参数至320MB
    docker run --privileged --name=app -itd feisky/app:io-direct /app -d /dev/sdb -s 335544320
    2、用命令观察,cachestat 5,可以达到409600,409600*4/1024=320MB
    3、另外,想再调大些参数,会报错:
    Reading data from disk /dev/sda1 with buffer size 335544321
    failed to read contents: Invalid argument
    2018-12-31
    1
    5
  • xfan
    我没有遇到老师的情况,我的hits为40960而不是1024,刚好是32M,我可能是固态?
    2019-01-11
    4
  • 许山山
    我也觉得这门课超级棒了,原理加时间,学到很多!

    作者回复: 谢谢👍

    2018-12-28
    4
  • 往事随风,顺其自然
    要是centos验证一下就好了,不同系统很多问题不一样,操作上遇到问题很奇怪

    作者回复: 大部分案例我都在centos7验证了,不过文章中有些地方没有列出来详细的步骤,比如安装或者升级软件包的步骤,这些其实都是些基本功了。如果碰到实在无法解决的问题,请具体描述下。

    2018-12-28
    4
  • jssfy
    请问第一次读50%的命中率如何解释呢?

    作者回复: 预读

    2019-01-04
    3
  • 春暖花开
    非常有价值,是我阅读的极客课程里面最棒的。

    作者回复: 😊谢谢

    2018-12-28
    3
  • sam700000
    使用用vmware workstation跑的Ubuntu18.04 2C 8G
    在案例二中,跑第一个镜像feisky/app:io-direct时
    用命令cachetop 5 观察结果是

    14:04:45 Buffers MB: 40 / Cached MB: 1182 / Sort: HITS / Order: ascending
    PID UID CMD HITS MISSES DIRTIES READ_HIT% WRITE_HIT%
        1443 root dockerd 4 0 1 75.0% 0.0%
         366 root jbd2/sda1-8 4 3 2 28.6% 28.6%
        4251 root cachetop 6 0 0 100.0% 0.0%
        2496 root dockerd 12 0 3 75.0% 0.0%
        4129 root app 40959 0 0 100.0% 0.0%

    就是说已经是32MB读数据全部缓存了
    而且docker logs app看到,除了第一次之外,读取速度都很快,肯定是用缓存的数据了
    Time used: 0.057187 s to read 33554432 bytes
    Time used: 0.055884 s to read 33554432 bytes
    Time used: 0.063654 s to read 33554432 bytes
    Time used: 0.017619 s to read 33554432 bytes

    但是strace -p $(pgrep app)看到明明是系统调用使用了O_DIRECT选项,但是为什么还是用了缓存呢?和老师这里的结果不同
    2019-07-29
    2
    2
  • 辉晖
    很遗憾,实际生产环境都是用centos,没法为了安装bcc-tools而去升级内核。

    作者回复: 嗯嗯,也可以试试 systemtap

    2019-07-11
    2
  • 2xshu
    老师你好,第一个案列我有不太明白的地方。希望能得到老师的指教。
    既然执行了 echo 3 > /proc/sys/vm/drop_cacches,为什么在dd if=file of=/dev/null bs=1M 的时候,还有缓存能命中呢?我得理解是这些数据应该都没有在缓存啊。
    2018-12-29
    2
  • 末班车
    老师太厉害了,这个课程的价值远远高于这个价!!
    2018-12-28
    2
  • 夜空中最亮的星(华仔)
    老师 :
    这个 go get golang.org/x/sys/unix 访问不了国内下载不了,
    老师您有什么方法吗?指点下 谢谢
    [root@bogon ~]# go get golang.org/x/sys/unix
    package golang.org/x/sys/unix: unrecognized import path "golang.org/x/sys/unix" (https fetch: Get https://golang.org/x/sys/unix?go-get=1: dial tcp 216.239.37.1:443: connect: connection refused)
    [root@bogon ~]#

    导致下面的也安装不上
    go get github.com/tobert/pcstat/pcstat

    [root@bogon ~]# go get github.com/tobert/pcstat/pcstat
    package golang.org/x/sys/unix: unrecognized import path "golang.org/x/sys/unix" (https fetch: Get https://golang.org/x/sys/unix?go-get=1: dial tcp 216.239.37.1:443: connect: connection refused)
    [root@bogon ~]#

    作者回复: 是的,下载 golang.org 的包需要使用代理,设置方法是:

    git config [--global] http.proxy http://proxy.example.com:port

    2018-12-28
    2
收起评论
77
返回
顶部