Linux性能优化实战
倪朋飞
微软资深工程师,Kubernetes项目维护者
立即订阅
23395 人已学习
课程目录
已完结 64 讲
0/4登录后,你可以任选4讲全文学习。
开篇词 (2讲)
开篇词 | 别再让Linux性能问题成为你的绊脚石
免费
01 | 如何学习Linux性能优化?
CPU 性能篇 (13讲)
02 | 基础篇:到底应该怎么理解“平均负载”?
03 | 基础篇:经常说的 CPU 上下文切换是什么意思?(上)
04 | 基础篇:经常说的 CPU 上下文切换是什么意思?(下)
05 | 基础篇:某个应用的CPU使用率居然达到100%,我该怎么办?
06 | 案例篇:系统的 CPU 使用率很高,但为啥却找不到高 CPU 的应用?
07 | 案例篇:系统中出现大量不可中断进程和僵尸进程怎么办?(上)
08 | 案例篇:系统中出现大量不可中断进程和僵尸进程怎么办?(下)
09 | 基础篇:怎么理解Linux软中断?
10 | 案例篇:系统的软中断CPU使用率升高,我该怎么办?
11 | 套路篇:如何迅速分析出系统CPU的瓶颈在哪里?
12 | 套路篇:CPU 性能优化的几个思路
13 | 答疑(一):无法模拟出 RES 中断的问题,怎么办?
14 | 答疑(二):如何用perf工具分析Java程序?
内存性能篇 (8讲)
15 | 基础篇:Linux内存是怎么工作的?
16 | 基础篇:怎么理解内存中的Buffer和Cache?
17 | 案例篇:如何利用系统缓存优化程序的运行效率?
18 | 案例篇:内存泄漏了,我该如何定位和处理?
19 | 案例篇:为什么系统的Swap变高了(上)
20 | 案例篇:为什么系统的Swap变高了?(下)
21 | 套路篇:如何“快准狠”找到系统内存的问题?
22 | 答疑(三):文件系统与磁盘的区别是什么?
I/O 性能篇 (10讲)
23 | 基础篇:Linux 文件系统是怎么工作的?
24 | 基础篇:Linux 磁盘I/O是怎么工作的(上)
25 | 基础篇:Linux 磁盘I/O是怎么工作的(下)
26 | 案例篇:如何找出狂打日志的“内鬼”?
27 | 案例篇:为什么我的磁盘I/O延迟很高?
28 | 案例篇:一个SQL查询要15秒,这是怎么回事?
29 | 案例篇:Redis响应严重延迟,如何解决?
30 | 套路篇:如何迅速分析出系统I/O的瓶颈在哪里?
31 | 套路篇:磁盘 I/O 性能优化的几个思路
32 | 答疑(四):阻塞、非阻塞 I/O 与同步、异步 I/O 的区别和联系
网络性能篇 (13讲)
33 | 关于 Linux 网络,你必须知道这些(上)
34 | 关于 Linux 网络,你必须知道这些(下)
35 | 基础篇:C10K 和 C1000K 回顾
36 | 套路篇:怎么评估系统的网络性能?
37 | 案例篇:DNS 解析时快时慢,我该怎么办?
38 | 案例篇:怎么使用 tcpdump 和 Wireshark 分析网络流量?
39 | 案例篇:怎么缓解 DDoS 攻击带来的性能下降问题?
40 | 案例篇:网络请求延迟变大了,我该怎么办?
41 | 案例篇:如何优化 NAT 性能?(上)
42 | 案例篇:如何优化 NAT 性能?(下)
43 | 套路篇:网络性能优化的几个思路(上)
44 | 套路篇:网络性能优化的几个思路(下)
45 | 答疑(五):网络收发过程中,缓冲区位置在哪里?
综合实战篇 (13讲)
46 | 案例篇:为什么应用容器化后,启动慢了很多?
47 | 案例篇:服务器总是时不时丢包,我该怎么办?(上)
48 | 案例篇:服务器总是时不时丢包,我该怎么办?(下)
49 | 案例篇:内核线程 CPU 利用率太高,我该怎么办?
50 | 案例篇:动态追踪怎么用?(上)
51 | 案例篇:动态追踪怎么用?(下)
52 | 案例篇:服务吞吐量下降很厉害,怎么分析?
53 | 套路篇:系统监控的综合思路
54 | 套路篇:应用监控的一般思路
55 | 套路篇:分析性能问题的一般步骤
56 | 套路篇:优化性能问题的一般方法
57 | 套路篇:Linux 性能工具速查
58 | 答疑(六):容器冷启动如何性能分析?
加餐篇 (4讲)
加餐(一) | 书单推荐:性能优化和Linux 系统原理
加餐(二) | 书单推荐:网络原理和 Linux 内核实现
用户故事 | “半路出家 ”,也要顺利拿下性能优化!
用户故事 | 运维和开发工程师们怎么说?
结束语 (1讲)
结束语 | 愿你攻克性能难关
Linux性能优化实战
登录|注册

13 | 答疑(一):无法模拟出 RES 中断的问题,怎么办?

倪朋飞 2018-12-19
你好,我是倪朋飞。
专栏更新至今,四大基础模块之一的 CPU 性能篇,我们就已经学完了。很开心过半数同学还没有掉队,仍然在学习、积极实践操作,并且热情地留下了大量的留言。
这些留言中,我非常高兴地看到,很多同学已经做到了活学活用,用学过的案例思路,分析出了线上应用的性能瓶颈,解决了实际工作中的性能问题。 还有同学能够反复推敲思考,指出文章中某些不当或不严谨的叙述,我也十分感谢你,同时很乐意和你探讨。
此外,很多留言提出的问题也很有价值,大部分我都已经在 app 里回复,一些手机上不方便回复的或者很有价值的典型问题,我专门摘了出来,作为今天的答疑内容,集中回复。另一方面,也是为了保证所有人都能不漏掉任何一个重点。
今天是性能优化答疑的第一期。为了便于你学习理解,它们并不是严格按照文章顺序排列的。每个问题,我都附上了留言区提问的截屏。如果你需要回顾内容原文,可以扫描每个问题右下方的二维码查看。

问题 1:性能工具版本太低,导致指标不全

这是使用 CentOS 的同学普遍碰到的问题。在文章中,我的 pidstat 输出里有一个 %wait 指标,代表进程等待 CPU 的时间百分比,这是 systat 11.5.5 版本才引入的新指标,旧版本没有这一项。而 CentOS 软件库里的 sysstat 版本刚好比这个低,所以没有这项指标。
取消
完成
0/1000字
划线
笔记
复制
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
该试读文章来自付费专栏《Linux性能优化实战》,如需阅读全部文章,
请订阅文章所属专栏。
立即订阅
登录 后留言

精选留言(40)

  • ninuxer
    打卡day14
    之前一直理解有误,感谢指出!
    pidstat 中, %wait 表示进程等待 CPU 的时间百分比。此时进程是运行状态。
    top 中 ,iowait% 则表示等待 I/O 的 CPU 时间百分比。此时进程处于不可中断睡眠态。
    等待 CPU 的进程已经在 CPU 的就绪队列中,处于运行状态;而等待 I/O 的进程则处于不可中断状态。

    作者回复: 👍

    2018-12-19
    18
  • 郭江伟
    课程很系统,把自己以前的知识都串起来了,后续争取每个案例自己都做一次,并且融合自己的经验改进下案例

    作者回复: 欢迎分享你的改进经验😊

    2018-12-19
    5
  • 念你如昔
    非常非常感谢,这钱花的值,之前没有对这些东西形成体系,老是感觉有力使不上的感觉,自从看了老师的文档,终于飘了,都想跳槽了?!。

    作者回复: 😢

    2018-12-19
    4
  • 我来也
    [D13打卡]
    多谢老师提出来, pidstat 和 top 中的 %wait 含义并不一样.
    之前只知道top是io的wait, 而新接触的pidstat的倒没有细想过.
    确实是应该多man一下,看下命令文档.
    刚开始要把工具用起来, 之后再查看命令的详细文档.

    作者回复: 嗯嗯,虽然专栏里也有不少使用案例,但并能包括所有细节的知识,这都需要查文档

    2018-12-19
    2
  • MoFanDon
    做了几年运维一直想要掌握,却了解的很零散。这段时间的课程让我学习很多,感谢老师。

    作者回复: 😊

    2018-12-19
    2
  • 饭粒
    测试跑的Q4 还是无法模拟出 I/O 性能瓶颈,依然是要加了 --device-write-iops --device-read-iops 限制后才可以。

    [root@centos-7 ~]# docker run --privileged --name=app -itd feisky/app:iowait /app -d /dev/sda -s 67108864 -c 20
    e7a7deddba3d2845030515fbbe25785382306d3c600c474a22de54d543a2cf53
    [root@centos-7 ~]# docker logs app
    Reading data from disk /dev/sdb with buffer size 67108864 and count 20

    # 内核cpu时间sy,软中断cpu时间si升高明显
    top - 00:15:15 up 12 min, 2 users, load average: 23.50, 7.07, 2.49
    Tasks: 148 total, 43 running, 104 sleeping, 1 stopped, 0 zombie
    %Cpu0 : 21.1 us, 54.9 sy, 0.0 ni, 0.0 id, 0.0 wa, 0.0 hi, 24.0 si, 0.0 st
    %Cpu1 : 21.8 us, 76.8 sy, 0.0 ni, 0.0 id, 0.0 wa, 0.0 hi, 1.4 si, 0.0 st
    KiB Mem : 3880792 total, 737592 free, 2880084 used, 263116 buff/cache
    KiB Swap: 0 total, 0 free, 0 used. 764308 avail Mem

    # docker run --privileged --name=app -itd --device-write-iops /dev/sda:3 --device-read-iops /dev/sda:3 feisky/app:iowait /app -d /dev/sda -s 67108864 -c
    2019-08-27
    1
  • MJ
    虽然有很多地方不太懂(不熟Linux原理),但还是要跟下来,多过几遍。
    同时,私下学Linux原理
    2019-03-28
    1
  • 胡莉婷
    补充一点。我们的进程都是后台服务,机器1和机器2启动后都没有业务进来

    作者回复: 嗯 我的第一反应是负载不均匀,后台处理的业务是均匀的吗?

    2019-01-08
    1
    1
  • Only now
    mark
    2018-12-27
    1
  • Darrykinger.com
    As a default, percentages for these individual categories are displayed. Where two labels are shown below, those for more recent kernel versions are shown first.
               us, user : time running un-niced user processes
               sy, system : time running kernel processes
               ni, nice : time running niced user processes
               id, idle : time spent in the kernel idle handler
               wa, IO-wait : time waiting for I/O completion
               hi : time spent servicing hardware interrupts
               si : time spent servicing software interrupts
               st : time stolen from this vm by the hypervisor
    2019-07-24
  • 大哈
    老师,您好,我想知道像pidstat这样的工具是怎么获取到这些性能数据的,我自己去开发应该从那里获取呢?

    作者回复: man 查询工具手册,一般都有介绍。一般数据都是来自 /proc、/sys 等

    2019-07-10
  • 辉晖
    我的机器出现最多的不是RES,而是Local timer interrupts

    作者回复: 看变化情况呢?

    2019-06-27
  • Musisan
    Package man-pages-3.53-5.el7.noarch already installed and latest version。
    No manual entry for vmstat,
    老师,这是为啥,centos7,6的。

    作者回复: 看起来还是 man pages 没有安装完整,试试 https://codingbee.net/centos/man-how-to-fix-the-no-manual-entry-for

    2019-05-14
  • 爱学习的小学生
    打卡

    作者回复: 👍加油

    2019-02-19
  • 、荒唐_戏_
    day2 昨晚排查一台机器load200+ 8 core 觉得摸到一点思路了,但是还没查到具体问题,还要继续加油୧( ⁼̴̶̤̀ω⁼̴̶̤́ )૭

    作者回复: 应该可以大致定位是 CPU 问题还是 I/O 问题吧?

    2019-01-26
  • 胡莉婷
    老师你好,我们有个问题,还请给个思路。同样的应用程序,部署在两台机器上,比如机器1和机器2.。top发现机器2上进程数据段大小是机器1上数据段的10倍大。还有一个情况是机器2的进程(有上百个)启动后,比较集中在某一个cpu上,而机器1上我们的进程分布就比较均匀。还请指点一下

    作者回复: 数据段的问题可以对比分析下内存的差别,看看哪里不一样。

    调度的问题可能跟内核参数(比如NUMA)、系统上其他进程的运行或者进程在等待的资源有关,试试从这几个方面看看?

    2019-01-08
  • 如果
    DAY13,打卡
    2018-12-27
  • 小老鼠
    机械磁盘(HDD)、低端固态磁盘(SSD)与高端固态。性能差别有多大

    作者回复: 吞吐的话 从几倍到上百倍的差距

    2018-12-26
  • 大飞
    打卡
    2018-12-25
  • 灬 黑 礼服 ~
    老师 。。我们这边系统多数都是java 语言开发的。。。也有些系统经常出现cpu暴涨的时候。。。都是根据网上 jstack那种工具 去分析。。。对于java而言?? 有没有更好的 查找cpu暴涨的时候的信息? 具体什么原因引起的 ?
          同时 ,根据jdk自带的检查工具 jstack之类的 都是瞬时的。。。有没有 连续监控排查的 工具??有效的查找 java语言 开发的系统引起的cpu暴涨????
    2018-12-24
收起评论
40
返回
顶部