Linux性能优化实战
倪朋飞
微软资深工程师,Kubernetes项目维护者
立即订阅
23395 人已学习
课程目录
已完结 64 讲
0/4登录后,你可以任选4讲全文学习。
开篇词 (2讲)
开篇词 | 别再让Linux性能问题成为你的绊脚石
免费
01 | 如何学习Linux性能优化?
CPU 性能篇 (13讲)
02 | 基础篇:到底应该怎么理解“平均负载”?
03 | 基础篇:经常说的 CPU 上下文切换是什么意思?(上)
04 | 基础篇:经常说的 CPU 上下文切换是什么意思?(下)
05 | 基础篇:某个应用的CPU使用率居然达到100%,我该怎么办?
06 | 案例篇:系统的 CPU 使用率很高,但为啥却找不到高 CPU 的应用?
07 | 案例篇:系统中出现大量不可中断进程和僵尸进程怎么办?(上)
08 | 案例篇:系统中出现大量不可中断进程和僵尸进程怎么办?(下)
09 | 基础篇:怎么理解Linux软中断?
10 | 案例篇:系统的软中断CPU使用率升高,我该怎么办?
11 | 套路篇:如何迅速分析出系统CPU的瓶颈在哪里?
12 | 套路篇:CPU 性能优化的几个思路
13 | 答疑(一):无法模拟出 RES 中断的问题,怎么办?
14 | 答疑(二):如何用perf工具分析Java程序?
内存性能篇 (8讲)
15 | 基础篇:Linux内存是怎么工作的?
16 | 基础篇:怎么理解内存中的Buffer和Cache?
17 | 案例篇:如何利用系统缓存优化程序的运行效率?
18 | 案例篇:内存泄漏了,我该如何定位和处理?
19 | 案例篇:为什么系统的Swap变高了(上)
20 | 案例篇:为什么系统的Swap变高了?(下)
21 | 套路篇:如何“快准狠”找到系统内存的问题?
22 | 答疑(三):文件系统与磁盘的区别是什么?
I/O 性能篇 (10讲)
23 | 基础篇:Linux 文件系统是怎么工作的?
24 | 基础篇:Linux 磁盘I/O是怎么工作的(上)
25 | 基础篇:Linux 磁盘I/O是怎么工作的(下)
26 | 案例篇:如何找出狂打日志的“内鬼”?
27 | 案例篇:为什么我的磁盘I/O延迟很高?
28 | 案例篇:一个SQL查询要15秒,这是怎么回事?
29 | 案例篇:Redis响应严重延迟,如何解决?
30 | 套路篇:如何迅速分析出系统I/O的瓶颈在哪里?
31 | 套路篇:磁盘 I/O 性能优化的几个思路
32 | 答疑(四):阻塞、非阻塞 I/O 与同步、异步 I/O 的区别和联系
网络性能篇 (13讲)
33 | 关于 Linux 网络,你必须知道这些(上)
34 | 关于 Linux 网络,你必须知道这些(下)
35 | 基础篇:C10K 和 C1000K 回顾
36 | 套路篇:怎么评估系统的网络性能?
37 | 案例篇:DNS 解析时快时慢,我该怎么办?
38 | 案例篇:怎么使用 tcpdump 和 Wireshark 分析网络流量?
39 | 案例篇:怎么缓解 DDoS 攻击带来的性能下降问题?
40 | 案例篇:网络请求延迟变大了,我该怎么办?
41 | 案例篇:如何优化 NAT 性能?(上)
42 | 案例篇:如何优化 NAT 性能?(下)
43 | 套路篇:网络性能优化的几个思路(上)
44 | 套路篇:网络性能优化的几个思路(下)
45 | 答疑(五):网络收发过程中,缓冲区位置在哪里?
综合实战篇 (13讲)
46 | 案例篇:为什么应用容器化后,启动慢了很多?
47 | 案例篇:服务器总是时不时丢包,我该怎么办?(上)
48 | 案例篇:服务器总是时不时丢包,我该怎么办?(下)
49 | 案例篇:内核线程 CPU 利用率太高,我该怎么办?
50 | 案例篇:动态追踪怎么用?(上)
51 | 案例篇:动态追踪怎么用?(下)
52 | 案例篇:服务吞吐量下降很厉害,怎么分析?
53 | 套路篇:系统监控的综合思路
54 | 套路篇:应用监控的一般思路
55 | 套路篇:分析性能问题的一般步骤
56 | 套路篇:优化性能问题的一般方法
57 | 套路篇:Linux 性能工具速查
58 | 答疑(六):容器冷启动如何性能分析?
加餐篇 (4讲)
加餐(一) | 书单推荐:性能优化和Linux 系统原理
加餐(二) | 书单推荐:网络原理和 Linux 内核实现
用户故事 | “半路出家 ”,也要顺利拿下性能优化!
用户故事 | 运维和开发工程师们怎么说?
结束语 (1讲)
结束语 | 愿你攻克性能难关
Linux性能优化实战
登录|注册

32 | 答疑(四):阻塞、非阻塞 I/O 与同步、异步 I/O 的区别和联系

倪朋飞 2019-02-01
你好,我是倪朋飞。
专栏更新至今,四大基础模块的第三个模块——文件系统和磁盘 I/O 篇,我们就已经学完了。很开心你还没有掉队,仍然在积极学习思考和实践操作,并且热情地留言与讨论。
今天是性能优化的第四期。照例,我从 I/O 模块的留言中摘出了一些典型问题,作为今天的答疑内容,集中回复。同样的,为了便于你学习理解,它们并不是严格按照文章顺序排列的。
每个问题,我都附上了留言区提问的截屏。如果你需要回顾内容原文,可以扫描每个问题右下方的二维码查看。

问题 1:阻塞、非阻塞 I/O 与同步、异步 I/O 的区别和联系

文件系统的工作原理篇中,我曾经介绍了阻塞、非阻塞 I/O 以及同步、异步 I/O 的含义,这里我们再简单回顾一下。
首先我们来看阻塞和非阻塞 I/O。根据应用程序是否阻塞自身运行,可以把 I/O 分为阻塞 I/O 和非阻塞 I/O。
所谓阻塞 I/O,是指应用程序在执行 I/O 操作后,如果没有获得响应,就会阻塞当前线程,不能执行其他任务。
所谓非阻塞 I/O,是指应用程序在执行 I/O 操作后,不会阻塞当前的线程,可以继续执行其他的任务。
再来看同步 I/O 和异步 I/O。根据 I/O 响应的通知方式的不同,可以把文件 I/O 分为同步 I/O 和异步 I/O。
取消
完成
0/1000字
划线
笔记
复制
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
该试读文章来自付费专栏《Linux性能优化实战》,如需阅读全部文章,
请订阅文章所属专栏。
立即订阅
登录 后留言

精选留言(16)

  • ninuxer
    打卡day33
    感恩作者带来的分享,提前祝新年快乐!

    作者回复: 新年快乐!

    2019-02-01
    6
  • eagle
    我根据我们自己实际应用中遇到的情况,试着回复一下两个问题:
    安小依 的问题,df -h 显示占用100%,而关闭应用程序后,再次df -h是85%,这一般是因为该应用程序还有指向已删除文件的文件指针没有关闭,典型的比如日志文件,虽然在操作系统中用rm命令删除了,在相应的目录中已经没有该文件了,但如果应用中还有对应的文件指针没有关闭,则实际硬盘空间还不会释放,而应用程序被关闭时,实际空间才会释放。问题中更像是有些apk文件或处理后文件的文件指针没有释放。这种情况也可以通过 lsof | grep deleted 来找到这些文件。
    lvy的out of memory的问题,可以先用free或top看一下可用内存是否确实没有了,如果确实是没有内存了,那再去研究内存的问题;还有一种常见情况,内存是充足的,文件描述符的个数或进程数达到上限了,那就得调整 ulimit,可以通过 ulimit -a (注意要用php的用户)来查看,关注open files和max user processes,这两个默认很小,1k和4k,建议调整到加两个0.

    作者回复: 谢谢😊

    2019-03-26
    5
  • Ivy
    老师您好,我最近在生产环境遇到一个问题,centos7频繁报错tcp out of memory ,访问页面时css文件响应头200,但是响应正文为空,我猜测就是因为tcp问题,有时候又能正常返回,每次重启php fpm就能解决问题,cat /proc/net/sockstat 的时候tcp 行mem值在fpm重启前后差距很大,同时tw状态的连接也很多,alloc也很大,我该怎么去找原因?能看到每个tw状态的连接占用多少tcp 内存吗?或者怎么查询php fpm为何没有释放tcp内存?

    作者回复: 可以考虑调整 tcp_max_tw_buckets、ip_conntrack_max、ip_conntrack 这些内核选项

    2019-02-19
    2
  • LA
    老师,看了您的文章,有个问题一直在困扰这我。文章所说进程不可中断状态有可能是因为等待io响应,那这里的等待io响应包括等待从套接字读取数据么?如果是包括的话对于阻塞io来讲岂不是只要有阻塞进程就一直处在不可中断状态,从而无法被kill信号杀掉?

    作者回复: 不包括套接字

    2019-06-01
    1
  • Maxwell
    Windows和linux有很大区别吧?如果想深入了解windows,有什么可以推荐的书吗?

    作者回复: Windows书籍最推荐的是《Windows Internals 7th edition》

    2019-03-14
    1
  • 安小依
    老师,今天遇见了一个问题: 系统使用 df -h 显示磁盘占用100%了,而且应用程序(这是一个不停下载 apk 文件、解压缩并分析 apk文件的应用程序)在命令行也提示磁盘空间不足了。但是,关闭应用程序后,再次 df-h 统计,却发现这次磁盘占用是 85%,释放了 15%大约150G 的空间…能大概推测出来为什么关闭应用后,磁盘空间突然多了的原因吗?

    作者回复: 解压缩很可疑,有没有看看这些apk解压后的大小?

    2019-03-01
    1
  • Leon📷
    老师,读文件系统的内容不会引起buffer升高吧,读块设备会引起,我做了文章的实验发现
     r b swpd free buff cache si so bi bo in cs us sy id wa st
     1 0 0 1620788 0 431512 0 0 348 70 415 585 2 4 94 0 0
     0 0 0 1618488 0 431948 0 0 480 0 1605 2056 1 4 96 0 0
     0 0 0 1619524 0 431788 0 0 16 0 1157 1674 1 2 97 0 0
     2 0 0 1499696 0 548464 0 0 116905 281 5084 7062 3 14 82 1 0
     2 0 0 1495664 0 552444 0 0 4964 125 2996 4413 2 6 92 0 0
     2 0 0 1329960 0 646564 0 0 34028 0 8495 10589 21 24 53 1 0
     2 0 0 1152440 0 769524 0 0 142805 206 13584 16541 19 32 48 1 0
     3 0 0 1112028 0 783200 0 0 44753 86 14794 20490 19 23 57 0 0
     0 0 0 1050900 0 809624 0 0 36540 0 8927 13517 5 20 75 0 0
     0 0 0 1050892 0 809636 0 0 0 0 1277 1879 1 2 97 0 0
     0 0 0 1050632 0 809644 0 0 0 0 1344 1953 1 2 97 0 0
    buffer并没有升高

    作者回复: 是的,读文件内容的时候不会的。文中指的是执行 find 命令查找文件的情景

    2019-02-01
    1
  • Jarvis
    他如果都从调用者的角度来看,阻塞和同步其实没什么区别?都是在得到响应之前没法做其他事?
    2019-07-29
  • Stephen
    《UNIX网络编程》提到的5种IO模型中,除了异步IO模型没有阻塞操作外,其他四种IO模型(阻塞IO、非阻塞IO、IO多路复用、信号驱动IO)都有阻塞操作。是不是可以这么理解:
    同步IO一定有阻塞可能有非阻塞,
    异步IO一定是非阻塞;
    有阻塞一定是同步IO,
    有非阻塞可能是同步IO或异步IO
    求大佬解答问题
    2019-04-03
  • allan
    原文:DataService 停止后,bi iowait 都降到0,说明此时的所有数据都已经在系统的缓存中了。

    这里所有数据指的是 数据库文件 中的数据 是吗?不包括索引。

    作者回复: 嗯,数据库文件

    2019-03-24
  • 如果
    DAY32,打卡
    2019-03-20
  • 马殿军
    老师好,请教:目录项缓存在cache中,索引节点缓存在buffer中,这是对的吗?

    还是二者都在buffer中?

    作者回复: 不是,buffer只是磁盘的缓存,其他都可以认为是cache

    2019-02-20
  • 陈帅
    关于,阻塞、非阻塞 I/O 与同步、异步 I/O ,这个问题回答。我确认下,是不是其实是一个东西,只不过划分的角度不同罢了。是这个意思吗?

    作者回复: 是的,在很多场景下都可以理解成一样的。不过要细分的话,还是有些区别(见文中内容)

    2019-02-11
  • 我来也
    [D32打卡]
    时间过得真快,转眼专栏的五大模块已经学完了三个。😄

    作者回复: 👍

    2019-02-02
  • Leon📷
    老师,我们的测试环境机器我从几个指标看只有系统盘每秒写的数据量比测试环境多,为什么比测试环境卡很多,进程也只是测试环境一倍而已,使用vmstat pidstat,top,发现只有线上机器进程数多一倍,io写入量是测试机器10倍,测试配置4核16G,线上32核,256G,磁盘随机读写都是79MB/s左右
    测试17时50分54秒 0 1 3.85 16.61 4.86 systemd
    线上05:50:51 PM 0 1 151.52 1922.47 210.85 systemd
    top
    top - 17:57:54 up 24 days, 6:32, 3 users, load average: 2.06, 2.07, 2.41
    Tasks: 974 total, 2 running, 970 sleeping, 0 stopped, 2 zombie
    %Cpu(s): 2.2 us, 4.1 sy, 0.1 ni, 65.6 id, 27.7 wa, 0.0 hi, 0.0 si, 0.3 st
    KiB Mem : 16249556 total, 2730324 free, 8055928 used, 5463304 buff/cache
    KiB Swap: 0 total, 0 free, 0 used. 7338032 avail Mem
    线上 top - 17:58:03 up 73 days, 8:41, 2 users, load average: 4.84, 3.40, 2.94
    Tasks: 2651 total, 1 running, 2650 sleeping, 0 stopped, 0 zombie
    %Cpu(s): 1.4 us, 0.5 sy, 0.0 ni, 92.9 id, 5.1 wa, 0.0 hi, 0.1 si, 0.0 st
    KiB Mem : 26385616+total, 88973160 free, 23977900 used, 15090508+buff/cache
    KiB Swap: 0 total, 0 free, 0 used. 23713659+avail Mem
    难道IO就是线上机器卡的原因

    作者回复: 除了CPU、内存、磁盘之外,网络也可能是个原因。另外,对 I/O,还可以用 iostat 看一下其他指标是不是有什么线索

    2019-02-01
  • blackpiglet
    老师,在工作中遇到了 Ubuntu 16.04 系统死机的问题,和性能优化并不直接相关,不过还是想问一下遇到这种问题该如何分析。我能想到的步骤是:
    1. 看 /var/crash 下是否有 kernel panic 的记录;
    2. 看 /var/log/syslog 下是否有应用程序异常记录;
    3. 看服务器上主要的应用程序日志,是否有异常;
    4. 查看是否有 coredump 文件;
    5. 查看 IPMI 日志,是否有硬件异常。

    有的时候这一趟下来,还是没有什么收获,请问老师有没有其他需要注意的?

    作者回复: 系统日志肯定是最有效的,一般都会留下一些线索。死机的时候,如果可以通过IPMI看到服务器的Console,那也有可能看到一些线索(比如内核中的错误或者内核栈等等)。

    2019-02-01
收起评论
16
返回
顶部