Linux性能优化实战
倪朋飞
微软资深工程师,Kubernetes项目维护者
立即订阅
23380 人已学习
课程目录
已完结 64 讲
0/4登录后,你可以任选4讲全文学习。
开篇词 (2讲)
开篇词 | 别再让Linux性能问题成为你的绊脚石
免费
01 | 如何学习Linux性能优化?
CPU 性能篇 (13讲)
02 | 基础篇:到底应该怎么理解“平均负载”?
03 | 基础篇:经常说的 CPU 上下文切换是什么意思?(上)
04 | 基础篇:经常说的 CPU 上下文切换是什么意思?(下)
05 | 基础篇:某个应用的CPU使用率居然达到100%,我该怎么办?
06 | 案例篇:系统的 CPU 使用率很高,但为啥却找不到高 CPU 的应用?
07 | 案例篇:系统中出现大量不可中断进程和僵尸进程怎么办?(上)
08 | 案例篇:系统中出现大量不可中断进程和僵尸进程怎么办?(下)
09 | 基础篇:怎么理解Linux软中断?
10 | 案例篇:系统的软中断CPU使用率升高,我该怎么办?
11 | 套路篇:如何迅速分析出系统CPU的瓶颈在哪里?
12 | 套路篇:CPU 性能优化的几个思路
13 | 答疑(一):无法模拟出 RES 中断的问题,怎么办?
14 | 答疑(二):如何用perf工具分析Java程序?
内存性能篇 (8讲)
15 | 基础篇:Linux内存是怎么工作的?
16 | 基础篇:怎么理解内存中的Buffer和Cache?
17 | 案例篇:如何利用系统缓存优化程序的运行效率?
18 | 案例篇:内存泄漏了,我该如何定位和处理?
19 | 案例篇:为什么系统的Swap变高了(上)
20 | 案例篇:为什么系统的Swap变高了?(下)
21 | 套路篇:如何“快准狠”找到系统内存的问题?
22 | 答疑(三):文件系统与磁盘的区别是什么?
I/O 性能篇 (10讲)
23 | 基础篇:Linux 文件系统是怎么工作的?
24 | 基础篇:Linux 磁盘I/O是怎么工作的(上)
25 | 基础篇:Linux 磁盘I/O是怎么工作的(下)
26 | 案例篇:如何找出狂打日志的“内鬼”?
27 | 案例篇:为什么我的磁盘I/O延迟很高?
28 | 案例篇:一个SQL查询要15秒,这是怎么回事?
29 | 案例篇:Redis响应严重延迟,如何解决?
30 | 套路篇:如何迅速分析出系统I/O的瓶颈在哪里?
31 | 套路篇:磁盘 I/O 性能优化的几个思路
32 | 答疑(四):阻塞、非阻塞 I/O 与同步、异步 I/O 的区别和联系
网络性能篇 (13讲)
33 | 关于 Linux 网络,你必须知道这些(上)
34 | 关于 Linux 网络,你必须知道这些(下)
35 | 基础篇:C10K 和 C1000K 回顾
36 | 套路篇:怎么评估系统的网络性能?
37 | 案例篇:DNS 解析时快时慢,我该怎么办?
38 | 案例篇:怎么使用 tcpdump 和 Wireshark 分析网络流量?
39 | 案例篇:怎么缓解 DDoS 攻击带来的性能下降问题?
40 | 案例篇:网络请求延迟变大了,我该怎么办?
41 | 案例篇:如何优化 NAT 性能?(上)
42 | 案例篇:如何优化 NAT 性能?(下)
43 | 套路篇:网络性能优化的几个思路(上)
44 | 套路篇:网络性能优化的几个思路(下)
45 | 答疑(五):网络收发过程中,缓冲区位置在哪里?
综合实战篇 (13讲)
46 | 案例篇:为什么应用容器化后,启动慢了很多?
47 | 案例篇:服务器总是时不时丢包,我该怎么办?(上)
48 | 案例篇:服务器总是时不时丢包,我该怎么办?(下)
49 | 案例篇:内核线程 CPU 利用率太高,我该怎么办?
50 | 案例篇:动态追踪怎么用?(上)
51 | 案例篇:动态追踪怎么用?(下)
52 | 案例篇:服务吞吐量下降很厉害,怎么分析?
53 | 套路篇:系统监控的综合思路
54 | 套路篇:应用监控的一般思路
55 | 套路篇:分析性能问题的一般步骤
56 | 套路篇:优化性能问题的一般方法
57 | 套路篇:Linux 性能工具速查
58 | 答疑(六):容器冷启动如何性能分析?
加餐篇 (4讲)
加餐(一) | 书单推荐:性能优化和Linux 系统原理
加餐(二) | 书单推荐:网络原理和 Linux 内核实现
用户故事 | “半路出家 ”,也要顺利拿下性能优化!
用户故事 | 运维和开发工程师们怎么说?
结束语 (1讲)
结束语 | 愿你攻克性能难关
Linux性能优化实战
登录|注册

52 | 案例篇:服务吞吐量下降很厉害,怎么分析?

倪朋飞 2019-03-25
你好,我是倪朋飞。
上一节,我们一起学习了怎么使用动态追踪来观察应用程序和内核的行为。先简单来回顾一下。
所谓动态追踪,就是在系统或者应用程序还在正常运行的时候,通过内核中提供的探针,来动态追踪它们的行为,从而辅助排查出性能问题的瓶颈。
使用动态追踪,便可以在不修改代码也不重启服务的情况下,动态了解应用程序或者内核的行为。这对排查线上的问题、特别是不容易重现的问题尤其有效。
在 Linux 系统中,常见的动态追踪方法包括 ftrace、perf、eBPF/BCC 以及 SystemTap 等。
使用 perf 配合火焰图寻找热点函数,是一个比较通用的性能定位方法,在很多场景中都可以使用。
如果这仍满足不了你的要求,那么在新版的内核中,eBPF 和 BCC 是最灵活的动态追踪方法。
而在旧版本内核,特别是在 RHEL 系统中,由于 eBPF 支持受限,SystemTap 和 ftrace 往往是更好的选择。
网络请求延迟变大 的案例中,我带你一起分析了一个网络请求延迟增大的问题。当时我们分析知道,那是由于服务器端开启 TCP 的 Nagle 算法,而客户端却开启了延迟确认所导致的。
其实,除了延迟问题外,网络请求的吞吐量下降,是另一个常见的性能问题。那么,针对这种吞吐量下降问题,我们又该如何进行分析呢?
取消
完成
0/1000字
划线
笔记
复制
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
该试读文章来自付费专栏《Linux性能优化实战》,如需阅读全部文章,
请订阅文章所属专栏。
立即订阅
登录 后留言

精选留言(22)

  • 我来也
    [D52打卡]
    哈哈,看专栏的同时,也在生产环境中执行下查看套接字的命令.
    居然还发现了一个高并发时的隐患.
    `ss -ltnp`
      有些监听端口半链接队列的值偏小,只有32.而有些都是128.
      赶紧查看程序源码,发现是调用框架的接口时未传递backlog的值,导致使用框架默认的值32.
      哈哈,这个程序是专门处理客户端连接的,虽然目前Recv-Q都为0,但也确实是一个隐患吧.
    `ss -s`
      看到的连接数和各状态数还正常.
    `netstat -s | grep -wE "socket|listen"`
      结果还比较稳定.
    像 sysctl 相关的配置,由于没有权限,就无缘查看了.

    不得不说,综合案例篇的内容真不错.老师也是够狠,设置了这么多的坑.填了一个一个又一个.
    1.内核连接数限制 nf_conntrack.
    2.php程序的工作进程数量
    3.半链接队列偏小,导致高并发时的丢包.
    4.系统分配的临时端口号范围.
    5.系统的端口复用参数配置.

    调优过程中,有时甚至是一波未平一波又起,很是惊险刺激.

    2019-03-26
    7
  • xfan
    内核选项 tcp_tw_reuse,不是直接修改内核参数就好了么,为什么还有修改后的tag:3 ,这里不太清楚

    作者回复: 嗯 也可以的。打包成镜像的是最后优化的结果

    2019-03-28
    1
    3
  • 2xshu
    老师,有个疑问。
    套接字优化部分,你用ss -s输出的两个队列,根据“关于 Linux 网络,你必须知道这些(下)”你讲的内容,当链接处于listening状态是,Send-Q和Recv-Q都是半链接队列,但是你这里却都是调的全连接队列啊?不是应该调整tcp_max_syn_backlog吗?

    作者回复: 嗯,谢谢指出,是文中的步骤不严谨了。实际上应该再加上两步

    1. 查看调优 tcp_max_syn_backlog
    2. 观察全连接的状况之后再调优全连接队列

    2019-03-25
    3
  • ninuxer
    打卡day55
    缺乏由现象联想到可能原因的系统性思维~

    作者回复: 还是需要加强原理的理解

    2019-03-25
    2
  • 泡泡
    wrk命令-c参数用来模拟连接数为1000,
    为什么输出中的连接数有1910,不理解

    作者回复: -c是并发数,输出中是每秒请求数,不是一回事

    2019-03-26
    1
  • Maxwell
    在公司局域网下做性能测试,如何判断网络会不会成为压测的瓶颈呢?也就是说如果开了500线程进行压测,会不会因为网络瓶颈,导致请求无法发送到服务器端?

    作者回复: 可以在测试的时候同时观察一下网络吞吐和丢包(比如使用sar)

    2019-03-25
    1
  • Lane
    一天看2篇,终于追上进度了
    2019-03-25
    1
  • burner
    老师,系统cpu只用了一半,但是就出现502和499的请求错误,是否意味这应用服务已经过载,还是系统连接数过载,查看netstat发现有28万失败的连接尝试,

    作者回复: 应用过载了

    2019-08-13
  • 陳先森
    打下卡。
    2019-05-06
  • 如果
    DAY52,打卡
    2019-04-22
  • 腾达
    net.ipv4.tcp_tw_reuse = 1 这里是影响到socket的客户端(nginx作为一个客户端连接php的服务端)的行为吗? 不是影响到服务端的time_wait数量? 我弄了个tomcat,用ab压测,tw_use=1, 用ss -s看time_wait 还很高啊,1万多。

    作者回复: 嗯 用在客户端上

    2019-04-15
  • 腾达
    是的,都对比过了,还包括php的配置,都对比过了
    2019-04-12
  • 腾达
    老师,针对我提的问题,您的回复是:“不过你可以docker exec到容器内部查看”,我已经逐一对比过容器内的、我已知的参数了。未发现不同。您能否把最后一次的配置参数上传一下到github?

    作者回复: 包括内核选项和Nginx配置吗?

    2019-04-08
  • 腾达
    有2个问题:
    1、在做perf,制作火焰图的部分,我自己本地看到的函数热点是类似:inet_sendmsg, tcp_write_xmit, e1000_xmit_frame 之类的,后续再对内核参数net.ipv4.tcp_tw_reuse做设置为1的处理后,函数热点依然是这几个。似乎我的机器上的热点是在发送数据,而不是在端口重用?
    2、老师最后1个步骤的镜像,即:
    $ docker run --name nginx --network host --privileged -itd feisky/nginx-tp:3
    $ docker run --name phpfpm --network host --privileged -itd feisky/php-fpm-tp:3
    这2个的配置能上传一下到github吗?我自己依照优化步骤修改的参数,放到镜像里去跑,压测后Requests/sec只能达到: 1919,而是用老师的tag=3的镜像,压测后得到Requests/sec是3107。我把我已知的参数都对比了一遍,如下:
    sysctl net.ipv4.ip_local_port_range='10000 65535'
    sysctl net.ipv4.tcp_tw_reuse=1
    sysctl net.ipv4.tcp_fin_timeout=3
    sysctl net.ipv4.tcp_max_syn_backlog=8192
    sysctl net.netfilter.nf_conntrack_max=1048576
    sysctl net.core.somaxconn=65536
    还有nginx、php的backlog=8192,php的max_children=40(我给了40,不是老师的20)。
    发现都是一样的。不知道哪里有问题。
    老师,你能把优化最后的配置文件上传一份到github吗?

    作者回复: 优化后的配置没有上传到github里面,不过你可以docker exec到容器内部查看

    2019-04-05
  • 腾达
    有3个问题:
    1.第一次运行 docker run --name nginx --network host --privileged -itd feisky/nginx-tp这个命令,我参考的是对应的github.com/linux-perf-examples/nginx-throughput/ 下的一些文件知道了参数配置,问题:nginx里的init.sh运行的时候,sysctl修改的网络参数是作用在docker内的nginx?还是作用在宿主ubuntu上?
    2.文章里查看、修改网络参数,并未提示说要进docker容器内部去修改,这个是在宿主ubuntu上做的修改吗?比如说到 sysctl -w net.netfilter.nf_conntrack_max=1048576 这个,是直接在宿主ubuntu上修改的吗?
    3.从docker运行后续集个tag=2,3的镜像开始,例如:docker run --name nginx --network host --privileged -itd feisky/nginx-tp:3 这个命令拉的镜像的参数修改了哪些地方?从哪里可以看到这些参数?

    作者回复: 1,2: 实际上修改的是Host的
    3: 文章中有讲到,每个镜像使用之前的分析就是修改的内容

    2019-04-01
  • code2
    用桌面linux分析服务器性能,有些勉强。

    作者回复: 桌面Linux和服务器都适用的

    2019-03-28
  • 夜空中最亮的星(华仔)
    报个到
    2019-03-26
  • Maxwell
    Sar测试的只是网络的发送和接收数据吧,好像并不能发现网络的瓶颈导致压测请求无法发送至服务器端?

    作者回复: sar可以查看很多网络统计数据,可以看看-n选项的文档

    2019-03-26
  • Maxwell
    这个火焰图咋分析?我这边和你的好像不太一样,系统我也是ubantu18.04

    作者回复: 火焰图的介绍在49篇,你可以照着分析下看看

    2019-03-26
  • Maxwell
    运行最后一次docker镜像,wrk测试结果中还是有很多error(read ),请问这个error指的是什么错误呢?
    Running 10s test @ http://192.168.32.145
      2 threads and 1000 connections
      Thread Stats Avg Stdev Max +/- Stdev
        Latency 97.36ms 22.29ms 394.39ms 90.57%
        Req/Sec 5.01k 1.00k 7.01k 75.00%
      Latency Distribution
         50% 91.10ms
         75% 100.83ms
         90% 117.53ms
         99% 195.90ms
      99832 requests in 10.08s, 20.72MB read
      Socket errors: connect 0, read 11483, write 0, timeout 0
    Requests/sec: 9902.41
    Transfer/sec: 2.05MB

    作者回复: 看看socket errors这一行,有错误的类型。上面这个结果都是read错误

    2019-03-26
收起评论
22
返回
顶部