Linux性能优化实战
倪朋飞
微软资深工程师,Kubernetes项目维护者
立即订阅
23395 人已学习
课程目录
已完结 64 讲
0/4登录后,你可以任选4讲全文学习。
开篇词 (2讲)
开篇词 | 别再让Linux性能问题成为你的绊脚石
免费
01 | 如何学习Linux性能优化?
CPU 性能篇 (13讲)
02 | 基础篇:到底应该怎么理解“平均负载”?
03 | 基础篇:经常说的 CPU 上下文切换是什么意思?(上)
04 | 基础篇:经常说的 CPU 上下文切换是什么意思?(下)
05 | 基础篇:某个应用的CPU使用率居然达到100%,我该怎么办?
06 | 案例篇:系统的 CPU 使用率很高,但为啥却找不到高 CPU 的应用?
07 | 案例篇:系统中出现大量不可中断进程和僵尸进程怎么办?(上)
08 | 案例篇:系统中出现大量不可中断进程和僵尸进程怎么办?(下)
09 | 基础篇:怎么理解Linux软中断?
10 | 案例篇:系统的软中断CPU使用率升高,我该怎么办?
11 | 套路篇:如何迅速分析出系统CPU的瓶颈在哪里?
12 | 套路篇:CPU 性能优化的几个思路
13 | 答疑(一):无法模拟出 RES 中断的问题,怎么办?
14 | 答疑(二):如何用perf工具分析Java程序?
内存性能篇 (8讲)
15 | 基础篇:Linux内存是怎么工作的?
16 | 基础篇:怎么理解内存中的Buffer和Cache?
17 | 案例篇:如何利用系统缓存优化程序的运行效率?
18 | 案例篇:内存泄漏了,我该如何定位和处理?
19 | 案例篇:为什么系统的Swap变高了(上)
20 | 案例篇:为什么系统的Swap变高了?(下)
21 | 套路篇:如何“快准狠”找到系统内存的问题?
22 | 答疑(三):文件系统与磁盘的区别是什么?
I/O 性能篇 (10讲)
23 | 基础篇:Linux 文件系统是怎么工作的?
24 | 基础篇:Linux 磁盘I/O是怎么工作的(上)
25 | 基础篇:Linux 磁盘I/O是怎么工作的(下)
26 | 案例篇:如何找出狂打日志的“内鬼”?
27 | 案例篇:为什么我的磁盘I/O延迟很高?
28 | 案例篇:一个SQL查询要15秒,这是怎么回事?
29 | 案例篇:Redis响应严重延迟,如何解决?
30 | 套路篇:如何迅速分析出系统I/O的瓶颈在哪里?
31 | 套路篇:磁盘 I/O 性能优化的几个思路
32 | 答疑(四):阻塞、非阻塞 I/O 与同步、异步 I/O 的区别和联系
网络性能篇 (13讲)
33 | 关于 Linux 网络,你必须知道这些(上)
34 | 关于 Linux 网络,你必须知道这些(下)
35 | 基础篇:C10K 和 C1000K 回顾
36 | 套路篇:怎么评估系统的网络性能?
37 | 案例篇:DNS 解析时快时慢,我该怎么办?
38 | 案例篇:怎么使用 tcpdump 和 Wireshark 分析网络流量?
39 | 案例篇:怎么缓解 DDoS 攻击带来的性能下降问题?
40 | 案例篇:网络请求延迟变大了,我该怎么办?
41 | 案例篇:如何优化 NAT 性能?(上)
42 | 案例篇:如何优化 NAT 性能?(下)
43 | 套路篇:网络性能优化的几个思路(上)
44 | 套路篇:网络性能优化的几个思路(下)
45 | 答疑(五):网络收发过程中,缓冲区位置在哪里?
综合实战篇 (13讲)
46 | 案例篇:为什么应用容器化后,启动慢了很多?
47 | 案例篇:服务器总是时不时丢包,我该怎么办?(上)
48 | 案例篇:服务器总是时不时丢包,我该怎么办?(下)
49 | 案例篇:内核线程 CPU 利用率太高,我该怎么办?
50 | 案例篇:动态追踪怎么用?(上)
51 | 案例篇:动态追踪怎么用?(下)
52 | 案例篇:服务吞吐量下降很厉害,怎么分析?
53 | 套路篇:系统监控的综合思路
54 | 套路篇:应用监控的一般思路
55 | 套路篇:分析性能问题的一般步骤
56 | 套路篇:优化性能问题的一般方法
57 | 套路篇:Linux 性能工具速查
58 | 答疑(六):容器冷启动如何性能分析?
加餐篇 (4讲)
加餐(一) | 书单推荐:性能优化和Linux 系统原理
加餐(二) | 书单推荐:网络原理和 Linux 内核实现
用户故事 | “半路出家 ”,也要顺利拿下性能优化!
用户故事 | 运维和开发工程师们怎么说?
结束语 (1讲)
结束语 | 愿你攻克性能难关
Linux性能优化实战
登录|注册

48 | 案例篇:服务器总是时不时丢包,我该怎么办?(下)

倪朋飞 2019-03-15
你好,我是倪朋飞。
上一节,我们一起学习了如何分析网络丢包的问题,特别是从链路层、网络层以及传输层等主要的协议栈中进行分析。
不过,通过前面这几层的分析,我们还是没有找出最终的性能瓶颈。看来,还是要继续深挖才可以。今天,我们就来继续分析这个未果的案例。
在开始下面的内容前,你可以先回忆一下上节课的内容,并且自己动脑想一想,除了我们提到的链路层、网络层以及传输层之外,还有哪些潜在问题可能会导致丢包呢?

iptables

首先我们要知道,除了网络层和传输层的各种协议,iptables 和内核的连接跟踪机制也可能会导致丢包。所以,这也是发生丢包问题时,我们必须要排查的一个因素。
我们先来看看连接跟踪,我已经在 如何优化 NAT 性能 文章中,给你讲过连接跟踪的优化思路。要确认是不是连接跟踪导致的问题,其实只需要对比当前的连接跟踪数和最大连接跟踪数即可。
不过,由于连接跟踪在 Linux 内核中是全局的(不属于网络命名空间),我们需要退出容器终端,回到主机中来查看。
你可以在容器终端中,执行 exit ;然后执行下面的命令,查看连接跟踪数:
# 容器终端中执行exit
root@nginx:/# exit
exit
# 主机终端中查询内核配置
$ sysctl net.netfilter.nf_conntrack_max
net.netfilter.nf_conntrack_max = 262144
$ sysctl net.netfilter.nf_conntrack_count
net.netfilter.nf_conntrack_count = 182
从这儿你可以看到,连接跟踪数只有 182,而最大连接跟踪数则是 262144。显然,这里的丢包,不可能是连接跟踪导致的。
取消
完成
0/1000字
划线
笔记
复制
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
该试读文章来自付费专栏《Linux性能优化实战》,如需阅读全部文章,
请订阅文章所属专栏。
立即订阅
登录 后留言

精选留言(20)

  • 怀特
    有一个问题不明白:IP包不是可以根据网络自动组合和拆分的吗?为什么会直接丢弃呢?

    作者回复: 也可以设置不允许拆包

    2019-03-15
    4
  • kissingers
    还有传输设备引入的丢包,比如接口模式不匹配,物理接口或线缆,广播风暴大流量等。另外案例这里如果get 包允许分片那就不会丢包吧?只是传输效率低。那么既然允许分片可以规避中间链路mtu 过小引起的问题,为什么很多应用默认就是不允许分片呢?谢谢

    作者回复: 分片带来的成本还是蛮高的

    2019-03-15
    4
  • 我在用k8s中过netfilter的招。通过service cluster访问pod,发现包到了pod。被丢弃了,tcp超时。抓包发现目的地址没有修改为pod ip.安装脚本没有配置centos开机加载netfilter驱动

    作者回复: 👍谢谢分享

    2019-03-15
    3
  • ninuxer
    打卡day51
    知识没有融会贯通,我能想到iptables的问题,也能想到抓包分析,但是后面定位到mtu的问题,我估计只能凭灵感了,思维不能马上跟这个产生关联
    2019-03-15
    2
  • 挺直腰板
    老师,跟踪到内核函数,但不清楚任何函数是做什么的,怎么查?

    作者回复: 查内核源码

    2019-05-24
    1
  • 大坏狐狸
    学到这,突然有种这个订阅是我职业生涯中做的一件很正确的事情了的感觉。

    作者回复: 😊

    2019-04-12
    1
  • Huayra
    针对这问题,tcpdump效率太低了,倒不如使用系统动态追踪或者pcap技术来实现这么一个专门的工具

    作者回复: 嗯嗯,好主意

    2019-03-16
    1
  • 子杨
    老师好,最近 Nginx 经常报警,TcpExt.TCPLoss 丢包,慕名找到这两篇文章,可是我这台报警的机器是接收方还是发送方呢?
    2019-12-10
  • 记事本
    老师好,有个问题想问下,服务端发送了两组数据包,我用txpdump抓包然后wireshark看到的那两组包在一个tcp包里,这个是协议栈组在一起的吗?另外这个组过包我调用recv接口接收的时候只有第一包的数据 是怎么回事?感谢老师,期待您的回复。
    2019-12-05
  • 美美
    为什么最后一次握手的时候ack=1而不是seq+1呢?
    2019-10-10
  • 麦小旭
    老师关于mtu100的问题,我想问下在三次握手的时候不是会协商mtu窗口的大小吗,容器的mtu明明是100为什么容器返回给客户端的ack包的mss值是256?
    2019-08-29
  • 王聪 Claire
    1. 不应该是0.2向0.30发送请求吗?为什么wireshark的图SYN是0.30发给0.2的?2. MTU过小,是因为要进行大量的数据分片分包,所以导致服务器端接收不到curl http get请求吗?谢谢。

    作者回复: 1. 谢谢指出,wireshark的图片标错了
    2. 不是的,是因为容器的eth0实际上只是veth pair,不会分包

    2019-06-22
  • 深海极光
    老师最近在查线上问题时,发现服务在tcp层有丢包,通过netstat - s可以看到,具体如下: 32474 passive connections rejected because of time stamp
        71707 packets rejects in established connections because of timestamp
    查看机器配置,也确实是开启了tcp timestamp和recycle,都为1,但是这个是通过nat访问才回有这个问题吧,我们是nginx直接打给我的网关服务的,理论上不回有放弃链接啥,还请老师解答,谢谢了
    2019-06-12
  • 无名老卒
    iptables我后面是想到了,但是mtu没有想到。有一个疑问,为什么说mtu值等于100是太小了,我测试过这个案例,当mtu值小于127值就会出现异常,等于以及大于127这个值就是正常的,倪老师,这个可以解释一下吗?
    2019-05-04
    1
  • 如果
    DAY48,打卡
    2019-04-15
  • fran712
    曾经被跟踪表坑过,索性就
    # cat /etc/modprobe.d/conntrack.conf
    install nf_conntrack /bin/false

    作者回复: 嗯,这是直接禁止掉了

    2019-03-20
  • 我来也
    [D48打卡]
    之前理应想到 iptables .这个相当于是个防火墙.
    还是这个工具接触的少了.

    这个iptables的问题没解决前,用 tcpdump 能看出啥来不.
    我用tcpdump看时只显示出那些连接成功了的包信息,好像没看到丢失的信息.😁

    连接跟踪数要做宿主机上查看. 学习了.

    除此之外,还需要配合`netstat -i`查看网卡底层的信息.

    作者回复: 👍

    2019-03-15
  • 往事随风,顺其自然
    tcpdump怎么看出第四次出现问题,前三次握手正常,哪里体现

    作者回复: 看时间戳

    2019-03-15
  • 西红柿牛腩
    好玩,抽空要把Netfilter好好玩一遍
    2019-03-15
  • Huayra
    请问有没有专门检测网络包大小异常的工具呢?

    作者回复: 最简单的就是tcpdump抓包

    2019-03-15
收起评论
20
返回
顶部