开篇词 | 网络排查是工程师的必备能力
该思维导图由 AI 生成,仅供参考
为什么在这个时代,网络排查能力变得越来越重要了?
我的网络排查能力是如何成长起来的?
这门课程能给你带来什么?
更扎实的对网络各层知识的理解
更广阔的排查视野
更熟练的排查技术
更完善的知识体系
这门课程是怎么安排的?
- 深入了解
- 翻译
- 解释
- 总结
网络排查能力对于工程师来说变得越来越重要。文章作者杨胜辉强调了网络排查能力的重要性,并分享了自己在这方面的成长经历和对读者的帮助。随着微服务和云计算的普及,网络问题变得更加复杂,而工程师们往往束手无策。杨胜辉指出,拥有更广阔的排查视野、更熟练的排查技术和更完善的知识体系是解决网络问题的关键。他提出了针对不同类型工程师的建议,并分享了自己的成长经历,从最初的小白到如今能够分享实战案例课程的高级技术人员。文章还介绍了杨胜辉的网络排查课程的设置,包括预习篇、实战一至三、以及总结篇,强调了通过学习课程可以获得更扎实的网络知识理解,并能够在实际工作中解决网络问题。整篇文章强调了网络排查能力的重要性,并分享了作者的成长经历和对读者的帮助。
2022-01-12119人觉得很赞给文章提建议
《网络排查案例课》,新⼈⾸单¥59
全部留言(69)
- 最新
- 精选
- 分清云淡https://plantegg.github.io/categories/network/ 看完这些网络排查案例相信对大家学习这门课程很有热情的 ,雷锋,不用谢
作者回复: 嗯 也是实际案例,做案例真的是成长最快的方式之一
2022-01-13466 - 01老师你好,我们今天线上遇到一个http 503 的issue,提示service unviable的问题,请求过程是这样的,内网机器通过proxy代理服务器去call另外的内网机器,大概有可能是哪里的问题呢? proxy server和另外的内网机器我们都没权限查看。。。
作者回复: 嗯,这也是典型问题场景:应用层有报错,但我们并不知道网络上具体发生了什么,更无法知道这些网络行为对应的技术原理和对策是什么。这也是我在刚结束的直播课里,给大家提到的网络排查的两大核心难点之一:应用症状和网络现象之间的鸿沟。另外一个核心难点,是wireshark等工具提示跟技术原理之间的鸿沟。只有跨过了这两道鸿沟,我们才真正能把网络排查这门技术给做起来。 所以如果要彻底查清楚,是需要抓包后做分析的,过程不是一两句能说清楚,我在课程里会重点讨论这方面的思路和方法,你可以期待一下:) 关于http报错代码,也可以从协议规范出发,初步判断问题在哪里。比如这个503,意思是service unavailable,也就是这个proxy想要找后端的机器,但是没有找到。这个原因也有多种,比如proxy到后端机器在网络上就不可达,或者健康检查发现没有可用的机器,等等。 你可以让有权限的同事帮你到proxy server上抓取网络报文,要想办法在抓取期间,重现503问题。然后你就可以借助我后面课程里的方法,进行分析了。
2022-01-1212 - GAC·DU一个线上服务出现网络故障,SRE需要一分钟,而排查需要时间未知,如何选择?
作者回复: 一般对于明确的故障,特别是影响到业务可用性的故障,首先是做恢复,而不是排查。先通过切换到健康集群或者其他数据中心的方式,把业务尽快恢复。之后再做排查,或者两者同时做。但不应该把恢复放在后面哦
2022-01-1236 - x我一般是本机telnet 0.0.0.0 端口和telnet 127.0.0.1 端口. 然后外面 telnet ip 端口, 这样排查问题, 看通不通
作者回复: 嗯多数情况下可以这么做,不过有个前提:监听这个端口的程序,申请的socket地址是统配地址,也就是0.0.0.0。如果程序显式的声明其监听地址为某个特定ip,那么这个telnet 127.0.0.0 port的做法就会失败,但不表面这个端口没在监听。 其实你可以用netstat -ant | grep 端口号,看看这个端口的状态是不是LISTEN,以及监听的地址是0.0.0.0还是什么。 或者lsof -i:端口号,也可以看到。不过要注意下,netstat不需要用sudo权限,但lsof -i需要sudo。
2022-01-1225 - 啊树程序猿一枚 请问学习该课程需要先阅读那些书籍来做辅助?
作者回复: 不是一定要提前阅读参考书籍的。你可以先把预习篇的两课仔细看一下,有什么问题可以在那边的留言区提问,我一定会回复你。 书籍方面,我推荐Richard Stevens的《TCP/IP详解》第一卷。这个也是大部头,第一遍只能看懂一小部分是很正常的,可以从我的课程里学习实际案例,再结合书中的内容来理解。 或者等学习完整个排查课后,再去看书也可以的,因为到课程学完后,哪怕不是每个细节都理解了,但至少对应用和网络之间的关系,以及问题可能属于哪个知识点的问题,你就有正确的理解,也知道应该去看书里的具体那一部分内容了。
2022-01-1554 - 晴天工作中遇到connect timeout和read timeout,总有一种无助感,希望学完课程能突破
作者回复: 好的,这两个timeout也都是常见的timeout。一个是连接超时,一个是读取(等待数据)超时。我在TCP实战篇里都会讲到的:)
2022-01-1224 - Horizon_carry打卡学习,大哥,跨境限制抓包看他三次握手里面ttl时间与64的大小,跨境在这里限制了,可以这样理解吗
作者回复: 你是指great wall吗 简单回答你,是的
2022-01-1233 - 姜姜课程有没有对容器网络问题排查的讲解?
作者回复: 嗯 直播课的时候有同学提到了,我后续会做加餐,安排这方面的案例介绍
2022-01-1223 - Ricky was a young boy打卡第一天,刚开的会员
编辑回复: 加油加油💪
2022-03-182 - 流水老师,您好。 在实际的生产环境排查过程中,往往需要等待问题复现,尝试部署抓包工具进行守株待兔,这里又可能对环境造成额外负担或可能引发次生故障,同时因对问题没有清晰的特征判断,也不能在测试环境进行准确复现,请问有没有什么好思路或实践?
作者回复: 您好,您提到的问题很常见。不过一般来说,如果抓包过滤条件比较精确,比如限定到某个ip某个端口,那对系统的额外压力并不大,建议还是要做抓包。这是第一个问题。 第二个是关于“守株待兔”,兔子什么时候会出现的问题。我们的实践是,如果有相应的日志监控,比如你提到的问题可以被监控抓到,那么就可以一遍抓包,一边观察监控,等监控上出现我们期待的问题的时候,去停止抓包。然后分析抓包文件。在这里,首先要解决“如何知道兔子来了”这个矛盾,方法有不少,比如刚才说的应用日志,比如可以设置一些脚本在遇到报错时候给你提醒比如发邮件,还可以人工观察。总之大的思路就是边抓包边等重现。
2022-02-012