运维监控系统实战笔记
秦晓辉
快猫星云联合创始人,Open-Falcon、Nightingale、Categraf 核心研发
9147 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
课程目录
已完结/共 25 讲
运维监控系统实战笔记
15
15
1.0x
00:00/00:00
登录|注册

12|网络监控:如何监控网络链路和网络设备?

你好,我是秦晓辉。
上一讲我们介绍了机器监控,机器属于基础设施。除了机器之外,还有一个常见的基础设施,就是网络。网络监控主要包括网络链路监控和网络设备监控,通常系统运维人员会比较关注。今天我们就来揭开网络监控的面纱,看看其中涉及了哪些关键技术和实践方法。

网络链路监控

网络链路监控主要包含三个部分,网络连通性、网络质量、网络流量。
连通性和质量的监控手段非常简单,就是在链路一侧部署探针,去探测链路另一侧的目标,通过 ICMP、TCP、HTTP 等协议发送探测数据包,分析回包的结果。典型的指标有丢包率、延迟、回包是否匹配预期条件等。
网络流量监控,则关注流量大小以及流量内容。流量大小广泛应用于水位管理,比如机器网卡、交换机的接口、外网出口、专线带宽等,及时发现网络瓶颈。分析流量内容,则可以识别过度耗用带宽的用户和应用程序,验证网络 QoS 策略等。
这一讲我们使用 Categraf 来演示一下常用探针的配置方式,进行网络连通性和质量监控。网络流量大小,可以使用 SNMP 采集数据,相关方法我们会在后面介绍网络设备监控时讲解。流量内容监控我暂时没有找到开源方案,如果你知道的话,欢迎留言分享。

ICMP 探测

Categraf 的 ICMP 探测使用 Ping 插件,相关配置在 conf/input.ping/ping.toml,主要是配置要探测的目标地址,你可以看一下我给出的样例。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

本文深入介绍了网络监控的关键技术和实践方法,主要包括网络链路监控和网络设备监控。在网络链路监控方面,文章详细介绍了使用Categraf进行ICMP、TCP和HTTP探测的配置方式,以及相关指标的监控方法。对于网络设备监控,文章提到了通过SNMP获取指标和利用SNMP Trap进行故障分析的方法。通过具体的配置示例和技术原理,为读者提供了实用的网络监控方法和工具,有助于他们更好地监控和管理网络基础设施。文章还介绍了SNMP指标获取方式和SNMP Trap的相关技术方案。总的来说,本文内容丰富,涵盖了网络监控的多个方面,为读者提供了全面的了解和实践指导。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《运维监控系统实战笔记》
新⼈⾸单¥59
立即购买
登录 后留言

全部留言(14)

  • 最新
  • 精选
  • dobby
    snmp结果的解析太繁琐了,纯纯体力活,开源根本没什么好用的库

    作者回复: 的确很恶心,不过,如果大家能一起贡献采集配置就好了,就能很快攒起来各种型号设备的采集能力

    2023-02-03归属地:四川
    3
    2
  • hshopeful
    老师有两个问题请教下: 1、telegraf 支持 snmp_trap,catagraf 没有支持的原因是什么呢?难点主要是啥? 2、这节课介绍的插件,telegraf 中都有,想请问下 catagraf 的优势是什么呢?

    作者回复: 1,Categraf还没有精力做trap 2,在前面agent选型的章节,介绍过哈。除了前面章节介绍的,另外就是categraf支持metrics、logs、traces三大支柱的数据采集,集成了mtail,改良了mysql采集,改良了system采集,增加了几个Telegraf不支持的plugin,各有优劣吧

    2023-02-03归属地:湖北
    1
  • zdyang
    交换机监控还有一种方式是通过telemetry,这是华为的介绍https://support.huawei.com/enterprise/zh/doc/EDOC1000173014/165fa2c8?idPath=24030814|9856750|250987487|22896249|19896202

    作者回复: 是的,这个更实时,新设备越来越多支持 Telemetry 了

    2023-10-05归属地:上海
  • kobe
    ## Optional substring match in body of the response (case sensitive) expect_response_substring = "ok" ## Optional expected response status code. expect_response_status_code = 200 我这里如果这样配了 那指标的值是什么样的呢

    作者回复: 核心关注 http_response_result_code 指标,通过 ./categraf --test --inputs http_response 可以看到。这个 http_response_result_code 指标如果是 0,就表示一切正常,如果非 0,就表示异常,不同的非 0 值代表不同的含义,具体可以参考:https://github.com/flashcatcloud/categraf/tree/main/inputs/http_response 指标体系里,仅仅使用不同的 value 呈现错误会有些不易读,也可以尝试事件监控的方式,参考 catpaw 的逻辑:https://mp.weixin.qq.com/s/Y-KipuKZxVn8o-NR6-ZBZg

    2023-06-27归属地:浙江
    3
  • Gong
    老师好,请教一下我想监控各终端和服务器的交互流量,有什么办法吗?服务器接的终端数量一千台左右。

    作者回复: 一般监控网卡流量就可以了

    2023-02-16归属地:山东
  • F0RWARD
    老师,catagraf采集的网卡流量是32位的,还是64位的?当流量超过1G时,32位的数据会不准确

    作者回复: 采集的监控数据都是 float64

    2023-02-10归属地:北京
  • MiraClei
    请教下载服务器离线状态下,categraf启动会频繁重启,报错信息是请求223.5.5.5,但服务器无法联网,这种情况下是如何解决?

    作者回复: config.toml 里的 hostname 配置,不要写 $ip,如果写 $ip 就自动探测本机IP,自动探测的时候会请求223.5.5.5

    2023-02-08归属地:北京
  • 戒贪嗔痴
    最后一张图,最常使用的协议是:v2c?还是V2

    编辑回复: 感谢反馈,已经更正了

    2023-02-05归属地:浙江
  • lei
    请教一下,平时的自定义服务数量非常多,每个服务又会对应多个进程或实例,每个进程会对应多线程,这种情况有什么好的方法监控服务吗?

    作者回复: 监控服务,就看服务对外提供的服务质量,比如web服务就看可用性、延迟、错误率等,是有方法论的,可以参考第9讲。

    2023-02-05归属地:浙江
  • peter
    请问:ping一个机器会占用多少文件句柄?

    作者回复: 1个

    2023-02-03归属地:北京
    2
收起评论
显示
设置
留言
14
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部