02|基本概念:监控圈子有哪些行业黑话?
监控指标
全局唯一字符串作为指标标识
- 深入了解
- 翻译
- 解释
- 总结
监控系统中的关键概念和技术特点是监控领域的重要基础,本文深入介绍了监控、监控指标、指标类型、时序库以及告警收敛与闭环等内容。监控指标作为系统基础,通过全局唯一字符串、标签集的组合以及Influx指标格式等方式进行描述,对于读者快速了解监控系统具有重要意义。此外,文章还介绍了Histogram直方图类型和Summary摘要类型,以及时序库的概念和告警收敛与闭环的重要性。这些内容对于想要深入了解监控系统的读者来说,是一份具有价值的技术资料。监控系统的基础知识是整个监控体系知识蓝图的根基,而不同的监控产品有不同的描述方式,但随着OpenMetrics标准的建立,指标描述方式会逐渐趋于一致。指标类型的核心作用在于采集侧埋点时,SDK会根据数据类型做不同的计算逻辑。时序库作为存储时序序列数据的数据库,随着IoT的场景越来越多,以及微服务的发展,时序库这个话题也越来越流行。最后,告警事件层面的话题是所有监控系统都需要处理的,也可以作为一个专门的产品和多种监控系统对接,专注处理告警事件。这些内容为读者提供了全面了解监控系统的基础知识和技术特点的机会。
《运维监控系统实战笔记》,新⼈⾸单¥59
全部留言(33)
- 最新
- 精选
- 徐石头置顶想参照课程给公司开发一套监控系统,把k8s,Redis,MySQL,Elasicsearch,Kafka综合在一个系统里,大公司运维监控比较完善,针对小公司的监控系统应该怎么做,要从哪些方面入手?希望老师多考虑下小公司,一方面小公司更多,另一方面运维监控非常匮乏,人员有限,确实是痛点
作者回复: 纯个人见解哈一起探讨:小公司千万不要自研监控系统,开源的监控系统其实都挺强大了,如果基于开源的二开,后面开源的升级又不好跟进,如果不再跟进,负责二开的人离职,后面新接手的人可能不认可这个做法或者找不到接手的人,容易一地鸡毛,后来人会背地里骂这个二开的人的。 二开的初衷,可能是开源产品某些功能不符合自己公司的需求。其实真的有那么多定制化需求么?火爆的开源软件可能都是几千上万github star,很多公司在用,我们的需求真的就那么特殊么?需要仔细再调研一下。很可能是开源软件也有这个功能,我们可能不知道。 如果最终还是准备二开,建议: 1,尽量不改开源软件的代码,基于它的API做封装 2,如果必须要改,觉得某些改动是通用需求,就提pr,merge回这个开源软件,这样别人也可以帮你review这个设计和代码,你也可以提升个人影响力,开源社区很欢迎这类pr,所有公司都受益 上面主要是说的二开的问题,如果是完全自研,嗯,,,应该不会完全自研吧,这个时代,几乎没有完全自研的软件了.... 如果你被公司招聘来就是做监控系统的,不搞点事情就没饭吃,怎么整?建议多做一些最佳实践,在某些点上做透,做一些场景化的解决方案,看看监控系统的用户的痛点是什么,很多事情可以干的
2023-01-11归属地:湖南731 - 怀朔这是一个误报
作者回复: 哈哈哈
2023-01-11归属地:上海17 - hshopeful关于监控,脑海中有几句话想跟大家分享下: 1、当 facebook 还是 facebook 的时候,它开源的 gorilla 时序数据压缩算法特别适合监控领域的数据存储,prometheus 中已经采用 2、对监控指标进行流式聚合计算的时候,数据准确性和时效性需要做出 tradeoff 3、当你的监控告警指标太多的时候,相当于没有指标,一定要筛选出核心待关注的监控告警指标 4、怎么对监控系统本身进行监控
作者回复: 👍
2023-01-11归属地:上海312 - April老师能根据Summary给个示例吗?没太理解
作者回复: Summary通常也是用于统计接口的延迟,姑且可以理解为: 比如某个接口 /api/v1/login 服务每次收到这个接口的请求,就通过SDK记录一下延迟,比如第一次演示3ms,第二次5ms,第三次4ms,,,第1000次3ms Summary 的逻辑就是把这1000个数值从小到大排序,然后就可以取第99%的位置的那个值作为99分位的值上报,取第90%的位置的那个值作为90分位的值上报,当然也会计算这1000个值的最大值、最小值、平均值上报。 这个计算是在进程颗粒度的,不是在服务级别的,服务级别的计算只能通过Histogram,把多个进程的指标汇聚到一起计算
2023-01-11归属地:上海37 - 呵呵指标格式对比没太看懂,是想表达influx的全是kv,opentsdb的不全是。所以同一时间的消息,influx能少传几条,省了n个时间戳?怎么就标签重复的低了?不还是kv吗?
作者回复: 不是。大家其实都是支持标签的。我想表达的是influx格式在多个field的场景,会减少标签传输量,比如cpu的指标:influx来描述的话是这么一条: cpu,cpu=cpu0,host=loaner time_active=202224.15999999992,time_guest=30250.35,time_guest_nice=0,time_idle=1527035.04,time_iowait=1352,time_irq=0,time_nice=169.28,time_softirq=6281.4,time_steal=0,time_system=40097.14,time_user=154324.34 1568760922000000000 如果用opentsdb来描述就是这样的: cpu.time_active 202224.15999999992 1568760922 cpu=cpu0 host=loaner cpu.time_guest 30250.35 1568760922 cpu=cpu0 host=loaner cpu.time_guest_nice 0 1568760922 cpu=cpu0 host=loaner cpu.time_idle 1527035.04 1568760922 cpu=cpu0 host=loaner cpu.time_iowait 1352 1568760922 cpu=cpu0 host=loaner cpu.time_irq 0 1568760922 cpu=cpu0 host=loaner cpu.time_nice 169.28 1568760922 cpu=cpu0 host=loaner cpu.time_softirq 6281.4 1568760922 cpu=cpu0 host=loaner cpu.time_steal 0 1568760922 cpu=cpu0 host=loaner cpu.time_system 40097.14 1568760922 cpu=cpu0 host=loaner cpu.time_user 154324.34 1568760922 cpu=cpu0 host=loaner 这里每一行里都有 cpu=cpu0 host=loaner 这俩标签,当然,每一行也都要传输时间戳,重复度比较高,会多一些字符串传输成本
2023-01-11归属地:上海67 - 无名无姓针对prom每个类型展现一个实例比较好
作者回复: Gauge类型举例:房间里的人数、队列积压的消息数、今年公司的收入和净利润 Counter类型举例:操作系统自启动以来网卡接收到的所有流量包的数量 Histogram、Summary:典型的就是用于描述延迟数据,比如HTTP接口、RPC接口的延迟数据
2023-01-11归属地:上海26 - 臭猫warning:xx节点cpu使用率超过80%,持续时间超过5分钟
作者回复: 哈哈 🤝
2023-01-11归属地:上海6 - 蓝熊船长来催个更。正在负责新项目的监控这块。补齐一下地图。期待
作者回复: 每周一三五零点更新,努起来 :)
2023-01-11归属地:上海2 - 王二木自愈
作者回复: 👍
2023-01-30归属地:北京1 - 打卡主持人太强了😯看完清晰多了
作者回复: 🤝🤝
2023-01-11归属地:上海1