19 | 端到端Trace:消息收发链路的监控体系搭建
该思维导图由 AI 生成,仅供参考
基于数据收集的被动监控
系统层监控
- 深入了解
- 翻译
- 解释
- 总结
在即时消息(IM)系统中建立消息收发链路监控体系至关重要。本文探讨了被动监控和主动监控两种监控模式的实现细节和区别。被动监控依赖服务器或应用服务的监控数据上报,包括系统层监控和应用层监控,以及分布式全链路Trace系统。主动监控则通过第三方的主动探测程序,如模拟用户收发消息行为的回环探测方式,来监控通道的可用性。文章详细介绍了监控数据的收集和使用架构,分布式全链路Trace系统的概念和实现方式,以及基于回环探测的主动监控方法。这些内容为读者提供了建立消息收发链路监控体系的重要性和具体实现方法,对技术人员具有一定的参考价值。总的来说,本文内容涵盖了分布式跟踪系统、监控数据采样率、分布式Trace系统的实现架构、基于回环探测的主动监控等内容,为读者提供了全面的技术视角和解决方案。
《即时消息技术剖析与实战》,新⼈⾸单¥59
全部留言(8)
- 最新
- 精选
- clip思考题: 感觉整体可以正常运转,但是会丢失一些细节。 如果被调用服务只是 server 侧没接 trace 那会丢失 server 侧及这个服务内部的其他调用的 trace。 如果被调用服务的 client 也没接 trace 那这次调用会被当做调用它的服务的内部的一个逻辑,但不影响整个链路里其他部分的监控。
作者回复: 是的,只是这一个span无法再向后延展,整体trace使用上是ok的,当前这个span也只是丢失ss和sr部分,实际也是属于可用的。
2019-10-105 - clip“对单机的应用状态分别进行监控”是指怎样的监控呢? 是类似监控应用层整体情况那样但改成单机器监控,还是做每台机器的系统层监控呢? 感觉系统层监控的话好像还是不太容易和应用层整体的报错对应起来。
作者回复: 实际上分布式应用的整体监控数据的就是依赖单机上报的数据在数据收集端进行聚合的,比如qps是进行累加,耗时是采用平均值等。所以单机的监控只需要对这些单机上报的监控数据和汇总聚合的全局监控数据进行独立存储,单机数据可以根据ip维度进行存储,然后通过api层通过单机ip就能查询到了。
2019-10-103 - 钢个人觉得不可用,调用环节已经断层
作者回复: trace多个span的数据组织上本身是一个DAG,当某一个链路的被调用方没有接入trace时,只是从这个分支往下的链路中断了,一般不影响整体trace的呈现,当前相关的这个span也只是没有 ss和sr部分,整体上也是可看。
2019-10-103 - 唯我天棋如果不是rpc模式的,长连接模式的,消息异步发送,怎么进行全链路监控呀?
作者回复: 大部分rpc也是基于长连接实现的呀,自己实现的话需要针对socket的读写进行trace探针的插入。
2019-11-041 - leslie自己其实在工作中越来越觉得监控的重要:知道问题才能解决问题;监控的方案其实同样是在完善中的个人觉得不同系统关注的监控应当不一样,需要对现有的监控系统做二次开发-制定出适合自己系统的监控系统才是合适的系统。这个就像MQ虽然有许多,可是不同场景适用的不同,如何写出合适自己系统的监控才是关键。2019-10-154
- mgxiantrace会中断 无法查看整个链路的情况 主要是因为 traceid 和 parent span id 无法正常传递2019-10-092
- piboyetraceid之前的系统实践过,现在没搞懂spanid的生成并保障在traceid下唯一,特别是对于并发请求多个服务的时候2020-05-10
- Z邦老师能否开一篇详解应用层监控需要监控的指标、获取方法,异常幅度等细节?2019-10-12