• leslie
    2019-10-15
    自己其实在工作中越来越觉得监控的重要:知道问题才能解决问题;监控的方案其实同样是在完善中的个人觉得不同系统关注的监控应当不一样,需要对现有的监控系统做二次开发-制定出适合自己系统的监控系统才是合适的系统。这个就像MQ虽然有许多,可是不同场景适用的不同,如何写出合适自己系统的监控才是关键。
    
     2
  • clip
    2019-10-10
    思考题:
    感觉整体可以正常运转,但是会丢失一些细节。
    如果被调用服务只是 server 侧没接 trace 那会丢失 server 侧及这个服务内部的其他调用的 trace。
    如果被调用服务的 client 也没接 trace 那这次调用会被当做调用它的服务的内部的一个逻辑,但不影响整个链路里其他部分的监控。

    作者回复: 是的,只是这一个span无法再向后延展,整体trace使用上是ok的,当前这个span也只是丢失ss和sr部分,实际也是属于可用的。

    
     2
  • _CountingStars
    2019-10-09
    trace会中断 无法查看整个链路的情况 主要是因为 traceid 和 parent span id 无法正常传递
    
     2
  • clip
    2019-10-10
    “对单机的应用状态分别进行监控”是指怎样的监控呢?
    是类似监控应用层整体情况那样但改成单机器监控,还是做每台机器的系统层监控呢?
    感觉系统层监控的话好像还是不太容易和应用层整体的报错对应起来。

    作者回复: 实际上分布式应用的整体监控数据的就是依赖单机上报的数据在数据收集端进行聚合的,比如qps是进行累加,耗时是采用平均值等。所以单机的监控只需要对这些单机上报的监控数据和汇总聚合的全局监控数据进行独立存储,单机数据可以根据ip维度进行存储,然后通过api层通过单机ip就能查询到了。

    
     1
  • 钢
    2019-10-10
    个人觉得不可用,调用环节已经断层

    作者回复: trace多个span的数据组织上本身是一个DAG,当某一个链路的被调用方没有接入trace时,只是从这个分支往下的链路中断了,一般不影响整体trace的呈现,当前相关的这个span也只是没有 ss和sr部分,整体上也是可看。

    
     1
  • 唯我天棋
    2019-11-04
    如果不是rpc模式的,长连接模式的,消息异步发送,怎么进行全链路监控呀?

    作者回复: 大部分rpc也是基于长连接实现的呀,自己实现的话需要针对socket的读写进行trace探针的插入。

    
    
  • Z邦
    2019-10-12
    老师能否开一篇详解应用层监控需要监控的指标、获取方法,异常幅度等细节?
    
    
我们在线,来聊聊吧