• 那时刻
    2023-03-01 来自北京
    讨论:物理机大概率会有混部 5 个甚至 50 个服务的场景,容器又必然是一个服务一个 Pod,那虚拟机呢?做成大规格的好,还是小规格的好呢?是有混部好还是没有混部好呢? 我觉得对于虚拟机,大规格适合混部,小规格适合单独部署。大规格混部的话,可以最大化利用资源。不过,从监控角度来说,混部会对于数据监控带来干扰因素,因为混部破坏了隔离性。 思考题:由于 mtail 和 grok_exporter 都是通过正则提取的方式来处理非结构化的日志数据的,性能是个比较关键的问题,如果日志量很大,可能会侵蚀较多的机器算力,甚至影响上面运行的服务 我没有过多的使用经验,谈谈我的想法。对于日志量大,可以考虑分段处理,可以先把日志切分成多段,然后每段分别处理,减少一次处理的数据量。另外,为了控制mtail 和 grok_exporter侵蚀较多的算力,可以通过cgroup的方式来控制max cpu使用率。 问题:请问老师 Telegraf的 plugin logparser 和 tail可以读取log文件, 同时也有 prometheus_client,实际工作中有应用么?

    作者回复: 读取日志到中心,大都还是采用EFK的生态;Telegraf 采集数据通过 prometheus_client 暴露,没有看到哪个公司这么用,通过 remotewrite 写数据到后端存储的倒是不少,如果是pull的方式,大都还是使用node-exporter居多

    
    1
  • Geek_be4f4d
    2023-06-07 来自北京
    老师您好,应用监控本身,推荐埋点方式实现,请问php有什么好用的sdk来实现埋点监控吗?

    作者回复: php是否有特定语言的专属方案我不太清楚,通用metrics方案的话,就是 prometheus、statsd 了,tracing的话可以看看 otel

    
    
  • 勇敢黄瓜
    2023-06-07 来自广东
    请教下老师,文中说的中心端监控日志方案没有开源,EFK或者loki算吗

    作者回复: loki是可以做中心端监控的,EFK的话一般是配合开源的elastalert

    
    
  • Kevin
    2023-02-24 来自北京
    看了下目录,这是指标搜集的最后一章了。想问下,categraf没有做etcd的指标采集吗?看conf目录下没有input.etcd目录

    作者回复: etcd直接暴露prometheus协议的监控数据,使用input.prometheus直接抓就好了,Kubernetes监控章节其实介绍过如何采集etcd的数据了

    
    
  • peter
    2023-02-22 来自北京
    请教老师几个问题: Q1:应用保存日志还有用吗? 既然对于应用的监控推荐使用埋点方式,不推荐使用日志方式。那么,对于应用,还有必要打印、保存日志吗?尤其是线上环境。 Q2:用云服务的话,一般是虚拟机,categraf怎么部署到机器上?机器是虚拟的,是不确定的实体,怎么把categraf部署到特定的机器上啊。 Q3:注册用户100万的网站,适合用什么监控? 通过前面的学习,感觉Prometheus适合比较大的规模的网站。那么,对于注册用户100万的网站,是不是有更合适的监控方案?(注1:对于网站规模大小,我不很清楚;100万用户的规模,算大还是小,不清楚,只是个人臆测; 注2: 也许Prometheus也适合小规模的网站)

    作者回复: 1,需要保存,指标是统计数据,日志是细节 2,虚拟机对于用户来说跟正常的机器没啥太大区别。。。。 3,没法通过注册用户量衡量,根据监控目标衡量

    
    
  • 刘涛
    2023-02-23 来自广东
    中心处理,filebeat kafka flink
    
    2
  • 不经意间
    2023-08-09 来自北京
    关于互动问题,有方法可以对日志内容去反吗,对于看是否有错误日志的情况。 对于counter应该就不行了,它得计数。
    
    
  • 林龍
    2023-02-22 来自广东
    由于项目中已经搭建了opentraceing链路,把数据加载到prometheus,请问这种方案有没有什么缺点
    
    
  • Tangzen
    2023-02-22 来自北京
    同类产品有loki+grafana,sls
    
    