20|应用监控:如何使用日志来监控应用?
提取指标的典型做法
- 深入了解
- 翻译
- 解释
- 总结
本文介绍了如何使用日志对应用进行监控,重点介绍了一款名为 mtail 的工具的用法。作者首先介绍了在无法修改源代码的情况下,可以通过外挂式手段或读取分析应用日志来实现应用监控。他提到了在中心端和日志端两种位置上运行提取规则的做法,并详细介绍了在日志端处理的方式。通过示例演示了如何使用 mtail 统计日志中关键字出现的次数,并展示了 mtail 的启动命令和效果。此外,作者还介绍了如何配置 mtail 文件以统计接口的吞吐、延迟等,并给出了相应的 mtail 文件内容和测试输出。文章还介绍了如何使用 grok_exporter 进行日志指标提取,并展示了 grok_exporter 的运行和测试效果。整体而言,本文以实际操作为主线,详细介绍了如何使用日志对应用进行监控。文章还总结了指标提取的几种方式,重点介绍了日志端的处理方式,以及 mtail 和 grok_exporter 的特点和适用场景。最后,作者提出了关于性能优化的问题,鼓励读者分享实践方式。整体而言,本文内容丰富,适合对应用监控感兴趣的读者阅读学习。
《运维监控系统实战笔记》,新⼈⾸单¥59
全部留言(9)
- 最新
- 精选
- 那时刻讨论:物理机大概率会有混部 5 个甚至 50 个服务的场景,容器又必然是一个服务一个 Pod,那虚拟机呢?做成大规格的好,还是小规格的好呢?是有混部好还是没有混部好呢? 我觉得对于虚拟机,大规格适合混部,小规格适合单独部署。大规格混部的话,可以最大化利用资源。不过,从监控角度来说,混部会对于数据监控带来干扰因素,因为混部破坏了隔离性。 思考题:由于 mtail 和 grok_exporter 都是通过正则提取的方式来处理非结构化的日志数据的,性能是个比较关键的问题,如果日志量很大,可能会侵蚀较多的机器算力,甚至影响上面运行的服务 我没有过多的使用经验,谈谈我的想法。对于日志量大,可以考虑分段处理,可以先把日志切分成多段,然后每段分别处理,减少一次处理的数据量。另外,为了控制mtail 和 grok_exporter侵蚀较多的算力,可以通过cgroup的方式来控制max cpu使用率。 问题:请问老师 Telegraf的 plugin logparser 和 tail可以读取log文件, 同时也有 prometheus_client,实际工作中有应用么?
作者回复: 读取日志到中心,大都还是采用EFK的生态;Telegraf 采集数据通过 prometheus_client 暴露,没有看到哪个公司这么用,通过 remotewrite 写数据到后端存储的倒是不少,如果是pull的方式,大都还是使用node-exporter居多
2023-03-01归属地:北京1 - Geek_be4f4d老师您好,应用监控本身,推荐埋点方式实现,请问php有什么好用的sdk来实现埋点监控吗?
作者回复: php是否有特定语言的专属方案我不太清楚,通用metrics方案的话,就是 prometheus、statsd 了,tracing的话可以看看 otel
2023-06-07归属地:北京 - 勇敢黄瓜请教下老师,文中说的中心端监控日志方案没有开源,EFK或者loki算吗
作者回复: loki是可以做中心端监控的,EFK的话一般是配合开源的elastalert
2023-06-07归属地:广东2 - Kevin看了下目录,这是指标搜集的最后一章了。想问下,categraf没有做etcd的指标采集吗?看conf目录下没有input.etcd目录
作者回复: etcd直接暴露prometheus协议的监控数据,使用input.prometheus直接抓就好了,Kubernetes监控章节其实介绍过如何采集etcd的数据了
2023-02-24归属地:北京 - peter请教老师几个问题: Q1:应用保存日志还有用吗? 既然对于应用的监控推荐使用埋点方式,不推荐使用日志方式。那么,对于应用,还有必要打印、保存日志吗?尤其是线上环境。 Q2:用云服务的话,一般是虚拟机,categraf怎么部署到机器上?机器是虚拟的,是不确定的实体,怎么把categraf部署到特定的机器上啊。 Q3:注册用户100万的网站,适合用什么监控? 通过前面的学习,感觉Prometheus适合比较大的规模的网站。那么,对于注册用户100万的网站,是不是有更合适的监控方案?(注1:对于网站规模大小,我不很清楚;100万用户的规模,算大还是小,不清楚,只是个人臆测; 注2: 也许Prometheus也适合小规模的网站)
作者回复: 1,需要保存,指标是统计数据,日志是细节 2,虚拟机对于用户来说跟正常的机器没啥太大区别。。。。 3,没法通过注册用户量衡量,根据监控目标衡量
2023-02-22归属地:北京 - 刘涛中心处理,filebeat kafka flink2023-02-23归属地:广东2
- 不经意间关于互动问题,有方法可以对日志内容去反吗,对于看是否有错误日志的情况。 对于counter应该就不行了,它得计数。2023-08-09归属地:北京
- 林龍由于项目中已经搭建了opentraceing链路,把数据加载到prometheus,请问这种方案有没有什么缺点2023-02-22归属地:广东
- Tangzen同类产品有loki+grafana,sls2023-02-22归属地:北京