极客时间-轻松学习，高效学习-极客邦

那时刻
2023-03-01 来自北京
讨论：物理机大概率会有混部 5 个甚至 50 个服务的场景，容器又必然是一个服务一个 Pod，那虚拟机呢？做成大规格的好，还是小规格的好呢？是有混部好还是没有混部好呢？我觉得对于虚拟机，大规格适合混部，小规格适合单独部署。大规格混部的话，可以最大化利用资源。不过，从监控角度来说，混部会对于数据监控带来干扰因素，因为混部破坏了隔离性。思考题：由于 mtail 和 grok_exporter 都是通过正则提取的方式来处理非结构化的日志数据的，性能是个比较关键的问题，如果日志量很大，可能会侵蚀较多的机器算力，甚至影响上面运行的服务我没有过多的使用经验，谈谈我的想法。对于日志量大，可以考虑分段处理，可以先把日志切分成多段，然后每段分别处理，减少一次处理的数据量。另外，为了控制mtail 和 grok_exporter侵蚀较多的算力，可以通过cgroup的方式来控制max cpu使用率。问题：请问老师 Telegraf的 plugin logparser 和 tail可以读取log文件，同时也有 prometheus_client，实际工作中有应用么？
作者回复: 读取日志到中心，大都还是采用EFK的生态；Telegraf 采集数据通过 prometheus_client 暴露，没有看到哪个公司这么用，通过 remotewrite 写数据到后端存储的倒是不少，如果是pull的方式，大都还是使用node-exporter居多
1
Geek_be4f4d
2023-06-07 来自北京
老师您好，应用监控本身，推荐埋点方式实现，请问php有什么好用的sdk来实现埋点监控吗？
作者回复: php是否有特定语言的专属方案我不太清楚，通用metrics方案的话，就是 prometheus、statsd 了，tracing的话可以看看 otel
勇敢黄瓜
2023-06-07 来自广东
请教下老师，文中说的中心端监控日志方案没有开源，EFK或者loki算吗
作者回复: loki是可以做中心端监控的，EFK的话一般是配合开源的elastalert
Kevin
2023-02-24 来自北京
看了下目录，这是指标搜集的最后一章了。想问下，categraf没有做etcd的指标采集吗？看conf目录下没有input.etcd目录
作者回复: etcd直接暴露prometheus协议的监控数据，使用input.prometheus直接抓就好了，Kubernetes监控章节其实介绍过如何采集etcd的数据了
peter
2023-02-22 来自北京
请教老师几个问题： Q1：应用保存日志还有用吗？既然对于应用的监控推荐使用埋点方式，不推荐使用日志方式。那么，对于应用，还有必要打印、保存日志吗？尤其是线上环境。 Q2：用云服务的话，一般是虚拟机，categraf怎么部署到机器上？机器是虚拟的，是不确定的实体，怎么把categraf部署到特定的机器上啊。 Q3：注册用户100万的网站，适合用什么监控？通过前面的学习，感觉Prometheus适合比较大的规模的网站。那么，对于注册用户100万的网站，是不是有更合适的监控方案？（注1：对于网站规模大小，我不很清楚；100万用户的规模，算大还是小，不清楚，只是个人臆测；注2：也许Prometheus也适合小规模的网站）
作者回复: 1，需要保存，指标是统计数据，日志是细节 2，虚拟机对于用户来说跟正常的机器没啥太大区别。。。。 3，没法通过注册用户量衡量，根据监控目标衡量
刘涛
2023-02-23 来自广东
中心处理，filebeat kafka flink
2
不经意间
2023-08-09 来自北京
关于互动问题，有方法可以对日志内容去反吗，对于看是否有错误日志的情况。对于counter应该就不行了，它得计数。
林龍
2023-02-22 来自广东
由于项目中已经搭建了opentraceing链路，把数据加载到prometheus，请问这种方案有没有什么缺点
Tangzen
2023-02-22 来自北京
同类产品有loki+grafana,sls