极客时间-轻松学习，高效学习-极客邦

Adam

2019-03-31

除了USE原则，还有一个RED原则。

作者回复: 嗯嗯，RED方法更偏重于应用，在很多微服务中会用到。

Rate (R): The number of requests per second.
Errors (E): The number of failed requests.
Duration (D): The amount of time to process a request.



 8
ninuxer

2019-03-29

打卡day57
最近刚好在利用cadvisor+promethues+grafana对运行容器进行资源监控，现在是用grafana基于图形的告警，对promethues的查询语言还在摸索中～



 4
朱林浩

2019-04-29

如何查看内存饱和度，即内存换页量？

作者回复: 可以使用 sar -B



 1
胡鹏

2019-03-30

我目前的水平是，看到接口慢了，说明存在性能瓶颈了，😂，还得继续努力



 1
霹雳旸神

2019-03-30

公司交易系统监控还停留在hostmonitor来配置监控的阶段，各产品基本思想都差不多，老师这样一梳理脑子更清晰了，目前自己正在研究如何把交易系统容器化，等把百来套交易系统的集群搞起来后，再把老师推荐的监控方案亲自实践一遍，应该会学的更深刻

作者回复: 👍



 1
Adam

2019-03-29

打卡,线上用prometheus+grafana监控k8s资源。prometheus够强大。



 1
Brave Shine

2020-01-08

请问老师怎么查看IO错误数和文件系统错误数




杨国宇

2019-10-24

老师好，如果基于docker来实现监控系统的部署，docker对系统的资源消耗会影响到性能吗？




slam

2019-08-04

虚拟机或容器，也能监控吗

作者回复: 当然可以的




陈云卿

2019-06-22

对于业务数据的监控，老师有什么推荐的工具吗？尽量不入侵代码




如果

2019-04-23

DAY53，打卡




Wing

2019-04-15

用什么命令可以得到这个网络：带宽使用率，重传报文数，网卡收发错误数，丢包数。

作者回复: sar、netstat




lerry

2019-04-01

我们是用zabbix来监控服务器的，最近有台虚拟机应用服务器，经常挂了，无法连接上，从vcenter后台也无法连上，每次只能强制关闭启动服务器，找了很久原因都没找到，查看zabbix挂了之前的资源使用情况，同样没发现问题，对于这种情况，还请老师给点思路啊，谢谢！

作者回复: 重启的话，系统日志里面一般会有线索的，可以重启后查看系统日志（当然这些日志最好也是收集起来几种监控）

 1


zg

2019-03-31

可以移植到ARM嵌入式Linux系统吗？

作者回复: 要看监控工具是不是支持ARM，比如Prometheus提供了ARM版本




高

2019-03-31

倪老师，您好，通过您的课程受益匪浅。最近我刚好在生产中遇到了个问题，k8s环境下，因为某个cgroup超出限制，系统不停的重启pod，最后引发系统crash。我们收集到了core dump文件，确定了最后是触发了linux的Bug导致系统crash；系统不停的重启pod，应该是内存泄露导致，引发了oom；通过coredump文件，我找到了一堆java线程，应该是这个所致，但是在分析过程中的一些指标还不是很清楚，希望能够得到指导；如果您方便的话，可以加我微信18910659557，非常期待您的答复

作者回复: 哪些指标不清楚在这里说一下？有疑问发到留言里面，其他同学也可以一起参与讨论




我来也

2019-03-30

[D53打卡]
划个水.😁

这个系统监控与云服务平台提供的有哪些差异,适用什么样的场景呢?

作者回复: 云平台一般都会提供一些基本的指标监控，但很可能不够细致




code2

2019-03-30

见过上海超算中心的超级计算机系统性能监控系统，主要监控CPU的使用情况，可以预留部分CPU给重要任务，也是基于linux的操作系统，监控结果图形化显示与一个大屏幕上。

作者回复: 👍




蒙

2019-03-29

遇到的监控问题：有时候单个性能瓶颈往往引起一连串问题，比如swap使用，导致请求响应慢，请求堆积，线程增多，文件句柄数升高，cpu瞬间升高。归因分析比较困难。最后就变成重启大法好

作者回复: 嗯，这就需要熟悉这些基本的原理，结合原理是所有性能分析的基础




Maxwell

2019-03-29

文件描述符数，连接数，连接跟踪数这些指标监控系统如何监控呢？

作者回复: 监控系统一般从proc和sys文件系统中读取




Maxwell

2019-03-29

怎么理解上面哪些性能指标的错误数呢？cpu错误数什么情况下出现，内存分配错误等



