• Adam
    2019-03-31
    除了USE原则,还有一个RED原则 。

    作者回复: 嗯嗯,RED方法更偏重于应用,在很多微服务中会用到。

    Rate (R): The number of requests per second.
    Errors (E): The number of failed requests.
    Duration (D): The amount of time to process a request.

    
     8
  • ninuxer
    2019-03-29
    打卡day57
    最近刚好在利用cadvisor+promethues+grafana对运行容器进行资源监控,现在是用grafana基于图形的告警,对promethues的查询语言还在摸索中~
    
     4
  • 朱林浩
    2019-04-29
    如何查看内存饱和度,即内存换页量?

    作者回复: 可以使用 sar -B

    
     1
  • 胡鹏
    2019-03-30
    我目前的水平是,看到接口慢了,说明存在性能瓶颈了,😂,还得继续努力
    
     1
  • 霹雳旸神
    2019-03-30
    公司交易系统监控还停留在hostmonitor来配置监控的阶段,各产品基本思想都差不多,老师这样一梳理脑子更清晰了,目前自己正在研究如何把交易系统容器化,等把百来套交易系统的集群搞起来后,再把老师推荐的监控方案亲自实践一遍,应该会学的更深刻

    作者回复: 👍

    
     1
  • Adam
    2019-03-29
    打卡,线上用prometheus+grafana监控k8s资源。prometheus够强大。
    
     1
  • Brave Shine
    2020-01-08
    请问老师怎么查看IO错误数和文件系统错误数
    
    
  • 杨国宇
    2019-10-24
    老师好,如果基于docker来实现监控系统的部署,docker对系统的资源消耗会影响到性能吗?
    
    
  • slam
    2019-08-04
    虚拟机或容器,也能监控吗

    作者回复: 当然可以的

    
    
  • 陈云卿
    2019-06-22
    对于业务数据的监控,老师有什么推荐的工具吗?尽量不入侵代码
    
    
  • 如果
    2019-04-23
    DAY53,打卡
    
    
  • Wing
    2019-04-15
    用什么命令可以得到这个 网络: 带宽使用率,重传报文数, 网卡收发错误数,丢包数。

    作者回复: sar、netstat

    
    
  • lerry
    2019-04-01
    我们是用zabbix来监控服务器的,最近有台虚拟机应用服务器,经常挂了,无法连接上,从vcenter后台也无法连上,每次只能强制关闭启动服务器,找了很久原因都没找到,查看zabbix挂了之前的资源使用情况,同样没发现问题,对于这种情况,还请老师给点思路啊,谢谢!

    作者回复: 重启的话,系统日志里面一般会有线索的,可以重启后查看系统日志(当然这些日志最好也是收集起来几种监控)

     1
    
  • zg
    2019-03-31
    可以移植到ARM嵌入式Linux系统吗?

    作者回复: 要看监控工具是不是支持ARM,比如Prometheus提供了ARM版本

    
    
  • 高
    2019-03-31
    倪老师,您好,通过您的课程受益匪浅。最近我刚好在生产中遇到了个问题,k8s环境下,因为某个cgroup超出限制,系统不停的重启pod,最后引发系统crash。我们收集到了core dump文件,确定了最后是触发了linux的Bug导致系统crash;系统不停的重启pod,应该是内存泄露导致,引发了oom;通过coredump文件,我找到了一堆java线程,应该是这个所致,但是在分析过程中的一些指标还不是很清楚,希望能够得到指导;如果您方便的话,可以加我微信18910659557,非常期待您的答复

    作者回复: 哪些指标不清楚在这里说一下?有疑问发到留言里面,其他同学也可以一起参与讨论

    
    
  • 我来也
    2019-03-30
    [D53打卡]
    划个水.😁

    这个系统监控 与 云服务平台提供的有哪些差异,适用什么样的场景呢?

    作者回复: 云平台一般都会提供一些基本的指标监控,但很可能不够细致

    
    
  • code2
    2019-03-30
    见过上海超算中心的超级计算机系统性能监控系统,主要监控CPU的使用情况,可以预留部分CPU给重要任务,也是基于linux的操作系统,监控结果图形化显示与一个大屏幕上。

    作者回复: 👍

    
    
  • 蒙
    2019-03-29
    遇到的监控问题:有时候单个性能瓶颈往往引起一连串问题,比如swap使用,导致请求响应慢,请求堆积,线程增多,文件句柄数升高,cpu瞬间升高。归因分析比较困难。最后就变成重启大法好

    作者回复: 嗯,这就需要熟悉这些基本的原理,结合原理是所有性能分析的基础

    
    
  • Maxwell
    2019-03-29
    文件描述符数,连接数,连接跟踪数这些指标监控系统如何监控呢?

    作者回复: 监控系统一般从proc和sys文件系统中读取

    
    
  • Maxwell
    2019-03-29
    怎么理解上面哪些性能指标的错误数呢?cpu错误数什么情况下出现,内存分配错误等
    
    
我们在线,来聊聊吧