• Aaron Cheung
    2019-10-18
    本篇对 devops sre 都受益良多
    
     4
  • alick
    2019-10-23
    将当前 CPU 利用率按秒记录。
    按 5% 粒度分组,将对应的 CPU 利用率计数 +1。
    将这些值每分钟汇总一次
    ----------
    这里没太想明白:`将对应CPU利用率计数+1`具体是什么意思?汇总是指求和吗?

    作者回复: 5%粒度分组,cpu利用率就只有0-20这几种可能。如果当前这一秒cpu利用率是p%,那么就 counts[p/5取整]++。每分钟有60个点,也就是counts数组求和是60。这样我们就知道一分钟内cpu利用率的波动情况了。

     1
     2
  • leslie
    2019-10-19
    老师今天的讲的这个其实是生产中蛮关键的:和一些研发或架构沟通过,甚至现实中很多中小企业会无视监控;合理的监控能精准的定位问题,而不是依赖人力去排除去沟通-尤其是软件上线后。
          监控不是狼也不是摆设:合理的监控确实能方便定位问题;其实现在很典型的问题是有些大厂的云服务监控确实没有体现特性吧尤其是数据库这块,集成度越高的问题定位越模糊,在看似减轻运维操作的同时是反向增加了复杂度。耦合度越高,定位越困难;这是我现在深深的体会和感悟。
    
     2
  • Jeff.Smile
    2020-01-12
    之前看许老师说,对于那些重点推荐的技术,以串联知识为要。学习服务治理应该也属于串联知识,但具体实施落地应该不需要开发工程师主导吧。如果开发工程师是治理的辅助角色,那其实这些治理知识其实知道并了解即可,不需要知道如何落地的细节步骤对吗?而且在一个不重视服务治理这一块的公司,就连知道了解都显得没有那么重要了!请老师解疑答惑!感觉我这个应该是属于角色定位的问题。

    作者回复: 架构师的思维方式一定要跳出职位分工本身。因为工种本身也是“架构设计”出来的。如果我们拘泥于既有的分工,就会无法发现落后的生产方式并且打破它。

     1
     1
  • Jeff.Smile
    2020-01-12
    看完这节就产生了一个疑问,这些监控是否需要开发工程师去做呢?开发与运维(或者sre)的边界又在哪里呢?我常常会因为这样一篇文章就去学习容器或者日志系统等技术…

    作者回复: 在很多公司,这里不少东西不是让sre做,而是基础架构工程师来做。如果人力投入少,一般是sre做,多数情况下是选择合适的开源软件来做,而不是从零开始自己干。

     1
    
  • Tesla
    2019-12-22
    老师,请问一些常规错误自动修复是依靠操作系统命令脚本吗?

    作者回复: 可以是任何语言的程序,shell脚本只是一种特例

    
    
  • Eternal
    2019-11-23
    满满的干活,我们的系统就严重陷入了狼来了的情况,天天报警
    
    
  • 丁丁历险记
    2019-11-08
    只会用阿里云监控的路过。
    
    
  • 张裕
    2019-10-18
    对于客户端的监控,老师有什么建议?在某些数据如延时的监控上是否可以和服务端监控相互印证?

    作者回复: 客户端监控是指什么?

     1
    
  • #^_^#
    2019-10-18
    好多干货
    
    
我们在线,来聊聊吧