• 左耳朵 置顶
    2017-12-05
    自动地图生成一般用APM式的系统。开源的可以看看zipkin
    
     55
  • kimi
    2017-12-02
    2013 年,应该是 8 月吧,和耗子哥一起处理巨石塔上千台服务器宕机的故障,搞到凌晨三四点
     1
     79
  • ibrothergang
    2017-11-28
    “请你来聊聊,你所经历过的线上故障,以及有哪些比较好的故障处理方法。”

    我是一名移动端开发的工程师。移动端的开发工作和前端(线上环境)开发还是有一点区别的。移动端的开发一般在上线前会做测试,严重的问题一般在测试过程就解决了,很少情况发版后出现大面积的奔溃情况。但是线上环境不一样,线上环境发版的周期会大大短于客户端,很多的活动都会频繁的上线和下线。影响的范围也大于移动端。

    遇到过最严重的一次事故是由于服务端的修改引起了移动端的奔溃。而且这个奔溃发生在 app 启动的时候。也就是说用户点了应用图标,起来马上就又闪退了。当时的 app 设计是起来后会去请求服务端的相关配置信息,相信很多的 app 也是这么做的。造成这个故障的原因是由于 app 对异常的处理不够完备,服务器端又恰巧修改了配置数据,导致 app 端拿到了一个引起奔溃的数据结果。后来因为是上班时间,发现问题后大家都在,及时恢复了服务端数据,遏制了事态的进一步发展,但是已经出现奔溃的用户由于在重新请求服务端数据前就奔溃了,只能通过发布新版本解决这个问题。

    一旦服务端和移动端相互影响(往往是服务端影响移动端)引起的奔溃,往往是比较严重的,很多时候不得不通过发布新版本才能解决问题。所以移动端一定要做好服务端的异常处理。
    展开
     1
     34
  • 金胖子
    2018-02-02
    最典型的一次,项目组成员在测试版本中加了sleep来debug,结果上线的时候就把版本发布到生产,直接影响我第二天下午没能去看变形金刚
    
     22
  • xpisme
    2018-06-25
    代码逻辑错误,导致查看分享的人能看到分享者所有信息,记录的上一个人的cookie.

    Session存储在redis, flush db。所有用户重新登陆
    
     6
  • 李印
    2018-05-10
    楼上的,类似工具:鹰眼,watchMan,京东的CallGraph
     2
     6
  • paul.yang
    2018-07-21
    耗子叔,我是个自学转行做后端的程序员。最近在日活快接近2亿的一个后端团队里面犯了个错误导致某一个功能20分钟不可用,受到了打击,我微博给你留了言,希望能跟你交流下,寻求指导帮助。希望你能看到我的微博留言,呵呵的卫国杨

    作者回复: 微博回了

    
     4
  • 小桥流水
    2017-11-30
    自动生成地图那是有什么工具推荐的吗?
     1
     4
  • 晏
    2018-07-08
    故障前的准备工作:
    以用户功能为索引的服务和资源的全视图。
    在地图中设置关键指标,以及运维流程和方案。
    设定故障等级。
    故障演练。
    
     3
  • edisonhuang
    2019-05-28
    故障应对方法,分别包括故障发生时的恢复措施,自己故障发生前可做的准备。
    故障发生时最重要的是限制故障影响的范围,尽最大可能保障服务的可用性,包括转发和限流,回滚,降级,服务重启,紧急更新,紧急发布等。
    故障发生前应做好防范,需要以用户功能为索引建立全站服务和资源的地图,利用地图为各个服务生成关键性指标,并建立一套自动化运维的方案和工具。为故障设立等级,知道故障时我在哪,严重程度,进行必要的故障演练,做灰度发布等
    
     2
  • 林子
    2017-12-01
    自动生成地图那是有什么工具推荐的吗?同问耗子哥
    
     2
  • 小沫
    2017-11-28
    之前有一次线上系统出现故障,导致工单无法处理。原因是北向接口服务出现故障,定位起来不太方便。因为接口为集群部署(使用F5)当时没有好的运维工具,只能模拟请求接口,经过一轮验证后才发现接口故障点。想问下耗子叔,对于你文章中说的自动生成地图那是有什么工具推荐的吗?
    
     2
  • 西北偏北
    2019-05-10
    凡事预则立,故障诊断和处理不是依赖人员的瞎猜,盲查,而是要在故障前就想好对应的预案,基础系统的研发支持,日志埋点等等。毕竟线上不方便像本地一样debug
    
     1
  • KaitoShy
    2019-03-02
    遇到的故障还是蛮多的,由于网站是PHP在请求过密的时候,出现502
    
     1
  • Eleven
    2019-02-19
    故障发生时,我们公司一般按照顺序:重启和限流、紧急更新、版本回退、服务降级.
    
     1
  • Geek_fb3db2
    2018-11-13
    咨询下耗子叔 文章提到的降级限流有没有有什么成熟的解决方案 目前项目中领导提到了 但是不知道如何做
    
     1
  • 永立
    2018-09-11
    技术不太够,这章很多内容看的不是很懂。
    
     1
  • 山哥
    2018-07-21
    大佬,CMDB的服务视图能发出来看下?
    
     1
  • 晏
    2018-07-08
    出现故障时,最重要的不是 debug 故障,而是尽可能地减少故障的影响范围,并尽可能快地修复问题。
    
     1
  • KingPoker
    2018-06-17
    去年生产遇到不少问题,处理了几次,越来越有思路。
    文章提到的各种工程化的管理,还需要很长的路
    
     1
我们在线,来聊聊吧