• peter
    2023-02-27 来自北京
    请教老师几个问题: Q1:Prometheus支持webhook吗? Q2:实际的告警处理过程中,是否容易造成冲突?比如运维内部人员之间相互抱怨,运维和开发人员之间相互指责等。 Q3:老师的公司为什么可以没有运维? 上一课请教老师问题,老师说自己的公司没有运维,为什么不需要啊?是因为不是互联网公司而是单纯提供方案吗? 我问这个问题主要是想有个参考:比如我创建一个网站,注册用户五十万,这种情况是否需要运维人员? Q4:能否以加餐形式讲一下移动端监控,安卓或iOS。

    作者回复: 1,Prometheus生态的Webhook一般放在alertmanager里 2,我经历的公司,遇到故障的时候,大家首先想到的是如何快速止损,而非指责,如果一上来就想着指责的,要么是管理问题,要么是人员本身的职场素养太差了 3,我们是ToB公司,提供商业化监控和故障定位的解决方案,我们有交付人员负责落地产品,和ToC的公司是不同的。是否需要运维人员,不能简单的根据注册用户数量来,通常来讲,研发搞不定下载的稳定性、成本问题的时候,研发团队很大、服务模块很多的时候,通常才需要运维,当然我这也只是举例,实际考量的因素很多 4,没有计划 4,

    共 2 条评论
    
  • 晴空万里
    2023-03-02 来自广东
    但是我没有高屋建瓴分析汇聚脚本的能力 只能见到啥就是啥?
    
    
  • 晴空万里
    2023-03-02 来自广东
    我们是研发工程部门 会负责整个公有云机器业务运维 告警自愈脚本确实需要梳理 例如 执行数据库SQL 机器卡住了 使用脚本删除该进程 执行一个定时任务 失败了 然后自动重试
    
    