• 顶级心理学家
    2023-01-09 来自上海
    秦总,IaC 落地 概念不是很清楚,想深入了解下,感谢👍

    作者回复: IaC其实是 Infrastructure as Code 的缩写,可以Google一下这个关键词,或者看看这个文章:https://www.redhat.com/zh/topics/automation/what-is-infrastructure-as-code-iac 另外 HashiCorp 搞了一个开源工具叫 Terraform 来践行 IaC,非常火爆,可以了解一下 Terraform 的基本工作机理,对 IaC 的了解也有帮助。举个例子,比如我要在公有云部署一个服务,需要一个mysql一个redis,一个LB,之前的做法是手工创建这些资源,应用了 IaC 之后(比如使用Terraform),就可以使用一个配置模板,和云厂商的OpenAPI联动,每次要创建这么一套环境的时候,就应用一下这个配置模板,Terraform就自动帮你创建、配置相关的资源。比如你测试完了之后可以销毁这些云资源,后面再想搭建这个环境的时候再应用一下这个配置模板,过一会这套软件又被拉起,非常方便。更多信息还是需要Google IaC这个关键词了解哈

    共 4 条评论
    19
  • StackOverflow
    2023-01-09 来自上海
    监控不同指标要配置一堆exporter维护起来也很麻烦

    作者回复: 嗯,exporter做采集器确实有这个问题,可以试试telegraf catagraf grafana-agent datadog-agent这些all-in-one的采集器,一个采集器就可以采集各类机器、中间件的监控指标

    共 2 条评论
    15
  • 无聊的上帝
    2023-01-11 来自上海
    老师你好,在工作中遇到了日志监控和链路追踪很难落地的问题. 被挑战的点如下,请教老师这种局可有破解方法? 1. ELK成本较高,价值性较低.出现问题研发直接看pod的log.代码质量确实高,线上环境从未遇见严重bug. 2. 链路追踪的价值是什么,能给业务带来哪些提升?

    作者回复: 咱们这个专栏主要还是聊监控和稳定性的话题。从稳定性角度出发的话,落地ELK、链路追踪的系统,核心还是想解决故障定位、可观测性的问题,如果在这方面没有痛点,那确实没有落地的必要,去找点其他更能体现价值的事情做一下。 如果还是想在这方面找出一些价值点,可以问这么几个问题: 1、Pod销毁比较频繁,如果有个异常日志还没来得及看的时候Pod被销毁了,是否是个问题 2、如果把这些可观测性数据都收集到中心,可以在中心做一些串联打通,比如指标掉底了,可以方便的跳转到日志系统里看日志,在terminal里查看日志显然做不到这个效果,这个收益是否足够有吸引力 3、链路追踪通常用在微服务场景,服务越多,效果越明显,如果微服务不多,出了问题我们可以快速知道是哪个模块,确实很难讲清楚价值 临时想到这些,欢迎其他同学补充~

    共 2 条评论
    6
  • 陈陈陈陈陈👅
    2023-01-10 来自上海
    目前的困境是告警泛滥,希望能减少不必要的告警指标,但又会顾虑正式这些指标的缺失导致问题的发生

    作者回复: 需要告警合并,告警收敛,告警分级治理的一些手段,后面会有两讲介绍告警管理,希望能给你提供一些思路

    
    6
  • 怀朔
    2023-01-09 来自上海
    全球的化节点部署或者多机房的机房部署。 运维维护往往其实还是多套数据,同一个展示 或者多个数据 多地方展示 因为要考虑的权限 容量 告警聚合收敛等问题

    作者回复: 这是行家里手👍😀

    共 2 条评论
    6
  • LiangDu
    2023-01-09 来自上海
    希望老师提供完善的告警规则和grafana仪表盘文件,对很多小白来说这两块才是核心。

    作者回复: 课程主要还是想讲出所以然,不过实战部分可能会有一些帮助🤝

    共 5 条评论
    5
  • Gregory
    2023-01-09 来自上海
    多套监控系统维护确实是个问题 目前还没太好的方案

    作者回复: 的确,监控数据可视化、告警规则管理、告警事件管理,这三块要是能有统一的一个产品来搞定就好了,专栏中也提到了一些方案,回头可以一起学习探讨😀

    
    3
  • peter
    2023-01-10 来自上海
    请教老师几个问题: Q1:生产环境中日志是开启的吗? 出了问题以后,通过日志来定位问题。但是,生产环境中一般不能开启日志吧。如果不开启的话,怎么利用日志来定位问题呢。好像是个矛盾的事情。 Q2:大厂开发人员是怎么查看日志的? 对于日志,开发人员是直接用Editplus一类的软件来打开看吗?还是说会用专门的工具软件来查看日志文件?如果用工具软件,用开源的软件还是公司自研的软件? Q3:open-falcon架构图中怎么没有server? Zabbix有server,Open-falcon是基于Zabbix发展起来的,按理说也应该有一个server,但架构图中看不出来哪个部分是server。 Q3:Prometheus两个问题 1 没有采用k8s的网站系统,可以用Prometheus吗? 2 Prometheus可以完成全面的监控吗? 包括机器、网络、应用、各个中间件等。 Q4:指标监控数据一般怎么存储的?存在MySQL中吗?

    作者回复: 1,生产环境也会开启日志打印的 2,一般用less、more、tail等命令 3,open-falcon尝试解决zabbix的容量问题,但并不是基于zabbix的架构,并且服务端组件拆得比较散,transfer、hbs、judge、graph等都是服务端组件 4,没用k8s也可以用prometheus 5,prometheus可以完成全面的指标监控 6,一般存储在时序库中,下一讲就开始介绍常用时序库了,zabbix是存mysql,这种不多见,一般都是使用专门的时序库

    共 2 条评论
    2
  • 奥特虾不会写代码
    2023-01-10 来自上海
    老师你好,想请教一下对于网络连通性受限的场景下除了 Pushgateway 还有更好的方案不,因为 Pushgateway 使用下来的体验确实不尽如人意,公有云厂商的云主机也是通过类似于Pushgateway 的机制对外推送指标吗?

    作者回复: 可以考虑remote write的方式哈,比如机器上部署categraf 或者 grafana-agent 或者 telegraf,采集了数据之后通过remote write 推给远端时序库比较方便

    共 4 条评论
    2
  • Hello Strong
    2023-01-10 来自上海
    两三年前因为公司需要,做过一次监控平台的选型,此前在用的就是zabbix,对k8s支持主要靠一些不太热门的插件模块,感觉灵活度太低。选型主要是Prometheus和在用的elk日志平台,前者作为tsdb非常适合指标数据,性能也强。后者的缺点也是前者的优点,但elastic在对采集源的支持度上其实还是可以的,k8s、各种数据中间件、队列、web gateway等都有,这点和Prometheus体系相比不会差太多,图形化方面grafana和kibana也都ok,告警组件方面如果不付费,elastic主要靠一些开源第三方项目的支持,这点不如Prometheus。最后选择了elk方案,原因有点无奈,一方面是Prometheus数据存储的高可用原因,还要再引入其他存储,另一方面elk是已经长期在用的日志平台,各方面都相对熟悉,而且能投入的硬件资源也有限,在数据规模不大的情况下用同一套能满足。

    作者回复: 这是圈内人士,欢迎来一起交流探讨😁

    
    2