作者回复: IaC其实是 Infrastructure as Code 的缩写,可以Google一下这个关键词,或者看看这个文章:https://www.redhat.com/zh/topics/automation/what-is-infrastructure-as-code-iac 另外 HashiCorp 搞了一个开源工具叫 Terraform 来践行 IaC,非常火爆,可以了解一下 Terraform 的基本工作机理,对 IaC 的了解也有帮助。举个例子,比如我要在公有云部署一个服务,需要一个mysql一个redis,一个LB,之前的做法是手工创建这些资源,应用了 IaC 之后(比如使用Terraform),就可以使用一个配置模板,和云厂商的OpenAPI联动,每次要创建这么一套环境的时候,就应用一下这个配置模板,Terraform就自动帮你创建、配置相关的资源。比如你测试完了之后可以销毁这些云资源,后面再想搭建这个环境的时候再应用一下这个配置模板,过一会这套软件又被拉起,非常方便。更多信息还是需要Google IaC这个关键词了解哈
作者回复: 嗯,exporter做采集器确实有这个问题,可以试试telegraf catagraf grafana-agent datadog-agent这些all-in-one的采集器,一个采集器就可以采集各类机器、中间件的监控指标
作者回复: 咱们这个专栏主要还是聊监控和稳定性的话题。从稳定性角度出发的话,落地ELK、链路追踪的系统,核心还是想解决故障定位、可观测性的问题,如果在这方面没有痛点,那确实没有落地的必要,去找点其他更能体现价值的事情做一下。 如果还是想在这方面找出一些价值点,可以问这么几个问题: 1、Pod销毁比较频繁,如果有个异常日志还没来得及看的时候Pod被销毁了,是否是个问题 2、如果把这些可观测性数据都收集到中心,可以在中心做一些串联打通,比如指标掉底了,可以方便的跳转到日志系统里看日志,在terminal里查看日志显然做不到这个效果,这个收益是否足够有吸引力 3、链路追踪通常用在微服务场景,服务越多,效果越明显,如果微服务不多,出了问题我们可以快速知道是哪个模块,确实很难讲清楚价值 临时想到这些,欢迎其他同学补充~
作者回复: 需要告警合并,告警收敛,告警分级治理的一些手段,后面会有两讲介绍告警管理,希望能给你提供一些思路
作者回复: 这是行家里手👍😀
作者回复: 课程主要还是想讲出所以然,不过实战部分可能会有一些帮助🤝
作者回复: 的确,监控数据可视化、告警规则管理、告警事件管理,这三块要是能有统一的一个产品来搞定就好了,专栏中也提到了一些方案,回头可以一起学习探讨😀
作者回复: 1,生产环境也会开启日志打印的 2,一般用less、more、tail等命令 3,open-falcon尝试解决zabbix的容量问题,但并不是基于zabbix的架构,并且服务端组件拆得比较散,transfer、hbs、judge、graph等都是服务端组件 4,没用k8s也可以用prometheus 5,prometheus可以完成全面的指标监控 6,一般存储在时序库中,下一讲就开始介绍常用时序库了,zabbix是存mysql,这种不多见,一般都是使用专门的时序库
作者回复: 可以考虑remote write的方式哈,比如机器上部署categraf 或者 grafana-agent 或者 telegraf,采集了数据之后通过remote write 推给远端时序库比较方便
作者回复: 这是圈内人士,欢迎来一起交流探讨😁