林天智,七牛存储 & 直播运维 负责人
七牛原本的告警系统是通过 zabbix 来触发,然后有一个人工告警通知的团队来通知各个业务线告警,再由各自的运维团队处理告警。这个在规模小的时候没有问题,但是在机器规模变大的时候会遇到很多问题,告警数量爆增,信息流单项无法确认,缺乏历史记录等。需要针对这个来做改造,但是过程中会遇到大量告警如何迁移,如何保证不影响当前的正常工作等,中间运用到一些开源服务比如:prometheus,pushgateway,node_exporter 等,以及一些自己开发的系统。最终存储运维相关的故障减少 80% 以上,以及不需要人工告警团队再继续通知。
资源利用以及集群复制。当前存储的部署是基于物理机部署,对于资源利用很不充分,也不利于集群的复制(私有云),会从这些角度讲如何从物理集群迁移到容器集群。