粟海,PaloAlto Networks 高级研发经理
结合在 Palo Alto Networks Wildfire 云服务系统开发和运维中的一些痛点,来讲述如何运用流技术来设计和打造一个实时跟踪和监控系统。如何进行技术选型,如何使用流技术(Kafka Streams)来计算和统计基于业务逻辑的系统运行状况,使用 Elasticsearch 来存储数据和查询历史数据,并通过定制化界面以及通用图形报表系统 Grafana 来展示实时统计数据和个体处理单元的跟踪结果。 讨论将来如何通过机器学习技术结合实时跟踪和监控系统来使整个运维系统智能化,减轻运维压力,快速定位和隔离故障节点,保证整体系统的高可用性。