严岩,LinkedIn Staff Engineer。
本次分享将介绍 Linkedin derived data platform 以及其如何帮助 Linkedin 更好的管理机器学习的结果数据集。
Linkedin 机器学习的基本流程,着重于如何将结果数据集应用于线上 application,并阐述原有流程的痛点;
介绍 derived data platform 的整体设计以及几个关键技术点,例如如何合并批量和实时数据;
通过几个实例,例如数据标准化和相关性计算,来介绍 derived data platformr 如何存储海量结果数据集,并为线上 application 提供高可用,高性能的服务;
最后将总结在新平台上线和迁移过程中的一些经验,例如如何进行对用户无感知的迁移。