于翔,新浪微博 机器学习研发架构师
随着深度学习在微博业务场景中的广泛使用,深度学习平台遇到一些挑战:离线训练方面,各业务方需求丰富多样,任务管理纷繁复杂,大数据与大模型带来训练时长的压力;在线推理方面,基于模型服务的特殊性,如何在满足微博大流量高性能的在线业务需求同时,保证服务的高可用与稳定性。
本次分享从以上两个维度切入,基于 K8s 构建分布式离线与在线方案,解决上述遇到的挑战。