架构师·2018 年 7 月刊
15
15
1.0x
00:00/00:00
登录|注册

独家揭秘:腾讯千亿级参数分布式ML系统无量背后的秘密

AI 前线导读:千亿参数规模的模型已经被业界证明能够有效提高业务效果。如何高效训练出这样的模型?百 GB 级别的模型如何在线上实现毫秒级的响应?这些能力在各个大厂都被视为核心技术竞争力和机器学习能力的技术壁垒。要具备这样的能力,对相关系统有什么样的挑战?本文将从系统的角度去详细分析这些问题,并给出腾讯公司的无量系统对这些问题的解答。

简介

在互联网场景中,亿级的用户每天产生着百亿规模的用户数据,形成了超大规模的训练样本。如何利用这些数据训练出更好的模型并用这些模型为用户服务,给机器学习平台带来了巨大的挑战。下面以网页 / 图文 / 视频推荐场景分析这些挑战,下文中均称为推荐场景。
样本数量大。在推荐场景下,每天的样本量可以达到百亿量级。如果需要按一个月的样本进行训练,样本量会在千亿级别。如果每个样本平均 500 特征值,单个样本的大小就是 5KB 左右,一千亿样本的大小就是 500TB。即便只使用一周内的样本,样本数据的大小也在 100TB 这个级别。
特征维度多。巨大的样本量使高维度模型的训练成为可能。为了给用户提供更合理的推荐结果,需要对用户和被推荐的文章 / 图片 / 视频进行详细的描述。各个业务都会建立起丰富的用户模型,也会对文章 / 图片 / 视频进行多维度的标注。
在系统进行推荐时,还会使用到用户现在的上下文信息,比如:时间,位置,之前浏览的页面等。当这些特征被引入到模型中时,会导致特征规模的迅速增加。如果再考虑交叉等特征转换操作,模型的特征维度会轻松地膨胀到千亿甚至万亿级别。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结
登录 后留言

精选留言

由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论
显示
设置
留言
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部