082 | Google的点击率系统模型

洪亮劼



该思维导图由 AI 生成，仅供参考

广告是很多互联网公司的重要收入来源，比如 Google、Facebook、微软、阿里巴巴、百度、腾讯等。以 Facebook 为例，它的 2017 年第一季度财报显示，公司总营收为 78.4 亿美元，这其中 98% 的收入来自广告。同样，在这些公司内部，都有着完善的广告系统来支撑其广告业务。
当然，大型广告系统的成功需要依靠很多相互协调的子系统和组件。今天我要和你聊的是广告系统里最基础的一个子系统，也是整个广告系统的核心功能之一——点击率预估系统。点击率预估，顾名思义就是根据环境和广告的类型，来估计用户有多大的可能性点击当前的广告。这个预估值会用于广告系统的其他组件，比如对广告主（投放广告的客户）的计费模块。因此，点击率预估的准确性和实时性就变得十分重要。
今天和你分享一篇广告点击率预估文献史上非常重要的论文，它来自 Google 广告团队，标题是《工程实践视角下的广告点击率预估》（“Ad Click Prediction: a View from the Trenches”）。
论文背景这篇论文发表于 KDD 2013 年的工业论文组，在短短几年时间里就获得了近 200 次的文章引用数，不少公司争相研究其中的内容，希望能够复制类似的算法和技术。
这篇文章的作者群多达 16 人，他们都是来自 Google 西雅图、匹兹堡、硅谷以及剑桥等地办公室的研究人员和工程师，文章的致谢部分也有 9 人。可见整个论文以及里面的技术的确是团队协作的结果。
这里面有两位作者值得介绍一下。第一位是论文的第一作者布兰登（H. Brendan McMahan）。布兰登早年在卡内基梅隆大学计算机系获得博士学位。他的博士生导师是戈登（Geoff Gordon）以及布卢姆（Avrim Blum），这两位都是卡内基梅隆大学机器学习界的权威教授。布兰登本人长期对优化算法有深入的研究，这篇论文的重要核心算法就来自于他的研究成果。
文章的另外一位作者斯卡利（D. Sculley）从塔夫茨大学（Tufts University）博士毕业之后，一直在 Google 的匹兹堡分部工作，并着手研究大规模机器学习系统，其中重要的代表性研究成果是如何把回归问题和排序问题结合起来（发表于 KDD 2010 年）。斯卡利曾经是一个著名的开源大规模机器学习软件包 sofia-ml 的作者，里面实现了一个大规模版本的 RankSVM，一度受到关注。
在线逻辑回归（Logistic Regression）文章首先讲解的是点击率预估的核心算法。因为 Google 要处理的数据集非常庞大，不管是样本数量还是样本的特征数都是百亿级别的，所以选用什么样的算法至关重要。2013 年，也就是这篇论文发表的时候，当时大规模深度学习的环境还没有完全成熟起来，Google 的科学家和工程师选择了逻辑回归，这是一个非常传统但也非常强大的线性分类工具。
我们这里简单回顾一下逻辑回归模型。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

广告点击率预估是广告系统中的核心功能之一，而Google的点击率系统模型则是该领域的重要研究对象。一篇来自Google广告团队的论文《工程实践视角下的广告点击率预估》介绍了该模型的关键算法和技术。其中，FTRL（Follow The Regularized Leader）算法被提出，以解决大规模数据集下的参数训练和稀疏性问题。此外，文章还涉及了系统调优工程，包括利用布隆过滤器动态决定特征加入模型、减少内存消耗的方法以及对负样本采样和模型输出调整的重要性。值得注意的是，文章还介绍了一些失败的实验结果，如Hashing Trick和Dropout技术在Google的实验数据上并没有显著的效果。这篇论文的重要性在于其提出的算法和技术对于大规模广告点击率预估具有重要意义，为读者提供了深入了解广告系统核心功能的价值。总之，这篇论文是工业界级别的科技论文分享，对于从事广告系统或推荐系统等领域的专业人士具有借鉴意义。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《AI 技术内参》，新⼈⾸单¥98

立即购买

登录后留言

全部留言(6)

最新
精选

极客星星
关于什么时候用ftrl 个人认为如果数据量相对小使用开源的LR库可以解决问题就不需要用ftrl 否则应该采用ftrl 因为它支持增量更新有稀疏性是在工业界得到充分验证的技术。此外有个问题想咨询下洪老师有没有什么论文讲工业界搜索广告特征工程方面的文章或者洪老师能否介绍下经验选取什么特征比较有效谢谢
作者回复: 目前并没有太系统的这类工作。主要是每一家的系统差别都很大，可能很多经验无法直接推广。
2017-12-03

3
Momo
百亿特征是多大量文本特征onehot变换而来，从而导致大量特征值都是0，也就是稀疏问题
2017-11-09

5
Duo An
百亿特征是大部分都是onehot出来的吧，原始特征其实没那么多。
2018-11-03

3
帅帅
模型真的是繁多；不过坚信一个道理，模型容量越大，需要越多的数据、计算能力、架构能力；从LR到GBDT+LR，到GBDT+FM、到WIDE&DEEP，现在又出现了FTRL，要学习的真的很多；然而在统一需求下，比如CTR预估，这些都能实现；怎么选择模型也是一个需要细致探讨的问题；
2018-10-20
1
2
Keno Tu
论文路径能提供下吗？
2018-08-02


Xuan
百亿特征？这么多特征是怎么来的？还有模型稀疏，这个怎么理解？
2017-10-24
1


收起评论