AI技术内参
洪亮劼
Etsy数据科学主管,前雅虎研究院资深科学家
立即订阅
8823 人已学习
课程目录
已完结 166 讲
0/6登录后,你可以任选6讲全文学习。
开篇词 (1讲)
开篇词 | 你的360度人工智能信息助理
免费
人工智能国际顶级会议 (31讲)
001 | 聊聊2017年KDD大会的时间检验奖
002 | 精读2017年KDD最佳研究论文
003 | 精读2017年KDD最佳应用数据科学论文
004 | 精读2017年EMNLP最佳长论文之一
005 | 精读2017年EMNLP最佳长论文之二
006 | 精读2017年EMNLP最佳短论文
007 | 精读2017年ICCV最佳研究论文
008 | 精读2017年ICCV最佳学生论文
009 | 如何将“深度强化学习”应用到视觉问答系统?
010 | 精读2017年NIPS最佳研究论文之一:如何解决非凸优化问题?
011 | 精读2017年NIPS最佳研究论文之二:KSD测试如何检验两个分布的异同?
012 | 精读2017年NIPS最佳研究论文之三:如何解决非完美信息博弈问题?
013 | WSDM 2018论文精读:看谷歌团队如何做位置偏差估计
014 | WSDM 2018论文精读:看京东团队如何挖掘商品的替代信息和互补信息
015 | WSDM 2018论文精读:深度学习模型中如何使用上下文信息?
016 | The Web 2018论文精读:如何对商品的图片美感进行建模?
017 | The Web 2018论文精读:如何改进经典的推荐算法BPR?
018 | The Web 2018论文精读:如何从文本中提取高元关系?
019 | SIGIR 2018论文精读:偏差和“流行度”之间的关系
020 | SIGIR 2018论文精读:如何利用对抗学习来增强排序模型的普适性?
021 | SIGIR 2018论文精读:如何对搜索页面上的点击行为进行序列建模?
022 | CVPR 2018论文精读:如何研究计算机视觉任务之间的关系?
023 | CVPR 2018论文精读:如何从整体上对人体进行三维建模?
024 | CVPR 2018论文精读:如何解决排序学习计算复杂度高这个问题?
025 | ICML 2018论文精读:模型经得起对抗样本的攻击?这或许只是个错觉
026 | ICML 2018论文精读:聊一聊机器学习算法的“公平性”问题
027 | ICML 2018论文精读:优化目标函数的时候,有可能放大了“不公平”?
028 | ACL 2018论文精读:问答系统场景下,如何提出好问题?
029 | ACL 2018论文精读:什么是对话中的前提触发?如何检测?
030 | ACL 2018论文精读:什么是“端到端”的语义哈希?
复盘 7 | 一起来读人工智能国际顶级会议论文
搜索核心技术 (28讲)
031 | 经典搜索核心算法:TF-IDF及其变种
032 | 经典搜索核心算法:BM25及其变种(内附全年目录)
033 | 经典搜索核心算法:语言模型及其变种
034 | 机器学习排序算法:单点法排序学习
035 | 机器学习排序算法:配对法排序学习
036 | 机器学习排序算法:列表法排序学习
037 | “查询关键字理解”三部曲之分类
038 | “查询关键字理解”三部曲之解析
039 | “查询关键字理解”三部曲之扩展
040 | 搜索系统评测,有哪些基础指标?
041 | 搜索系统评测,有哪些高级指标?
042 | 如何评测搜索系统的在线表现?
043 | 文档理解第一步:文档分类
044 | 文档理解的关键步骤:文档聚类
045 | 文档理解的重要特例:多模文档建模
046 | 大型搜索框架宏观视角:发展、特点及趋势
047 | 多轮打分系统概述
048 | 搜索索引及其相关技术概述
049 | PageRank算法的核心思想是什么?
050 | 经典图算法之HITS
051 | 社区检测算法之“模块最大化 ”
052 | 机器学习排序算法经典模型:RankSVM
053 | 机器学习排序算法经典模型:GBDT
054 | 机器学习排序算法经典模型:LambdaMART
055 | 基于深度学习的搜索算法:深度结构化语义模型
056 | 基于深度学习的搜索算法:卷积结构下的隐含语义模型
057 | 基于深度学习的搜索算法:局部和分布表征下的搜索模型
复盘 1 | 搜索核心技术模块
推荐系统核心技术 (22讲)
058 | 简单推荐模型之一:基于流行度的推荐模型
059 | 简单推荐模型之二:基于相似信息的推荐模型
060 | 简单推荐模型之三:基于内容信息的推荐模型
061 | 基于隐变量的模型之一:矩阵分解
062 | 基于隐变量的模型之二:基于回归的矩阵分解
063 | 基于隐变量的模型之三:分解机
064 | 高级推荐模型之一:张量分解模型
065 | 高级推荐模型之二:协同矩阵分解
066 | 高级推荐模型之三:优化复杂目标函数
067 | 推荐的Exploit和Explore算法之一:EE算法综述
068 | 推荐的Exploit和Explore算法之二:UCB算法
069 | 推荐的Exploit和Explore算法之三:汤普森采样算法
070 | 推荐系统评测之一:传统线下评测
071 | 推荐系统评测之二:线上评测
072 | 推荐系统评测之三:无偏差估计
073 | 现代推荐架构剖析之一:基于线下离线计算的推荐架构
074 | 现代推荐架构剖析之二:基于多层搜索架构的推荐系统
075 | 现代推荐架构剖析之三:复杂现代推荐架构漫谈
076 | 基于深度学习的推荐模型之一:受限波兹曼机
077 | 基于深度学习的推荐模型之二:基于RNN的推荐系统
078 | 基于深度学习的推荐模型之三:利用深度学习来扩展推荐系统
复盘 2 | 推荐系统核心技术模块
广告系统核心技术 (18讲)
079 | 广告系统概述
080 | 广告系统架构
081 | 广告回馈预估综述
082 | Google的点击率系统模型
083 | Facebook的广告点击率预估模型
084 | 雅虎的广告点击率预估模型
085 | LinkedIn的广告点击率预估模型
086 | Twitter的广告点击率预估模型
087 | 阿里巴巴的广告点击率预估模型
088 | 什么是“基于第二价位的广告竞拍”?
089 | 广告的竞价策略是怎样的?
090 | 如何优化广告的竞价策略?
091 | 如何控制广告预算?
092 | 如何设置广告竞价的底价?
093 | 聊一聊“程序化直接购买”和“广告期货”
094 | 归因模型:如何来衡量广告的有效性
095 | 广告投放如何选择受众?如何扩展受众群?
096 | 如何利用机器学习技术来检测广告欺诈?
自然语言处理及文本处理核心技术 (0讲)
该章节暂未更新内容,敬请期待
计算机视觉核心技术 (0讲)
该章节暂未更新内容,敬请期待
数据科学家与数据科学团队养成 (0讲)
该章节暂未更新内容,敬请期待
热点话题讨论 (0讲)
该章节暂未更新内容,敬请期待
结束语 (0讲)
该章节暂未更新内容,敬请期待
AI技术内参
登录|注册

082 | Google的点击率系统模型

洪亮劼 2018-06-09
广告是很多互联网公司的重要收入来源,比如 Google、Facebook、微软、阿里巴巴、百度、腾讯等。以 Facebook 为例,它的 2017 年第一季度财报显示,公司总营收为 78.4 亿美元,这其中 98% 的收入来自广告。同样,在这些公司内部,都有着完善的广告系统来支撑其广告业务。
当然,大型广告系统的成功需要依靠很多相互协调的子系统和组件。今天我要和你聊的是广告系统里最基础的一个子系统,也是整个广告系统的核心功能之一——点击率预估系统。点击率预估,顾名思义就是根据环境和广告的类型,来估计用户有多大的可能性点击当前的广告。这个预估值会用于广告系统的其他组件,比如对广告主(投放广告的客户)的计费模块。因此,点击率预估的准确性和实时性就变得十分重要。
今天和你分享一篇广告点击率预估文献史上非常重要的论文,它来自 Google 广告团队,标题是《工程实践视角下的广告点击率预估》(“Ad Click Prediction: a View from the Trenches”)。

论文背景

这篇论文发表于 KDD 2013 年的工业论文组,在短短几年时间里就获得了近 200 次的文章引用数,不少公司争相研究其中的内容,希望能够复制类似的算法和技术。
这篇文章的作者群多达 16 人,他们都是来自 Google 西雅图、匹兹堡、硅谷以及剑桥等地办公室的研究人员和工程师,文章的致谢部分也有 9 人。可见整个论文以及里面的技术的确是团队协作的结果。
这里面有两位作者值得介绍一下。第一位是论文的第一作者布兰登(H. Brendan McMahan)。布兰登早年在卡内基梅隆大学计算机系获得博士学位。他的博士生导师是戈登(Geoff Gordon)以及布卢姆(Avrim Blum),这两位都是卡内基梅隆大学机器学习界的权威教授。布兰登本人长期对优化算法有深入的研究,这篇论文的重要核心算法就来自于他的研究成果。
文章的另外一位作者斯卡利(D. Sculley)从塔夫茨大学(Tufts University)博士毕业之后,一直在 Google 的匹兹堡分部工作,并着手研究大规模机器学习系统,其中重要的代表性研究成果是如何把回归问题和排序问题结合起来(发表于 KDD 2010 年)。斯卡利曾经是一个著名的开源大规模机器学习软件包 sofia-ml 的作者,里面实现了一个大规模版本的 RankSVM,一度受到关注。

在线逻辑回归(Logistic Regression)

文章首先讲解的是点击率预估的核心算法。因为 Google 要处理的数据集非常庞大,不管是样本数量还是样本的特征数都是百亿级别的,所以选用什么样的算法至关重要。2013 年,也就是这篇论文发表的时候,当时大规模深度学习的环境还没有完全成熟起来,Google 的科学家和工程师选择了逻辑回归,这是一个非常传统但也非常强大的线性分类工具。
我们这里简单回顾一下逻辑回归模型。
取消
完成
0/1000字
划线
笔记
复制
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
该试读文章来自付费专栏《AI技术内参》,如需阅读全部文章,
请订阅文章所属专栏。
立即订阅
登录 后留言

精选留言(6)

  • Momo
    百亿特征是多大量文本特征onehot变换而来,从而导致大量特征值都是0,也就是稀疏问题
    2017-11-09
    5
  • Classtag
    百亿特征是大部分都是onehot出来的吧,原始特征其实没那么多。
    2018-11-03
    3
  • 帅帅
    模型真的是繁多;
    不过坚信一个道理,模型容量越大,需要越多的数据、计算能力、架构能力;

    从LR到GBDT+LR,到GBDT+FM、到WIDE&DEEP,现在又出现了FTRL,要学习的真的很多;

    然而在统一需求下,比如CTR预估,这些都能实现;怎么选择模型也是一个需要细致探讨的问题;
    2018-10-20
    2
  • 极客星星
    关于什么时候用ftrl 个人认为 如果数据量相对小 使用开源的LR库可以解决问题 就不需要用ftrl 否则 应该采用ftrl 因为它支持增量更新 有稀疏性 是在工业界得到充分验证的技术。此外 有个问题想咨询下洪老师 有没有什么论文讲工业界搜索广告特征工程方面的文章 或者洪老师能否介绍下经验 选取什么特征比较有效 谢谢

    作者回复: 目前并没有太系统的这类工作。主要是每一家的系统差别都很大,可能很多经验无法直接推广。

    2017-12-03
    2
  • Keno Tu
    论文路径能提供下吗?
    2018-08-02
  • Xuan
    百亿特征?这么多特征是怎么来的?
    还有模型稀疏,这个怎么理解?
    2017-10-24
收起评论
6
返回
顶部