AI技术内参
洪亮劼
Etsy数据科学主管,前雅虎研究院资深科学家
立即订阅
8842 人已学习
课程目录
已完结 166 讲
0/6登录后,你可以任选6讲全文学习。
开篇词 (1讲)
开篇词 | 你的360度人工智能信息助理
免费
人工智能国际顶级会议 (31讲)
001 | 聊聊2017年KDD大会的时间检验奖
002 | 精读2017年KDD最佳研究论文
003 | 精读2017年KDD最佳应用数据科学论文
004 | 精读2017年EMNLP最佳长论文之一
005 | 精读2017年EMNLP最佳长论文之二
006 | 精读2017年EMNLP最佳短论文
007 | 精读2017年ICCV最佳研究论文
008 | 精读2017年ICCV最佳学生论文
009 | 如何将“深度强化学习”应用到视觉问答系统?
010 | 精读2017年NIPS最佳研究论文之一:如何解决非凸优化问题?
011 | 精读2017年NIPS最佳研究论文之二:KSD测试如何检验两个分布的异同?
012 | 精读2017年NIPS最佳研究论文之三:如何解决非完美信息博弈问题?
013 | WSDM 2018论文精读:看谷歌团队如何做位置偏差估计
014 | WSDM 2018论文精读:看京东团队如何挖掘商品的替代信息和互补信息
015 | WSDM 2018论文精读:深度学习模型中如何使用上下文信息?
016 | The Web 2018论文精读:如何对商品的图片美感进行建模?
017 | The Web 2018论文精读:如何改进经典的推荐算法BPR?
018 | The Web 2018论文精读:如何从文本中提取高元关系?
019 | SIGIR 2018论文精读:偏差和“流行度”之间的关系
020 | SIGIR 2018论文精读:如何利用对抗学习来增强排序模型的普适性?
021 | SIGIR 2018论文精读:如何对搜索页面上的点击行为进行序列建模?
022 | CVPR 2018论文精读:如何研究计算机视觉任务之间的关系?
023 | CVPR 2018论文精读:如何从整体上对人体进行三维建模?
024 | CVPR 2018论文精读:如何解决排序学习计算复杂度高这个问题?
025 | ICML 2018论文精读:模型经得起对抗样本的攻击?这或许只是个错觉
026 | ICML 2018论文精读:聊一聊机器学习算法的“公平性”问题
027 | ICML 2018论文精读:优化目标函数的时候,有可能放大了“不公平”?
028 | ACL 2018论文精读:问答系统场景下,如何提出好问题?
029 | ACL 2018论文精读:什么是对话中的前提触发?如何检测?
030 | ACL 2018论文精读:什么是“端到端”的语义哈希?
复盘 7 | 一起来读人工智能国际顶级会议论文
搜索核心技术 (28讲)
031 | 经典搜索核心算法:TF-IDF及其变种
032 | 经典搜索核心算法:BM25及其变种(内附全年目录)
033 | 经典搜索核心算法:语言模型及其变种
034 | 机器学习排序算法:单点法排序学习
035 | 机器学习排序算法:配对法排序学习
036 | 机器学习排序算法:列表法排序学习
037 | “查询关键字理解”三部曲之分类
038 | “查询关键字理解”三部曲之解析
039 | “查询关键字理解”三部曲之扩展
040 | 搜索系统评测,有哪些基础指标?
041 | 搜索系统评测,有哪些高级指标?
042 | 如何评测搜索系统的在线表现?
043 | 文档理解第一步:文档分类
044 | 文档理解的关键步骤:文档聚类
045 | 文档理解的重要特例:多模文档建模
046 | 大型搜索框架宏观视角:发展、特点及趋势
047 | 多轮打分系统概述
048 | 搜索索引及其相关技术概述
049 | PageRank算法的核心思想是什么?
050 | 经典图算法之HITS
051 | 社区检测算法之“模块最大化 ”
052 | 机器学习排序算法经典模型:RankSVM
053 | 机器学习排序算法经典模型:GBDT
054 | 机器学习排序算法经典模型:LambdaMART
055 | 基于深度学习的搜索算法:深度结构化语义模型
056 | 基于深度学习的搜索算法:卷积结构下的隐含语义模型
057 | 基于深度学习的搜索算法:局部和分布表征下的搜索模型
复盘 1 | 搜索核心技术模块
推荐系统核心技术 (22讲)
058 | 简单推荐模型之一:基于流行度的推荐模型
059 | 简单推荐模型之二:基于相似信息的推荐模型
060 | 简单推荐模型之三:基于内容信息的推荐模型
061 | 基于隐变量的模型之一:矩阵分解
062 | 基于隐变量的模型之二:基于回归的矩阵分解
063 | 基于隐变量的模型之三:分解机
064 | 高级推荐模型之一:张量分解模型
065 | 高级推荐模型之二:协同矩阵分解
066 | 高级推荐模型之三:优化复杂目标函数
067 | 推荐的Exploit和Explore算法之一:EE算法综述
068 | 推荐的Exploit和Explore算法之二:UCB算法
069 | 推荐的Exploit和Explore算法之三:汤普森采样算法
070 | 推荐系统评测之一:传统线下评测
071 | 推荐系统评测之二:线上评测
072 | 推荐系统评测之三:无偏差估计
073 | 现代推荐架构剖析之一:基于线下离线计算的推荐架构
074 | 现代推荐架构剖析之二:基于多层搜索架构的推荐系统
075 | 现代推荐架构剖析之三:复杂现代推荐架构漫谈
076 | 基于深度学习的推荐模型之一:受限波兹曼机
077 | 基于深度学习的推荐模型之二:基于RNN的推荐系统
078 | 基于深度学习的推荐模型之三:利用深度学习来扩展推荐系统
复盘 2 | 推荐系统核心技术模块
广告系统核心技术 (18讲)
079 | 广告系统概述
080 | 广告系统架构
081 | 广告回馈预估综述
082 | Google的点击率系统模型
083 | Facebook的广告点击率预估模型
084 | 雅虎的广告点击率预估模型
085 | LinkedIn的广告点击率预估模型
086 | Twitter的广告点击率预估模型
087 | 阿里巴巴的广告点击率预估模型
088 | 什么是“基于第二价位的广告竞拍”?
089 | 广告的竞价策略是怎样的?
090 | 如何优化广告的竞价策略?
091 | 如何控制广告预算?
092 | 如何设置广告竞价的底价?
093 | 聊一聊“程序化直接购买”和“广告期货”
094 | 归因模型:如何来衡量广告的有效性
095 | 广告投放如何选择受众?如何扩展受众群?
096 | 如何利用机器学习技术来检测广告欺诈?
自然语言处理及文本处理核心技术 (0讲)
该章节暂未更新内容,敬请期待
计算机视觉核心技术 (0讲)
该章节暂未更新内容,敬请期待
数据科学家与数据科学团队养成 (0讲)
该章节暂未更新内容,敬请期待
热点话题讨论 (0讲)
该章节暂未更新内容,敬请期待
结束语 (0讲)
该章节暂未更新内容,敬请期待
AI技术内参
登录|注册

148 | 曾经辉煌的雅虎研究院

洪亮劼 2018-08-23
雅虎是最早成功的互联网公司之一,也是最早意识到需要把基础研究,特别是机器学习以及人工智能研究,应用到实际产品中的公司。雅虎从很早就开始招聘和培养研究型人才,雅虎研究院就是在这个过程中应运而生的。
今天我就来说一说雅虎研究院的历史,以及过去十多年间取得的成就,聊一聊如何通过引进高级人才,迅速构建起一支世界级的研发团队。当然,也会聊一聊研究院的衰落。高级研发机构对于企业而言往往是锦上添花的事情,在整个公司产品和视野都欠缺的情况下,也往往避免不了最后衰败的结局。

雅虎研究院的创立

雅虎研究院的故事要从一个叫乌萨马·菲亚德(Usama Fayyad)的人说起。乌萨马出生在北非突尼斯的迦太基(Carthage),早年在突尼斯以及其他地中海沿岸国家度过,包括中东、非洲以及南欧的一些国家。高中时期在约旦的安曼生活,后来在美国密歇根大学度过了他的本科(1984 年)、硕士(1986 年)以及博士(1991 年)生涯。毕业之后,乌萨马来到了美国加州南部隶属于美国国家航空航天局(NASA)的喷气推进实验室(Jet Propulsion Laboratory)工作,一直到 1996 年。之后加入微软研究院,从事数据挖掘的研究工作。
早在 1994 年,乌萨马就和拉马萨米(Ramasamy Uthurusamy)一起组织了最后一届 KDD 研讨班,然后在 1995 年,他们把这个研讨班升级成了会议,并在加拿大蒙特利尔举办了第一届 KDD 大会(First International Conference on Knowledge Discovery in Data)。从此,KDD 大会成了数据挖掘、数据科学以及应用机器学习的顶级会议。
1996 年,乌萨马又创办了一本叫《数据挖掘和知识发现》(Data Mining and Knowledge Discovery)的学术期刊,并亲自担任主编。这本期刊也渐渐成了数据挖掘领域主要的学术期刊之一。乌萨马本人可以说在 20 世纪 90 年代中期,就已经开始成为数据挖掘领域重要的领军人物。
进入 21 世纪,乌萨马先是在 2000 年创立了一家叫 Audience Science 的数据挖掘公司并担任 CEO,然后又在 2003 年创立了一家叫 DMX Group 的数据挖掘咨询公司,后者于 2004 年被雅虎收购。不久后,他成为雅虎的执行副总裁以及首席数据官(Chief Data Officer),这也是互联网历史上的第一位首席数据官。
因为雅虎在搜索以及广告业务上的扩展,乌萨马意识到应该成立一个类似于微软研究院,但更偏向于互联网业务的研究组织,这个想法得到了公司 CEO 杨致远的支持。乌萨马当时的首要任务是为研究院物色一位院长。
经过一段时间的寻找,他成功邀请到普拉巴卡·拉加万(Prabhakar Raghavan)来担纲。今天回头来看,普拉巴卡无疑成功地引领了雅虎研究院,并让其一度成为人人向往的互联网研究机构。当然,这跟普拉巴卡本人的经历也密切相关。
首先,他本人就是知名的学者,参与撰写的经典教科书《随机算法》(Randomized Algorithms)和《信息检索导论》(Introduction to Information Retrieval)在学术界享有盛誉。他还是 ACM、IEEE 的院士,也是美国工程院院士,这为他招纳学术界权威人士和博士生提供了便捷。加入雅虎之前,他已经在 IBM 研究院以及 Verity 任职多年,IBM 的从业经历更是让他对企业文化和工业界的研究机构有了很深的了解。
2005 年 7 月,雅虎研究院正式成立,普拉巴卡担任研究院负责人,向乌萨马汇报。2008 年,雅虎研究院与之前就在搜索与广告事业部存在的应用科学部门合并。在卡罗尔·巴茨(Carol Bartz)任职 CEO 期间,普拉巴卡直接给她汇报,并且普拉巴卡还曾担任首席战略官。

雅虎研究院的蓬勃发展和辉煌

雅虎研究院组建之后,首要任务当然就是吸引工业界和学术界的知名学者,从而能够组建一个有效的团队。普拉巴卡利用他个人和乌萨马的声望,很快就做到了这点。
比如,之前和普拉巴卡在 IBM 共事的安德鲁·汤姆金斯(Andrew Tomkins)加入团队,担任负责搜索的首席科学家以及搜索方面的副总裁(安德鲁后于 2009 年之后加入谷歌担任工程总监)。 再比如,曾和普拉巴卡在 IBM 共事的安德烈·布罗德(Andrei Broder)2005 年加入团队,担任负责计算广告方面的副总裁。
安德烈本人大有名头。他在斯坦福大学攻读博士期间师从图灵奖得主高德纳(Donald Knuth),然后在曾经名噪一时的第一代搜索引擎公司 AltaVista 担任首席科学家,之后加入位于纽约的 IBM 研究院组建企业级搜索平台。和普拉巴卡一样,安德烈也是 ACM 和 IEEE 的双料院士。2012 年安德烈加入谷歌,担任杰出科学家 (Distinguished Scientist)。
我们这里简单列举一些曾经在雅虎研究院工作过的知名学者,我们便可一览其盛况:
取消
完成
0/1000字
划线
笔记
复制
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
该试读文章来自付费专栏《AI技术内参》,如需阅读全部文章,
请订阅文章所属专栏。
立即订阅
登录 后留言

精选留言(10)

  • 置顶
    我想也许是雅虎的企业文化太缺乏推动力,商业团队的内心里可能从未认真想过能快速有效的将技术转化为商业
    2017-10-20
    3
  • 范深
    产品和商业的创新和升级,并不能完全通过算法或技术来弥补。
    2017-10-21
    4
  • 王远方
    由雅虎开发的 Hadoop 对大数据的发展有很大推动,仅凭这点雅虎就值得尊重。
    2017-10-20
    4
  • 兔子ORZ
    企业环境:没有盈利压力,长时间的投入一项研究,更能出成果。
    研发流程:研发目标最好是和公司现有或未来目标一致,能发挥想象力开发新战略的更好。
    2018-04-14
    2
  • 潜行
    人工智能不能靠发paper为主,学术界和工业届还是有差距的,比如阿里达摩院成立的时候马云就强调研究成果要保证能落地。
    2018-08-28
    1
  • Lynn
    到底什么样的企业环境能够最好地发挥研究院的成果?
    研究结果可以很好的落地到项目中,才会使研究成果变现成为可能。
    让研发成果的嵌入像系统核心模块一样存在,并且完善A/B Test机制,让研究成果可感知。

    又是怎样的研发流程能够使研究院成为公司新动力的源泉?
    首先公司在大环境下要了解并且相信研究院的价值。
    第二公司战略清晰,公司产品明确,公司业务的核心强依赖研究成果,自然研究院会被定位成源泉。
    第三研究院和业务部门跨部门沟通顺畅,业务问题能够有效的转化为研究问题,会相互促进企业发展。
    2018-05-26
    1
  • JIA
    看了这篇,不得不想到阿里刚刚成立了达摩院,也是要人有人,要钱有钱啊。从雅虎研究院的发展来看钱和大牛好像都不能解决问题,也不是保证啊,不过很期待。
    2017-10-20
    1
  • 帅帅
    这个团队太过厉害~~~~~

    一群特种兵混在市井之间的感觉~~~
    2018-10-20
  • 安乐天
    雅虎,施乐,IBM,AT&T这些工业界的研究院随着企业的兴衰而boom and bust.时也势也,IT世界迭代太快,企业如此,研究院也如此,人也如此
    2018-01-19
  • Xuan
    研究的成果带来的利益能cover住研究本身的开销才能长久的存在吧
    2017-10-24
收起评论
10
返回
顶部