WSDM（International Conference on Web Search and Data Mining，国际搜索和数据挖掘大会）是每年举办一次的搜索、数据挖掘以及机器学习的顶级会议，其从 2008 年开始举办，已经有 11 届的历史。
尽管 WSDM 仅仅举办了 11 届，在计算机科学领域算是一个非常年轻的会议。但是，WSDM 快速积累的影响力已经使其成为了数据挖掘领域的一个顶级会议。根据谷歌学术搜索公布的数据，目前 WSDM 已经是数据挖掘领域仅次于 KDD 的学术会议，而 KDD 已经举办了 20 多年。
WSDM 的一大特点就是有大量工业界的学者参与，不管是投稿和发表论文还是评审委员会或者大会组织委员会的成员，都有很多工业界背景的人员参加。这可能也是 WSDM 备受关注的一个原因，那就是大家对于工业界研究成果的重视，同时也希望能够从中学习到最新的经验。
2018 年的 WSDM 大会于 2 月 5 日到 9 日在的美国的洛杉矶举行。今天，我们就来分享 WSDM 2018 上来自谷歌的一篇文章《无偏排序学习在个人搜索中的位置偏差估计》（Position Bias Estimation for Unbiased Learning to Rank in Personal Search）。这篇文章的核心内容是如何结合“因果推断”（Causal Inference）和排序学习（Learning to Rank）来对用户数据进行进一步无偏差的估计。
作者群信息介绍这篇论文的所有作者都来自谷歌，我们这里对作者群做一个简单的介绍。
第一作者王选珲（Xuanhui Wang）2015 年起在谷歌工作。他之前在 Facebook 工作了三年，一直从事广告系统的开发；再往前，是在雅虎担任了两年的科学家。王选珲于 2009 年毕业于伊利诺伊大学香槟分校，获得计算机博士学位，他的博士生导师是信息检索界著名的华人学者翟成祥（Chengxiang Zhai）。
第二作者纳达夫⋅古尔班迪（Nadav Golbandi）于 2016 年加入谷歌，之前在雅虎研究院担任了 8 年的主任级研究工程师（Principal Research Engineer），一直从事搜索方面的研发工作。在雅虎研究院之前，古尔班迪在以色列的 IBM 研究院工作了 6 年。他拥有以色列理工大学的计算机硕士学位。
第三作者迈克尔⋅本德斯基（Michael Bendersky）于 2012 年加入谷歌，一直从事个人以及企业信息系统（Google Drive）的研发工作。本德斯基于 2011 年从马萨储塞州阿姆赫斯特分校（University of Massachusetts Amherst）毕业，获得计算机博士学位，他的导师是信息检索界的学术权威布鲁斯⋅夸夫特（Bruce Croft）。
第四作者唐纳德⋅梅泽尔（Donald Metzler）也是 2012 年加入谷歌的，一直负责个人以及企业信息系统（Google Drive）搜索质量的研发工作。梅泽尔曾在雅虎研究院工作过两年多，然后还在南加州大学（University of South California）担任过教职。梅泽尔是 2007 年从马萨储塞州阿姆赫斯特分校计算机博士毕业，导师也是信息检索界的学术权威布鲁斯⋅夸夫特。
文章的最后一个作者是马克⋅诺瓦克（Marc Najork）于 2014 年加入谷歌，目前担任研发总监（Research Engineering Director）的职位。诺瓦克之前在微软研究院硅谷分部工作了 13 年，再之前在 DEC 研究院工作了 8 年。诺瓦克是信息检索和互联网数据挖掘领域的学术权威，之前担任过 ACM 顶级学术期刊 ACM Transactions on the Web 的主编。他发表过很多学术文章，引用数在七千以上。
论文的主要贡献按照我们阅读论文的方法，首先来看这篇文章的主要贡献，梳理清楚这篇文章主要解决了什么场景下的问题。
众所周知，所有的搜索系统都会有各种各样的“偏差”（Bias），如何能够更好地对这些偏差进行建模就成为了对搜索系统进行机器学习的一个重要的挑战。
一种方式就是像传统的信息检索系统一样，利用人工来获得“相关度”（Relevance）的标签，不需要通过通过人机交互来获取相关度的信息。所以，也就更谈不上估计偏差的问题。
第二种，文章中也有谈到的，那就是利用传统的“点击模型”（Click Model）。点击模型是一种专门用来同时估计相关度和偏差的概率图模型，在过去 10 年左右的时间内已经发展得相对比较成熟。文章中也提到，大多数点击模型的应用主要是提取相关度信息，而并不在乎对偏差的估计是否准确。
第三种，也是最近几年兴起的一个新的方向，那就是利用“因果推断”（Causal Inference）和排序学习的结合直接对偏差进行建模。在 WSDM 2017 的最佳论文[1]中，已经让我们见识了这个思路。然而，在去年的那篇文章里，并没有详细探讨这个偏差的估计和点击模型的关系。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

谷歌团队在WSDM 2018上发表了一篇关于位置偏差估计的论文，结合了因果推断和排序学习，旨在对用户数据进行无偏差的估计。他们提出了一种名为“基于回归的期望最大化”（Regression-based EM）算法，旨在更准确地估计偏差，从而改善排序结果。论文探讨了如何在较少使用随机数据的情况下对偏差进行更好的估计。该论文的主要贡献在于利用点击模型的思路来解决偏差估计问题，同时探讨了因果推断和排序学习的结合对偏差建模的新思路。作者使用谷歌的搜索数据进行实验，验证了提出的方法能够更有效地捕捉文档的偏差，训练出更加有效的排序算法。这篇文章的技术特点在于结合了因果推断和排序学习，提出了基于回归的期望最大化算法，以及利用点击模型的思路解决偏差估计问题。这些内容对于搜索系统的机器学习具有重要挑战，具有一定的技术特点和实用价值。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《AI 技术内参》，新⼈⾸单¥98

立即购买

登录后留言

全部留言(1)

最新
精选

rkq@geekbang
从事搜索领域请问有哪些会议和期刊需要关注呢？
2018-02-19



收起评论



显示
设置



留言





沉浸
阅读





手机端



快捷键



回顶部