AI 技术内参
洪亮劼
Etsy 数据科学主管,前雅虎研究院资深科学家
33454 人已学习
新⼈⾸单¥98
登录后,你可以任选6讲全文学习
课程目录
已完结/共 166 讲
开篇词 (1讲)
人工智能国际顶级会议 (31讲)
搜索核心技术 (28讲)
推荐系统核心技术 (22讲)
数据科学家与数据科学团队养成 (25讲)
AI 技术内参
15
15
1.0x
00:00/00:00
登录|注册

035 | 机器学习排序算法:配对法排序学习

Thorsten Joachims. Optimizing search engines using clickthrough data. Proceedings of the eighth ACM SIGKDD international conference on knowledge discovery and data mining,133-142,2002.
Zhaohui Zheng, Keke Chen, Gordon Sun, and Hongyuan Zha. A regression framework for learning ranking functions using relative relevance judgments. Proceedings of the 30th annual international ACM SIGIR conference on research and development in information retrieval, 287-294,2007.
思考题:如何结合单点法和配对法
要点回顾:配对法排序算法、测试原理、训练集设置问题
配对法排序学习相较于单点法在文档之间关系的建模上有所进步
计算复杂度问题:在测试集预测时可能存在计算复杂度问题
三个关键假设:完美排序关系存在性、学习文档之间的两两配对关系、构建样本描述两两相对的比较关系
训练集设置问题:重点在于正确估计一组文档之间的相对关系
测试原理:考察对于某一个查询关键字来说,某一组文档所组成的排序是否最优
训练集设置问题:重点在于正确估计一组文档之间的相对关系
中心思路:对样本进行两两比较,学习排序
历史:RankSVM、GBDT、RankNet等算法
存在与最终结果之间的结构化区别
使用NDCG、Precision和Recall等形式来评估排序算法
将信息检索问题转化为机器学习问题的关键步骤
参考文献
小结
配对法排序学习详解
配对法排序学习
单点法排序学习
文章主题:Pairwise:单点法排序学习算法的优化目标

该思维导图由 AI 生成,仅供参考

周一的文章里我分享了最基本的单点法排序学习(Pointwise Learning to Rank)。这个思路简单实用,是把经典的信息检索问题转化为机器学习问题的第一个关键步骤。简单回顾一下,我们介绍了在测试集里使用 NDCG(Normalized Discounted Cumulative Gain),在某个 K 的位置评价“精度”(Precision)和“召回”(Recall),以这些形式来评估排序算法。
你可以看到,单点法排序学习算法的模式和我们最终需要的结果中间还存在明显差距。这个差距并不是算法好坏能够决定的,而是算法所要优化的目标,也就是单个数据点是否相关,和我们的最终目的,一组结果的 NDCG 排序最优之间的结构化区别。这个结构化区别激发研究者们不断思考,是不是有其他的方法来优化排序算法。
今天我就来讲从单点法引申出来的“配对法”排序学习(Pairwise Learning to Rank) 。相对于尝试学习每一个样本是否相关,配对法的基本思路是对样本进行两两比较,从比较中学习排序,离真正目标又近了一步。

配对法排序学习的历史

当人们意识到用机器学习来对排序进行学习,从文档与文档之间的相对关系入手,也就是配对法,就成了一个非常火热的研究方向。机器学习排序这个领域持续活跃了 10 多年,在此期间很多配对法排序算法被提出,下面我就说几个非常热门的算法。
2000 年左右,研究人员开始利用支持向量机(SVM)来训练排序算法,来自康奈尔的索斯藤·乔基姆斯(Thorsten Joachims)就构建了基于特征差值的 RankSVM,一度成为配对法排序学习的经典算法。索斯藤我们前面讲过,他获得了今年的 KDD 时间检验奖。
2005 年,当时在雅虎任职的研究人员郑朝晖等人,开始尝试用 GBDT(Gradient Boosting Decision Tree,梯度提升决策树)这样的树模型来对文档之间的两两关系进行建模。郑朝晖后来成为一点资讯的联合创始人。
2005 年,微软的学者克里斯·博格斯(Chris Burges)等人,开始使用神经网络训练 RankNet 文档之间两两关系的排序模型。这是最早使用深度学习模型进行工业级应用的尝试。这篇论文在 2015 年获得了 ICML 2015(International Conference on Machine Learning,国际机器学习大会)的 10 年“经典论文奖”。

配对法排序学习详解

在介绍配对法排序学习的中心思路之前,我们先来重温一下测试集的测试原理。总体来说,测试的原理和单点法一样,都是要考察测试集上,对于某一个查询关键字来说,某一组文档所组成的排序是否是最优的。
比如,对于某一个查询关键字,我们针对排序产生的“顶部的 K”个文档进行评估,首先查看精度(Precision),即在所有算法已经判断是相关的文档中,究竟有多少是真正相关的;其次看召回(Recall),即所有真正相关的文档究竟有多少被提取了出来。当然,还有 F1 值,也就是精度和召回“和谐平均”(Harmonic Mean)的取值,一个平衡精度和召回的重要指标。需要再次说明的是, 精度、召回以及 F1 值都是在二元相关信息的标签基础上定义的。
如果需要利用五级相关信息定义,也就是通常所说的“最相关”、“相关”、“不能确定”到“不相关”、“最不相关”,那么就需要用类似于 NDCG 这样的评价指标。NDCG 的假设是,在一个排序结果里,相关信息要比不相关信息排得更高,最相关信息需要排在最上面,最不相关信息需要排在最下面。任何排序结果一旦偏离了这样的假设,就会受到“扣分”或者“惩罚”。
在清楚了测试集的情况后,再回过头来看一看训练集的设置问题。在今天文章一开篇的时候,我就提到了单点法对于排序学习的“目标不明确”的问题。其实从 NDCG 的角度来看也好,基于顶部 K 的精度或者召回的角度来看也好,都可以看出,对于一个查询关键字来说,最重要的其实不是针对某一个文档的相关性是否估计得准确,而是要能够正确估计一组文档之间的“相对关系”。只要相对关系估计正确了,那么从排序这个角度来说,最后的结果也就准确了。理解这一个观点,对于深入理解排序和普通的分类之间的区别至关重要。
那么,如何从单点建模再进一步呢?
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

单点法排序学习算法的优化目标及配对法排序学习 本文深入探讨了单点法排序学习算法的优化目标,并重点介绍了配对法排序学习的相关内容。配对法排序学习是针对排序问题的一种优化方法,通过对样本进行两两比较来学习排序,从而更接近最终的排序目标。文章回顾了配对法排序学习的历史,并详细解释了其中心思路。此外,还介绍了几个热门的算法,如RankSVM、GBDT和RankNet,并强调了理解排序和普通分类之间的区别的重要性。在讲解测试集的测试原理和训练集的设置问题后,文章指出了配对法排序学习在测试集预测时可能面临的计算复杂度问题,并提到了一些可能的计算提速或逼近算法。总的来说,本文对于了解排序学习算法的读者具有一定的参考价值,尤其是对于文档检索领域基于机器学习的配对法排序学习感兴趣的读者。文章内容深入浅出,既介绍了技术细节,又提出了思考题,为读者提供了全面的学习和思考空间。 参考文献: 1. Zhaohui Zheng, Keke Chen, Gordon Sun, and Hongyuan Zha. A regression framework for learning ranking functions using relative relevance judgments. *Proceedings of the 30th annual international ACM SIGIR conference on research and development in information retrieval*, 287-294,2007. 2. Thorsten Joachims. Optimizing search engines using clickthrough data. *Proceedings of the eighth ACM SIGKDD international conference on knowledge discovery and data mining*,133-142,2002.

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《AI 技术内参》
新⼈⾸单¥98
立即购买
登录 后留言

全部留言(3)

  • 最新
  • 精选
  • 苏照辛
    A>B,B>C,但是A>C不成立,不太能理解。老师可不可以举一个具体的例子?谢谢。
    2021-01-05
    2
    1
  • yaolixu
    洪老师,以配对法为基础,把单点法的特征作为配对法输入的一部分。但是,感觉应该有更高大上的结合方法??
    2018-11-08
    1
  • 白杨
    可以把单点的输出,作为作为配对法的输入特征,两两之间作差。
    2018-05-16
    1
收起评论
显示
设置
留言
3
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部