周一的文章里我分享了最基本的单点法排序学习(Pointwise Learning to Rank)。这个思路简单实用,是把经典的信息检索问题转化为机器学习问题的第一个关键步骤。简单回顾一下,我们介绍了在测试集里使用 NDCG(Normalized Discounted Cumulative Gain),在某个 K 的位置评价“精度”(Precision)和“召回”(Recall),以这些形式来评估排序算法。
比如,对于某一个查询关键字,我们针对排序产生的“顶部的 K”个文档进行评估,首先查看精度(Precision),即在所有算法已经判断是相关的文档中,究竟有多少是真正相关的;其次看召回(Recall),即所有真正相关的文档究竟有多少被提取了出来。当然,还有 F1 值,也就是精度和召回“和谐平均”(Harmonic Mean)的取值,一个平衡精度和召回的重要指标。需要再次说明的是, 精度、召回以及 F1 值都是在二元相关信息的标签基础上定义的。
在清楚了测试集的情况后,再回过头来看一看训练集的设置问题。在今天文章一开篇的时候,我就提到了单点法对于排序学习的“目标不明确”的问题。其实从 NDCG 的角度来看也好,基于顶部 K 的精度或者召回的角度来看也好,都可以看出,对于一个查询关键字来说,最重要的其实不是针对某一个文档的相关性是否估计得准确,而是要能够正确估计一组文档之间的“相对关系”。只要相对关系估计正确了,那么从排序这个角度来说,最后的结果也就准确了。理解这一个观点,对于深入理解排序和普通的分类之间的区别至关重要。
那么,如何从单点建模再进一步呢?
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结
单点法排序学习算法的优化目标及配对法排序学习
本文深入探讨了单点法排序学习算法的优化目标,并重点介绍了配对法排序学习的相关内容。配对法排序学习是针对排序问题的一种优化方法,通过对样本进行两两比较来学习排序,从而更接近最终的排序目标。文章回顾了配对法排序学习的历史,并详细解释了其中心思路。此外,还介绍了几个热门的算法,如RankSVM、GBDT和RankNet,并强调了理解排序和普通分类之间的区别的重要性。在讲解测试集的测试原理和训练集的设置问题后,文章指出了配对法排序学习在测试集预测时可能面临的计算复杂度问题,并提到了一些可能的计算提速或逼近算法。总的来说,本文对于了解排序学习算法的读者具有一定的参考价值,尤其是对于文档检索领域基于机器学习的配对法排序学习感兴趣的读者。文章内容深入浅出,既介绍了技术细节,又提出了思考题,为读者提供了全面的学习和思考空间。
参考文献:
1. Zhaohui Zheng, Keke Chen, Gordon Sun, and Hongyuan Zha. A regression framework for learning ranking functions using relative relevance judgments. *Proceedings of the 30th annual international ACM SIGIR conference on research and development in information retrieval*, 287-294,2007.
2. Thorsten Joachims. Optimizing search engines using clickthrough data. *Proceedings of the eighth ACM SIGKDD international conference on knowledge discovery and data mining*,133-142,2002.