041 | 搜索系统评测，有哪些高级指标？

洪亮劼



该思维导图由 AI 生成，仅供参考

周一我们介绍了基于“二元相关”原理的线下评测指标。可以说，从 1950 年开始，这种方法就主导了文档检索系统的研发工作。然而，“二元相关”原理从根本上不支持排序的评测，这就成了开发更加准确排序算法的一道障碍。于是，研究人员就开发出了基于“多程度相关”原理的评测标准。今天我就重点来介绍一下这方面的内容。
基于多程度相关原理的评测从“二元相关”出发，自然就是给相关度更加灵活的定义。在一篇发表于 NIPS 2007 的文章中（参考文献[1]），雅虎的科学家介绍了雅虎基于五分标准的相关评价体系，从最相关到最不相关。而在同一年的 SIGIR 上，谷歌的科学家也发表了一篇文章（参考文献[2]），介绍了他们的“多程度”相关打分机制。至此之后，基于“多程度相关”原理的评价标准慢慢被各种搜索系统的研发者们所接受。
在这样的趋势下，基于“二元相关”的“精度”（Precision）和“召回”（Recall）都变得不适用了。我们需要新的、基于“多程度相关”的评价指标。
芬兰的科学家在 2000 年的 SIGIR 上（参考文献[3]）发表了一种计算相关度评测的方法。这种方法被广泛应用到了“多程度相关”的场景中。那么，芬兰科学家发明的方法是怎样的呢？
这种方法被称作是“折扣化的累积获得”（Discounted Cumulative Gain），简称“DCG”。 在介绍 DCG 之前，我们首先假定，位置 1 是排位最高的位置，也就是顶端的文档，而位置数随着排位降低而增高，位置 10 就是第一页最后的文档。
DCG 的思想是这样的。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

搜索系统评测中的高级指标搜索系统评测一直是信息检索领域的重要研究方向。本文介绍了基于“多程度相关”原理的评测标准，以及相关的评价指标DCG和nDCG。基于“多程度相关”原理的评价体系相对于传统的“二元相关”原理更加灵活，能够更准确地评价排序算法的性能。DCG通过对排序结果的相关度进行加权，避免了“精度”和“召回”对排序不敏感的问题，能更好地表达对排序的评估。而nDCG则通过归一化DCG值，使得不同查询关键字之间的排序结果可以进行比较。此外，文章还介绍了如何比较两个不同排序的结果，包括使用平均值描述排序的表现以及依赖统计工具进行假设检验。假设检验可以帮助评价两个排序的好坏，但需要注意其结果仅仅是统计意义上的“好坏”，与实际用户体验可能存在差距。总的来说，本文通过介绍基于“多程度相关”原理的评测体系以及相关的评价指标，帮助读者了解了现代搜索技术中如何评价构建的系统，特别是如何评价排序系统的方法和工具。文章内容涵盖了技术细节和实际应用，对于搜索系统评测感兴趣的读者具有一定的参考价值。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《AI 技术内参》，新⼈⾸单¥98

立即购买

登录后留言

全部留言(3)

最新
精选

侯永胜
请大师也讲讲推荐系统相关的内容哈谢谢啦
2018-01-16

1
白杨
另外一直有个问题，烦请老师解答一下：为什么这些高级评价指标都是不可微的呢？直观上体现在哪里？数学形式上又体现在哪里？
2018-05-16


白杨
我的想法是，用文档出现的频率来代替位置的角色，然后来打折扣，这样应该在某些场景下可行。
2018-05-16



收起评论