AI 技术内参
洪亮劼
Etsy 数据科学主管,前雅虎研究院资深科学家
33454 人已学习
新⼈⾸单¥98
登录后,你可以任选6讲全文学习
课程目录
已完结/共 166 讲
开篇词 (1讲)
人工智能国际顶级会议 (31讲)
搜索核心技术 (28讲)
推荐系统核心技术 (22讲)
数据科学家与数据科学团队养成 (25讲)
AI 技术内参
15
15
1.0x
00:00/00:00
登录|注册

041 | 搜索系统评测,有哪些高级指标?

比较两个不同的排序
基于“多程度相关”原理的评测
基于“二元相关”的线下评测指标
搜索系统评测

该思维导图由 AI 生成,仅供参考

周一我们介绍了基于“二元相关”原理的线下评测指标。可以说,从 1950 年开始,这种方法就主导了文档检索系统的研发工作。然而,“二元相关”原理从根本上不支持排序的评测,这就成了开发更加准确排序算法的一道障碍。于是,研究人员就开发出了基于“多程度相关”原理的评测标准。今天我就重点来介绍一下这方面的内容。

基于多程度相关原理的评测

从“二元相关”出发,自然就是给相关度更加灵活的定义。在一篇发表于 NIPS 2007 的文章中(参考文献[1]),雅虎的科学家介绍了雅虎基于五分标准的相关评价体系,从最相关到最不相关。而在同一年的 SIGIR 上,谷歌的科学家也发表了一篇文章(参考文献[2]),介绍了他们的“多程度”相关打分机制。至此之后,基于“多程度相关”原理的评价标准慢慢被各种搜索系统的研发者们所接受。
在这样的趋势下,基于“二元相关”的“精度”(Precision)和“召回”(Recall)都变得不适用了。我们需要新的、基于“多程度相关”的评价指标。
芬兰的科学家在 2000 年的 SIGIR 上(参考文献[3])发表了一种计算相关度评测的方法。这种方法被广泛应用到了“多程度相关”的场景中。那么,芬兰科学家发明的方法是怎样的呢?
这种方法被称作是“折扣化的累积获得”(Discounted Cumulative Gain),简称“DCG”。 在介绍 DCG 之前,我们首先假定,位置 1 是排位最高的位置,也就是顶端的文档,而位置数随着排位降低而增高,位置 10 就是第一页最后的文档。
DCG 的思想是这样的。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

搜索系统评测中的高级指标 搜索系统评测一直是信息检索领域的重要研究方向。本文介绍了基于“多程度相关”原理的评测标准,以及相关的评价指标DCG和nDCG。基于“多程度相关”原理的评价体系相对于传统的“二元相关”原理更加灵活,能够更准确地评价排序算法的性能。DCG通过对排序结果的相关度进行加权,避免了“精度”和“召回”对排序不敏感的问题,能更好地表达对排序的评估。而nDCG则通过归一化DCG值,使得不同查询关键字之间的排序结果可以进行比较。 此外,文章还介绍了如何比较两个不同排序的结果,包括使用平均值描述排序的表现以及依赖统计工具进行假设检验。假设检验可以帮助评价两个排序的好坏,但需要注意其结果仅仅是统计意义上的“好坏”,与实际用户体验可能存在差距。 总的来说,本文通过介绍基于“多程度相关”原理的评测体系以及相关的评价指标,帮助读者了解了现代搜索技术中如何评价构建的系统,特别是如何评价排序系统的方法和工具。文章内容涵盖了技术细节和实际应用,对于搜索系统评测感兴趣的读者具有一定的参考价值。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《AI 技术内参》
新⼈⾸单¥98
立即购买
登录 后留言

全部留言(3)

  • 最新
  • 精选
  • 侯永胜
    请大师也讲讲推荐系统相关的内容哈 谢谢啦
    2018-01-16
    1
  • 白杨
    另外一直有个问题,烦请老师解答一下: 为什么这些高级评价指标都是不可微的呢?直观上体现在哪里?数学形式上又体现在哪里?
    2018-05-16
  • 白杨
    我的想法是,用文档出现的频率来代替位置的角色,然后来打折扣,这样应该在某些场景下可行。
    2018-05-16
收起评论
显示
设置
留言
3
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部