极客时间-轻松学习，高效学习-极客邦

极客星星

2017-12-20

由于第一轮的主要功能是召回所以我觉得应该以召回率为主要评估指标不知道理解是否正确

作者回复: 是的。但是要衡量召回率需要知道所有可能相关的文档，这几乎是不可能的。具体有什么好办法呢？



 3
ID

2019-11-12

WAND 操作符并不是把一个通用的、普遍的线性模型应用到文档索引上，而是说，如果我们能够把模型给简化为只有正系数的线性模型，那么，整个模型其实可以看做是两个向量的点积，而 WAND 则是对点积在索引上的一种优化。（这句话没懂）模型是什么样的？特征是什么？预测的标签又是什么？怎么使用模型结果？怎么优化这个模型？




jifei

2018-12-08

目前我们的搜索也是做了两轮打分，第一轮搜索引擎排序：结合了文本得分以及物品质量、商业目标定义的得分值；第二轮机器学习算法排序：基于用户的反馈数据，离线训练模型，线上实时预测。下一步打算第一轮扩大召回范围以及个性化召回，让第二轮的数据量提上来在第二轮打分上内部实现分页。老师觉得怎么样呢？




白杨

2018-05-17

从经验上来判断bm25是否在一个范围内，而这个经验的范围可以通过机器学习的方式来拟合出来，这样可行吗？



