142 | 数据科学家必备套路之一：搜索套路

洪亮劼



该思维导图由 AI 生成，仅供参考

到目前为止，我们已经完整地介绍了搜索、推荐和广告的主流技术，为你呈现了这些产品技术方向的整个生态系统。在这些系列的分享里，我们重点介绍了这些技术方向的基本模型，然后花了不少篇幅讲如何评测模型的好坏，包括如何进行线下评测以及线上评测。同时，我们从传统的经典模型讲到最近几年利用深度学习对这些技术方向的提升，帮助你理顺了这些技术发展的脉络。
尽管我们已经在之前的文章中分享了这些技术的方方面面，但是对于很多经验较少的数据科学家或者人工智能工程师来说，依然会感到无法得心应手地把这些模型和知识给应用到真实场景中。
其实，出现这种情况一方面是个人经验积累的原因，毕竟从初学者到能够熟练应用各种模型工具应对实际产品的需要，是一个长时间磨炼的结果；然而另一方面，也是因为搜索、推荐和广告这些产品场景其实是有一些套路，在没有接触到这些套路的时候往往会觉得不得要领，而在慢慢熟悉了这些套路之后，进步也就会慢慢加快。
那么，在接下来的三篇文章里，我就有针对性地来分享在这三个领域里的一些常见套路。今天，我们首先从搜索产品套路说起。
多轮打分套路我们前面已经介绍过多轮打分的系统架构了。当我们想要构建任何一个搜索引擎时，都应该立刻想到多轮打分这个架构，这是一个基本套路。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

搜索产品的套路主要包括多轮打分和高频与长尾的套路。多轮打分是搜索引擎的基本架构，通过多轮打分可以解决“召回”和“精度”问题，根据具体业务场景决定何时解决哪个问题。对于高频关键词和长尾关键词，可以采取不同的排序算法，优先解决高频关键词，因为它们有足够多的用户数据，可以通过记录点击数据或手工标注来提升搜索效果；而长尾关键词则需要更多的精力和时间，可以尝试单独训练模型或借助其他方法来挖掘信息。此外，文章还介绍了“三大模型套路”，通过逐步提升搜索效果，跨越三个台阶，分别使用线性模型、配对法线性模型和树模型（特别是GBDT模型）。这些套路可以帮助搜索产品提升搜索效果，解决用户搜索困惑，提高投资回报。文章还提出了一个思考题，为什么不鼓励直接采用深度学习模型呢？这些内容为搜索产品的技术特点提供了深入的了解和思考。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《AI 技术内参》，新⼈⾸单¥98

立即购买

登录后留言

全部留言(4)

最新
精选

于科屹
深度学习的infra支持需要很多工作，而且数据量不够的时候效果可能不好。从engineer的角度还有一个原因可能是一开始简单方法的提升也算做绩效，属于low hand fruit
2021-03-29


崔伟协
深度学习需要的数据量和计算量很多，不适合业务开始阶段
2019-12-03


amither
深度学习需要的数据量和计算量很多，不适合业务开始阶段
2019-08-06


Riordon
写得真好~~~
2018-12-11



收起评论