AI 技术内参
洪亮劼
Etsy 数据科学主管,前雅虎研究院资深科学家
33455 人已学习
新⼈⾸单¥98
登录后,你可以任选6讲全文学习
课程目录
已完结/共 166 讲
开篇词 (1讲)
人工智能国际顶级会议 (31讲)
搜索核心技术 (28讲)
推荐系统核心技术 (22讲)
数据科学家与数据科学团队养成 (25讲)
AI 技术内参
15
15
1.0x
00:00/00:00
登录|注册

142 | 数据科学家必备套路之一:搜索套路

可以单独训练模型
需要更多心思
方法:记录点击数据、手工标注
容易解决
占据大流量
第二轮以后:解决“精度”问题
第一轮:解决“召回”问题
实现商业逻辑层
可以使用复杂模型
对剩余文档进行打分排序
并行化
直接作用在索引上
工程研发角度:一年一个台阶
第三个台阶:树模型、GBDT模型
第二个台阶:配对法线性模型
第一个台阶:线性模型
长尾关键词
高频关键词
区分高频关键词和长尾关键词
解决问题角度
第三轮打分
第二轮打分
第一轮打分
三大模型套路
高频和长尾的套路
多轮打分套路
做搜索产品都有哪些套路?

该思维导图由 AI 生成,仅供参考

到目前为止,我们已经完整地介绍了搜索、推荐和广告的主流技术,为你呈现了这些产品技术方向的整个生态系统。在这些系列的分享里,我们重点介绍了这些技术方向的基本模型,然后花了不少篇幅讲如何评测模型的好坏,包括如何进行线下评测以及线上评测。同时,我们从传统的经典模型讲到最近几年利用深度学习对这些技术方向的提升,帮助你理顺了这些技术发展的脉络。
尽管我们已经在之前的文章中分享了这些技术的方方面面,但是对于很多经验较少的数据科学家或者人工智能工程师来说,依然会感到无法得心应手地把这些模型和知识给应用到真实场景中。
其实,出现这种情况一方面是个人经验积累的原因,毕竟从初学者到能够熟练应用各种模型工具应对实际产品的需要,是一个长时间磨炼的结果;然而另一方面,也是因为搜索、推荐和广告这些产品场景其实是有一些套路,在没有接触到这些套路的时候往往会觉得不得要领,而在慢慢熟悉了这些套路之后,进步也就会慢慢加快。
那么,在接下来的三篇文章里,我就有针对性地来分享在这三个领域里的一些常见套路。今天,我们首先从搜索产品套路说起。

多轮打分套路

我们前面已经介绍过多轮打分的系统架构了。当我们想要构建任何一个搜索引擎时,都应该立刻想到多轮打分这个架构,这是一个基本套路。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

搜索产品的套路主要包括多轮打分和高频与长尾的套路。多轮打分是搜索引擎的基本架构,通过多轮打分可以解决“召回”和“精度”问题,根据具体业务场景决定何时解决哪个问题。对于高频关键词和长尾关键词,可以采取不同的排序算法,优先解决高频关键词,因为它们有足够多的用户数据,可以通过记录点击数据或手工标注来提升搜索效果;而长尾关键词则需要更多的精力和时间,可以尝试单独训练模型或借助其他方法来挖掘信息。此外,文章还介绍了“三大模型套路”,通过逐步提升搜索效果,跨越三个台阶,分别使用线性模型、配对法线性模型和树模型(特别是GBDT模型)。这些套路可以帮助搜索产品提升搜索效果,解决用户搜索困惑,提高投资回报。文章还提出了一个思考题,为什么不鼓励直接采用深度学习模型呢?这些内容为搜索产品的技术特点提供了深入的了解和思考。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《AI 技术内参》
新⼈⾸单¥98
立即购买
登录 后留言

全部留言(4)

  • 最新
  • 精选
  • 于科屹
    深度学习的infra支持需要很多工作,而且数据量不够的时候效果可能不好。从engineer的角度还有一个原因可能是一开始简单方法的提升也算做绩效,属于low hand fruit
    2021-03-29
  • 崔伟协
    深度学习需要的数据量和计算量很多,不适合业务开始阶段
    2019-12-03
  • amither
    深度学习需要的数据量和计算量很多,不适合业务开始阶段
    2019-08-06
  • Riordon
    写得真好~~~
    2018-12-11
收起评论
显示
设置
留言
4
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部