头条搜索如何构建搜索技术的另一种可能?
极客时间编辑部
讲述:初明明大小:4.77M时长:05:13
你好,欢迎收听极客视点。
4 月 30 日,今日头条宣布上线“头条百科”测试版。界面简洁,除了搜索框外,只有一个 Slogan:来这里,认识世界!这意味着今日头条又将搜索业务往前推进了一步。
实际上,今日头条于 2017 年才开始组建搜索技术团队,仅经过一年多的发展,尽管没有大肆宣传,头条搜索也吸引了不少用户的注意,在用户体验方面获得了用户的肯定。头条搜索如何在这么短的时间里,做到这种效果?他们的搜索引擎到底与传统引擎有何不同?为此,InfoQ 记者 Tina 采访了今日头条搜索技术部门负责人。以下为采访重点内容。
从推荐到搜索
从 2012 年起,今日头条开始做推荐引擎。招募了很多擅长机器学习、推荐算法的技术人才。这些人才为推荐系统底层算法打下了基础。随后,今日头条在构建搜索系统架构时,将从推荐引擎上探索出的技术架构和底层算法迁移到搜索引擎上。
头条搜索技术团队负责人在采访中表示,推荐和搜索有一些相通的地方,背后都要有 AI 来理解用户的需求和内容,理解得越清楚,就越能帮助到用户。像大规模机器学习、深度学习、实时更新等在推荐方面成功应用的方法,都是建模用户、内容的有效方法。所以将这些技术应用到搜索上,也会取得不错的效果。
新技术应用
头条搜索还大胆尝试新技术应用。比如早在 2019 年初,头条搜索就已经将 BERT 在头条搜索上全流量应用,并且获得了显著的效果提升。上线得比 BERT 的东家 Google 更早。
再比如被称为传统搜索引擎短板的实时更新,最近几年随着 Storm、Spark streaming、Flink 等框架的成熟,实时流处理才能成为各公司 AI 平台的标配。现在实时架构同样也被引入到头条搜索的搜索引擎中。还研发了全量实时更新的百亿倒排索引架构,大幅提升了内容的时效性。
此外,头条搜索也大胆利用 AI 技术探索搜索引擎技术问题。
搜索的另一种可能
搜索引擎是极其复杂的大工程,它通常都要将整个系统分解为若干子系统,比如会分解为链接发现、索引筛选、Query 理解、Ranking 等步骤。每一步骤内部又会进一步分解,这个过程可以无限分解下去,由不同的人和团队分工解决。但这个过程有个致命缺点,在每一步的分解过程中都会有信息损失,最后联合起来导致整个系统不能达到最优状态,比如 A 步骤精度 90%、B 步骤精度 90%、对接起来最终系统精度可能只有 80%。
这种精分细解,是传统搜索引擎受限于当时的技术手段,为了有效开展工作、更好地提升产品效果采取的技术决策,这在当时是非常正确的。但精度不足,也限制了传统搜索引擎进一步提升效果。
现在做搜索引擎,头条搜索技术团队主要有三个优势:
第一,会更大胆地探索 AI 技术。相对传统搜索引擎的局限,今日头条倾向于对系统有限分解,重度使用前沿 AI 技术进行端到端的问题建模,系统性降低效果损失。
第二,没有历史的包袱,才有机会去重新审视一个合理的搜索引擎架构应该如何设计、如何避免走弯路、容纳新技术,并且有足够高的研发效率。头条在短时间就让搜索效果进入第一梯队,合理的架构发挥了很大的作用。头条搜索还组建了专门的工程架构团队,专注于分布式系统、机器学习系统的构建和性能优化。一些深入到内存、SSD、Disk 甚至一些新硬件的优化,或一些对倒排索引压缩、召回等算法的底层优化,大幅降低了硬件成本,提升了搜索速度和稳定性。
第三,优秀的团队和合理系统设计保证了“迭代效率”。头条搜索技术团队的目标是建设一个服务于全公司的搜索技术中台,在对标谷歌做一流全网搜索引擎的同时,也全力提升抖音、西瓜等产品的搜索体验。虽然现在头条搜索技术团队人数不到 200 人,却聚集了很多 Google、百度、360、Bing 这些老牌搜索公司的核心技术骨干,同时还有不少今日头条原推荐、广告、AI Lab 团队的核心成员,以及一批非常优秀的校招生。
为了保证“迭代效率”,头条搜索目前每周都会对线上进行数十次的优化更新,一些从其他搜索引擎公司加入头条搜索技术团队的同学表示,以前需要半年以上时间上线的项目,在头条搜索只需要几周。当然,快速的迭代也更容易犯错,头条搜索也设计了更多的稳定性机制,提前避免出错并大幅降低错误的影响,让问题可控,也让团队敢放开手脚。
以上就是今天的内容,希望对你有所帮助。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
该免费文章来自《极客视点》,如需阅读全部文章,
请先领取课程
请先领取课程
免费领取
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
精选留言
由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论