知乎首页已读数据万亿规模下高吞吐低时延查询系统架构设计

孙晓光知乎搜索后端负责人

知乎搜索后端负责人，目前承担知乎搜索后端架构设计以及工程团队的管理工作。曾多年从事私有云相关产品开发工作关注云原生技术，TiKV 项目 Committer。

内容介绍

知乎从问答起步在过去的 8 年中逐步成长为一个大规模的综合性知识内容平台，今天在知乎站上有多达 38 万个话题，超过 2800 万个问题总共收获了超过 1.3 亿个回答，同时知乎还沉淀了数量众多的优质文章、电子书以及其他付费内容。知乎通过个性化首页推荐的方式在海量的信息中高效的分发用户感兴趣的优质内容。为了避免给用户推荐重复的内容，首页会记录下所有给用户推荐过的内容长期保存。直至今天知乎已读的数据规模已超过万亿并以每天接近 30 亿的速度持续增长，实时、可靠且高效的存储和查询已读数据存在着诸多挑战。在过去的一年多已读服务的架构在承载着 40000/s 新数据写入的同时还支撑着峰值每秒 30000 条独立请求和 1200 万文档已读状态的查询，并且在大流量的冲击下响应时间依旧稳定维持在 P99 24ms 以及 P999 45ms 的低水位线。在本次演讲中我们会分享目前知乎已读服务的整体架构以及我们如何在这个架构上应对各种挑战满足业务需求，希望这个分享能为大家开拓解决类似问题的思路。

展开



¥4.99 购买

开通VIP







登录后留言

精选留言(1)

jimmy

召回队列的数据会不会被全部过滤，如何避免这种情况的发生呢？

2019-10-13



 1

收起评论

其他推荐

44:13

腾讯广告高可用的深度学习技术架构（上）

唐溪柳腾讯广告总架构师/T4 专家

试看

21:40

Apache Spark 2.4 和未来

王耿亮 Databricks研发工程师

免费

35:25

阿里巴巴超大规模微服务实践

陈志轩（断岭）阿里巴巴中间件技术专家

试看