检索技术核心 20 讲

paulhaoyi

感谢老师精彩的课程，也期待后面更多更好的系列课程，结合AI，最新技术趋势。哈哈，赶紧出新课吧，我迫不及待订阅了。😄

作者回复：哈哈，感谢你的支持。结合AI的检索引擎是一个蛮大和蛮新的话题，是最新的趋势。但这个领域也涉及了很多的知识基础，可能很多人不太好理解。我得想想要如何写才好。如果有新课了，我会第一时间发预告的。

2020-05-20

3

峰

舍不得技术思维比口音还厉害的陈东老师！！！！！！！！！我想再听老师讲课肿么办！！！！！！！！！！！！！

作者回复：哈哈，不介意口音的话可以多听几遍~ 而且未来说不定我也可能在更多的场合和大家继续分享。

2020-05-18

1

一轩明月

趁着周末刷完了课程，自己是做推荐算法的，老师的课程帮我从更大的检索视角，从基础数据结构的特性与检索问题起，从理论上的结构设计和算法优化，到工业中的数据量与延迟挑战，将基础与前沿的珠子在我脑中以从未有过的方式串联了起来，十分感谢！对“召回+排序”的内涵与外延的理解感悟又深了一层，数据存储和广告引擎的检索实践很有启发。内容领域搜索引擎和推荐系统更是“同质同源”，凡是能搜出来的，都应该能被推荐，接下来我会在数据存储与检索上进一步自学精进，同时将手头工作分别从“搜索”，“推荐”正反两个方向上以检索的视角复盘一遍，在实践中验证所学。

作者回复：“将基础与前沿的珠子以从未有过的方式串联起来了”。这是很高的评价，也很精准地说出了我写这个专栏的目标之一。技术发展很快，但是只要从基础出发，就能更好地对知识点进行串联和学习，能找到许多技术和系统“同根同源”的地方，包括相互借鉴，跨界借鉴其实也是一种创新思维。希望以后在你能保持这样的高质量思考和实践，不断前进！

2021-01-11



王坤祥

作为一个转行的程序猿，通过这门课，我从整体上对计算机技术有了更深入的理解。既然入行了，需要学习很多的计算机的知识，前段时间在看资料的时候突然想到在老师的课程中曾经涉及到了一些知识，然后来到本课程中寻找关联，知识点相互补充，我顿时有种豁然开朗的感觉。因为老师的课程是与工程实践紧密联系的，能够从实际应用的角度分析问题，而不仅仅是单纯的理论解释。总之，收货还是不少的，感谢老师~~~

作者回复：很高兴看到这个专栏对你有帮助。我也一直觉得许多理论的知识和实际工作结合不够紧密，导致很多人之前在学校学习教材的时候，会疑惑这些知识，比如说各种高级数据结构有什么用。但实际上，你会发现，在某些应用场景中，还真必须使用这样的数据结构才合适。因此，这个专栏，我其实也希望能将知识点更好地串起来，让你能理解这些技术的来龙去脉和相互之间的关系。当然，由于篇幅限制，还有许多知识点没有提到。但我相信，你能掌握好合理的学习方法，将更多的新知识吸收到自己的知识体系中。

2020-05-18



一元(eudict)

一路学完，真的非常棒，感谢老师细心指导。同时大量的例子、图解，真正做到了深入浅出。期待老师下一次的专栏

作者回复：也谢谢你的一路的陪伴和坚持。深入浅出其实也是我写专栏的时候给自己定的目标之一，你的这个评价让我备受鼓舞。如果文章中有不清楚的地方，也欢迎继续留言讨论

2020-05-28

4

entropy

为什么C0小而C1大呢，如果C0和C1一样大，每次内存到达阈值（这时候应该是多个块大小吧），直接刷到硬盘呢？

作者回复：在这一篇原理介绍中，假设只有两棵树，c0树和c1树。c0树在内存中，受限于内存大小，因此较小;c1树在磁盘中，是c0树不停归并而成，因此会较大。当然，在工业界的实际系统实现中，磁盘中不是只有一颗c1树，而是多个文件块，具体的实现方式的确如你所说的，直接把内存刷入磁盘中。当然，磁盘中有多棵树以后，后续处理会变复杂，具体可以看我后面的leveldb的介绍。

2021-04-02



明翼

非常感谢老师的付出,讲的很棒,实践再多点更好了,而且老师是回答问题最认真,最仔细的老师了,期待老师的其他专栏.

作者回复：谢谢你一路过来的支持和互动。我发现许多读者的问题都很好，能引发大家更多的思考，因此我也很乐意和大家在互动中把知识点讲解得更清晰一些。希望我们都能收获满满！

2020-09-20



每天晒白牙

学以致用，学完专栏在工作中用到了，谢谢老师 https://mp.weixin.qq.com/s/0TIbF8bjFQ5O1gqmaLqLWw

作者回复：非常棒！学完后能融会贯通，在合适的场景使用了合适的技术方案，还自己总结了文章。这样日积月累，相信你的技术能力和系统化思考能力会更上一层楼。

2020-08-10



图灵机

每天回家最享受的时间就是看这个课程，越看越爽

作者回复：谢谢支持。越看越爽，说明你能感受到了内容递进的魅力，再坚持一下，后面更酸爽哦。

2020-07-01

2

Eascholas

“关于计算两个人的兴趣相似度，其实这个和计算两个文档的相似度非常像。我们可以将每个人看作是一个文档，将每个兴趣标签看作是一个关键词。因此，我们可以使用TF-IDF的思想，或者BM25算法来进行打分。” 陈老师，这里用相似度来打分，比如A用户的标签是“a,b”，B用户的标签是“a,b,c,d,e,f,g,h”，这样的话我理解他们俩的相似度打分应该不高。对于有相同兴趣标签的用户，如果按照“相同兴趣标签个数越多，排序越靠前”，这样是否更好呢？标签是个大类，总量不会很大，使用位图来改造posting list，这样就判断两个用户的位图与后，bit为1的个数，越多打分越高；或者直接使用数组来查找。这个思路可行吗？

作者回复：你的想法很好。“相同标签越多，相似度越高”，这个思路是可行的。其实这就是求集合相似度的Jaccard距离，它的计算公式是“集合交集元素个数”除以“集合并集个数”。包括你用位图来实现，的确是一种高性能的实现。当然，对于“a，b”和“a，b，c，d，e，f，g，h”求相似度，用我文中说的bm25算法也是可行的。因为bm25算法会考虑到文章的长度问题。

2020-07-01



讲师

陈东

前数禾科技 CTO，前奇虎 360 商业化资深总监

陈东，前数禾科技 CTO，以数据和技术驱动，为金融机构提供高效的智能零售金融解决方案。曾任奇虎 360 商业化资深总监，负责展示广告的研发管理和产品创新。在互联网广告行业深耕十余年，致力于弹性分布式系统架构、检索引擎与推荐系统等技术方向。

陈东

前数禾科技 CTO，前奇虎 360 商业化资深总监

后端工程师