数据结构与算法之美
王争
前Google工程师
立即订阅
71638 人已学习
课程目录
已完结 75 讲
0/4登录后,你可以任选4讲全文学习。
开篇词 (1讲)
开篇词 | 从今天起,跨过“数据结构与算法”这道坎
免费
入门篇 (4讲)
01 | 为什么要学习数据结构和算法?
02 | 如何抓住重点,系统高效地学习数据结构与算法?
03 | 复杂度分析(上):如何分析、统计算法的执行效率和资源消耗?
04 | 复杂度分析(下):浅析最好、最坏、平均、均摊时间复杂度
基础篇 (38讲)
05 | 数组:为什么很多编程语言中数组都从0开始编号?
06 | 链表(上):如何实现LRU缓存淘汰算法?
07 | 链表(下):如何轻松写出正确的链表代码?
08 | 栈:如何实现浏览器的前进和后退功能?
09 | 队列:队列在线程池等有限资源池中的应用
10 | 递归:如何用三行代码找到“最终推荐人”?
11 | 排序(上):为什么插入排序比冒泡排序更受欢迎?
12 | 排序(下):如何用快排思想在O(n)内查找第K大元素?
13 | 线性排序:如何根据年龄给100万用户数据排序?
14 | 排序优化:如何实现一个通用的、高性能的排序函数?
15 | 二分查找(上):如何用最省内存的方式实现快速查找功能?
16 | 二分查找(下):如何快速定位IP对应的省份地址?
17 | 跳表:为什么Redis一定要用跳表来实现有序集合?
18 | 散列表(上):Word文档中的单词拼写检查功能是如何实现的?
19 | 散列表(中):如何打造一个工业级水平的散列表?
20 | 散列表(下):为什么散列表和链表经常会一起使用?
21 | 哈希算法(上):如何防止数据库中的用户信息被脱库?
22 | 哈希算法(下):哈希算法在分布式系统中有哪些应用?
23 | 二叉树基础(上):什么样的二叉树适合用数组来存储?
24 | 二叉树基础(下):有了如此高效的散列表,为什么还需要二叉树?
25 | 红黑树(上):为什么工程中都用红黑树这种二叉树?
26 | 红黑树(下):掌握这些技巧,你也可以实现一个红黑树
27 | 递归树:如何借助树来求解递归算法的时间复杂度?
28 | 堆和堆排序:为什么说堆排序没有快速排序快?
29 | 堆的应用:如何快速获取到Top 10最热门的搜索关键词?
30 | 图的表示:如何存储微博、微信等社交网络中的好友关系?
31 | 深度和广度优先搜索:如何找出社交网络中的三度好友关系?
32 | 字符串匹配基础(上):如何借助哈希算法实现高效字符串匹配?
33 | 字符串匹配基础(中):如何实现文本编辑器中的查找功能?
34 | 字符串匹配基础(下):如何借助BM算法轻松理解KMP算法?
35 | Trie树:如何实现搜索引擎的搜索关键词提示功能?
36 | AC自动机:如何用多模式串匹配实现敏感词过滤功能?
37 | 贪心算法:如何用贪心算法实现Huffman压缩编码?
38 | 分治算法:谈一谈大规模计算框架MapReduce中的分治思想
39 | 回溯算法:从电影《蝴蝶效应》中学习回溯算法的核心思想
40 | 初识动态规划:如何巧妙解决“双十一”购物时的凑单问题?
41 | 动态规划理论:一篇文章带你彻底搞懂最优子结构、无后效性和重复子问题
42 | 动态规划实战:如何实现搜索引擎中的拼写纠错功能?
高级篇 (9讲)
43 | 拓扑排序:如何确定代码源文件的编译依赖关系?
44 | 最短路径:地图软件是如何计算出最优出行路径的?
45 | 位图:如何实现网页爬虫中的URL去重功能?
46 | 概率统计:如何利用朴素贝叶斯算法过滤垃圾短信?
47 | 向量空间:如何实现一个简单的音乐推荐系统?
48 | B+树:MySQL数据库索引是如何实现的?
49 | 搜索:如何用A*搜索算法实现游戏中的寻路功能?
50 | 索引:如何在海量数据中快速查找某个数据?
51 | 并行算法:如何利用并行处理提高算法的执行效率?
实战篇 (5讲)
52 | 算法实战(一):剖析Redis常用数据类型对应的数据结构
53 | 算法实战(二):剖析搜索引擎背后的经典数据结构和算法
54 | 算法实战(三):剖析高性能队列Disruptor背后的数据结构和算法
55 | 算法实战(四):剖析微服务接口鉴权限流背后的数据结构和算法
56 | 算法实战(五):如何用学过的数据结构和算法实现一个短网址系统?
加餐:不定期福利 (6讲)
不定期福利第一期 | 数据结构与算法学习书单
不定期福利第二期 | 王争:羁绊前行的,不是肆虐的狂风,而是内心的迷茫
不定期福利第三期 | 测一测你的算法阶段学习成果
不定期福利第四期 | 刘超:我是怎么学习《数据结构与算法之美》的?
总结课 | 在实际开发中,如何权衡选择使用哪种数据结构和算法?
《数据结构与算法之美》学习指导手册
加餐:春节7天练 (7讲)
春节7天练 | Day 1:数组和链表
春节7天练 | Day 2:栈、队列和递归
春节7天练 | Day 3:排序和二分查找
春节7天练 | Day 4:散列表和字符串
春节7天练 | Day 5:二叉树和堆
春节7天练 | Day 6:图
春节7天练 | Day 7:贪心、分治、回溯和动态规划
加餐:用户学习故事 (2讲)
用户故事 | Jerry银银:这一年我的脑海里只有算法
用户故事 | zixuan:站在思维的高处,才有足够的视野和能力欣赏“美”
结束语 (3讲)
结束语 | 送君千里,终须一别
第2季回归 | 这一次,我们一起拿下设计模式!
打卡召集令 | 60 天攻克数据结构与算法
免费
数据结构与算法之美
登录|注册

53 | 算法实战(二):剖析搜索引擎背后的经典数据结构和算法

王争 2019-01-28
像百度、Google 这样的搜索引擎,在我们平时的工作、生活中,几乎天天都会用到。如果我们把搜索引擎也当作一个互联网产品的话,那它跟社交、电商这些类型的产品相比,有一个非常大的区别,那就是,它是一个技术驱动的产品。所谓技术驱动是指,搜索引擎实现起来,技术难度非常大,技术的好坏直接决定了这个产品的核心竞争力。
在搜索引擎的设计与实现中,会用到大量的算法。有很多针对特定问题的算法,也有很多我们专栏中讲到的基础算法。所以,百度、Google 这样的搜索引擎公司,在面试的时候,会格外重视考察候选人的算法能力。
今天我就借助搜索引擎,这样一个非常有技术含量的产品,来给你展示一下,数据结构和算法是如何应用在其中的。

整体系统介绍

像 Google 这样的大型商用搜索引擎,有成千上万的工程师,十年如一日地对它进行优化改进,所以,它所包含的技术细节非常多。我很难、也没有这个能力,通过一篇文章把所有细节都讲清楚,当然这也不是我们专栏所专注的内容。
所以,接下来的讲解,我主要给你展示,如何在一台机器上(假设这台机器的内存是 8GB, 硬盘是 100 多 GB),通过少量的代码,实现一个小型搜索引擎。不过,麻雀虽小,五脏俱全。跟大型搜索引擎相比,实现这样一个小型搜索引擎所用到的理论基础是相通的。
取消
完成
0/1000字
划线
笔记
复制
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
该试读文章来自付费专栏《数据结构与算法之美》,如需阅读全部文章,
请订阅文章所属专栏。
立即订阅
登录 后留言

精选留言(32)

  • wei
    思考题 1:

    因为搜索引擎要优先爬取权重较高的页面,离种子网页越近,较大可能权重更高,广度优先更合适。

    思考题 2:

    摘要信息:
    增加 summary.bin 和 summary_offset.bin。在抽取网页文本信息后,取出前 80-160 个字作为摘要,写入到 summary.bin,并将偏移位置写入到 summary_offset.bin。
    summary.bin 格式:
    doc_id \t summary_size \t summary \r\n\r\n
    summary_offset.bin 格式:
    doc_id \t offset \r\n
    Google 搜索结果中显示的摘要是搜索词附近的文本。如果要实现这种效果,可以保存全部网页文本,构建搜索结果时,在网页文本中查找搜索词位置,截取搜索词附近文本。

    网页快照:
    可以把 doc_raw.bin 当作快照,增加 doc_raw_offset.bin 记录 doc_id 在 doc_raw.bin 中的偏移位置。
    doc_raw_offset.bin 格式:
    doc_id \t offset \r\n
    2019-01-28
    40
  • 天凉好个秋
    倒排索引中记录了每个单词以及包含它的网页列表,想问一下“倒排索引”这个名字是怎么来的?其中的“倒排”体现在哪里呢?

    作者回复: 正排-》文档包含哪些单词
    倒排-》单词被哪些文档包含

    2019-01-28
    28
  • feifei
    感谢争哥的分享,我按照你这个思路,使用java语言,将这个搜索引擎的代码实现了出来,现在我也分享给大家,希望对那些希望实现搜索引擎,遇到了问题,却又不知道如何解决的童鞋,有所帮助,我的github地址: https://github.com/kkzfl22/searchEngine.git
    2019-07-15
    15
  • 纯洁的憎恶
    搜集:将广度优先搜索的优先队列存储在磁盘文件links.bin(如何解析网页内的链接?),有布隆过滤器判重并定期写入磁盘文件bloom_filter.bin,将访问到的原始网页数据存入磁盘文件doc_raw.bin,计数分配网页编号并与其链接对应关系存入磁盘文件doc_id.bin。

    分析:首先抽取网页文本信息,依据HTML语法规范,通过AC自动机多模式串匹配算法,去除网页中格式化部分,提取文本内容。然后分词并创建临时索引,分词的目的是找到能够标识网页文本“身份”的特征,可借助词库(通过Trie树实现)搜索文本中与词库匹配的最长词语,因为一般情况下越长信息越多,越剧有表征能力(为什么英文简单?)。分词完成后得到一组用于表征网页的单词列表,与其对应的网页编号存入磁盘文件tmp_index.bin作为临时索引,为节省空间单词是以单词编号的形式写入,单词文本与编号的对应关系写入磁盘文本term_id.bin。

    索引:通过临时索引构建倒排索引文件index.bin。倒排索引其实是以单词为主键,将临时索引中的多个相同单词行合并为一行。通过以单词为主键的排序算法,可以将相同单词的行连续排列在一起,之后只要将单词相同的连续行合并为一行即可。由于数据量大,应采用分治策略。最后建立所有单词在倒排索引文件中位置的索引文件term_offset.bin,以方便快速查找。

    查询:先对搜索条件文本做分词处理,然后去term_id.bin查单词们的编号,再查term_offset.bin找到单词们在倒排索引中的位置,到index.bin找到每个单词对应的网页编号,通过网页出现次数、预评权重和统计算法(如pagerank、tf-idf)计算网页的优先次序并输出。最后在doc_in.bin中找到网页链接按序输出显示给用户。

    这样理解对不?

    作者回复: 赞

    2019-01-28
    9
  • Jerry银银
    经过深入研究了一把,第一题终于有了比较清晰的答案:
    从时间复杂度这个维度来考虑,BFS和DFS爬取互联网上所有的内容所需的时间是一样的。但是,我们设计爬虫系统的时候,不可能想着一次性爬完所有的网页,因为「量」太大了。所以,必须有一个优先级,不难想到:每一个网站的首页优先级最高,所以,我们肯定要先爬取每个网站的首页。从这一点出发,我们肯定要选取BFS。
    但是,这里还有另外一个问题:如果我们爬完一个网站的首页之后,再爬取另外一个网站的首页,每次和不同网站服务器都要建立网络连接(TCP三次握手、HTTPs网站还要建立SSL握手等)都要花费大量的时间。如果总是按照BFS的策略来爬取,这中间花费的时间成本又太大了。所以,我想,中间肯定也是需要用DFS的。
    我想到,可以使用一个优先级队列来维护需要爬取的网页。剩下的问题就是:该如何评估所需要爬取的网页的优先级呢? 这个问题想了很久,依然不知道该如何计算机网页的优先级,难道这里也用PageRank类似的算法?
    2019-01-30
    1
    8
  • Leon📷
    毕业设计就是做的搜索引擎,十万个本地文档构建的倒排索引,不过我的倒排索引直接用单词了,没有编号,用开源库分词,实现了tf-idf和文档之间相似度的计算,用动态规划来实现文本纠错,可以纠正用户的搜索框的错误输入,用到的数据结构不多,主要是哈希表和vector,用内存缓存查询结果,不知道算不算快照,哈,离老师讲的似乎只有分布式爬虫和临时索引的合并没有实现,
    https://github.com/chawlau/search_engine,其他人看了不要喷我
    2019-08-27
    5
  • 『LHCY』
    作者讲的基本和elasticsearch原理查不多,可见有了算法基础以后了解一些中间件原理会容易很多,我最开始看es原理时一脸懵逼。
    2019-01-28
    5
  • alic
    有没有代码实现的例子?

    作者回复: 木有。等我有空了可以写下分享出来。

    2019-01-28
    3
  • steve
    老师好 看了这篇之后我也想实现一个搜索引擎 现在很多公司里应该都用的cpp吧 我也想用cpp实现一个 请问下有没有可参考的代码 怕写到一半写不下去😂

    作者回复: 我写过一个5万行的搜索引擎,cpp实现的,还有对应的几十页的文档,等过一整子整理一下放到公号众里:小争哥

    2019-10-21
    2
  • 往事随风,顺其自然
    可以讲讲到排序索引和普通索引区别?

    作者回复: 啥事排序索引和普通索引呢?我文中好像没讲到呢

    2019-01-29
    2
  • ub8
    elasticsearch
    2019-08-02
    1
  • 醉比
    王老师,很惭愧在前一阵子落下了这门课程,平心而论您的课程真的是太优秀了,从我的角度来说真的极大地提升的见世面与知识基础。虽然停滞了很长一段时间没有学习,但我很相信这门课程是可以陪伴我很久然后学习两遍到三遍的,已经关注老师的公众号, 希望继续产出高质量的内容,祝好~
    2019-03-14
    1
  • miss
    问题1, 爬取网页时,如果采用深度优先算法,很有可能导致,栈溢出的现象把,所以一般不用深度优先算法
    2019-01-29
    1
  • 王肖武
    思考题1:深度优化借助栈这种数据结构,网页的深度是不可预测的,如果很深,栈大小会很大,内存可能会爆掉。
    2019-01-29
    1
  • 小美
    王老师,字典使用最长匹配?那例子中的”中国“”中国人“不就无法匹配到了吗

    作者回复: 在这个例子中是的。“中国人好样的”这个句子分词就可以匹配到“中国人”

    2019-01-28
    1
  • CHON
    ‘带宽是 10MB,那下载 100GB 的网页,大约需要 10000 秒’
    要是这样采集,十分钟之后就被封IP了。之前做爬虫都是采集一个页面休眠3-5秒,再采集下一个页面
    2019-12-02
  • teddytyy
    构建倒排索引可以直接用散列表吗?先把不同的数据按term_id散列到多台机器各自存放的散列表里,散列表以term_id的散列值为key,doc_id为值散列,重复元素以链表存储,这样一个term_id就对应一个doc_id的列表
    2019-10-25
  • 嘉一
    不得了,我要写搜索引擎了!
    2019-10-17
  • Billy
    这是我写的一个轻量级的搜索引擎,https://github.com/stdbilly/RssSearchEnigine
    2019-09-18
  • Lukia
    老师好,本文中好像没有看到ac自动机的应用

    作者回复: 哦哦哦 你的意思是搜索引擎会用到ac自动机是吧

    2019-09-01
收起评论
32
返回
顶部