数据结构与算法之美
王争
前Google工程师
立即订阅
71638 人已学习
课程目录
已完结 75 讲
0/4登录后,你可以任选4讲全文学习。
开篇词 (1讲)
开篇词 | 从今天起,跨过“数据结构与算法”这道坎
免费
入门篇 (4讲)
01 | 为什么要学习数据结构和算法?
02 | 如何抓住重点,系统高效地学习数据结构与算法?
03 | 复杂度分析(上):如何分析、统计算法的执行效率和资源消耗?
04 | 复杂度分析(下):浅析最好、最坏、平均、均摊时间复杂度
基础篇 (38讲)
05 | 数组:为什么很多编程语言中数组都从0开始编号?
06 | 链表(上):如何实现LRU缓存淘汰算法?
07 | 链表(下):如何轻松写出正确的链表代码?
08 | 栈:如何实现浏览器的前进和后退功能?
09 | 队列:队列在线程池等有限资源池中的应用
10 | 递归:如何用三行代码找到“最终推荐人”?
11 | 排序(上):为什么插入排序比冒泡排序更受欢迎?
12 | 排序(下):如何用快排思想在O(n)内查找第K大元素?
13 | 线性排序:如何根据年龄给100万用户数据排序?
14 | 排序优化:如何实现一个通用的、高性能的排序函数?
15 | 二分查找(上):如何用最省内存的方式实现快速查找功能?
16 | 二分查找(下):如何快速定位IP对应的省份地址?
17 | 跳表:为什么Redis一定要用跳表来实现有序集合?
18 | 散列表(上):Word文档中的单词拼写检查功能是如何实现的?
19 | 散列表(中):如何打造一个工业级水平的散列表?
20 | 散列表(下):为什么散列表和链表经常会一起使用?
21 | 哈希算法(上):如何防止数据库中的用户信息被脱库?
22 | 哈希算法(下):哈希算法在分布式系统中有哪些应用?
23 | 二叉树基础(上):什么样的二叉树适合用数组来存储?
24 | 二叉树基础(下):有了如此高效的散列表,为什么还需要二叉树?
25 | 红黑树(上):为什么工程中都用红黑树这种二叉树?
26 | 红黑树(下):掌握这些技巧,你也可以实现一个红黑树
27 | 递归树:如何借助树来求解递归算法的时间复杂度?
28 | 堆和堆排序:为什么说堆排序没有快速排序快?
29 | 堆的应用:如何快速获取到Top 10最热门的搜索关键词?
30 | 图的表示:如何存储微博、微信等社交网络中的好友关系?
31 | 深度和广度优先搜索:如何找出社交网络中的三度好友关系?
32 | 字符串匹配基础(上):如何借助哈希算法实现高效字符串匹配?
33 | 字符串匹配基础(中):如何实现文本编辑器中的查找功能?
34 | 字符串匹配基础(下):如何借助BM算法轻松理解KMP算法?
35 | Trie树:如何实现搜索引擎的搜索关键词提示功能?
36 | AC自动机:如何用多模式串匹配实现敏感词过滤功能?
37 | 贪心算法:如何用贪心算法实现Huffman压缩编码?
38 | 分治算法:谈一谈大规模计算框架MapReduce中的分治思想
39 | 回溯算法:从电影《蝴蝶效应》中学习回溯算法的核心思想
40 | 初识动态规划:如何巧妙解决“双十一”购物时的凑单问题?
41 | 动态规划理论:一篇文章带你彻底搞懂最优子结构、无后效性和重复子问题
42 | 动态规划实战:如何实现搜索引擎中的拼写纠错功能?
高级篇 (9讲)
43 | 拓扑排序:如何确定代码源文件的编译依赖关系?
44 | 最短路径:地图软件是如何计算出最优出行路径的?
45 | 位图:如何实现网页爬虫中的URL去重功能?
46 | 概率统计:如何利用朴素贝叶斯算法过滤垃圾短信?
47 | 向量空间:如何实现一个简单的音乐推荐系统?
48 | B+树:MySQL数据库索引是如何实现的?
49 | 搜索:如何用A*搜索算法实现游戏中的寻路功能?
50 | 索引:如何在海量数据中快速查找某个数据?
51 | 并行算法:如何利用并行处理提高算法的执行效率?
实战篇 (5讲)
52 | 算法实战(一):剖析Redis常用数据类型对应的数据结构
53 | 算法实战(二):剖析搜索引擎背后的经典数据结构和算法
54 | 算法实战(三):剖析高性能队列Disruptor背后的数据结构和算法
55 | 算法实战(四):剖析微服务接口鉴权限流背后的数据结构和算法
56 | 算法实战(五):如何用学过的数据结构和算法实现一个短网址系统?
加餐:不定期福利 (6讲)
不定期福利第一期 | 数据结构与算法学习书单
不定期福利第二期 | 王争:羁绊前行的,不是肆虐的狂风,而是内心的迷茫
不定期福利第三期 | 测一测你的算法阶段学习成果
不定期福利第四期 | 刘超:我是怎么学习《数据结构与算法之美》的?
总结课 | 在实际开发中,如何权衡选择使用哪种数据结构和算法?
《数据结构与算法之美》学习指导手册
加餐:春节7天练 (7讲)
春节7天练 | Day 1:数组和链表
春节7天练 | Day 2:栈、队列和递归
春节7天练 | Day 3:排序和二分查找
春节7天练 | Day 4:散列表和字符串
春节7天练 | Day 5:二叉树和堆
春节7天练 | Day 6:图
春节7天练 | Day 7:贪心、分治、回溯和动态规划
加餐:用户学习故事 (2讲)
用户故事 | Jerry银银:这一年我的脑海里只有算法
用户故事 | zixuan:站在思维的高处,才有足够的视野和能力欣赏“美”
结束语 (3讲)
结束语 | 送君千里,终须一别
第2季回归 | 这一次,我们一起拿下设计模式!
打卡召集令 | 60 天攻克数据结构与算法
免费
数据结构与算法之美
登录|注册

45 | 位图:如何实现网页爬虫中的URL去重功能?

王争 2019-01-09
网页爬虫是搜索引擎中的非常重要的系统,负责爬取几十亿、上百亿的网页。爬虫的工作原理是,通过解析已经爬取页面中的网页链接,然后再爬取这些链接对应的网页。而同一个网页链接有可能被包含在多个页面中,这就会导致爬虫在爬取的过程中,重复爬取相同的网页。如果你是一名负责爬虫的工程师,你会如何避免这些重复的爬取呢?
最容易想到的方法就是,我们记录已经爬取的网页链接(也就是 URL),在爬取一个新的网页之前,我们拿它的链接,在已经爬取的网页链接列表中搜索。如果存在,那就说明这个网页已经被爬取过了;如果不存在,那就说明这个网页还没有被爬取过,可以继续去爬取。等爬取到这个网页之后,我们将这个网页的链接添加到已经爬取的网页链接列表了。
思路非常简单,我想你应该很容易就能想到。不过,我们该如何记录已经爬取的网页链接呢?需要用什么样的数据结构呢?

算法解析

关于这个问题,我们可以先回想下,是否可以用我们之前学过的数据结构来解决呢?
这个问题要处理的对象是网页链接,也就是 URL,需要支持的操作有两个,添加一个 URL 和查询一个 URL。除了这两个功能性的要求之外,在非功能性方面,我们还要求这两个操作的执行效率要尽可能高。除此之外,因为我们处理的是上亿的网页链接,内存消耗会非常大,所以在存储效率上,我们要尽可能地高效。
取消
完成
0/1000字
划线
笔记
复制
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
该试读文章来自付费专栏《数据结构与算法之美》,如需阅读全部文章,
请订阅文章所属专栏。
立即订阅
登录 后留言

精选留言(57)

  • DreamYe
    bloom filter: False is always false. True is maybe true.
    2019-01-09
    87
  • 五岳寻仙
    课后思考题1

    传统的做法:1亿个整数,存储需要400M空间,排序时间复杂度最优 N×log(N)

    使用位图算法:数字范围是1到10亿,用位图存储125M就够了,然后将1亿个数字依次添加到位图中,然后再将位图按下标从小到大输出值为1的下标,排序就完成了,时间复杂度为 N
    2019-01-09
    6
    45
  • www.xnsms.com小鸟接码
    位图代码的实现一开始没看懂,请教了下身边一位大神同事才搞懂,原来char类型存储数字的时候,只占1个字节,也就是8位。所以计算的时候都是除8或者模8。希望我的回答可以帮助其他跟我一样基础薄弱的同学,共同进步
    2019-01-09
    1
    27
  • 越过山丘
    第一题,数字重复了,有什么好方法处理吗

    作者回复: 对于重复的 可以再维护一个小的散列表 记录出现次数超过1次的数据以及对应的个数

    2019-01-10
    2
    17
  • ban
    这个char代码最好还是用图解比较好理解,纯代码看不懂。
    我这里有另外一个位的图解计算过程,再去看代码,你就会秒懂
    https://mp.weixin.qq.com/s/xxauNrJY9HlVNvLrL5j2hg
    2019-01-11
    15
  • 传说中的成大大
    1亿个整数 如果完全读入内存大约是0.4G的样子 可以直接快排排序
    通过位图方式开辟一个十亿大小的位图缩小到0.125g的样子,虽然数字只有一亿个,但是我们却要检查1到10亿之间的数字是否存在再输出即可达到排序
    2019-01-09
    6
  • 司霖
    将数字 A 的第 k 位设置为1:A = A | (1 << (k - 1))
    将数字 A 的第 k 位设置为0:A = A & ~(1 << (k - 1))
    检测数字 A 的第 k 位:A & (1 << (k - 1)) != 0
    用于理解bitmap中代码
    2019-03-12
    4
  • 猫头鹰爱拿铁
    思考题1的java实现。
    import java.util.Random;

    public class BitMap {
    private int[] bits;
    private int[] input;

    public BitMap(int n, int[] input) {
    bits = new int[n];
    this.input = input;
    }

    public void setBit(int n) {
    int offset = n / 32;
    int value = n % 32;
    bits[offset] |= (1 << value);
    }

    public boolean getBit(int n) {
    int offset = n / 32;
    int value = n % 32;
    return (bits[offset] & (1 << value)) != 0;
    }

    /**
    * 排序
    *
    * @param n
    * 是数组的存储整数范围
    * @param input
    * 输入的未排序数组
    * @return 有序的数组范围
    */
    public int sort(int n, int[] input) {
    int j = 0;
    for (int i = 1; i <= 10 * n; i++) {
    if (getBit(i)) {
    input[j++] = i;
    }
    }
    return j;
    }

    public static void main(String[] args) {
    int n = 1000000000;
    int[] input = new int[n];
    Random r = new Random();
    for (int i = 0; i < n; i++) {
    input[i] = r.nextInt(10 * n - 1) + 1;
    }
    BitMap bitMap = new BitMap(10 * n, input);
    for (int i = 0; i < n; i++) {
    bitMap.setBit(input[i]);
    }
    int size = bitMap.sort(n, input);
    for (int i = 0; i < size; i++)
    System.out.print(input[i] + ",");
    }
    }
    2019-01-09
    4
  • Kudo
    直观上感觉位图有点像学排序时桶的概念,所以使用位图也可以实现类似于桶排序的效率。
    2019-01-09
    4
  • Sharry
    这个位图很精妙,因为编程语言没有提供bit类型,所以使用byte进行位运算的方式,巧妙的利用每一位,以达到减少内存开辟的消耗的问题
    2019-01-09
    4
  • Flash
    争哥,我想到了通过hash算法将String转换为int类型数据,然后再将int数据位运算存储到位图上,可是这个hash算法,也可能会出现散列冲突啊,不同的String有可能是同一个int,然后反应到位图上就是相同的bit位了。
    2019-03-29
    3
  • Costar
    有个问题怎么解决的?Bloom filter删除数据时,不能把bit位置0

    作者回复: 一般不用来删除,如果非要支持删除,可以再弄个数据结构记录删除的数据。

    2019-07-02
    2
  • 李斌
    我们在信息流推荐系统中用 bloom filter 过滤推荐历史,在工程上使用 RedisLibs 的 ReBloom
    2019-06-05
    2
  • 公号-代码荣耀
    在线上环境,我们采用redis的set进行去重,效果还是不错的
    2019-01-12
    1
    2
  • 煦暖
    争哥,位图的代码理解了好久还没懂(;′⌒`),能加几行注释吗??

    作者回复: 好的 我去补充下

    2019-01-11
    2
  • 阮雅
    王争哥,您好。你画这个图,用的啥软件画的啊? 比普通的黑白图更容易理解。望求解!感激不尽!

    作者回复: ipad paper

    2019-01-09
    2
  • www.xnsms.com小鸟接码
    思考题1:用10亿个位的位图存储这1亿个数,然后直接按脚标从0到10亿顺序遍历整个位图,如果位为1,则打印脚标,打印出来的就是排好序的1亿个数字

    思考题2:用位图的话。一个机器应该就够了
    2019-01-09
    2
  • marvinle
    老师,按照你的讲解我写了一个简单的布隆过滤器, 使用了3个简单的哈希函数,判错率在0.9左右
    不知道是否是属于偏高了,这是代码,可以的话帮忙看看是否正确https://github.com/MarvinLe/tools/tree/master/BloomFilter

    作者回复: 判错旅太高了 哈希函数不够随机均匀?位图不够大?

    2019-01-09
    2
  • 雍鹏亮
    思考题1和桶排序一样吧,把对应的的桐位置1,然后依次读取
    2019-01-22
    1
  • NeverMore
    对布隆过滤器的理解更深了。
    2019-01-11
    1
收起评论
57
返回
顶部