数据结构与算法之美
王争
前Google工程师
立即订阅
71638 人已学习
课程目录
已完结 75 讲
0/4登录后,你可以任选4讲全文学习。
开篇词 (1讲)
开篇词 | 从今天起,跨过“数据结构与算法”这道坎
免费
入门篇 (4讲)
01 | 为什么要学习数据结构和算法?
02 | 如何抓住重点,系统高效地学习数据结构与算法?
03 | 复杂度分析(上):如何分析、统计算法的执行效率和资源消耗?
04 | 复杂度分析(下):浅析最好、最坏、平均、均摊时间复杂度
基础篇 (38讲)
05 | 数组:为什么很多编程语言中数组都从0开始编号?
06 | 链表(上):如何实现LRU缓存淘汰算法?
07 | 链表(下):如何轻松写出正确的链表代码?
08 | 栈:如何实现浏览器的前进和后退功能?
09 | 队列:队列在线程池等有限资源池中的应用
10 | 递归:如何用三行代码找到“最终推荐人”?
11 | 排序(上):为什么插入排序比冒泡排序更受欢迎?
12 | 排序(下):如何用快排思想在O(n)内查找第K大元素?
13 | 线性排序:如何根据年龄给100万用户数据排序?
14 | 排序优化:如何实现一个通用的、高性能的排序函数?
15 | 二分查找(上):如何用最省内存的方式实现快速查找功能?
16 | 二分查找(下):如何快速定位IP对应的省份地址?
17 | 跳表:为什么Redis一定要用跳表来实现有序集合?
18 | 散列表(上):Word文档中的单词拼写检查功能是如何实现的?
19 | 散列表(中):如何打造一个工业级水平的散列表?
20 | 散列表(下):为什么散列表和链表经常会一起使用?
21 | 哈希算法(上):如何防止数据库中的用户信息被脱库?
22 | 哈希算法(下):哈希算法在分布式系统中有哪些应用?
23 | 二叉树基础(上):什么样的二叉树适合用数组来存储?
24 | 二叉树基础(下):有了如此高效的散列表,为什么还需要二叉树?
25 | 红黑树(上):为什么工程中都用红黑树这种二叉树?
26 | 红黑树(下):掌握这些技巧,你也可以实现一个红黑树
27 | 递归树:如何借助树来求解递归算法的时间复杂度?
28 | 堆和堆排序:为什么说堆排序没有快速排序快?
29 | 堆的应用:如何快速获取到Top 10最热门的搜索关键词?
30 | 图的表示:如何存储微博、微信等社交网络中的好友关系?
31 | 深度和广度优先搜索:如何找出社交网络中的三度好友关系?
32 | 字符串匹配基础(上):如何借助哈希算法实现高效字符串匹配?
33 | 字符串匹配基础(中):如何实现文本编辑器中的查找功能?
34 | 字符串匹配基础(下):如何借助BM算法轻松理解KMP算法?
35 | Trie树:如何实现搜索引擎的搜索关键词提示功能?
36 | AC自动机:如何用多模式串匹配实现敏感词过滤功能?
37 | 贪心算法:如何用贪心算法实现Huffman压缩编码?
38 | 分治算法:谈一谈大规模计算框架MapReduce中的分治思想
39 | 回溯算法:从电影《蝴蝶效应》中学习回溯算法的核心思想
40 | 初识动态规划:如何巧妙解决“双十一”购物时的凑单问题?
41 | 动态规划理论:一篇文章带你彻底搞懂最优子结构、无后效性和重复子问题
42 | 动态规划实战:如何实现搜索引擎中的拼写纠错功能?
高级篇 (9讲)
43 | 拓扑排序:如何确定代码源文件的编译依赖关系?
44 | 最短路径:地图软件是如何计算出最优出行路径的?
45 | 位图:如何实现网页爬虫中的URL去重功能?
46 | 概率统计:如何利用朴素贝叶斯算法过滤垃圾短信?
47 | 向量空间:如何实现一个简单的音乐推荐系统?
48 | B+树:MySQL数据库索引是如何实现的?
49 | 搜索:如何用A*搜索算法实现游戏中的寻路功能?
50 | 索引:如何在海量数据中快速查找某个数据?
51 | 并行算法:如何利用并行处理提高算法的执行效率?
实战篇 (5讲)
52 | 算法实战(一):剖析Redis常用数据类型对应的数据结构
53 | 算法实战(二):剖析搜索引擎背后的经典数据结构和算法
54 | 算法实战(三):剖析高性能队列Disruptor背后的数据结构和算法
55 | 算法实战(四):剖析微服务接口鉴权限流背后的数据结构和算法
56 | 算法实战(五):如何用学过的数据结构和算法实现一个短网址系统?
加餐:不定期福利 (6讲)
不定期福利第一期 | 数据结构与算法学习书单
不定期福利第二期 | 王争:羁绊前行的,不是肆虐的狂风,而是内心的迷茫
不定期福利第三期 | 测一测你的算法阶段学习成果
不定期福利第四期 | 刘超:我是怎么学习《数据结构与算法之美》的?
总结课 | 在实际开发中,如何权衡选择使用哪种数据结构和算法?
《数据结构与算法之美》学习指导手册
加餐:春节7天练 (7讲)
春节7天练 | Day 1:数组和链表
春节7天练 | Day 2:栈、队列和递归
春节7天练 | Day 3:排序和二分查找
春节7天练 | Day 4:散列表和字符串
春节7天练 | Day 5:二叉树和堆
春节7天练 | Day 6:图
春节7天练 | Day 7:贪心、分治、回溯和动态规划
加餐:用户学习故事 (2讲)
用户故事 | Jerry银银:这一年我的脑海里只有算法
用户故事 | zixuan:站在思维的高处,才有足够的视野和能力欣赏“美”
结束语 (3讲)
结束语 | 送君千里,终须一别
第2季回归 | 这一次,我们一起拿下设计模式!
打卡召集令 | 60 天攻克数据结构与算法
免费
数据结构与算法之美
登录|注册

29 | 堆的应用:如何快速获取到Top 10最热门的搜索关键词?

王争 2018-11-28
搜索引擎的热门搜索排行榜功能你用过吗?你知道这个功能是如何实现的吗?实际上,它的实现并不复杂。搜索引擎每天会接收大量的用户搜索请求,它会把这些用户输入的搜索关键词记录下来,然后再离线地统计分析,得到最热门的 Top 10 搜索关键词。
那请你思考下,假设现在我们有一个包含 10 亿个搜索关键词的日志文件,如何能快速获取到热门榜 Top 10 的搜索关键词呢?
这个问题就可以用堆来解决,这也是堆这种数据结构一个非常典型的应用。上一节我们讲了堆和堆排序的一些理论知识,今天我们就来讲一讲,堆这种数据结构几个非常重要的应用:优先级队列、求 Top K 和求中位数。

堆的应用一:优先级队列

首先,我们来看第一个应用场景:优先级队列。
优先级队列,顾名思义,它首先应该是一个队列。我们前面讲过,队列最大的特性就是先进先出。不过,在优先级队列中,数据的出队顺序不是先进先出,而是按照优先级来,优先级最高的,最先出队。
如何实现一个优先级队列呢?方法有很多,但是用堆来实现是最直接、最高效的。这是因为,堆和优先级队列非常相似。一个堆就可以看作一个优先级队列。很多时候,它们只是概念上的区分而已。往优先级队列中插入一个元素,就相当于往堆中插入一个元素;从优先级队列中取出优先级最高的元素,就相当于取出堆顶元素。
取消
完成
0/1000字
划线
笔记
复制
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
该试读文章来自付费专栏《数据结构与算法之美》,如需阅读全部文章,
请订阅文章所属专栏。
立即订阅
登录 后留言

精选留言(134)

  • feifei
    有一个访问量非常大的新闻网站,我们希望将点击量排名 Top 10 的新闻摘要,滚动显示在网站首页 banner 上,并且每隔 1 小时更新一次。如果你是负责开发这个功能的工程师,你会如何来实现呢?

    我的思路是这样子,
    1,对每篇新闻摘要计算一个hashcode,并建立摘要与hashcode的关联关系,使用map存储,以hashCode为key,新闻摘要为值
    2,按每小时一个文件的方式记录下被点击的摘要的hashCode
    3,当一个小时结果后,上一个小时的文件被关闭,开始计算上一个小时的点击top10
    4,将hashcode分片到多个文件中,通过对hashCode取模运算,即可将相同的hashCode分片到相同的文件中
    5,针对每个文件取top10的hashCode,使用Map<hashCode,int>的方式,统计出所有的摘要点击次数,然后再使用小顶堆(大小为10)计算top10,
    6,再针对所有分片计算一个总的top10,最后合并的逻辑也是使用小顶堆,计算top10
    7,如果仅展示前一个小时的top10,计算结束
    8,如果需要展示全天,需要与上一次的计算按hashCode进行合并,然后在这合并的数据中取top10
    9,在展示时,将计算得到的top10的hashcode,转化为新闻摘要显示即可

    老师,你讲的这些例子,我觉得对我的工作和学习很有帮助,于是我花了一个周末将这一章节,将你所讲的堆的应用示例,全部翻译成了代码,并做了相关的验证,感觉自己收获很多,我也将这块代码上传了github,欢迎老师你的指正,需要的同学,也可以一起交流,

    1,合并有序小文件
    https://github.com/kkzfl22/datastruct/tree/master/src/main/java/com/liujun/datastruct/heap/solution/margeSmailFile
    2,高性能定时器的应用
    https://github.com/kkzfl22/datastruct/tree/master/src/main/java/com/liujun/datastruct/heap/solution/highTimeSchedule
    3,求topk
    https://github.com/kkzfl22/datastruct/tree/master/src/main/java/com/liujun/datastruct/heap/solution/topK
    4,求中位数
    https://github.com/kkzfl22/datastruct/tree/master/src/main/java/com/liujun/datastruct/heap/solution/midnum
    5 ,大文件的关键字的统计
    https://github.com/kkzfl22/datastruct/tree/master/src/main/java/com/liujun/datastruct/heap/solution/bigFileTopN

    2018-12-02
    8
    364
  • Miletos
    “如果新加入的数据小于等于大顶堆的堆顶元素,我们就将这个新数据插入到大顶堆;如果新加入的数据大于等于小顶堆的堆顶元素,我们就将这个新数据插入到小顶堆。”

    1. 这里不太对劲,前文中说到,小顶堆的堆顶大于大顶堆的堆顶。

    如果新进元素在小顶堆堆顶和大顶堆堆顶元素值之间,没有规定插入哪个堆。

    我觉得,是不是只要判断一次就可以了。新进元素值大于等于小顶堆堆顶元素的,插入小顶堆,否则插入大顶堆。
    当某一个堆数据过多时再重新移动堆顶元素。

    2. 求中位数的源数据中,是否允许重复数据?

    作者回复: 1 你说的对 我改下 多谢指正
    2 可以重复

    2018-11-28
    2
    57
  • 蔷薇骑士
    定时任务这个例子感觉有问题吧,定时任务是动态加入的,假设当前堆顶的任务是一个小时后的,难道这一个小时都不做扫描吗,随时可能会加入需要更早执行的任务
    2018-12-14
    8
    48
  • 守着云开
    10亿关键词分片之后 每个文件并不一定有1亿的关键词吧 老师
    2018-11-28
    3
    33
  • oatlmy
    老师,请问为什么评价算法性能是根据时间和空间复杂度,而不是别的参数?是因为计算机结构是冯诺依曼体系,除了输入输出设备和控制器,就剩下运算器和存储器了吗?

    作者回复: 你理解的没错

    2018-11-28
    24
  • 想当上帝的司机
    堆求topK的静态数据 应该是先把堆填满 再拿数组中的元素跟堆顶比较吧
    2018-12-23
    2
    20
  • 辉哥
    思考题:1,维护两个散列表,一个是一小时新增的点击量的散列表,以新闻id为键,点击次数为值。一个是全部点击量的散列表。每隔一小时把新增的散列表的数据同步到全部点击量的散列表。然后把这小时内有变化的全部点击量的散列表的数据(即此小时有新增点击量的新闻数据)和我们维护的10个元素小顶堆堆顶进行比较,比堆顶的点击量大的,则使用该元素替换堆顶,再进行堆化。比堆顶点击量小的则不做处理。然后比较完,根据堆顶的10个元素的id,从数据库读取相应的新闻摘要显示在banner上。除此之外,还要把变化后的全部点击量散列表同步到数据库。因为保存的是新闻id,所以散列表长度不会很大,所占用的内存也不会很大。而每个小时新增的访问量的新闻id数也不会很多,毕竟很多人只会阅读热门消息。所以新增的点击量的新闻数据假设为k,则每小时同步小顶堆的时间负责度为o(klg 10);
    2018-12-02
    16
  • 豪华
    老师,分片求取前十是不是有bug,如果有一个关键词在每一组分片中都是前第十一位,在整个十亿中个数总和是第一位,是不是用分片求出了错误的结果呢?

    作者回复: 不会的 相同的关键词经过哈希之后只会到一台机器

    2018-11-28
    16
  • Aaaaaaaaaaayou
    topK 是不是应该先要填满堆,后面插入的时候再做删除操作

    作者回复: 是的。

    2019-02-20
    1
    12
  • ZX
    看了这一章,发现堆删除任意元素这个方法毫无意义啊。只有删除堆顶元素才有意义

    作者回复: 是的啊 没有说过删除任意元素呢

    2018-12-02
    8
  • ALAN
    1:建一个散射列表,key为点击网址,value为点击次数。散射列表通过从log中计算得来。
    2:建一个10个数据的小顶堆,数据值为点击次数,扫描散射列表,新元素次数比堆顶元素大则删除堆顶元素,插入新元素,小则继续扫描散射列表。
    3:扫描完整个散射列表后,即得到top 10点击量,将点击网址存储在数组A中。数组A一个小时更新一次。
    4:散射列表实时更新,小顶堆也实时更新,以一小时为间隔,将小顶堆结果更新到数组A中。
    2018-11-28
    8
  • happiness_xcy
    方案前提,所有数据都保存在一台服务器的内存中,不考虑HA、数据更新冲突等情况。我们假设每条新闻都有一个全局唯一的新闻ID,使用hashmap(map_a)来保存每篇新闻的访问量,key为新闻ID,value为当前访问总次数。使用另一个hashmap(map_b)来保存一个周期内map_a中value值发生变化的key。

    整个方案分为三个阶段,堆的初始化、hashmap实时变更、堆更新。
    初始化阶段:建立一个大小为10的小顶堆,遍历此时的hashmap,完成堆的初始化。
    hashmap实时变更阶段:保存在当前周期内,将map_a中value产生变化的key到map_b中。
    堆更新阶段:在一个周期结束后,遍历map_b,并将map_a中保存的value与当前堆顶进行比较,如果大于堆顶,则删除堆顶,并插入该value,如果小于堆顶则不做处理。遍历完map_b之后,该堆保有了上个周期访问量top10的新闻id和value。最后清空map_b,为下一个周期作准备。最坏时间复杂度为O(nlog10),其中n为map_b中key的数量。
    2018-12-22
    6
  • CathyLin
    还在继续赶大部队 LOL 但是不会放弃的!加油!
    边做 Leetcode 边学习老师的课程有了更深刻的理解!
    老师说的利用堆求 Top K 的应用对应于 Leetcode 973,大家有兴趣的可以去试一下!
    2019-07-14
    5
  • 小新是也
    如果我要1%到99%响应时间,这样建的堆就有点多了

    作者回复: 这需求...具体问题具体分析吧

    2018-12-09
    5
  • 竹林清风
    思考题:
    1、实时建立散列表,key是新闻的摘要,value是点击量;
    2、建立一个10的小顶堆,每隔一个小时扫描一次散列表,根据点击量大小放入到小顶堆中,扫描完散列表后即出现Top10 的新闻点击量。
    2018-12-05
    4
  • Jerry银银
    早起的鸟儿读算法。


    原理上跟统计热门搜索关键词类似。后台起一个定时任务,从最新被新点击的新闻日志文件中统计出每条新闻的点击量(也得类似于老师那样使用散列表),然后建立和维护内存中大小为10的最大堆,这样网站点击次数Top10的新闻就被统计出来了。

    这题也可以使用MapReduce算法
    2018-11-28
    1
    4
  • 小花小黑的铲屎官
    我们遍历这 10 亿个关键词,并且通过某个哈希算法对其求哈希值,然后哈希值同 10 取模,得到的结果就是这个搜索关键词应该被分到的文件编号。
    这样并不能保证每个文件都是一亿条数据吧?可能多也可能少吧?

    作者回复: 是的 你说的没错

    2018-12-14
    3
  • 小美
    王老师 第一点合并有序小文件 为什么要用到优先级队列 和 堆还是不理解。两个比最小取出合并,只要两个数组是有序就可以了,快排成有序,从小到大比较合并,不可以吗,为什么要用到优先级队列,方便老师解答下吗

    作者回复: 没太看懂你说的 用优先级是为了效率

    2018-11-28
    2
    3
  • AF
    Hadoop、Spark入门demo——wordcount了解下
    2018-11-28
    3
  • Jerry银银
    早起的鸟儿读算法。

    文章中『解答开篇』部分,说是扫描1亿个热门关键词,这应该是错别字吧,应该是10亿个吧。看了好几遍,我应该没理解错吧😄

    老师说使用散列表统计10亿个搜索关键词的频率,但是这里的约束条件是10亿个关键词中确实有很多重复,而且去重之后的数据,内存中是能够放得下的。如果单机内存放不下,应该就不能这么做了

    ---------------------------------------------------------

    以上是我早上本来要留言的,但是并没有一字不漏的看完文章。我回头一想不对,文章中肯定会考虑到这个情况。当我看完,我就把以上留言删了。

    唉,阅读时,犯了一个低级错误,记录在此,提醒自己

    作者回复: 是我写错了 不好意思 马上修改

    2018-11-28
    3
收起评论
99+
返回
顶部