35 | 答疑解惑（三）：主流消息队列都是如何存储消息的？

李玥



该思维导图由 AI 生成，仅供参考

你好，我是李玥。
在我们一起做了两个实践案例以后，相信你或多或少都会有一些收获。在学习和练习这两个实践案例中，我希望你收获的不仅仅是流计算和 RPC 框架的设计实现原理，还能学会并掌握在实现这些代码过程中，我们用到的很多设计模式和编码技巧，以及代码背后无处不在的“松耦合”、“拥抱变化”这些设计思想。最重要的是，把这些学到的东西能最终用在你编写的代码中，才是真正的收获。
照例，在每一模块的最后一节课，我们安排热点问题答疑，解答同学们关注比较多的一些问题。
1. 主流消息队列都是如何存储消息的？我在之前的课程中提到过，现代的消息队列它本质上是一个分布式的存储系统。那决定一个存储系统的性能好坏，最主要的因素是什么？就是它的存储结构。
很多大厂在面试的时候，特别喜欢问各种二叉树、红黑树和哈希表这些你感觉平时都用不到的知识，原因是什么？其实，无论是我们开发的应用程序，还是一些开源的数据库系统，在数据量达到一个量级之上的时候，决定你系统整体性能的往往就是，你用什么样的数据结构来存储这些数据。而大部分数据库，它最基础的存储结构不是树就是哈希表。
即使你不去开发一个数据库，在设计一个超大规模的数据存储的时候，你也需要掌握各种数据库的存储结构，才能选择一个适合你的业务数据的数据库产品。所以，掌握这些最基础的数据结构相关的知识，是很有必要的，不仅仅是为了应付面试。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

本文介绍了主流消息队列的存储方式及其对系统性能的重要性。首先分析了Kafka和RocketMQ两种主流消息队列的存储设计差异，突出它们在不同场景下的优势和劣势。另外，文章还介绍了流计算和批计算的区别，以及它们的应用场景。最后指出，大部分针对海量数据的统计分析任务，采用的是批计算方式。通过本文，读者能够快速了解主流消息队列的存储方式及其特点，以及流计算和批计算的区别和适用场景。文章内容丰富，涵盖了技术实践和理论知识，对技术人员和对消息队列存储和计算方式感兴趣的读者具有一定的参考价值。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《消息队列高手课》，新⼈⾸单¥59

立即购买

登录后留言

全部留言(11)

最新
精选

Dovelol
老师想问下，kafka的消息存储，offset是从0往上涨，有没有最大值，如果溢出了kafka是怎么处理呢？
作者回复: 这个最大值时Long.MAX_VALUE，你可以查一下这个值具体有多大，我估计没有人能活到这个值溢出吧？
2019-11-14
3
11
Dovelol
老师好，想请教下关于RocketMQ，消息存储时是用的mappedByteBuffer将commitLog文件全部映射到内存中，那么commitLog文件如果有1G的话，映射的mappedByteBuffer对象也会在内存中占用1G大小吗？能详细讲一下是怎么映射的吗？
作者回复: 不会，这个地方就是我讲到过的PageCache。这个地方是由操作系统来控制的，简单的说，当你创建一个1GB的mappedByteBuffer的时候，其实操作系统一点儿内存都没有给你申请，只是记录了一个映射关系，然后给你了一段虚拟的内存地址。当你访问到这个mappedByteBuffer中的某个页（一小段内存，一般是4K大小），如果这个页不存在，会引发缺页中断，操作系统才会把这个页从磁盘上加载到内存中。
2019-11-18

10
史双龙
玥哥，已经完结了，在重新撸一遍希望有更大的收获。
作者回复: 记得来请我吃饭哈。
2019-10-16
2
8
A9
RocketMQ以Broker为单位，较粗的力度牺牲了灵活性，带来的好处是在写入的时候，同时写入的文件更少，有更好的批量（不同主题和分区的数据可以组成一批一起写入），更多的顺序写入，尤其是在Broker上有很多主题和分区的情况下，有更好的写入性能 ----------------------------------------- 老师，关于RocketMQ的Broker单文件写入CommitLog的问题，感觉上按照partition来写入的Kafka不是能有更高的并发写入吗，为什么写单个文件的RocketMQ会有更好的写入性能？
作者回复: 这个是磁盘的特性决定的，磁盘的连续顺序写的性能要远远好于并发写。
2019-10-16
2
5
jack
老师，关于RocketMQ以broker为单位进行存储，那么读取的时候，每个主题岂不是得去不同的文件中分别读取批量消息，读取性能上是不是不如kafka呢？
作者回复: 从存储结构上来说，确实是这样的。
2019-10-15
2
4
humor
DriverManager是怎么知道加载哪个JDBC驱动的呢？代码里并没有把驱动的类名传过去呀
作者回复: JDBC 4.0 已经支持SPI机制了，只要把驱动放在classpath里面就会自动加载的。
2019-10-16

1
第一装甲集群司令克莱斯特
流计算和批计算的解释真是精彩啊！实时计算和离线计算在不同的业务场景下，各有千秋。流计算时效性强，比较实时，能够在分析数据之后提供数据以便生成业务决策，但是需要容灾，批计算是秋后算账，但是保留了元数据和底根，更随时对快照数据发起不同维度的计算分析，但是时效性不是那么强。
2020-09-26

2
leslie
除了手动案例的实践部分：基本上算是全程跟完了，这个专栏是自己第一个全程基本完全一篇不拉的学习完的课程；感谢老师一路以来的辛勤付出和答惑。老师今天所提的算法问题其实后面自己在读老师贴出来的代码就意识到了自己的这个弱点，同样是由于意识到课程的算法这块需求，特意参加了算法训练营-现在是极客大学算法训练营第四期的学员，希望在第四期完课时自己这块的致命弱点能强化许多。虽然开学典礼和覃超老师沟通时说我要毕业有点难度，不过自己会努力的去学和练，相信只要付出了努力且跟着老师学习自己应当可以毕业；同样这几天的实践由于去北京参加开学典礼落下了，动手实践只能后面补上然后强化了。记得老师在开篇词留的话题是"留言区立个 Flag，写下你的学习计划或目标"：3个月左右的坚持跟下来我觉得我达到了自己的目标-算是不辜负自己的努力和老师的辛勤教诲，现在只是欠缺实践操作而已。感谢老师一路来的顿顿教诲和辛勤付出，希望将来还能看到老师的分享；谢谢。
2019-10-15
1
1
每天晒白牙
老师的专栏写的真好，特别深入，实战篇偷懒了没去操作，需要找时间写写这个rpc框架了，前面30多节都坚持了
2019-10-15

1
乐溪溪520
跟着老师的更新，把专栏学习了一遍。当然，一遍肯定是不能掌握所有的知识点的。需要两次或者三次的学习，才能把重要的知识转化成自己的知识。一个专栏的结束不是结束，而是新的开始。感谢老师的分享。
2019-10-15

1

收起评论