复习课（三）| Bigtable

黄金

你好，我是黄金。欢迎来到第三期复习课，今天我们来回顾复习下 Bigtable 这篇论文的知识点。
Bigtable 介绍在 Bigtable 论文中提到，当年 Google 的很多产品都使用 Bigtable 存储数据，包括 Web 索引、谷歌地球、谷歌金融。不管是完成批处理，还是实时数据服务，Bigtable 表现得都很好。也就是说，Bigtable 不仅擅长顺序读写，也擅长随机读写。
可运维性强徐老师在 08 讲中，先是讲了为什么 MySQL 集群难以支撑百万级别的随机读写 IOPS，主要的原因是可运维性差。第一，数据分区不灵活，导致随着数据规模的增长，有些分区数据多，有些分区数据少；第二，服务器扩容不灵活，扩容时要么需要移动大量数据，要么需要成倍增加服务器；第三，故障恢复时只能自动恢复主节点，不能自动恢复备份节点。
那么，Bigtable 是如何解决这些运维问题的呢？
首先，为了应对数据规模的增长，我们需要把数据分配到不同的服务器，这个行为叫做分区。Bigtable 的分区方式是为每个分区分配一段连续的行键（Row Key），每个分区管理固定大小的数据。当分区数据超过阈值时，比如 128MB，分区就会自动分裂。之所以这样做，是因为数据分布可能是不均匀的，动态分区可以让数据在服务器上分布更均匀。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

Bigtable论文介绍了Google的分布式存储系统，展示了其在大规模数据存储和高效读写操作方面的优势。该系统具备良好的可运维性，支持动态伸缩和自动故障恢复，并能够实现每秒百万级别的随机读写。文章详细解释了Bigtable的数据模型、系统架构和实现方法，强调了其在Google多个产品中的应用。总的来说，Bigtable是一个高效、可靠的分布式存储系统，为读者提供了深入了解分布式存储系统的重要知识。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《大数据经典论文解读》，新⼈⾸单¥59

立即购买

登录后留言

全部留言(3)

最新
精选

Dr.森
优秀的课代表👏👏👏
2021-11-11
1
1
Ping
请问Bigtable的主要用途是啥？
2021-12-31
1

Geek_z
老师后面有没有可能讲下Mesa: Near Real-Time, Scalable Data Warehousing，当下比较流行的Doris之类底层论文
2021-11-17
1


收起评论