加餐02 | 学习攻略(一):大数据&云计算,究竟怎么学?
LMOS
你好,我是 LMOS。
上节课,我带你了解了云计算中 IAAS 层的技术。结合云计算的分层架构,下面一层就是 PaaS,PaaS 与 IaaS 相似,区别在于云服务提供商还提供了操作系统和数据库。
这节课,我们就一起了解一下云计算 PaaS 层的大数据体系吧。什么是大数据呢?其实这是早在 1980 年出版的图书《第三次浪潮》里就预见到的一种场景,而具体到工程落地层面,就不得不提到 Google 的“三驾马车”。
今天这节课,我想从需求角度,和你讨论一下在工程上为什么要这样设计。
GFS 的核心问题
我们先从谷歌文件系统 GFS 开始说起。
顾名思义,这个系统是用来储存文件的。你可能觉得,存文件听起来好像不难呀?
我们可以仔细思考一下,存文件会有什么难度呢?先让我们停下手头的工作,看看自己电脑上的硬盘空间还有多大,500G 还是 1TB、5TB?
没错,空间容量就是我们遇到的第一个门槛,单台电脑的存储空间确实不是无限大的。
接下来,我们找出一份大一点的文件,把它复制到另一个目录,看看复制速度如何?这里就碰到了第二个问题——文件写入速度。一般来说,机械盘硬盘的最高写入速度是 200MB/s 左右,而固态硬盘的写入速度是 3000MB/s 左右。
试想一下,如果我们有 1TB 的数据写入硬盘(就算真的有一块 1TB 空间的固态硬盘可以使用)那我们也至少需要 4 天时间,数据才能完全写入完毕。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
本文深入介绍了大数据与云计算中PaaS层的技术体系,重点讨论了谷歌文件系统GFS、MapReduce和BigTable这三大核心技术。首先,文章详细探讨了GFS的存储容量、文件写入速度和系统可靠性等挑战,并介绍了GFS如何通过问题切分和并行化的思想来解决这些问题。其次,对MapReduce的概念和原理进行了解释,并阐述了其在大数据处理中的应用。最后,文章深入解析了BigTable的结构和分布式存储系统,以及其在处理海量结构化数据方面的高性能表现。通过实际案例和技术原理的阐述,读者可以快速了解到这三种关键技术在现代云计算PaaS层中的重要作用。建议读者可以进一步阅读相关的谷歌论文和文档,以及尝试进行分布式系统课程的实践练习,以加深对这些技术的理解和应用。整体而言,本文为读者提供了对大数据与云计算PaaS层技术特点的深入了解和入门指南。
仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《计算机基础实战课》,新⼈⾸单¥68
《计算机基础实战课》,新⼈⾸单¥68
立即购买
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
全部留言(1)
- 最新
- 精选
- 张清荣试想一下,如果我们有 1TB 的数据写入硬盘---这里应该是1PB吧。2023-03-07归属地:黑龙江1
收起评论