计算机基础实战课
彭东
网名 LMOS,Intel 傲腾项目关键开发者
19719 人已学习
新⼈⾸单¥68
登录后,你可以任选4讲全文学习
课程目录
已完结/共 57 讲
计算机基础实战课
15
15
1.0x
00:00/00:00
登录|注册

加餐03|学习攻略(二):大数据&云计算,究竟怎么学?

你好,我是 LMOS。
上节课我们从谷歌的三驾马车开始,学习了大数据三件套的设计思路,可惜谷歌三驾马车作为商用软件,只开放了论文来讲解原理,却并没有开放出对应的源代码。
为了帮你更好地理解这些核心技术是怎么落地的,这节课我会简单介绍一下另外三个基础组件的设计原理,它们也是开源大数据生态中的重要角色。

HDFS 设计原理

首先我们来说说 HDFS,它的全称是 Hadoop Distributed File System,你可以理解为一个可以由低成本的普通 PC 机组成的大规模分布式文件系统。
HDFS 的架构图如下所示:
其实,HDFS 的核心架构和上节课讲过的 GFS,架构思路是一脉相承的。
HDFS 基于主 / 从架构设计,其集群的核心是由 NameNode(充当主服务器)、DataNode(充当从服务器)、Client 这三部分构成的。各部分的含义和功能,你可以参考后面这张表:
通过这几个组件的配合,我们就拥有了一个可靠的分布式文件系统
那么 HDFS 有哪些优势呢?主要是后面这四点:
容错性:可以在集群中的任意节点发生故障时继续运行,这能保证数据的安全性。
大数据处理能力:HDFS 可以存储海量的数据,并支持大规模并行计算。
高可靠性:HDFS 将文件分割成多个块存储,并在集群中多次复制,可以保证数据的高可靠性。
简单易用:HDFS 提供了简单易用的文件存储和访问接口,与其他系统集成很方便。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

本文深入介绍了大数据和云计算领域的重要技术,包括HDFS、YARN和ZooKeeper的设计原理及应用。HDFS作为大规模分布式文件系统,具有容错性和高可靠性,适用于海量数据存储和大规模数据分析。YARN作为Hadoop的资源管理器,解决了单点故障和支持其他计算框架的问题,实现了计算作业的分布式运行。ZooKeeper作为协调组件,通过原子广播和Zab协议实现了服务器同步和事务序列的一致性,提高了分布式系统的稳定性和可靠性。此外,文章还介绍了如何搭建大数据开发环境,推荐使用Docker部署,并给出了具体的安装步骤和命令。整体而言,本文内容丰富,涵盖了大数据和云计算领域的重要技术,对于想要快速了解这些技术的读者具有很高的参考价值。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《计算机基础实战课》
新⼈⾸单¥68
立即购买
登录 后留言

全部留言(1)

  • 最新
  • 精选
  • 青玉白露
    这一篇让我对公司底层的架构有了更深入的了解,也激发了很多的灵感,多谢
    2023-01-25归属地:四川
    5
收起评论
显示
设置
留言
1
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部