大数据经典论文解读
徐文浩
bothub 创始人
13843 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
课程目录
已完结/共 59 讲
大数据经典论文解读
15
15
1.0x
00:00/00:00
登录|注册

02 | 学习方法:建立你的大数据知识网络

你好,我是徐文浩。
在了解了大数据论文之间的脉络后,接下来,我们就要进入精读论文的学习当中了。不过,在具体解读一篇篇的论文之前,我想先带你来一起看一看,这些大数据论文到底涵盖了哪些知识点,这些知识点又是来自于大数据系统中的哪一个组件。通过梳理这些组件涵盖了什么知识点,你就能更好地理解和掌握大数据领域相关的知识全貌。
毕竟,相比于某一门计算机课程、某一门编程语言或者某一个开源框架,“大数据”涉及到的知识点多而繁杂。所以这里,我就整理了一份知识地图,好让你对课程所涉及到的知识点有迹可循。

大数据领域的知识地图

大数据技术知识点
从这张图可以看出,要想了解和学习“大数据”领域的相关知识,我们可以从三个维度来切入。

分布式系统

所有的大数据系统都是分布式系统。我们需要大数据系统,就是因为普通的单机已经无法满足我们期望的性能了。那么作为一个分布式的数据系统,它就需要满足三个特性,也就是可靠性、可扩展性和可维护性。
第一个,作为一个数据系统,我们需要可靠性。如果只记录一份数据,那么当硬件故障的时候就会遇到丢数据的问题,所以我们需要对数据做复制。而数据复制之后,以哪一份数据为准,又给我们带来了主从架构、多主架构以及无主架构的选择。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

大数据领域的知识地图涵盖了分布式系统、单节点存储引擎和计算引擎。分布式系统需满足可靠性、可扩展性和可维护性,涉及主从架构、复制策略和分片策略等。单节点存储引擎关注事务、数据写入和存储方式,以及数据的序列化问题。计算引擎的发展经历了多个阶段,包括MapReduce、Spark、S4/Storm、Lambda架构、Spark Streaming、Kafka和Dataflow模型。这些技术相互关联,需要综合考虑组成原理、算法和数据结构、数据库原理等知识。学习大数据论文的关键挑战在于精读和交叉阅读,以及制定明确的学习目标。通过从第一性原理出发、多做交叉阅读和扩展阅读,以及给自己制定明确的学习目标,读者能够更好地理解大数据知识。推荐阅读包括《Big Data》、《Designing Data-Intensive Applications》、流式处理相关书籍和MIT的Distributed System课程。读者应该根据自身目标选择合适的学习方法,深入理解论文中提出的问题和解决方案,构建起自己的大数据摩天大楼。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《大数据经典论文解读》
新⼈⾸单¥59
立即购买
登录 后留言

全部留言(19)

  • 最新
  • 精选
  • lei
    数据密集型系统设计,这本书在刚进入大数据领域时简单看过,带着很多疑问做项目。三年下来,发现很多点慢慢串成了线,线变成了网,到如今这本书已经读了五遍。从结构化,非结构化到半结构化数据系统的演变,慢慢都在趋向异构数据系统的设计。大数据世界越来越星光璀璨,所以从底层建立起一套知识体系太重要了。

    作者回复: 很棒!有这种体会的时候自己会特别开心,觉得自己终于悟了1.

    2021-09-22
    30
  • lei Shi
    ddia是真的顶,现在还没梳理明白,继续学习

    作者回复: 一起加油。 DDIA非常值得反复阅读,不过它的很多内容是概览和总结性质的,很多话题需要有一些相关经验,有些则要去读它引用的很多论文。

    2021-09-22
    8
  • bymzy
    参考网上大神的代码,实现过mit 6.824 2012的大项目,还是非常有收获的

    作者回复: 👍

    2021-09-22
    6
  • yeyuliunian
    想问老师一个问题:单行事务和跨行事务的区别? 从文中看好像是指是否跨分片,这里的的“行”如何理解呢?

    作者回复: BigTable论文的原文,说的就是 single-row transactions. 而且的确一开始即使是同一个分区的数据(在同一个物理节点上),BigTable也不支持多行数据的事务。 行在这里就是BigTable的一个row key下的数据。

    2021-09-22
    2
    2
  • Will
    脉络理的很清,不愧是大师。

    作者回复: 过誉了,我只是和大家一样的学习者和工程师,大师肯定不敢当。

    2021-09-30
    1
  • zhanyd
    MIT 的课程 6.824 的 Distributed System 这视频我看过几课,就是作业太难了。老师在课上讲了一些概念,然后作业就要完成一个小项目,然后我就不会了。。。

    作者回复: 哈哈,坚持研究一下,挺过去就会有收获的。

    2021-09-22
    1
  • leslie
    应当还有本《数据系统概论》吧,大数据也只是数据系统的一部分

    作者回复: 是什么书呀?方便留个详细信息,有空我去瞅瞅

    2021-09-29
  • dog_brother
    知识密度好大的一章啊,这其中只有50%的知识点是听过的,需要好好补课啦

    作者回复: 一起来加油!

    2021-09-23
  • 在路上
    徐老师好,经过老师的梳理,对大数据整体的知识结构清晰了很多,非常感谢老师荐书,之前自己找书,虽然学了不少,但不知道哪一本才是经典。

    作者回复: 谢谢,很高兴能对你有帮助,看到你有很多留言和反馈!感谢

    2021-09-22
  • pedro
    读论文一定要画脑图啊,一个点一个点的串起来,纵观横缆以后,才能感受到一个领域的自洽性。
    2021-09-22
    1
    11
收起评论
显示
设置
留言
19
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部