极客时间-轻松学习，高效学习-极客邦

Jialin
2021-09-21
有本书《数据密集型应用系统设计》讲的不错，也有很多经典论文导读
作者回复: 是的，这本书也是我在后面推荐的阅读学习材料之一。
共 3 条评论
39
知明要留长发
2021-09-22
会提到有flink+pulsar吗~不然最新的实时计算和消息系统没衔接上会有点遗憾哦
作者回复: Flink的论文和Dataflow都是在2015年发表的。Dataflow的论文也基本上成为了一个标准的流批一体的抽象数据处理模型，变成了Apache Beam这个项目。而Flink也按照Dataflow模型做了很多的改进和优化。我会主要讲解Dataflow这篇论文，到时候也会拿Flink的实现来作为里面的例子。 Pulsar我个人没有关注过，也不太了解，也没有看到有相关的论文，所以不太适合放在这个大数据论文专栏里。
共 3 条评论
10
light
2021-09-17
论文表示了发展方向，老师是在哪里找到代表主流的论文呢？
作者回复: light同学，你好，很多同学都提了这个问题，我会在基础知识篇之后专门加餐一篇来讲怎么读论文，应该读哪些论文，以及具体读的过程中的学习方法。这里我先简要说一下怎么找到该读哪些论文 1. 第一个是通过关心领域的综述，可以找到领域中重要的论文。在里面找引用数多，时间早的论文读。 2. 第二个是找你正在学习使用的系统，基于的原始论文来读 3. 第三个是在读论文的过程中，找到自己觉得重要，但是没有彻底理解的特定问题，再次搜索，寻找论文来读更具体深入的，请期待后面的加餐吧。
10
pedro
2021-09-15
读论文，搞清楚论文，这正是优秀工程师稀缺的能力！
作者回复: 是的，特别是数据领域最近10年可以说百花齐放。这一两年各种大数据细分领域的数据库公司越来越多，流式数据库、向量数据库、图数据库、时序数据库、MPP等等百花齐放。如果希望能做一些有意思的公司，读论文是不可或缺的一个过程。
10
zhanyd
2021-09-17
自己试过看论文，但是真的看不懂，老师这门课真是来得太及时了啊。
作者回复: zhanyd同学你好，欢迎加入一起学习的行列，希望这个专栏能帮到你。
3
leslie
2021-09-29
老师的《计算机组成原理》学过，其实上面的东西用久了会越来越去花时间追求底层，台子越高越觉得底下的地基不够大不够牢-高处不胜寒的感觉，技术之间的关联性越来越大时更需要底层的根基去支撑。希望这次能跟着老师的课在结束课程之前不落下的学完，虽然天天都像在“打仗”。
作者回复: 欢迎，一起加油，我写专栏要保质保量更新也有一种“打仗”的感觉。
2
Geek_713fdd
2021-09-22
最近在入门大数据这个行业，已经会简单的使用了spark，hive，impala 等hadoop 生态组件了但是对于分布式集群，数仓设计，容错处理，性能瓶颈等等一系列问题，都抱有疑问。希望能在这门课程里，收获大数据行业的基础知识。
作者回复: 👍一起加油
1
YWH
2021-09-17
老师您好，能否介绍一下怎样找到合适的论文，以及讲解一下学习方法呢？谢谢。
作者回复: YWH同学，你好，关于怎么找到论文，读哪些论文，可以看看上面我回答另外一位light同学的答案。关于学习方法，我也会在后面的加餐里专门讲解，我这里先简单分享一下我的方法的要点 1. 第一个是先看摘要、结论和数据部分，理解论文要解决的问题 2. 第二个“剪刀”+“浆糊”，根据论文的各个Section，做一个脑图，然后记笔记，笔记用自己的理解和能够关联到的知识，可能是某个应用场景的映射，或者其他关联的某个知识点，而不要只是摘抄和翻译。 3. 第三个是带着问题读，读完论文做延伸和分享，思考系统是否还有可以进一步进化的，而不是只做记忆，这个会有助于你彻底理解论文。
共 2 条评论
1
燃料喷射器
2021-09-28
及时雨！最近正在研读论文，发现很多看不懂！看来我要好好跟着老师学习啦！！
作者回复: 欢迎加入，一起加油。
zart
2021-09-28
老师，为什么讲storm，不讲flink？flink的设计原理才更先进吧
作者回复: zart同学，你好，Flink现在就是追随Google发表的Dataflow模型，我们只要把Dataflow模型搞清楚了，也就搞清楚了Flink。 Storm是流式数据处理的一个重要节点，从讲解系统进化的过程，我们是避不开的。