作者回复: 是的,这本书也是我在后面推荐的阅读学习材料之一。
作者回复: Flink的论文和Dataflow都是在2015年发表的。Dataflow的论文也基本上成为了一个标准的流批一体的抽象数据处理模型,变成了Apache Beam这个项目。而Flink也按照Dataflow模型做了很多的改进和优化。 我会主要讲解Dataflow这篇论文,到时候也会拿Flink的实现来作为里面的例子。 Pulsar我个人没有关注过,也不太了解,也没有看到有相关的论文,所以不太适合放在这个大数据论文专栏里。
作者回复: light同学, 你好,很多同学都提了这个问题,我会在基础知识篇之后专门加餐一篇来讲怎么读论文,应该读哪些论文,以及具体读的过程中的学习方法。 这里我先简要说一下怎么找到该读哪些论文 1. 第一个是通过关心领域的综述,可以找到领域中重要的论文。在里面找引用数多,时间早的论文读。 2. 第二个是找你正在学习使用的系统,基于的原始论文来读 3. 第三个是在读论文的过程中,找到自己觉得重要,但是没有彻底理解的特定问题,再次搜索,寻找论文来读 更具体深入的,请期待后面的加餐吧。
作者回复: 是的,特别是数据领域最近10年可以说百花齐放。这一两年各种大数据细分领域的数据库公司越来越多,流式数据库、向量数据库、图数据库、时序数据库、MPP等等百花齐放。 如果希望能做一些有意思的公司,读论文是不可或缺的一个过程。
作者回复: zhanyd同学你好, 欢迎加入一起学习的行列,希望这个专栏能帮到你。
作者回复: 欢迎,一起加油,我写专栏要保质保量更新也有一种“打仗”的感觉。
作者回复: 👍一起加油
作者回复: YWH同学, 你好,关于怎么找到论文,读哪些论文,可以看看上面我回答另外一位light同学的答案。 关于学习方法,我也会在后面的加餐里专门讲解,我这里先简单分享一下我的方法的要点 1. 第一个是先看 摘要、结论和数据部分,理解论文要解决的问题 2. 第二个“剪刀”+“浆糊”,根据论文的各个Section,做一个脑图,然后记笔记,笔记用自己的理解和能够关联到的知识,可能是某个应用场景的映射,或者其他关联的某个知识点,而不要只是摘抄和翻译。 3. 第三个是带着问题读,读完论文做延伸和分享,思考系统是否还有可以进一步进化的,而不是只做记忆,这个会有助于你彻底理解论文。
作者回复: 欢迎加入,一起加油。
作者回复: zart同学, 你好,Flink现在就是追随Google发表的Dataflow模型,我们只要把Dataflow模型搞清楚了,也就搞清楚了Flink。 Storm是流式数据处理的一个重要节点,从讲解系统进化的过程,我们是避不开的。