• Jialin
    2021-09-21
    有本书《数据密集型应用系统设计》讲的不错,也有很多经典论文导读

    作者回复: 是的,这本书也是我在后面推荐的阅读学习材料之一。

    共 3 条评论
    39
  • 知明要留长发
    2021-09-22
    会提到有flink+pulsar吗~不然最新的实时计算和消息系统 没衔接上 会有点遗憾哦

    作者回复: Flink的论文和Dataflow都是在2015年发表的。Dataflow的论文也基本上成为了一个标准的流批一体的抽象数据处理模型,变成了Apache Beam这个项目。而Flink也按照Dataflow模型做了很多的改进和优化。 我会主要讲解Dataflow这篇论文,到时候也会拿Flink的实现来作为里面的例子。 Pulsar我个人没有关注过,也不太了解,也没有看到有相关的论文,所以不太适合放在这个大数据论文专栏里。

    共 3 条评论
    10
  • light
    2021-09-17
    论文表示了发展方向,老师是在哪里找到代表主流的论文呢?

    作者回复: light同学, 你好,很多同学都提了这个问题,我会在基础知识篇之后专门加餐一篇来讲怎么读论文,应该读哪些论文,以及具体读的过程中的学习方法。 这里我先简要说一下怎么找到该读哪些论文 1. 第一个是通过关心领域的综述,可以找到领域中重要的论文。在里面找引用数多,时间早的论文读。 2. 第二个是找你正在学习使用的系统,基于的原始论文来读 3. 第三个是在读论文的过程中,找到自己觉得重要,但是没有彻底理解的特定问题,再次搜索,寻找论文来读 更具体深入的,请期待后面的加餐吧。

    
    10
  • pedro
    2021-09-15
    读论文,搞清楚论文,这正是优秀工程师稀缺的能力!

    作者回复: 是的,特别是数据领域最近10年可以说百花齐放。这一两年各种大数据细分领域的数据库公司越来越多,流式数据库、向量数据库、图数据库、时序数据库、MPP等等百花齐放。 如果希望能做一些有意思的公司,读论文是不可或缺的一个过程。

    
    10
  • zhanyd
    2021-09-17
    自己试过看论文,但是真的看不懂,老师这门课真是来得太及时了啊。

    作者回复: zhanyd同学你好, 欢迎加入一起学习的行列,希望这个专栏能帮到你。

    
    3
  • leslie
    2021-09-29
    老师的《计算机组成原理》学过,其实上面的东西用久了会越来越去花时间追求底层,台子越高越觉得底下的地基不够大不够牢-高处不胜寒的感觉,技术之间的关联性越来越大时更需要底层的根基去支撑。 希望这次能跟着老师的课在结束课程之前不落下的学完,虽然天天都像在“打仗”。

    作者回复: 欢迎,一起加油,我写专栏要保质保量更新也有一种“打仗”的感觉。

    
    2
  • Geek_713fdd
    2021-09-22
    最近在入门大数据这个行业,已经会简单的使用了spark,hive,impala 等hadoop 生态组件了 但是对于分布式集群,数仓设计,容错处理,性能瓶颈等等一系列问题,都抱有疑问。 希望能在这门课程里,收获大数据行业的基础知识。

    作者回复: 👍一起加油

    
    1
  • YWH
    2021-09-17
    老师您好,能否介绍一下怎样找到合适的论文,以及讲解一下学习方法呢?谢谢。

    作者回复: YWH同学, 你好,关于怎么找到论文,读哪些论文,可以看看上面我回答另外一位light同学的答案。 关于学习方法,我也会在后面的加餐里专门讲解,我这里先简单分享一下我的方法的要点 1. 第一个是先看 摘要、结论和数据部分,理解论文要解决的问题 2. 第二个“剪刀”+“浆糊”,根据论文的各个Section,做一个脑图,然后记笔记,笔记用自己的理解和能够关联到的知识,可能是某个应用场景的映射,或者其他关联的某个知识点,而不要只是摘抄和翻译。 3. 第三个是带着问题读,读完论文做延伸和分享,思考系统是否还有可以进一步进化的,而不是只做记忆,这个会有助于你彻底理解论文。

    共 2 条评论
    1
  • 燃料喷射器
    2021-09-28
    及时雨!最近正在研读论文,发现很多看不懂!看来我要好好跟着老师学习啦!!

    作者回复: 欢迎加入,一起加油。

    
    
  • zart
    2021-09-28
    老师,为什么讲storm,不讲flink?flink的设计原理才更先进吧

    作者回复: zart同学, 你好,Flink现在就是追随Google发表的Dataflow模型,我们只要把Dataflow模型搞清楚了,也就搞清楚了Flink。 Storm是流式数据处理的一个重要节点,从讲解系统进化的过程,我们是避不开的。

    
    