• aof
    2019-01-01
    老师你好
    我们公司是做互联网金融的,流处理需求很少,大多都是批处理之后生成的报表
    每天基本上就是用sqoop增量的把MySQL中前一天的业务数据导入到hive。然后做一些业务上的报表计算,另外还有我负责的风控中请求的几个第三方数据,每天大概有五六十GB的样子,还有用户的通讯录数据等,以及一些相关报表的计算,数据量的话多的也就二三十亿条,离线计算都是Spark on yarn,调度系统是azkaban。
    因为现在没有业务需求会用到hbase,
    有很少的埋点数据,用kafka,Sparkstreaming处理一下。
    感觉现在的那些批处理的东西都用的差不多了,天天觉得没啥有挑战的事情做,觉得心里挺空的,想过了年换工作,但是目前,各大公司也都在裁员,很是纠结。希望老师给点建议😁
    展开

    作者回复: 多了解业务,了解哪些业务的问题可以用大数据解决,走出去而不是等需求,多学习大数据的知识,扩展知识面,思考哪些大数据技术可以用到自己的工作中,会有很多机会的

    
     23
  • 方得始终
    2019-01-02
    Apache Airflow是一个的编排,调度和监控工作流的开源工具。它的工作流设计是基于DAG,而且是用Python来编写,可以说是workflow as code。我目前正在学习使用。
    
     6
  • 杰之7
    2019-01-01
    通过这一节的阅读,熟悉了各大互联网公司的大数据平台。大致模式是通过某种方式,对数据库中的数据进行提取,导入到大数据平台中,然后对数据平台的数据进行计算,返回可使用的数据。

    对整个过程的调度和把控,淘宝、美团、滴滴各自用自身公司开发的调度管理系统,处理调度的优先级和执行顺序。

    生活在今天这个时代,每个人都能享受这种数据智能的便捷,除了计算机本身的功能,更有一大批从事数据工作的人为我们提供了这样的服务。数据能如此精准,那同样我们对于我们的工作和生活,也应有像数据人那样,认真对待,这样才会工作之余更好的跟上数据智能时代的节奏,把握我们自身的生活。
    展开
    
     4
  • 1
    2019-01-10
    请问老师,这些架构设计文档可以从哪些途径获得。
    
     3
  • 小桥流水
    2019-01-02
    可否推荐几款好的任务调度开源工具
     1
     2
  • godtrue
    2020-02-10
    阅过留痕
    大厂的大数据平台建设,数据的处理核心就三步:数据采集+数据处理+数据挖掘,具体到每一步实现的方式也许有所不同,但是这三步就类似三个接口一样,具体实现可以变化,不过本质就那样,不易变化。
    
    
  • 鹿鸣
    2020-02-05
    老师你好,我所在的公司目前正在准备上大数据平台,我想请教下老师,关于这个平台的使用,是把数据导入到hdfs上 ,然后经过hive 等计算,再导出到数据库中吗?因为我们公司还准备用Kafka,还是把hive 计算好的数据直接导出到Kafka然后后续直接调用Kafka的数据呢?

    作者回复: hive的计算结果是一批数据,用Kafka导出似乎不是很合常理。

    
    
  • 李
    2019-10-24
    刚入门大数据,想了解下对于大数据上的存储,现在都有什么类型的数据,怎么设计结构的,又是用什么组件存储的
    
    
  • wiikzhao
    2019-10-17
    虽然没做过大数据开发,我是0基础,从第一章节,看到第28期,看了下大数据分为两种,大数据的两种:实时和离线,最后还是合并到一起HDFS进行计算、存储。就是天下合久必分,分久必合的道理一样,根据不同的需求会进行拆分,但是最终还是会进行合的操作。
     1
    
  • Wu桑
    2019-02-09
    老师您好 我一直没太明白大数据框架和微服务有什么联系和区别?微服务属于大数据平台吗?如果属于 那它是在哪一层呢?是数据采集 数据计算处理 还是输出层呢?
    
    
  • 小老鼠
    2019-01-22
    大数据实际工作中必须布署在云平台上吗

    作者回复: 自己搭大数据集群也可以,数据量不大单机也可以。

    
    
  • 二
    2019-01-20
    老师,大厂这些平台的架构设计文档可以从哪些途径获得。
    
    
我们在线,来聊聊吧