极客时间-轻松学习，高效学习-极客邦

aof

2019-01-01

老师你好
我们公司是做互联网金融的，流处理需求很少，大多都是批处理之后生成的报表
每天基本上就是用sqoop增量的把MySQL中前一天的业务数据导入到hive。然后做一些业务上的报表计算，另外还有我负责的风控中请求的几个第三方数据，每天大概有五六十GB的样子，还有用户的通讯录数据等，以及一些相关报表的计算，数据量的话多的也就二三十亿条，离线计算都是Spark on yarn，调度系统是azkaban。
因为现在没有业务需求会用到hbase，
有很少的埋点数据，用kafka，Sparkstreaming处理一下。
感觉现在的那些批处理的东西都用的差不多了，天天觉得没啥有挑战的事情做，觉得心里挺空的，想过了年换工作，但是目前，各大公司也都在裁员，很是纠结。希望老师给点建议😁

展开

作者回复: 多了解业务，了解哪些业务的问题可以用大数据解决，走出去而不是等需求，多学习大数据的知识，扩展知识面，思考哪些大数据技术可以用到自己的工作中，会有很多机会的



 23
方得始终

2019-01-02

Apache Airflow是一个的编排，调度和监控工作流的开源工具。它的工作流设计是基于DAG，而且是用Python来编写，可以说是workflow as code。我目前正在学习使用。



 6
杰之7

2019-01-01

通过这一节的阅读，熟悉了各大互联网公司的大数据平台。大致模式是通过某种方式，对数据库中的数据进行提取，导入到大数据平台中，然后对数据平台的数据进行计算，返回可使用的数据。

对整个过程的调度和把控，淘宝、美团、滴滴各自用自身公司开发的调度管理系统，处理调度的优先级和执行顺序。

生活在今天这个时代，每个人都能享受这种数据智能的便捷，除了计算机本身的功能，更有一大批从事数据工作的人为我们提供了这样的服务。数据能如此精准，那同样我们对于我们的工作和生活，也应有像数据人那样，认真对待，这样才会工作之余更好的跟上数据智能时代的节奏，把握我们自身的生活。

展开



 4
1

2019-01-10

请问老师，这些架构设计文档可以从哪些途径获得。



 3
小桥流水

2019-01-02

可否推荐几款好的任务调度开源工具

 1

 2
godtrue

2020-02-10

阅过留痕
大厂的大数据平台建设，数据的处理核心就三步：数据采集+数据处理+数据挖掘，具体到每一步实现的方式也许有所不同，但是这三步就类似三个接口一样，具体实现可以变化，不过本质就那样，不易变化。




鹿鸣

2020-02-05

老师你好，我所在的公司目前正在准备上大数据平台，我想请教下老师，关于这个平台的使用，是把数据导入到hdfs上，然后经过hive 等计算，再导出到数据库中吗？因为我们公司还准备用Kafka,还是把hive 计算好的数据直接导出到Kafka然后后续直接调用Kafka的数据呢？

作者回复: hive的计算结果是一批数据，用Kafka导出似乎不是很合常理。




李

2019-10-24

刚入门大数据，想了解下对于大数据上的存储，现在都有什么类型的数据，怎么设计结构的，又是用什么组件存储的




wiikzhao

2019-10-17

虽然没做过大数据开发，我是0基础，从第一章节，看到第28期，看了下大数据分为两种，大数据的两种:实时和离线，最后还是合并到一起HDFS进行计算、存储。就是天下合久必分，分久必合的道理一样，根据不同的需求会进行拆分，但是最终还是会进行合的操作。

 1


Wu桑

2019-02-09

老师您好我一直没太明白大数据框架和微服务有什么联系和区别？微服务属于大数据平台吗？如果属于那它是在哪一层呢？是数据采集数据计算处理还是输出层呢？




小老鼠

2019-01-22

大数据实际工作中必须布署在云平台上吗

作者回复: 自己搭大数据集群也可以，数据量不大单机也可以。




二

2019-01-20

老师，大厂这些平台的架构设计文档可以从哪些途径获得。



