• 西瓜
    2018-12-27
    一楼那位兄弟,你应该是把资源调度和任务调度的概念弄混了
    
     9
  • 纯洁的憎恶
    2018-12-30
    在工业上,很多大数据计算的结果,要应用到互联网产品中。然而前者的计算时长难以保证实时性,后者又有很高的响应及时性要求。于是需要找到一个途径,整合前后两端的差异,这就是大数据平台的使命。它从前端应用程序获取数据,倒入后台的大数据系统计算,再将结果返还给应用程序。由此大数据平台自上而下分为数据采集、数据处理、数据展示三个部分。

    数据采集。数据采集的来源可能有数据库、日志、网络爬虫,不同来源的数据质量各异,日志与爬虫数据在导入前需要预处理(清洗、转化)。

    数据处理。倒入大数据系统的数据被存储在分布式文件系统中(如HDFS),大数据批处理和产品离线计算保存在分布式文件系统中的被倒入数据,并将结果也写入分布式文件系统。大数据流处理产品计算输入数据并直接输出。

    数据展示。大数据离线处理的计算结果存储在分布式文件系统中,无法被应用程序直接调用,需要同步后导出到数据库。

    当然还需要一个任务调度系统将上述三部分组织起来。简单的调度策略按先后次序,复杂的要依据依赖关系(DAG图)。
    展开
    
     5
  • 笨小康
    2018-12-27
    1,日志同步可以理解为在app或web浏览器中部署埋点sdk,将埋点数据上报给应用服务器,应用服务器上的日志在经过 flume 接入到 HDFS。想问一下老师“打点采集”一般是在什么场景下会涉及到呢?又有什么方式实现“打点采集”?

    2,我接触到的大数据平台中,有这样一种实现方式:日志同步通过 flume-agent 接入,然后打到 kafka,kafka 的数据同时供离线和实时计算消费,个人感觉这种方式的实时效果不一定会很好,请问老师怎么看待这种方式?

    3,比较奇怪的是老师在资源调度系统里为啥没有提到 yarn,个人认为 crontab 只是决定任务的启动方式和时间,而真正做资源调度的应该主要是 yarn。
    展开
    
     3
  • 杰之7
    2019-01-01
    通过这一节的学习,理解了互联网产品加大数据产品等于大数据平台。

    整个大数据平台的流程图老师已经给我们展示,我理解的是通过用户对App或者是网页的使用产生的数据,通过服务器传输到数据库中,这样就有了数据的获取。接着通过数据同步系统将获取的数据导入大数据产品中进行计算处理。计算处理主要分两类,批处理和流式计算,两者结合可以将过去到此刻的数据处理完成。最后将处理好的数据导出到数据库中给用户或者相关人员使用。

    在上述的整个过程中,任务调度管理系统进行调度的优先级和执行顺序。

    基础薄弱甚至没有计算机科班基础,依然可以学习数据技术,执着的相信有一天是一名真正的数据人。
    展开
    
     2
  • Jack
    2018-12-28
    请问老师 采用cdh来搭建大数据平台是否一个好的选择

    作者回复: 如果准备付费接受更多商业支持,cdh很好,如果服务器规模很小,cdh可以,如果不打算付费而服务器会持续增加,cdh不是合适

    
     2
  • 达子不一般
    2019-10-11
    lamda给我的印象应该是java的lamda表达式,这个lamda架构貌似看不出来跟lamda本意有啥关联?
    
     1
  • 哥们,走起!!
    2018-12-31
    老师,请问您是去哪找论文看的
    
     1
  • special
    2018-12-28
    学习大数据将近一年,对Hadoop各种工具的特点、原理以及编程使用有较为全面的总结,大数据小白入门的好帮手。
    欢迎关注公众号:

    程序员的修身养性

    一起交流学习!
    展开
    
     1
  • helloWorld
    2018-12-27
    老师,我昨天看了腾讯TEG团队的一篇文章,他们做了一个流计算平台,其中提到了在Web页面通过画板构建一个流计算应用,想请教一下这样的功能实现的思路是什么
    
     1
  • Zend
    2019-11-15
    看了这篇感触,能跟我们现在做的系统架构能对应的上。请问一下老师HBase现在在大数据平台里面处于什么位置,应用前景如何。
    
    
  • vailau
    2019-03-04
    这一章受益良多~给我们一个全面清晰的大数据平台的架构,核心还是在于数据。
    不管是互联网产品还是大数据产品,本质都是数据的采集、处理、展示过程,就方法及技术要求不一样。
    会对个人/公司搭建自己的大数据平台有很直观的指导作用
    
    
我们在线,来聊聊吧