从0开始学大数据
李智慧
同程艺龙交通首席架构师,前Intel大数据架构师,《大型网站技术架构》作者
立即订阅
14349 人已学习
课程目录
已完结 46 讲
0/4登录后,你可以任选4讲全文学习。
开篇词 (1讲)
开篇词 | 为什么说每个软件工程师都应该懂大数据技术?
免费
预习模块 (3讲)
预习 01 | 大数据技术发展史:大数据的前世今生
预习 02 | 大数据应用发展史:从搜索引擎到人工智能
预习 03 | 大数据应用领域:数据驱动一切
模块一 Hadoop大数据原理与架构 (7讲)
04 | 移动计算比移动数据更划算
05 | 从RAID看垂直伸缩到水平伸缩的演化
06 | 新技术层出不穷,HDFS依然是存储的王者
07 | 为什么说MapReduce既是编程模型又是计算框架?
08 | MapReduce如何让数据完成一次旅行?
09 | 为什么我们管Yarn叫作资源调度框架?
10 | 模块答疑:我们能从Hadoop学到什么?
模块二 大数据生态体系主要产品原理与架构 (7讲)
11 | Hive是如何让MapReduce实现SQL操作的?
12 | 我们并没有觉得MapReduce速度慢,直到Spark出现
13 | 同样的本质,为何Spark可以更高效?
14 | BigTable的开源实现:HBase
15 | 流式计算的代表:Storm、Flink、Spark Streaming
16 | ZooKeeper是如何保证数据一致性的?
17 | 模块答疑:这么多技术,到底都能用在什么场景里?
模块三 大数据开发实践 (8讲)
18 | 如何自己开发一个大数据SQL引擎?
19 | Spark的性能优化案例分析(上)
20 | Spark的性能优化案例分析(下)
21 | 从阿里内部产品看海量数据处理系统的设计(上):Doris的立项
22 | 从阿里内部产品看海量数据处理系统的设计(下):架构与创新
23 | 大数据基准测试可以带来什么好处?
24 | 从大数据性能测试工具Dew看如何快速开发大数据系统
25 | 模块答疑:我能从大厂的大数据开发实践中学到什么?
模块四 大数据平台与系统集成 (6讲)
26 | 互联网产品 + 大数据产品 = 大数据平台
27 | 大数据从哪里来?
28 | 知名大厂如何搭建大数据平台?
29 | 盘点可供中小企业参考的商业大数据平台
30 | 当大数据遇上物联网
31 | 模块答疑:为什么大数据平台至关重要?
模块五 大数据分析与运营 (5讲)
32 | 互联网运营数据指标与可视化监控
33 | 一个电商网站订单下降的数据分析案例
34 | A/B测试与灰度发布必知必会
35 | 如何利用大数据成为“增长黑客”?
36 | 模块答疑:为什么说数据驱动运营?
模块六 大数据算法 (6讲)
37 | 如何对数据进行分类和预测?
38 | 如何发掘数据之间的关系?
39 | 如何预测用户的喜好?
40 | 机器学习的数学原理是什么?
41 | 从感知机到神经网络算法
42 | 模块答疑:软件工程师如何进入人工智能领域?
智慧写给你的寄语 (1讲)
所有的不确定都是机会——智慧写给你的新年寄语
结束语 (2讲)
结束语 | 未来的你,有无限可能
第2季回归丨大数据之后,让我们回归后端
从0开始学大数据
登录|注册

31 | 模块答疑:为什么大数据平台至关重要?

李智慧 2019-01-08
你好,我是李智慧。今天我来做模块四的答疑,主题是为什么大数据平台至关重要
我前面说过,软件大体可以分为两种,一种是为最终用户开发的,实现用户需要的业务功能;另一种是为软件工程师开发的,供软件工程师使用。我在专栏前三个模块讲到的各种大数据产品,都属于后一种,最终用户不可能自己提交一个 Hadoop 程序去执行大数据计算,这是软件工程师的工作,因此大数据产品也是为软件工程师开发的。而如何让软件工程师能够便捷地提交各类大数据计算程序给大数据计算引擎去执行,如何将用户实时数据转化为大数据产品的数据源,如何利用好大数据的计算结果,这些都是大数据平台的职责范围。
大数据平台将互联网应用和大数据产品整合起来,构建成一个完整的系统,将实时数据和离线数据打通,使数据可以实现更大规模的关联计算,挖掘出数据更大的价值,从而实现数据驱动业务,通过数据统计发现业务规律(也就是机器学习模型)。而利用这个规律对未来的数据进行分类和预测,使系统呈现出智能的特性,也为互联网未来发展和人类的生产生活创造了无限可能。
大数据平台将互联网应用和大数据产品整合起来,一方面使互联网应用变得更加智能、强大;一方面也使得大数据产品实现技术落地。技术不同于科学,科学拓展人类的认知边界,而技术是人们改造世界的工具,科学的成果可以转化为技术;而技术真正能够改造世界,需要技术落地,真正应用到生产过程中。用我们熟知的 Hadoop 为例,即使它的技术再厉害,如果没有具体应用,没有被广泛使用,同样也很难说明它有多大的价值。所以技术落地使技术产品实现真正价值,也正是大数据平台使得大数据技术产品可以落地应用,实现了自身价值。
取消
完成
0/1000字
划线
笔记
复制
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
该试读文章来自付费专栏《从0开始学大数据》,如需阅读全部文章,
请订阅文章所属专栏。
立即订阅
登录 后留言

精选留言(9)

  • 老男孩
    授之于鱼不如授之于渔,思想比工具更重要。这也许就是专栏老师的用意所在。🤔
    2019-01-08
    14
  • My dream
    现在阿里出的flink是blink的改进版,老师都不讲一下怎么用,怎么搭建,唉😔,买了这套课程一点都不适合我
    2019-01-12
    2
    7
  • 观弈道人
    陈述了现实困境,业务开发很难掌握底层技术,甚至找不到学习目标,但并没有良方解药
    2019-01-08
    5
  • 杨锋
    每个人看专栏的目的不一样吧。我觉得讲一些思想挺好的
    2019-03-05
    3
  • 纯洁的憎恶
    大数据技术及其生态链的演进过程耐人寻味,与其说是技术进步,不如说是应用场景引导的互联网“基础设施变革”。进入新世纪,快速增长的互联网企业,积累了庞大的数据,以至于无法使用传统手段处理,它们开始探索新方法,大数据技术就这么诞生了。随后市场逐渐出现了开源平台,让更多的互联网企业可以参与进来,也吸引着越来越多的开发者加入到这个新鲜的领域。于是大量的新需求推动了大数据工具不断向上封装,使得大数据技术门槛大大降低、使用越来越方便。同时,摩尔定律、网络基础设施的完善与提速、数据获取日益简便,使得大数据技术应用成本也在大大下降。各行各业纷纷涌入,疯狂捆绑在大数据战车上为彼此赋能。大数据服务也随之快速商业化,朝着“飞入寻常百姓家”的方向飞奔。大数据就像是高深的掘井技术,一步步变成了只要打开水龙头就能获取的日常资源。也许未来大数据(人工智能)、IoT、区块链会成为智能社会的三驾马车。就像电力系统、自来水系统、燃气系统、公共交通系统之于工业化城市一样。
    2019-01-08
    3
  • 星辰
    是啊,正如楼上所说,我们好像没有从大数据平台中看到容器的身影…… 老师可否稍微提一下……

    作者回复: yarn有自己的container,详情yarn一期专栏

    2019-01-09
    2
  • 杰之7
    通过这一节的阅读学习,能进一步加深我对大数据平台的理解。

    在文章中老师讲到数据驱动业务,就是大数据产品和应用产品的结合,通过我们每一步的点击、浏览,重复使用之后,大数据产品通过统计,进行机器训练,然后得到有价值的信息反馈给我们。

    学习到这里,大数据产品和平台也就接近尾声了,后面两章节分析和算法部分,也需要我们认真学习。到这里,我希望老师开一个实战篇的专栏,期望实战的内容同这一个专栏一样对我们同学有价值。感谢老师。
    2019-01-08
    2
  • 蠟筆小噺
    老师,目前基于容器的云平台越发大行其道,spark也对k8s支持越来越好。感觉正在蚕食hadoop平台,未来基于容器云的大数据、人工智能是否会成为新的标准?对于大数据开发者来说,我们是否需要自己尝试向云平台看齐?需要做怎样的努力?

    作者回复: 不同容器只是多一种部署方案,对开发者多一种选择,能替代的只是yarn,存储计算才是大数据的核心。对于大数据运维环境,顺势而为即可。

    2019-01-08
    2
  • Jet
    老师的讲课内容似乎没有揽盖数据倾斜问题,请问老师这方面有资料可循吗?
    2019-01-08
    2
收起评论
9
返回
顶部