从0开始学大数据
李智慧
同程艺龙交通首席架构师,前Intel大数据架构师,《大型网站技术架构》作者
立即订阅
14333 人已学习
课程目录
已完结 46 讲
0/4登录后,你可以任选4讲全文学习。
开篇词 (1讲)
开篇词 | 为什么说每个软件工程师都应该懂大数据技术?
免费
预习模块 (3讲)
预习 01 | 大数据技术发展史:大数据的前世今生
预习 02 | 大数据应用发展史:从搜索引擎到人工智能
预习 03 | 大数据应用领域:数据驱动一切
模块一 Hadoop大数据原理与架构 (7讲)
04 | 移动计算比移动数据更划算
05 | 从RAID看垂直伸缩到水平伸缩的演化
06 | 新技术层出不穷,HDFS依然是存储的王者
07 | 为什么说MapReduce既是编程模型又是计算框架?
08 | MapReduce如何让数据完成一次旅行?
09 | 为什么我们管Yarn叫作资源调度框架?
10 | 模块答疑:我们能从Hadoop学到什么?
模块二 大数据生态体系主要产品原理与架构 (7讲)
11 | Hive是如何让MapReduce实现SQL操作的?
12 | 我们并没有觉得MapReduce速度慢,直到Spark出现
13 | 同样的本质,为何Spark可以更高效?
14 | BigTable的开源实现:HBase
15 | 流式计算的代表:Storm、Flink、Spark Streaming
16 | ZooKeeper是如何保证数据一致性的?
17 | 模块答疑:这么多技术,到底都能用在什么场景里?
模块三 大数据开发实践 (8讲)
18 | 如何自己开发一个大数据SQL引擎?
19 | Spark的性能优化案例分析(上)
20 | Spark的性能优化案例分析(下)
21 | 从阿里内部产品看海量数据处理系统的设计(上):Doris的立项
22 | 从阿里内部产品看海量数据处理系统的设计(下):架构与创新
23 | 大数据基准测试可以带来什么好处?
24 | 从大数据性能测试工具Dew看如何快速开发大数据系统
25 | 模块答疑:我能从大厂的大数据开发实践中学到什么?
模块四 大数据平台与系统集成 (6讲)
26 | 互联网产品 + 大数据产品 = 大数据平台
27 | 大数据从哪里来?
28 | 知名大厂如何搭建大数据平台?
29 | 盘点可供中小企业参考的商业大数据平台
30 | 当大数据遇上物联网
31 | 模块答疑:为什么大数据平台至关重要?
模块五 大数据分析与运营 (5讲)
32 | 互联网运营数据指标与可视化监控
33 | 一个电商网站订单下降的数据分析案例
34 | A/B测试与灰度发布必知必会
35 | 如何利用大数据成为“增长黑客”?
36 | 模块答疑:为什么说数据驱动运营?
模块六 大数据算法 (6讲)
37 | 如何对数据进行分类和预测?
38 | 如何发掘数据之间的关系?
39 | 如何预测用户的喜好?
40 | 机器学习的数学原理是什么?
41 | 从感知机到神经网络算法
42 | 模块答疑:软件工程师如何进入人工智能领域?
智慧写给你的寄语 (1讲)
所有的不确定都是机会——智慧写给你的新年寄语
结束语 (2讲)
结束语 | 未来的你,有无限可能
第2季回归丨大数据之后,让我们回归后端
从0开始学大数据
登录|注册

23 | 大数据基准测试可以带来什么好处?

李智慧 2018-12-20
2012 年的时候,Hadoop 已经日趋成熟,Intel 的大数据团队也正准备寻找新的技术研究方向。当时,我们对比测试了多个新出来的大数据技术产品,最终选择了 Spark 重点跟进参与。现在看来,这是一个明智的决定,作出这个决定是基于大数据基准测试,而使用的对比测试工具就是我今天要讲的大数据基准测试工具 HiBench
大数据作为一个生态体系,不但有各种直接进行大数据处理的平台和框架,比如 HDFS、MapReduce、Spark,还有很多周边的支撑工具,而大数据基准测试工具就是其中一个大类。

大数据基准测试的应用

大数据基准测试的主要用途是对各种大数据产品进行测试,检验大数据产品在不同硬件平台、不同数据量、不同计算任务下的性能表现。
上面这样讲大数据基准测试的用途可能比较教条,我举两个例子你就能明白它的应用有多么重要了。
还是回到 2012 年,当时 Hive 只能做离线的 SQL 查询计算,无法满足数据分析师实时交互查询的需求,业界需要一款更快的 ad hoc query(即席查询,一种非预设查询的 SQL 访问)工具。在这种情况下,Cloudera 推出了准实时 SQL 查询工具 Impala。Impala 兼容 Hive 的 Hive QL 语法和 Hive MetaSotre,也支持 Hive 存储在 HDFS 的数据表,但是放弃了 Hive 较慢的 MapReduce 执行引擎,而是基于 MPP(Massively Parallel Processing,大规模并行处理)的架构思想重新开发了自己的执行引擎,从而获得更快的查询速度。
取消
完成
0/1000字
划线
笔记
复制
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
该试读文章来自付费专栏《从0开始学大数据》,如需阅读全部文章,
请订阅文章所属专栏。
立即订阅
登录 后留言

精选留言(9)

  • Dr. ZZZ
    当时有好友在Cloudera工作,聊起过Impala开发。Impala其实就是一个MPP的database execution engine, 但很多地方不成熟。最大的问题就是不支持spilling. 所以才导致很多operation会吃光内存,比如hash join, group by aggregation或sorting (一个趣事,Impala在执行order by语句会强制要求有limit语句)。但Hive是mapreduce engine本质对内存需求不大。
    2018-12-20
    7
  • 阿神
    spark也是耗内存的,怎么就不会失去响应?

    作者回复: spark的内存策略更多样,可以在内存不足时使用磁盘。最重要的,spark的rdd lineage,可以使spark针对一个分片进行溯源重建,容错能力非常强。

    2018-12-22
    5
  • 盖饭
    看来很多人都跟不上了,已经完全不是从0开始了😁
    2019-04-15
    1
  • 青铜5 周群力
    老师能否推荐下性能优化、基准测试这方面更深入的书或其他学习资料?看了这几期有很多困惑,比如spark性能测试为啥选的是一个视频处理程序,为啥不用基准测试程序呢
    2018-12-30
    1
  • 💪😊
    这也许就是前面李老师说的抽象能力的体现吧。spark做的类似mapreduce的通用计算而且体验上非常好。这点很重要。而impala和presto由于过于关注响应时延 ,导致其关注的需求并不太通用,同时它的确解决了一些场景比spark好。但是场景太局限
    2018-12-20
    1
  • godtrue
    基准测试——就是对一个产品全方位的各种测试,用于评估这个东西在各方面的性能情况。
    HiBench值得尝试。
    数据量比较大时Impala的join就不行了,猜测她的join操作会把数据都拿到内存中关联,即使内存不足了也不留一些活命,自己把自己活动空间给挤没啦!
    2019-09-28
  • Geek_8c4277
    遇到大量数据的分组问题:有上亿条记录,十几个字段,需支持任意几个字段group by,还能分页查看与几秒响应,研究过一些方案,多数都只支持topN,要么就是响应慢,我们计划开发模块进行数据预生成,缺点就是组合多,老师觉得我们的思路有问题吗?

    作者回复: 能解决问题就没问题~~
    可以关注下ES

    2019-08-18
    1
  • 细小软也会有梦想
    我们公司都是跑TPCH和TPCDS进行跑分。
    2019-02-19
  • AF
    数据计算,中间结果都是放在内存,如果数据量大了之后,内存就不够用了
    2018-12-22
收起评论
9
返回
顶部