从 0 开始学大数据
李智慧
同程艺龙交通首席架构师,前 Intel 大数据架构师,《大型网站技术架构》作者
71151 人已学习
新⼈⾸单¥68
登录后,你可以任选4讲全文学习
课程目录
已完结/共 47 讲
智慧写给你的寄语 (1讲)
从 0 开始学大数据
15
15
1.0x
00:00/00:00
登录|注册

23 | 大数据基准测试可以带来什么好处?

Spark表现令人吃惊,得到Intel的支持并成为Apache的顶级项目
Impala的定位似乎只是Hive的附属品
Impala适合简单统计查询和预查询,但在连接查询性能表现较差
Spark VS MapReduce
Impala VS Hive
执行测试
初始化数据
配置
使用简单,支持多种大数据产品
学习大数据、验证大数据平台性能的工具
PageRank
SQL
逻辑回归
k-means聚类
Bayes分类
TeraSort
WordCount
Sort
应用场景
架构和技术原理角度分析
使用步骤
价值
内置的大数据计算程序
基于大数据基准测试工具HiBench进行对比测试
Impala比Hive更消耗内存的原因
大数据基准测试工具HiBench
2012年,Hadoop日趋成熟,Intel大数据团队选择了Spark并参与其开发
思考题
大数据基准测试工具HiBench

该思维导图由 AI 生成,仅供参考

2012 年的时候,Hadoop 已经日趋成熟,Intel 的大数据团队也正准备寻找新的技术研究方向。当时,我们对比测试了多个新出来的大数据技术产品,最终选择了 Spark 重点跟进参与。现在看来,这是一个明智的决定,作出这个决定是基于大数据基准测试,而使用的对比测试工具就是我今天要讲的大数据基准测试工具 HiBench
大数据作为一个生态体系,不但有各种直接进行大数据处理的平台和框架,比如 HDFS、MapReduce、Spark,还有很多周边的支撑工具,而大数据基准测试工具就是其中一个大类。

大数据基准测试的应用

大数据基准测试的主要用途是对各种大数据产品进行测试,检验大数据产品在不同硬件平台、不同数据量、不同计算任务下的性能表现。
上面这样讲大数据基准测试的用途可能比较教条,我举两个例子你就能明白它的应用有多么重要了。
还是回到 2012 年,当时 Hive 只能做离线的 SQL 查询计算,无法满足数据分析师实时交互查询的需求,业界需要一款更快的 ad hoc query(即席查询,一种非预设查询的 SQL 访问)工具。在这种情况下,Cloudera 推出了准实时 SQL 查询工具 Impala。Impala 兼容 Hive 的 Hive QL 语法和 Hive MetaSotre,也支持 Hive 存储在 HDFS 的数据表,但是放弃了 Hive 较慢的 MapReduce 执行引擎,而是基于 MPP(Massively Parallel Processing,大规模并行处理)的架构思想重新开发了自己的执行引擎,从而获得更快的查询速度。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

大数据基准测试工具HiBench的应用价值和使用方法是本文的重点。文章首先介绍了大数据基准测试的应用,以2012年对Impala和Hive的对比测试为例,强调了基准测试对于评估大数据产品性能的重要性。随后,文章详细介绍了HiBench的内置大数据计算程序和支持的大数据框架,以及其在学习大数据和验证大数据平台性能方面的作用。最后,文章简明扼要地介绍了HiBench的使用方法,包括配置、初始化数据和执行测试的三个简单步骤。通过对HiBench的介绍,读者可以快速了解到该工具的价值和使用方式,以及其在大数据领域的重要作用。 文章重点介绍了大数据基准测试工具HiBench的应用价值和使用方法。首先强调了基准测试对于评估大数据产品性能的重要性,以2012年对Impala和Hive的对比测试为例。随后详细介绍了HiBench的内置大数据计算程序和支持的大数据框架,以及其在学习大数据和验证大数据平台性能方面的作用。最后简明扼要地介绍了HiBench的使用方法,包括配置、初始化数据和执行测试的三个简单步骤。通过对HiBench的介绍,读者可以快速了解到该工具的价值和使用方式,以及其在大数据领域的重要作用。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《从 0 开始学大数据》
新⼈⾸单¥68
立即购买
登录 后留言

全部留言(12)

  • 最新
  • 精选
  • 阿神
    spark也是耗内存的,怎么就不会失去响应?

    作者回复: spark的内存策略更多样,可以在内存不足时使用磁盘。最重要的,spark的rdd lineage,可以使spark针对一个分片进行溯源重建,容错能力非常强。

    2018-12-22
    20
  • Geek_8c4277
    遇到大量数据的分组问题:有上亿条记录,十几个字段,需支持任意几个字段group by,还能分页查看与几秒响应,研究过一些方案,多数都只支持topN,要么就是响应慢,我们计划开发模块进行数据预生成,缺点就是组合多,老师觉得我们的思路有问题吗?

    作者回复: 能解决问题就没问题~~ 可以关注下ES

    2019-08-18
    3
    6
  • 雄鹰
    老师你好,利用HiBench测试Hadoop的基准测试时,集群服务器之间必须要设置成ssh免密登录吗?

    作者回复: 免密登录是大数据集群运维的常规手段,CDH集群管理也是要求免密登录的。

    2020-11-03
  • 顾仲贤
    当时有好友在Cloudera工作,聊起过Impala开发。Impala其实就是一个MPP的database execution engine, 但很多地方不成熟。最大的问题就是不支持spilling. 所以才导致很多operation会吃光内存,比如hash join, group by aggregation或sorting (一个趣事,Impala在执行order by语句会强制要求有limit语句)。但Hive是mapreduce engine本质对内存需求不大。
    2018-12-20
    31
  • 盖饭
    看来很多人都跟不上了,已经完全不是从0开始了😁
    2019-04-15
    15
  • 青铜5 周群力
    老师能否推荐下性能优化、基准测试这方面更深入的书或其他学习资料?看了这几期有很多困惑,比如spark性能测试为啥选的是一个视频处理程序,为啥不用基准测试程序呢
    2018-12-30
    4
  • 细小软也会有梦想
    我们公司都是跑TPCH和TPCDS进行跑分。
    2019-02-19
    2
  • ヾ(◍°∇°◍)ノ゙
    这也许就是前面李老师说的抽象能力的体现吧。spark做的类似mapreduce的通用计算而且体验上非常好。这点很重要。而impala和presto由于过于关注响应时延 ,导致其关注的需求并不太通用,同时它的确解决了一些场景比spark好。但是场景太局限
    2018-12-20
    2
  • 基准测试——就是对一个产品全方位的各种测试,用于评估这个东西在各方面的性能情况。 HiBench值得尝试。 数据量比较大时Impala的join就不行了,猜测她的join操作会把数据都拿到内存中关联,即使内存不足了也不留一些活命,自己把自己活动空间给挤没啦!
    2019-09-28
    1
  • Geek_b8928e
    大数据基准测试的主要用途是对各种大数据产品进行测试,检验大数据产品在不同硬件平台、不同数据量、不同计算任务下的性能表现。 HiBench 内置了若干主要的大数据计算程序作为基准测试的负载(workload)。 Sort,对数据进行排序大数据程序。 WordCount,词频统计大数据计算程序。 TeraSort,对 1TB 数据进行排序。 Bayes 分类,机器学习分类算法,用于数据分类和预测。 k-means 聚类,对数据集合规律进行挖掘的算法。 逻辑回归,数据进行预测和回归的算法。 SQL,包括全表扫描、聚合操作(group by)、连接操作(join)几种典型查询 SQL。 PageRank,Web 排序算法。
    2020-03-29
收起评论
显示
设置
留言
12
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部