复习课(六)| Hive
徐文浩
你好,我是黄金。今天这期复习课,我们一起来回顾和总结下,Facebook 在 2009 年所发表的 Hive 的论文。
Hive 介绍
2008 年以前,Facebook 的数据仓库构建在商用的 RDBMS 上。随着数据量的增加,一些需要每天执行的批处理作业,单次运行时间已经超过了一天,因此优化数据仓库成为迫在眉睫的任务。后来 Facebook 把数据搬到了 Hadoop 上,原来需要花一天多才能跑完的作业,现在花几个小时就能跑完,执行速度快了很多。
不过使用 Hadoop 并不容易,尤其是对那些不熟悉 MapReduce 的人来说,即使是写一个简单的查询,也要花上几个小时。工程师们就在想,能不能把分析师熟悉的表、分区之类的 SQL 概念,引入 Hadoop 世界,一来可以让分析人员使用自己已经掌握的工具,二来可以把编写脚本的时间,从几个小时缩短成几分钟。
于是,就有了我们今天要介绍的 Hive,而它所使用的查询语言就是和 SQL 非常类似的 HiveQL。
数据模型
想要把 MapReduce 任务变成 SQL 语句,需要先把数据结构化,才能用 SQL 语句查询。像传统的 RDBMS 一样,Hive 的数据通过表来抽象,数据由多行记录构成,一行记录包含多个字段,每个字段有特定的类型。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
Hive是Facebook在2009年发表的论文中介绍的一种数据仓库解决方案。它基于Hadoop,旨在简化对大数据的分析和查询。Hive引入了类似SQL的查询语言HiveQL,使得分析师可以利用熟悉的工具进行数据分析。数据模型采用宽表结构,支持分区和分桶操作,以提高查询效率。数据存储在HDFS上,通过序列化器和文件格式指定数据存储方式。系统架构包括对外接口、驱动器和Metastore,通过HiveQL执行优化器来提升执行性能。此外,Hive并没有对MapReduce形成强依赖,因此可以借助Spark执行得更快。总的来说,Hive为大数据分析提供了简单易用的工具,同时通过优化器和灵活的架构提升了执行性能。
仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《大数据经典论文解读》,新⼈⾸单¥59
《大数据经典论文解读》,新⼈⾸单¥59
立即购买
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
精选留言
由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论