复习课（六）| Hive

徐文浩

你好，我是黄金。今天这期复习课，我们一起来回顾和总结下，Facebook 在 2009 年所发表的 Hive 的论文。
Hive 介绍2008 年以前，Facebook 的数据仓库构建在商用的 RDBMS 上。随着数据量的增加，一些需要每天执行的批处理作业，单次运行时间已经超过了一天，因此优化数据仓库成为迫在眉睫的任务。后来 Facebook 把数据搬到了 Hadoop 上，原来需要花一天多才能跑完的作业，现在花几个小时就能跑完，执行速度快了很多。
不过使用 Hadoop 并不容易，尤其是对那些不熟悉 MapReduce 的人来说，即使是写一个简单的查询，也要花上几个小时。工程师们就在想，能不能把分析师熟悉的表、分区之类的 SQL 概念，引入 Hadoop 世界，一来可以让分析人员使用自己已经掌握的工具，二来可以把编写脚本的时间，从几个小时缩短成几分钟。
于是，就有了我们今天要介绍的 Hive，而它所使用的查询语言就是和 SQL 非常类似的 HiveQL。
数据模型想要把 MapReduce 任务变成 SQL 语句，需要先把数据结构化，才能用 SQL 语句查询。像传统的 RDBMS 一样，Hive 的数据通过表来抽象，数据由多行记录构成，一行记录包含多个字段，每个字段有特定的类型。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

Hive是Facebook在2009年发表的论文中介绍的一种数据仓库解决方案。它基于Hadoop，旨在简化对大数据的分析和查询。Hive引入了类似SQL的查询语言HiveQL，使得分析师可以利用熟悉的工具进行数据分析。数据模型采用宽表结构，支持分区和分桶操作，以提高查询效率。数据存储在HDFS上，通过序列化器和文件格式指定数据存储方式。系统架构包括对外接口、驱动器和Metastore，通过HiveQL执行优化器来提升执行性能。此外，Hive并没有对MapReduce形成强依赖，因此可以借助Spark执行得更快。总的来说，Hive为大数据分析提供了简单易用的工具，同时通过优化器和灵活的架构提升了执行性能。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《大数据经典论文解读》，新⼈⾸单¥59

立即购买

登录后留言

精选留言

由作者筛选后的优质留言将会公开显示，欢迎踊跃留言。

收起评论