大数据经典论文解读
徐文浩
bothub 创始人
13844 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
课程目录
已完结/共 59 讲
大数据经典论文解读
15
15
1.0x
00:00/00:00
登录|注册

复习课(六)| Hive

你好,我是黄金。今天这期复习课,我们一起来回顾和总结下,Facebook 在 2009 年所发表的 Hive 的论文。

Hive 介绍

2008 年以前,Facebook 的数据仓库构建在商用的 RDBMS 上。随着数据量的增加,一些需要每天执行的批处理作业,单次运行时间已经超过了一天,因此优化数据仓库成为迫在眉睫的任务。后来 Facebook 把数据搬到了 Hadoop 上,原来需要花一天多才能跑完的作业,现在花几个小时就能跑完,执行速度快了很多。
不过使用 Hadoop 并不容易,尤其是对那些不熟悉 MapReduce 的人来说,即使是写一个简单的查询,也要花上几个小时。工程师们就在想,能不能把分析师熟悉的表、分区之类的 SQL 概念,引入 Hadoop 世界,一来可以让分析人员使用自己已经掌握的工具,二来可以把编写脚本的时间,从几个小时缩短成几分钟。
于是,就有了我们今天要介绍的 Hive,而它所使用的查询语言就是和 SQL 非常类似的 HiveQL。

数据模型

想要把 MapReduce 任务变成 SQL 语句,需要先把数据结构化,才能用 SQL 语句查询。像传统的 RDBMS 一样,Hive 的数据通过来抽象,数据由多行记录构成,一行记录包含多个字段,每个字段有特定的类型。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

Hive是Facebook在2009年发表的论文中介绍的一种数据仓库解决方案。它基于Hadoop,旨在简化对大数据的分析和查询。Hive引入了类似SQL的查询语言HiveQL,使得分析师可以利用熟悉的工具进行数据分析。数据模型采用宽表结构,支持分区和分桶操作,以提高查询效率。数据存储在HDFS上,通过序列化器和文件格式指定数据存储方式。系统架构包括对外接口、驱动器和Metastore,通过HiveQL执行优化器来提升执行性能。此外,Hive并没有对MapReduce形成强依赖,因此可以借助Spark执行得更快。总的来说,Hive为大数据分析提供了简单易用的工具,同时通过优化器和灵活的架构提升了执行性能。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《大数据经典论文解读》
新⼈⾸单¥59
立即购买
登录 后留言

精选留言

由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论
显示
设置
留言
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部