复习课(七)| Dremel
黄金
你好,我是黄金。今天,我们一起来复习下 Dremel 的论文内容。
Dremel 介绍
Dremel 是一种可伸缩的、交互式即席查询系统,主要用于分析只读的嵌套数据集。只要几秒钟,它就能从万亿条记录中得到想要的聚合查询结果。
我们知道,Web 和科学计算中使用的数据常常是非关系型的,一般采用支持灵活扩展,可以不断嵌套的方式来表示。而 Dremel 为了支持这类数据的低延迟即席查询,提出了一种嵌套数据的列式存储方案,这不仅减少了需要扫描的数据,还因为更廉价的压缩方式,降低了 CPU 的消耗。
并且,Dremel 还从搜索服务中借鉴了查询执行树的思想,像分布式搜索引擎查询数据一样,查询请求会通过树状结构下推到子节点,然后经过层层归并,返回最终结果。这种分而治之、并行计算的思路,就让 Dremel 降低到秒级延迟成为了可能。
那么,Dremel 论文主要介绍的,就是嵌套数据的列式存储方案和多层查询执行树。下面我们就一起来回顾下这篇论文的主要内容。
Google 工程师如何使用 Dremel?
我在刚开始读 Dremel 论文的时候,一直有一个疑问,Dremel 说自己是 MapReduce 的一个补充。但是我就想,MapReduce 分析数据要几个小时,Dremel 只要几秒钟,这分明是巨大的进步,怎么能说只是补充呢?
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
Dremel是一种可伸缩的、交互式即席查询系统,主要用于分析只读的嵌套数据集。它采用嵌套数据的列式存储方案和多层查询执行树,实现了秒级延迟的查询速度。Dremel的列式存储方案通过Repetition Level和Definition Level来还原原始数据结构,解决了嵌套数据格式的展平问题。同时,Dremel采用树状结构和并行计算,将查询计划分解到每个分片上执行,然后聚合查询结果,实现了快速查询。此外,Dremel还通过服务池化、投机执行、面向列的模式表示等方式进一步降低查询延迟。总的来说,Dremel的技术特点在于支持嵌套数据的列式存储和采用树状结构的多层查询执行,为数据分析提供了快速验证想法和得出大致结论的能力。
仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《大数据经典论文解读》,新⼈⾸单¥59
《大数据经典论文解读》,新⼈⾸单¥59
立即购买
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
精选留言
由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论