极客时间-轻松学习，高效学习-极客邦

当前播放: 字节跳动如何通过优化列式存储加速 Spark SQL







00:00 / 00:00

1.0x

2.0x
1.5x
1.25x
1.0x
0.5x



网页全屏



全屏

00:00

付费课程，可试看

专题：融合趋势下的大数据技术



如何基于 Apache Hudi 构建企业级数据湖

实时图计算在蚂蚁集团的应用

翼支付数智化升级之路

腾讯在新一代的数据湖表格式 Iceberg 上的探索与实践

字节跳动如何通过优化列式存储加速 Spark SQL

Zeppelin + Airflow：大数据作业开发到生产的无缝切换

使用 RayDP 构建下一代端到端的大数据和AI平台实践

B 站万亿规模下管道化传输的演进

字节跳动如何通过优化列式存储加速 Spark SQL

郭俊字节跳动数据引擎团队负责人







934次播放

¥49 购买

开通VIP

课程详情

课件下载

在字节跳动数据仓库领域，SparkSQL已经取代Hive成为了主要的计算引擎。目前SparkSQL每天处理千万亿级数据。数据引擎团队针对线上复杂的场景，以及用户对于稳定性及性能方面的需求，进行了大量的优化，包含SQL层优化、执行层优化、Shuffle优化、列式存储优化等。在字节跳动内部，列式存储在数仓领域广泛使用。目前字节跳动主推的列式存储格式是Parquet，同时存在部分使用ORC的场景。本次演讲，将介绍字节跳动数据引擎团队如何通过列式存储上的一系列优化加速SparkSQL从而更好支撑EB级数仓。内容大纲列式存储基本原理及常见优化方向（高效压缩、向量化读、LateMaterialization、InvisibleJoin）Parquet支持复杂数据类型向量化读及fieldpruning物化列大幅提升复杂数据类型的读取及过滤效率自定义Parquet索引LocalSort提升压缩比并优化查询性能IO并行化：并行读小文件，并行读大文件RowGroup异步Spill听众受益了解列式存储常见优化方法EB级数仓下列式存储优化实践

展开

登录后留言

精选留言

由作者筛选后的优质留言将会公开显示，欢迎踊跃留言。

收起评论

我的大厂案例VIP

大厂案例VIP

学习大厂前沿案例向行业领先迈进

开通

字节跳动如何通过优化列式存储加速 Spark SQL

课程详情

精选留言

相关推荐