讲堂
部落
提薪训练营
Go进阶训练营
前端实战训练营
企业版
极客商城
兑换中心
App下载
登录
注册
Sorry, your browser doesn't support embedded videos.
当前播放: 字节跳动如何通过优化列式存储加速 Spark SQL
00:00
/ 00:00
1.0x
2.0x
1.5x
1.25x
1.0x
0.5x
网页全屏
全屏
00:00
付费课程,可试看
专题:融合趋势下的大数据技术
如何基于 Apache Hudi 构建企业级数据湖
实时图计算在蚂蚁集团的应用
翼支付数智化升级之路
腾讯在新一代的数据湖表格式 Iceberg 上的探索与实践
字节跳动如何通过优化列式存储加速 Spark SQL
Zeppelin + Airflow:大数据作业开发到生产的无缝切换
使用 RayDP 构建下一代端到端的大数据和AI平台实践
B 站万亿规模下管道化传输的演进
字节跳动如何通过优化列式存储加速 Spark SQL
郭俊 字节跳动数据引擎团队负责人
934次播放
¥49
购买
开通VIP
课程详情
课件下载
在字节跳动数据仓库领域,SparkSQL已经取代Hive成为了主要的计算引擎。目前SparkSQL每天处理千万亿级数据。数据引擎团队针对线上复杂的场景,以及用户对于稳定性及性能方面的需求,进行了大量的优化,包含SQL层优化、执行层优化、Shuffle优化、列式存储优化等。在字节跳动内部,列式存储在数仓领域广泛使用。目前字节跳动主推的列式存储格式是Parquet,同时存在部分使用ORC的场景。本次演讲,将介绍字节跳动数据引擎团队如何通过列式存储上的一系列优化加速SparkSQL从而更好支撑EB级数仓。内容大纲列式存储基本原理及常见优化方向(高效压缩、向量化读、LateMaterialization、InvisibleJoin)Parquet支持复杂数据类型向量化读及fieldpruning物化列大幅提升复杂数据类型的读取及过滤效率自定义Parquet索引LocalSort提升压缩比并优化查询性能IO并行化:并行读小文件,并行读大文件RowGroup异步Spill听众受益了解列式存储常见优化方法EB级数仓下列式存储优化实践
展开
登录
后留言
精选留言
由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论
我的大厂案例VIP
大厂案例VIP
学习大厂前沿案例 向行业领先迈进
开通
相关推荐
673
50:13
如何基于 Apache Hudi 构建企业级数据湖
杨华 T3 出行大数据平台负责人
试看
534
25:37
实时图计算在蚂蚁集团的应用
潘臻轩(泰初) 蚂蚁集团高级技术专家
试看
283
44:44
翼支付数智化升级之路
谢巍盛 翼支付大数据总监
试看
397
41:54
腾讯在新一代的数据湖表格式 Iceberg 上的探索与实践
邵赛赛 腾讯数据湖内核技术负责人/资深大数据工程师
试看