当前播放: 字节跳动如何通过优化列式存储加速 Spark SQL
00:00 / 00:00
    1.0x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.5x
    网页全屏
    全屏
    00:00
    付费课程,可试看
    专题:融合趋势下的大数据技术
    如何基于 Apache Hudi 构建企业级数据湖
    实时图计算在蚂蚁集团的应用
    翼支付数智化升级之路
    腾讯在新一代的数据湖表格式 Iceberg 上的探索与实践
    字节跳动如何通过优化列式存储加速 Spark SQL
    Zeppelin + Airflow:大数据作业开发到生产的无缝切换
    使用 RayDP 构建下一代端到端的大数据和AI平台实践
    B 站万亿规模下管道化传输的演进

    字节跳动如何通过优化列式存储加速 Spark SQL

    郭俊 字节跳动数据引擎团队负责人
    934次播放
    ¥49 购买
    开通VIP

    课程详情

    课件下载
    在字节跳动数据仓库领域,SparkSQL已经取代Hive成为了主要的计算引擎。目前SparkSQL每天处理千万亿级数据。数据引擎团队针对线上复杂的场景,以及用户对于稳定性及性能方面的需求,进行了大量的优化,包含SQL层优化、执行层优化、Shuffle优化、列式存储优化等。在字节跳动内部,列式存储在数仓领域广泛使用。目前字节跳动主推的列式存储格式是Parquet,同时存在部分使用ORC的场景。本次演讲,将介绍字节跳动数据引擎团队如何通过列式存储上的一系列优化加速SparkSQL从而更好支撑EB级数仓。内容大纲列式存储基本原理及常见优化方向(高效压缩、向量化读、LateMaterialization、InvisibleJoin)Parquet支持复杂数据类型向量化读及fieldpruning物化列大幅提升复杂数据类型的读取及过滤效率自定义Parquet索引LocalSort提升压缩比并优化查询性能IO并行化:并行读小文件,并行读大文件RowGroup异步Spill听众受益了解列式存储常见优化方法EB级数仓下列式存储优化实践
    展开
    登录 后留言

    精选留言

    由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
    收起评论
    我的大厂案例VIP
    大厂案例VIP
    学习大厂前沿案例 向行业领先迈进
    开通

    相关推荐

    673
    50:13
    如何基于 Apache Hudi 构建企业级数据湖
    杨华 T3 出行大数据平台负责人
    试看
    534
    25:37
    实时图计算在蚂蚁集团的应用
    潘臻轩(泰初) 蚂蚁集团高级技术专家
    试看
    283
    44:44
    翼支付数智化升级之路
    谢巍盛 翼支付大数据总监
    试看
    397
    41:54
    腾讯在新一代的数据湖表格式 Iceberg 上的探索与实践
    邵赛赛 腾讯数据湖内核技术负责人/资深大数据工程师
    试看