徐鹏,字节跳动 研发工程师
字节跳动拥有了 2 款 DAU 过亿(今日头条、抖音)、多款 DAU 过千万的产品。国内产品总 DAU 已超过 4 亿,MAU 已超过 8 亿,同时在全球 40 多个国家和地区排在应用商店总榜前列,覆盖 75 个语种。极速增长的用户规模和推荐为核心技术的业务背景对底层大数据平台造成了巨大的压力,日新增 5PB 数据、日均 25w+ 离线作业、日均 2k+ 离线用户对存储和计算都提出了不同的挑战。
此演讲中,我分别从存储和计算两个维度介绍字节跳动离线基础设施的规模,业务场景,遇到的挑战和我们解决的方法。这其中对社区的 Hadoop 实现有很多更改,其中部分大部分是社区还未实现的功能。
字节跳动 Hadoop 集群规模、业务场景、架构挑战
离线存储 HDFS 的架构演进与实践
万台节点的管理与接入架构实践
基于 Namenode Proxy 的路由架构
Namenode 500GB+ JVM Heap 调优
EB 级数据 quota / qps 管理实践
中央式 IO 控制,长尾节点自动发现剔除策略
任务调用与资源管理 Yarn 的架构演进与实践
字节跳动 Yarn 全球运维管理平台架构
Yarn 调度优化实践,20w+ 作业调度调优
Yarn 稳定性架构实践,SafeMode、雪崩预防、动态心跳资源等优化
Yarn 资源利用率优化实践,真实资源利用率、调度资源利用率优化等
字节跳动 Hadoop 未来 Roadmap