当前播放: 大数据高压下Hadoop在字节跳动的应用演化
00:00 / 00:00
标清
  • 标清
1.0x
  • 2.0x
  • 1.5x
  • 1.25x
  • 1.0x
  • 0.5x
网页全屏
全屏
00:00
付费课程,可试看
合辑:数据基础平台构建技术
Apache Hadoop YARN: State of the Union
Apache Hadoop YARN: State of the Union
Uber搭建基于Kafka的跨数据中心拷贝平台
大数据高压下Hadoop在字节跳动的应用演化

大数据高压下Hadoop在字节跳动的应用演化

徐鹏 字节跳动 研发工程师

徐鹏,字节跳动 研发工程师

内容介绍

字节跳动拥有了 2 款 DAU 过亿(今日头条、抖音)、多款 DAU 过千万的产品。国内产品总 DAU 已超过 4 亿,MAU 已超过 8 亿,同时在全球 40 多个国家和地区排在应用商店总榜前列,覆盖 75 个语种。极速增长的用户规模和推荐为核心技术的业务背景对底层大数据平台造成了巨大的压力,日新增 5PB 数据、日均 25w+ 离线作业、日均 2k+ 离线用户对存储和计算都提出了不同的挑战。

此演讲中,我分别从存储和计算两个维度介绍字节跳动离线基础设施的规模,业务场景,遇到的挑战和我们解决的方法。这其中对社区的 Hadoop 实现有很多更改,其中部分大部分是社区还未实现的功能。

内容大纲

  1. 字节跳动 Hadoop 集群规模、业务场景、架构挑战

  2. 离线存储 HDFS 的架构演进与实践
    万台节点的管理与接入架构实践
    基于 Namenode Proxy 的路由架构
    Namenode 500GB+ JVM Heap 调优
    EB 级数据 quota / qps 管理实践
    中央式 IO 控制,长尾节点自动发现剔除策略

  3. 任务调用与资源管理 Yarn 的架构演进与实践
    字节跳动 Yarn 全球运维管理平台架构
    Yarn 调度优化实践,20w+ 作业调度调优
    Yarn 稳定性架构实践,SafeMode、雪崩预防、动态心跳资源等优化
    Yarn 资源利用率优化实践,真实资源利用率、调度资源利用率优化等

  4. 字节跳动 Hadoop 未来 Roadmap

展开
¥4.99 购买
开通VIP
24
登录 后留言

精选留言

由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论
其他推荐
39:21
从平台构建到领域深耕: Kubernetes在华为云的实践与发展
王泽锋 华为云 Kubernetes开源负责人
试看
45:15
基于Istio on Kubernetes云原生应用的最佳实践
王夕宁 阿里云 高级技术专家
试看
32:48
微博深度学习平台基于Kubernetes的分布式解决方案
于翔 新浪微博 机器学习研发架构师
试看