致程序员:AI 百问百答
极客时间
专家团
4401 人已学习
新⼈⾸单¥0.11
登录后,你可以任选4讲全文学习
课程目录
已更新 91 讲/共 98 讲
第一章:AI 行业全景 (25讲)
第六章:AI 项目实战经验 (23讲)
致程序员:AI 百问百答
15
15
1.0x
00:00/00:00
登录|注册

Case5|千卡级分布式集群上的视觉多模态大模型落地实践

嘉宾介绍
王兆雄,曾就职于京东商城和猎豹移动,拥有丰富的大数据分析和游戏服务端研发经验,主导设计并实现了支撑数千万日活用户的轻量级游戏服务端架构。目前在 vivo AI 研究院任职,负责过 vivo 手机智慧桌面信息流和全局搜索服务端的推荐与搜索架构,支撑亿级用户。现负责视觉多模态大模型的训练工程,具备千卡级分布式集群上大模型训练的丰富经验,致力于构建高性能、可扩展的 AI 解决方案。
多模态大模型在智能客服、自动驾驶、AIGC 等领域的应用需求不断增长,但其训练工程面临计算、存储、数据处理、分布式通信等多重挑战。特别是在千卡级 GPU 训练集群上,如何优化数据加载、提升训练稳定性、突破计算与存储瓶颈,成为 AI Infra 需要重点攻克的难题。
在 InfoQ 举办的 AICon 全球人工智能开发与应用大会 上 vivo AI 研究院 AI 架构师王兆雄做了专题演讲“千卡级分布式集群上的视觉多模态大模型落地实践”,基于 LLaVA 视觉多模态理解模型和 DiT 文生图模型的训练工程实践,详细解析大规模 GPU 训练集群下的数据存储优化、分布式计算策略、训练容错机制,并探讨如何提升大规模多模态模型的训练效率和稳定性。演讲将重点介绍混合并行训练、数据高效加载、自动容错恢复等技术方案,为业界提供可落地的工程实践经验。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
  • 解释
  • 总结

1. 多模态大模型训练工程面临的挑战包括算力压力大、存储I/O与CPU预处理造成的加载延迟、数据吞吐受限以及通信并行调度困难。 2. 优化实践经验涵盖数据处理优化、模型计算优化、分布式通信优化和训练稳定性建设。 3. 数据处理优化方面包括图文数据预处理成多个shard小块、采用异步加载和缓存预取机制以及本地缓存高频样本等。 4. 模型计算优化方面包括算子融合、高效的attention计算、混合并行加Interleaved 1f1b操作以及激活重算、混合精度等操作。 5. 分布式通信优化方面包括拓扑感知调度、通信-计算重叠、NCCL 多通道和CPU核绑定等。 6. 训练稳定性建设方面包括降低中断概率、缩短恢复时间和减少重复训练损耗。 7. 在大规模模型训练中,数据加载是第一个瓶颈,优化包括优化任务下发、在子进程中进行解码或resize操作、启用锁页内存和在拉取数据时利用本地缓存等。 8. 在模态融合下的算力利用率优化方面,采用非均匀流水线重构、离线数据拼接和配套流水线并行调度等。 9. 在通信层面的优化中,分布式通信是决定能否实现线性扩展的关键环节,优化包括网络结构支持、拓扑感知调度、通信-计算重叠和CPU核绑定等.

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《致程序员:AI 百问百答》
新⼈⾸单¥0.11
立即购买
登录 后留言

精选留言

由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论
显示
设置
留言
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部
文章页面操作
MAC
windows
作用
esc
esc
退出沉浸式阅读
shift + f
f11
进入/退出沉浸式
command + ⬆️
home
滚动到页面顶部
command + ⬇️
end
滚动到页面底部
⬅️ (仅针对订阅)
⬅️ (仅针对订阅)
上一篇
➡️ (仅针对订阅)
➡️ (仅针对订阅)
下一篇
command + j
page up
向下滚动一屏
command + k
page down
向上滚动一屏
p
p
音频播放/暂停
j
j
向下滚动一点
k
k
向上滚动一点
空格
空格
向下滚动一屏
播放器操作
MAC
windows
作用
esc
esc
退出全屏
⬅️
⬅️
快退
➡️
➡️
快进
空格
空格
视频播放/暂停(视频全屏时生效)