嘉宾介绍
王兆雄，曾就职于京东商城和猎豹移动，拥有丰富的大数据分析和游戏服务端研发经验，主导设计并实现了支撑数千万日活用户的轻量级游戏服务端架构。目前在 vivo AI 研究院任职，负责过 vivo 手机智慧桌面信息流和全局搜索服务端的推荐与搜索架构，支撑亿级用户。现负责视觉多模态大模型的训练工程，具备千卡级分布式集群上大模型训练的丰富经验，致力于构建高性能、可扩展的 AI 解决方案。
多模态大模型在智能客服、自动驾驶、AIGC 等领域的应用需求不断增长，但其训练工程面临计算、存储、数据处理、分布式通信等多重挑战。特别是在千卡级 GPU 训练集群上，如何优化数据加载、提升训练稳定性、突破计算与存储瓶颈，成为 AI Infra 需要重点攻克的难题。
在 InfoQ 举办的 AICon 全球人工智能开发与应用大会 上 vivo AI 研究院 AI 架构师王兆雄做了专题演讲“千卡级分布式集群上的视觉多模态大模型落地实践”，基于 LLaVA 视觉多模态理解模型和 DiT 文生图模型的训练工程实践，详细解析大规模 GPU 训练集群下的数据存储优化、分布式计算策略、训练容错机制，并探讨如何提升大规模多模态模型的训练效率和稳定性。演讲将重点介绍混合并行训练、数据高效加载、自动容错恢复等技术方案，为业界提供可落地的工程实践经验。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
法语
德语
日语
韩语
俄语
西班牙语
解释
总结

1. 多模态大模型训练工程面临的挑战包括算力压力大、存储I/O与CPU预处理造成的加载延迟、数据吞吐受限以及通信并行调度困难。 2. 优化实践经验涵盖数据处理优化、模型计算优化、分布式通信优化和训练稳定性建设。 3. 数据处理优化方面包括图文数据预处理成多个shard小块、采用异步加载和缓存预取机制以及本地缓存高频样本等。 4. 模型计算优化方面包括算子融合、高效的attention计算、混合并行加Interleaved 1f1b操作以及激活重算、混合精度等操作。 5. 分布式通信优化方面包括拓扑感知调度、通信-计算重叠、NCCL 多通道和CPU核绑定等。 6. 训练稳定性建设方面包括降低中断概率、缩短恢复时间和减少重复训练损耗。 7. 在大规模模型训练中，数据加载是第一个瓶颈，优化包括优化任务下发、在子进程中进行解码或resize操作、启用锁页内存和在拉取数据时利用本地缓存等。 8. 在模态融合下的算力利用率优化方面，采用非均匀流水线重构、离线数据拼接和配套流水线并行调度等。 9. 在通信层面的优化中，分布式通信是决定能否实现线性扩展的关键环节，优化包括网络结构支持、拓扑感知调度、通信-计算重叠和CPU核绑定等.

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《致程序员：AI 百问百答》，新⼈⾸单¥0.11

立即购买

登录后留言

精选留言

由作者筛选后的优质留言将会公开显示，欢迎踊跃留言。

收起评论



显示
设置



留言





沉浸
阅读





手机端



快捷键



回顶部



文章页面操作

MAC

windows

作用

esc

退出沉浸式阅读

shift + f

f11

进入/退出沉浸式

command + ⬆️

home

滚动到页面顶部

command + ⬇️

end

滚动到页面底部

⬅️ (仅针对订阅）

➡️ (仅针对订阅）

command + j

page up

向下滚动一屏

command + k

page down

向上滚动一屏

音频播放/暂停

向下滚动一点

向上滚动一点

空格

向下滚动一屏

播放器操作

MAC

windows

作用

esc

退出全屏

⬅️

快退

➡️

快进

空格

视频播放/暂停(视频全屏时生效)