19｜Sora模型的原理和架构初探

黄佳

你好，我是黄佳。
非常开心，我们进入了多模态章节的最后一节课，Sora。而这节课，也许将是唯一一节没有代码实操的课程，因为 Sora 这个模型还没有给出任何 API 调用的接口，也没有任何详细的技术细节公开发表。
不过，这并不影响 Sora 发布之后给全世界带来的震撼。Sora 发布极大地刺激了文生视频（Text-to-Video）整个行业所受到的关注度，也刺激了其他多个文生视频模型的快速迭代。目前各大科技公司、初创公司和研究机构都在这个新赛道发力——从文本生成视频。今年以来，OpenAI、Google 等巨头以及我国的爱诗和快手都推出了自己的视频生成模型，释放了巨大的应用潜力和想象力。
那么，在具体介绍 Sora 技术之前，让我们一起来回顾一下 AIGC 技术（人工智能生成内容）从起步初期到 Sora 视频生成的前世今生。
AIGC 的前世今生作为深度学习辉煌时代的亲历者和见证者，我们非常有幸亲眼见证了 AIGC 的爆发全过程。
这张论文中截取的综述图片就展示了 AIGC 从技术实验到应用实践的发展历程。它把 AIGC 分为三个主要时间段，每个时间段都有一些代表性事件和发展特点。
早期探索阶段（20 世纪 50 年代至 90 年代中期）众所周知，1950 年，艾伦·图灵提出“图灵测试”，探讨机器是否能表现出类似人类的智能行为。1957 年，计算机科学家 John McCarthy 提出“人工智能”一词，标志着人工智能研究的正式开始。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
法语
德语
日语
韩语
俄语
西班牙语
解释
总结

1. AIGC技术的发展历程，从早期探索阶段到深度学习萌芽阶段再到快速发展阶段，展示了AIGC技术从实验阶段逐步走向实际应用的过程。 2. 生成对抗网络（GAN）作为AIGC领域最具代表性的模型之一，推动了图像生成技术的发展，但也存在一些局限性，如训练不稳定等问题。 3. 扩散模型作为一种新的生成模型范式，具有较强的稳定性和灵活性，在图像、视频、音频等多个领域取得了瞩目的表现。 4. OpenAI发布的Sora是一个强大的文本-视频生成模型，具有惊人的语言理解和视频合成能力，能够根据文本提示生成高清视频，展现了一些新颖的能力。 5. Sora整合了Transformer技术，使用Diffusion Transformer（DiT）架构，能够处理不同的视觉数据，包括图像和视频，使得模型能够处理不同时长、分辨率和宽高比的视频和图像。 6. Sora在训练时使用了包含多种长度和分辨率的视频数据，进一步增强了模型对不同视频格式的适应性，展示了其在视频生成技术中的前沿地位。 7. AIGC技术的发展对娱乐和通信领域产生了深远影响，释放了巨大的应用潜力和想象力。 8. 重要的技术进展和应用案例，如StyleGAN、DVD-GAN、DALL-E等，展示了AIGC技术从实验阶段逐步走向实际应用的过程，为Sora等新模型的出现奠定了基础。 9. AIGC的发展也带来了很多值得思考的问题，如内容的真实性与创造性的权衡、AIGC对创意行业的影响、规范和引导AIGC技术的发展等。 10. AIGC未来在教育、医疗、设计等领域还有哪些应用前景，以及如何实现AIGC的普惠化，这些问题值得我们在推动AIGC发展的同时予以审慎思考。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《大模型应用开发实战》，新⼈⾸单¥59

立即购买

登录后留言

精选留言

由作者筛选后的优质留言将会公开显示，欢迎踊跃留言。

收起评论