26｜DALL-E 3技术探秘（一）：用OpenAI的方式搞数据

南柯

你好，我是南柯。
时隔一年半，在 2023 年 9 月 OpenAI “悄悄”发布了 DALL-E 3 这个 AI 绘画模型。相比 Midjourney V5.2、SDXL 等时下最强模型，DALL-E 3 在长文本文生图、图中写入文字（也就是我们常说的 Text-in-Image）等方面优势非常明显。
就在这个月（10 月份），OpenAI 相继放出了 DALL-E 3 的安全审核方案和技术方案。它背后所用的技术方案也终于公之于众，刷新了算法工程师对于 AI 绘画模型的理解。接下来的两讲内容，我们就一起探秘 DALL-E 3，带你搞清楚它的技术方案、局限性以及发展趋势。
在我看来，DALL-E 3 有两方面的探索最值得我们关注。一个是如何用生成数据来训练模型，另一个是如何将各种 AI 绘画模型训练技巧有机地组合起来。这节课，我会先为你分享 DALL-E 3 的使用体验，然后结合论文为你深入解读 DALL-E 3 如何用 OpenAI 的方式生成数据。
这两年，技术圈围绕能否使用生成数据训练大模型的话题一直争论不休。使用 BLIP 这类模型为图像生成的描述，无论是用于训练文生图模型，还是训练类似 GPT-4 Vision 这样的图文问答模型，都没有带来显著的收益。如今 DALL-E 3 的成功无疑证实了生成数据用于模型训练的可行性，也将引领下一波用生成数据优化 AI 绘画模型的趋势。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

OpenAI最新发布的DALL-E 3 AI绘画模型在长文本图像生成和Text-in-Image任务方面表现出色，引发了业界的关注。该模型的成功证实了使用生成数据进行模型训练的可行性，预示着未来AI绘画模型优化的趋势。DALL-E 3的使用体验显示其擅长Text-in-Image任务和长文本图像生成任务，尤其在配合ChatGPT的prompt增强能力下表现突出。其能力提升主要源自更好的数据策略，并丢弃了之前采用的unCLIP结构，选择在Stable Diffusion方案的基础上做出定制化改进。在技术上，DALL-E 3使用生成数据进行模型训练，其中的文本部分多数情况下是图像的Alt Text，而部分图像没有Alt Text时，需要根据网页中图片周围的文本内容或由机器学习模型提供的图像分析信息等进行描述。这一技术突破将引领下一波用生成数据优化AI绘画模型的趋势。 DALL-E 3重新描述了用于训练的图像数据，丢弃掉图片的Alt Text，用专门的模型生成更准确的caption。作者将这个技术称为 Dataset Recaptioning。通过前面柯基犬的例子，我们已经有了初步认识。Stable Diffusion模型是使用互联网数据训练得到的，尽管Stable Diffusion模型不停迭代，但从下面的图中可以看出，最初Stable Diffusion的迭代主要围绕丰富图像的美学质量展开。DALL-E 3的作者认为“不听话”的问题主要是由于训练数据造成的，具体来说，原始数据至少存在后面这四个问题。DALL-E 3使用了 Dataset Recaptioning 策略，也就是丢弃掉图片的Alt Text，用专门的模型生成更准确的caption。完成了对图片数据的重新描述，下一步就是验证生成数据的有效性，需要通过实验回答下面两个问题。使用生成数据是否会影响AI绘画模型的最终表现。生成数据和真实数据的最佳混合比例是多少。针对第一个问题，作者设计了三个实验，分别使用真实数据、SSC数据和DSC数据训练文生图任务，分别用50000条未参与训练的真实prompt、DSC prompt进行文生图测试。针对测试的prompt和生成的图像，使用我们学过的CLIP模型计算图文一致性。至于为什么没有使用SSC数据做测试，作者在论文中的说法是SSC数据测试的表现和真实caption数据非常接近，所以就没有把结果贴出来。既然生成

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《AI 绘画核心技术与实战》，新⼈⾸单¥59

立即购买

登录后留言

全部留言(5)

最新
精选

沐瑞Lynn
极客时间能不能把更新的通知发一下，很多人估计都还不知道有更新吧
编辑回复: 应该在消息中心有提示……
2023-11-03归属地：四川


zhihai.tu
太棒啦，期待下一讲
编辑回复: 收到，27已经上线啦，期待你的学后感！
2023-11-03归属地：上海


静心
分析的很巧妙，感谢加餐
编辑回复: DALL-E 3的下篇也出来了，欢迎继续围观和留言交流～
2023-11-02归属地：山西


我听着呢
前排打卡，终于等到了更新
编辑回复: 感谢支持，还有27下篇可以一起看啦～
2023-11-02归属地：北京


Grace
没有用GPT 4 Vison训练所有的数据，是因为GPT 4 Vison，太！贵！啦！
2024-02-01归属地：北京



收起评论