26|DALL-E 3技术探秘(一):用OpenAI的方式搞数据
- 深入了解
- 翻译
- 解释
- 总结
OpenAI最新发布的DALL-E 3 AI绘画模型在长文本图像生成和Text-in-Image任务方面表现出色,引发了业界的关注。该模型的成功证实了使用生成数据进行模型训练的可行性,预示着未来AI绘画模型优化的趋势。DALL-E 3的使用体验显示其擅长Text-in-Image任务和长文本图像生成任务,尤其在配合ChatGPT的prompt增强能力下表现突出。其能力提升主要源自更好的数据策略,并丢弃了之前采用的unCLIP结构,选择在Stable Diffusion方案的基础上做出定制化改进。在技术上,DALL-E 3使用生成数据进行模型训练,其中的文本部分多数情况下是图像的Alt Text,而部分图像没有Alt Text时,需要根据网页中图片周围的文本内容或由机器学习模型提供的图像分析信息等进行描述。这一技术突破将引领下一波用生成数据优化AI绘画模型的趋势。 DALL-E 3重新描述了用于训练的图像数据,丢弃掉图片的Alt Text,用专门的模型生成更准确的caption。作者将这个技术称为 Dataset Recaptioning。通过前面柯基犬的例子,我们已经有了初步认识。Stable Diffusion模型是使用互联网数据训练得到的,尽管Stable Diffusion模型不停迭代,但从下面的图中可以看出,最初Stable Diffusion的迭代主要围绕丰富图像的美学质量展开。DALL-E 3的作者认为“不听话”的问题主要是由于训练数据造成的,具体来说,原始数据至少存在后面这四个问题。DALL-E 3使用了 Dataset Recaptioning 策略,也就是丢弃掉图片的Alt Text,用专门的模型生成更准确的caption。 完成了对图片数据的重新描述,下一步就是验证生成数据的有效性,需要通过实验回答下面两个问题。使用生成数据是否会影响AI绘画模型的最终表现。生成数据和真实数据的最佳混合比例是多少。针对第一个问题,作者设计了三个实验,分别使用真实数据、SSC数据和DSC数据训练文生图任务,分别用50000条未参与训练的真实prompt、DSC prompt进行文生图测试。针对测试的prompt和生成的图像,使用我们学过的CLIP模型计算图文一致性。至于为什么没有使用SSC数据做测试,作者在论文中的说法是SSC数据测试的表现和真实caption数据非常接近,所以就没有把结果贴出来。 既然生成
《AI 绘画核心技术与实战》,新⼈⾸单¥59
全部留言(5)
- 最新
- 精选
- 沐瑞Lynn极客时间能不能把更新的通知发一下,很多人估计都还不知道有更新吧
编辑回复: 应该在消息中心有提示……
2023-11-03归属地:四川 - zhihai.tu太棒啦,期待下一讲
编辑回复: 收到,27已经上线啦,期待你的学后感!
2023-11-03归属地:上海 - 静心分析的很巧妙,感谢加餐
编辑回复: DALL-E 3的下篇也出来了,欢迎继续围观和留言交流~
2023-11-02归属地:山西 - 我听着呢前排打卡,终于等到了更新
编辑回复: 感谢支持,还有27下篇可以一起看啦~
2023-11-02归属地:北京 - Grace没有用GPT 4 Vison训练所有的数据,是因为GPT 4 Vison,太!贵!啦!2024-02-01归属地:北京