作者回复: 你好。针对Q1,1000步是经验值,实际扩散模型训练过程中这个参数可以调整。针对Q2,我觉得关于采样器有两个方向需要继续研究:更少的采样步数(比如2-3步出图),这部分已经有一些论文了;处理特定的挑战,比如大数据、高维度、异常值等进行特殊设计(需要先分析已有采样器在复杂场景下的差异和优劣)。希望能帮助到你。
作者回复: 你好。要彻底搞懂这个问题需要很多的数学知识。简言之,UNet模型预测的目标是一个符合高斯分布的噪声,从训练过程我们可以知道,这个噪声是我们随机生成的,也我们去噪要用的采样器无关。采样器本质上是我们预先设定一个噪声去除方案,比如30步去噪得到一张清晰图片。不同采样器背后的数学原理不同,但本质上,都是以时间步t、当前时间步t的带噪图像和UNet预测噪声值作为输入,按照预定的去噪方案去抹除一个高斯噪声。
作者回复: 你好。更快的采样器也是当前研究的热点方向。据我所知,当前有一些论文中提出过少于10步的采样算法,但实际应用并不多。1步出图是最终目标,也是理想形态。至于间隔步的计算,比如我们训练过程总的加噪步数是1000,推理的时候指定采样步数是20,那么相当于一次去除了1000/20=50步的噪声。希望能帮助到你。
作者回复: 你好。我个人的看法是,采样器研究的终极目标是希望采样过程又快又好。在不同的应用场景或数据类型下,采样器设计和性能确实会有所不同,只不过在我们简单prompt场景下的AI绘画任务上差别不明显。未来采样器方向,我觉得有两个方向需要继续研究:更少的采样步数(比如2-3步出图),这部分已经有一些论文了;处理特定的挑战,比如大数据、高维度、异常值等进行特殊设计。其中第二个方向上我和你的看法是一致的。