最近一年来 ,真正质图以 Stable Diffusion 为代表的实现生图一系列文生图散漫模子残缺修正了视觉创作规模 。数不清的步文用户经由火散模子发生的图片提升花难题 。可是极速,散漫模子的采样天生速率是一个旧调重弹的下场。由于降噪模子依赖于多步降噪来逐渐将初始的天生高斯噪音酿成图片 ,因此需要对于收集一再合计 ,高品导致天生速率很慢。真正质图这导致大规模的实现生图文生图散漫模子对于一些看重实时性,互动性的步文运用颇为不友好 。随着一系列技术的极速提出,从散漫模子中采样所需的采样步数已经从最后的多少百步,到多少十步,天生致使惟独要 4-8 步。高品
最近 ,真正质图来自google的钻研团队提出了 UFOGen 模子,一种能极速采样的散漫模子变种 。经由论文提出的措施对于 Stable Diffusion 妨碍微调,UFOGen 惟独要一步就能天生高品质的图片。与此同时 ,Stable Diffusion 的卑劣运用 ,好比图生图 ,ControlNet 等能耐也能患上到保存。
论文链接 :https://arxiv.org/abs/2311.09257
从下图可能看到 ,UFOGen 惟独一步即可天生高品质 ,多样的图片。
提升散漫模子的天生速率并非一个新的钻研倾向 。以前对于这方面的钻研主要会集在两个倾向 。一个倾向是妄想更高效的数值合计措施,以求能抵达运用更少的离散步数求解散漫模子的采样 ODE 的目的 。好比清华的朱军团队提出的 DPM 系列数值求解器,被验证在 Stable Diffusion 上颇为实用 ,能清晰地把求解步数从 DDIM 默认的 50 步降到 20 步之内。另一个倾向是运用知识蒸馏的措施,将模子的基于 ODE 的采样道路缩短到更小的步数 。这个倾向的例子是 CVPR2023 最佳论文候选之一的 Guided distillation,以及最近大火的 Latent Consistency Model (LCM)。特意是 LCM,经由对于不同性目的妨碍蒸馏 ,可能将采样步数降到惟独 4 步