英伟达超快StyleGAN回归,比StableDiffusion快30多

IT之家 燕梦蝶 2023-02-02 10:27  阅读量:17658   

扩散模型的图像生成主导权终于要被GAN夺回来了。

就在所有人都在庆祝新年的时候,英伟达的一群科学家悄悄升级了StyleGAN系列,生产出了StyleGAN—T的PLUS版本,顿时在网上走红。

无论是在星云爆炸中制造软木塞:

或者基于虚幻引擎风格渲染的森林:

生成只需要将近0.1秒!

很多网友的第一反应是:

甘,一个久违的名字。

在低质量图像生成方面,StyleGAN—T优于扩散模型。

但他也表示,在256×256图像的生成中,仍然是扩散模型的天下。

那么,新的StyleGAN质量如何,它在哪些领域重新具有竞争力。

StyleGAN—T长什么样。

与扩散模型和自回归模型相比,GAN最大的优势是速度。

因此,StyleGAN—T这次也重点研究了大规模文本图像合成,即如何在短时间内由文本生成大量图像。

StyleGAN—T是在StyleGAN—XL的基础上改进而来的。

StyleGAN—XL的参数是StyleGAN3的三倍基于ImageNet训练,可以生成1024×1024的高分辨率图像,并借鉴了StyleGAN2和StyleGAN3的一些架构设计

其总体结构如下:

只有控制参数ψ,才能在剪辑分数变化不大的情况下,提高生成图像的风格多样性。

那么它的产生效果如何呢。

低分辨率图像的超快速生成

在微软的MS COCO数据集上,StyleGAN—T在64×64分辨率下实现了最高的FID。

但是在256×256的更高分辨率的一代中,StyleGAN—T仍然比不过过扩散模型,但是比同样使用GAN的拉菲好很多:

如果进一步将生成时间和FID分别作为纵轴和横轴,在同一个图上进行比较,可以更直观地比较生成质量和速度。

可以看出,StyleGAN—T可以以10FPS的速度生成256×256分辨率的图像,FID值接近LDM,GLIDE等扩散模型。

添加或更改特定形容词后,生成的图像确实符合描述:

即使是快速生成的图像,也能快速控制风格,如梵高风格绘画或动画,

当然也有偶尔失败的情况,最典型的就是生成有文字要求的图像时,无法显示正常的文字:

阿克塞尔·绍尔,图宾根大学博士生,卡尔斯鲁厄理工学院硕士目前感兴趣的研究方向有深度生成模型,神经网络架构和实证研究

但在这波GAN掀起的复兴浪潮下,也出现了StyleGAN时代即将结束的声音。

有网友感慨:

在此之前,最新的StyleGAN生成的图像总是让我们感到惊讶,而现在它只给我们快的印象。

你觉得甘还能撼动扩散模型的霸主地位吗。

纸张地址:

项目地址:

郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。