英伟达超快StyleGAN回归，比StableDiffusion快30多

IT之家燕梦蝶 2023-02-02 10:27 阅读量：17658

扩散模型的图像生成主导权终于要被GAN夺回来了。

就在所有人都在庆祝新年的时候，英伟达的一群科学家悄悄升级了StyleGAN系列，生产出了StyleGAN—T的PLUS版本，顿时在网上走红。

无论是在星云爆炸中制造软木塞:

或者基于虚幻引擎风格渲染的森林:

生成只需要将近0.1秒！

很多网友的第一反应是:

甘，一个久违的名字。

在低质量图像生成方面，StyleGAN—T优于扩散模型。

但他也表示，在256×256图像的生成中，仍然是扩散模型的天下。

那么，新的StyleGAN质量如何，它在哪些领域重新具有竞争力。

StyleGAN—T长什么样。

与扩散模型和自回归模型相比，GAN最大的优势是速度。

因此，StyleGAN—T这次也重点研究了大规模文本图像合成，即如何在短时间内由文本生成大量图像。

StyleGAN—T是在StyleGAN—XL的基础上改进而来的。

StyleGAN—XL的参数是StyleGAN3的三倍基于ImageNet训练，可以生成1024×1024的高分辨率图像，并借鉴了StyleGAN2和StyleGAN3的一些架构设计

其总体结构如下:

只有控制参数ψ，才能在剪辑分数变化不大的情况下，提高生成图像的风格多样性。

那么它的产生效果如何呢。

低分辨率图像的超快速生成

在微软的MS COCO数据集上，StyleGAN—T在64×64分辨率下实现了最高的FID。

但是在256×256的更高分辨率的一代中，StyleGAN—T仍然比不过过扩散模型，但是比同样使用GAN的拉菲好很多:

如果进一步将生成时间和FID分别作为纵轴和横轴，在同一个图上进行比较，可以更直观地比较生成质量和速度。

可以看出，StyleGAN—T可以以10FPS的速度生成256×256分辨率的图像，FID值接近LDM，GLIDE等扩散模型。

添加或更改特定形容词后，生成的图像确实符合描述:

即使是快速生成的图像，也能快速控制风格，如梵高风格绘画或动画，

当然也有偶尔失败的情况，最典型的就是生成有文字要求的图像时，无法显示正常的文字:

阿克塞尔·绍尔，图宾根大学博士生，卡尔斯鲁厄理工学院硕士目前感兴趣的研究方向有深度生成模型，神经网络架构和实证研究

但在这波GAN掀起的复兴浪潮下，也出现了StyleGAN时代即将结束的声音。

有网友感慨:

在此之前，最新的StyleGAN生成的图像总是让我们感到惊讶，而现在它只给我们快的印象。

你觉得甘还能撼动扩散模型的霸主地位吗。

纸张地址:

项目地址:

郑重声明：此文内容为本网站转载企业宣传资讯，目的在于传播更多信息，与本站立场无关。仅供读者参考，并请自行核实相关内容。