GAN 变体

研究人员仍在不断改进 GAN 技术,并探索 GAN 的新用途。 下面列出了一些 GAN 变体,以便您了解其可能性。

渐进式 GAN

在渐进式 GAN 中,生成器的第一层会生成分辨率非常低的图片,后续层会添加细节。与类似的非渐进式 GAN 相比,这种技术可让 GAN 更快地训练,并生成分辨率更高的图片。

如需了解详情,请参阅 2017 年 Karras 等人

条件 GAN

条件 GAN 会使用标记数据集进行训练,并允许您为每个生成的实例指定标签。例如,无条件 MNIST GAN 会生成随机数字,而有条件 MNIST GAN 则可让您指定 GAN 应生成哪个数字。

条件 GAN 会对条件概率 P(X | Y) 进行建模,而不是对联合概率 P(X, Y) 进行建模。

如需详细了解条件 GAN,请参阅 Mirza 等人,2014

图像到图像翻译

图片到图片转换 GAN 会将图片作为输入,并将其映射到具有不同属性的生成输出图片。例如,我们可以拍摄一张带有汽车形状色块的遮罩图片,GAN 就可以用逼真的汽车细节填充该形状。

同样,您可以训练图片到图片 GAN,让其根据手提包的草图,将其转换为逼真的手提包图片。

一张 3x3 的表格,其中包含手提包的图片。每行显示一种不同的手提包款式。在每行中,最左侧的图片是一张手提包的简单线条图,中间的图片是真皮手提包的照片,最右侧的图片是由 GAN 生成的逼真图片。三个列分别标记为“输入”“标准答案”和“输出”。

在这些情况下,损失函数是基于分类器的常规损失函数与像素级损失函数的加权组合,后者会惩罚与源图像偏离的生成器。

如需了解详情,请参阅 Isola et al, 2016

CycleGAN

CycleGAN 会学习将一组图片转换为可能属于另一组的图片。例如,当 CycleGAN 以左侧图片作为输入时,会生成右侧图片。它将一张马的图片转换成了斑马的图片。

一张奔跑的马的图片,以及另一张在所有方面都相同的图片,但马是斑马。

CycleGAN 的训练数据只是两组图片(在本例中,一组是马的图片,另一组是斑马的图片)。该系统不需要标签或图片之间的成对对应关系。

如需了解详情,请参阅 Zhu et al, 2017,其中介绍了如何使用 CycleGAN 在没有配对数据的情况下执行图片到图片转换。

文本到图像合成

文本到图像 GAN 以文本为输入,生成符合文本描述且合理的图片。例如,以下花卉图片是通过向 GAN 提供文本说明生成的。

“这朵花的花瓣是黄色带橙色。” 花瓣呈黄色带橙色调的花朵。

请注意,在此系统中,GAN 只能生成一小组类别的图片。

如需了解详情,请参阅 Zhang et al, 2016

超分辨率

超分辨率 GAN 可提高图片的分辨率,并在必要时添加细节以填充模糊区域。例如,下面中间模糊不清的图片是左侧原始图片的下采样版本。给定模糊的图片,GAN 生成了右侧更清晰的图片:

原文模糊使用 GAN 恢复
一幅画,画中描绘了一位戴着精致头饰的女孩。头饰的头带采用复杂的编织图案。 一幅画作,画中女孩头戴精致的头饰,画质模糊。 一幅清晰锐利的画作,描绘了一位戴着精致头饰的女孩。此画作与此表中的第一个图片几乎完全相同,但头饰和服装上的图案有一些细微的不同。

GAN 生成的图片与原始图片非常相似,但如果您仔细观察头带,就会发现 GAN 未能再现原始图片中的星形图案。而是编造出自己的合理模式来替换被下采样抹去的模式。

如需了解详情,请参阅 Ledig 等人,2017

人脸修补

GAN 已用于语义图像修复任务。在填充任务中,系统会将图片的部分内容遮盖,然后尝试填充缺失的部分。

Yeh 等人,2017 使用 GAN 在填充人脸图片方面表现优于其他技术:

输入GAN 输出
四张图片。每张图片都是一张人脸照片,其中某些区域已替换为黑色。 四张图片。每张图片都是一张与“输入”列中的某张图片相同的面部照片,但没有黑色区域。

Text-to-Speech

并非所有 GAN 都能生成图片。例如,研究人员还使用 GAN 从文本输入生成合成语音。如需了解详情,请参阅 Yang et al., 2017