研究人员仍在不断改进 GAN 技术,并探索 GAN 的新用途。 下面列出了一些 GAN 变体,以便您了解其可能性。
渐进式 GAN
在渐进式 GAN 中,生成器的第一层会生成分辨率非常低的图片,后续层会添加细节。与类似的非渐进式 GAN 相比,这种技术可让 GAN 更快地训练,并生成分辨率更高的图片。
如需了解详情,请参阅 2017 年 Karras 等人。
条件 GAN
条件 GAN 会使用标记数据集进行训练,并允许您为每个生成的实例指定标签。例如,无条件 MNIST GAN 会生成随机数字,而有条件 MNIST GAN 则可让您指定 GAN 应生成哪个数字。
条件 GAN 会对条件概率 P(X | Y) 进行建模,而不是对联合概率 P(X, Y) 进行建模。
如需详细了解条件 GAN,请参阅 Mirza 等人,2014。图像到图像翻译
图片到图片转换 GAN 会将图片作为输入,并将其映射到具有不同属性的生成输出图片。例如,我们可以拍摄一张带有汽车形状色块的遮罩图片,GAN 就可以用逼真的汽车细节填充该形状。
同样,您可以训练图片到图片 GAN,让其根据手提包的草图,将其转换为逼真的手提包图片。
在这些情况下,损失函数是基于分类器的常规损失函数与像素级损失函数的加权组合,后者会惩罚与源图像偏离的生成器。
如需了解详情,请参阅 Isola et al, 2016。
CycleGAN
CycleGAN 会学习将一组图片转换为可能属于另一组的图片。例如,当 CycleGAN 以左侧图片作为输入时,会生成右侧图片。它将一张马的图片转换成了斑马的图片。
CycleGAN 的训练数据只是两组图片(在本例中,一组是马的图片,另一组是斑马的图片)。该系统不需要标签或图片之间的成对对应关系。
如需了解详情,请参阅 Zhu et al, 2017,其中介绍了如何使用 CycleGAN 在没有配对数据的情况下执行图片到图片转换。
文本到图像合成
文本到图像 GAN 以文本为输入,生成符合文本描述且合理的图片。例如,以下花卉图片是通过向 GAN 提供文本说明生成的。
“这朵花的花瓣是黄色带橙色。” | ![]() |
请注意,在此系统中,GAN 只能生成一小组类别的图片。
如需了解详情,请参阅 Zhang et al, 2016。
超分辨率
超分辨率 GAN 可提高图片的分辨率,并在必要时添加细节以填充模糊区域。例如,下面中间模糊不清的图片是左侧原始图片的下采样版本。给定模糊的图片,GAN 生成了右侧更清晰的图片:
原文 | 模糊 | 使用 GAN 恢复 |
![]() |
![]() |
![]() |
GAN 生成的图片与原始图片非常相似,但如果您仔细观察头带,就会发现 GAN 未能再现原始图片中的星形图案。而是编造出自己的合理模式来替换被下采样抹去的模式。
如需了解详情,请参阅 Ledig 等人,2017。
人脸修补
GAN 已用于语义图像修复任务。在填充任务中,系统会将图片的部分内容遮盖,然后尝试填充缺失的部分。
Yeh 等人,2017 使用 GAN 在填充人脸图片方面表现优于其他技术:
输入 | GAN 输出 |
![]() |
![]() |
Text-to-Speech
并非所有 GAN 都能生成图片。例如,研究人员还使用 GAN 从文本输入生成合成语音。如需了解详情,请参阅 Yang et al., 2017。