Les chercheurs continuent de trouver des techniques de GAN améliorées et de nouvelles utilisations pour les GAN. Voici un échantillon de variantes de GAN pour vous donner une idée des possibilités.
GAN progressifs
Dans un GAN progressif, les premières couches du générateur produisent des images en très basse résolution, et les couches suivantes ajoutent des détails. Cette technique permet au GAN de s'entraîner plus rapidement que les GAN non progressifs comparables et produit des images de résolution plus élevée.
Pour en savoir plus, consultez Karras et al., 2017.
GAN conditionnels
Les GAN conditionnels s'entraînent sur un ensemble de données libellé et vous permettent de spécifier le libellé de chaque instance générée. Par exemple, un GAN MNIST inconditionnel produirait des chiffres aléatoires, tandis qu'un GAN MNIST conditionnel vous permettrait de spécifier le chiffre que le GAN doit générer.
Au lieu de modéliser la probabilité conjointe P(X, Y), les GAN conditionnels modélisent la probabilité conditionnelle P(X | Y).
Pour en savoir plus sur les GAN conditionnels, consultez Mirza et al., 2014.Traduction image-à-image
Les GAN de traduction d'image à image prennent une image en entrée et la mappent sur une image de sortie générée avec des propriétés différentes. Par exemple, nous pouvons prendre une image de masque avec une tache de couleur en forme de voiture, et le GAN peut remplir la forme avec des détails de voiture photoréalistes.
De même, vous pouvez entraîner un GAN image-à-image pour prendre des croquis de sacs à main et les transformer en images photoréalistes de sacs à main.
Dans ce cas, la perte est une combinaison pondérée de la perte habituelle basée sur le discriminateur et d'une perte par pixel qui pénalise le générateur pour s'éloigner de l'image source.
Pour en savoir plus, consultez Isola et al., 2016.
CycleGAN
Les CycleGAN apprennent à transformer les images d'un ensemble en images qui pourraient plausiblement appartenir à un autre ensemble. Par exemple, un CycleGAN a produit l'image de droite ci-dessous lorsque l'image de gauche a été fournie en entrée. Il a pris une image d'un cheval et l'a transformée en image d'un zèbre.
Les données d'entraînement du CycleGAN ne sont que deux ensembles d'images (dans ce cas, un ensemble d'images de chevaux et un ensemble d'images de zèbres). Le système ne nécessite aucun libellé ni aucune correspondance par paire entre les images.
Pour en savoir plus, consultez Zhu et al., 2017, qui illustre l'utilisation de CycleGAN pour effectuer une traduction d'image à image sans données associées.
Synthèse texte-vers-image
Les GAN de texte vers image prennent le texte comme entrée et produisent des images plausibles et décrites par le texte. Par exemple, l'image de fleur ci-dessous a été générée en fournissant une description textuelle à un GAN.
"Les pétales de cette fleur sont jaunes avec des nuances d'orange." | ![]() |
Notez que dans ce système, le GAN ne peut produire que des images à partir d'un petit ensemble de classes.
Pour en savoir plus, consultez Zhang et al., 2016.
Super-résolution
Les GAN super-résolution augmentent la résolution des images, en ajoutant des détails là où c'est nécessaire pour combler les zones floues. Par exemple, l'image floue au milieu ci-dessous est une version échantillonnée de l'image d'origine à gauche. À partir de l'image floue, un GAN a produit l'image plus nette à droite:
D'origine | Floutage | Restauré avec un GAN |
![]() |
![]() |
![]() |
L'image générée par le GAN ressemble beaucoup à l'image d'origine, mais si vous regardez attentivement la bandeau, vous verrez que le GAN n'a pas reproduit le motif en étoile de l'original. Au lieu de cela, il a inventé son propre modèle plausible pour remplacer le modèle effacé par le sous-échantillonnage.
Pour en savoir plus, consultez Ledig et al., 2017.
Remplissage du visage
Les GAN ont été utilisés pour la tâche d'inpainting d'images sémantiques. Dans la tâche de remplissage, des parties d'une image sont masquées, et le système tente de remplir les parties manquantes.
Yeh et al., 2017 ont utilisé un GAN pour surpasser d'autres techniques de remplissage des images de visages:
Entrée | Sortie du GAN |
![]() |
![]() |
Text-to-Speech
Tous les GAN ne produisent pas d'images. Par exemple, les chercheurs ont également utilisé des GAN pour produire de la parole synthétisée à partir d'une entrée textuelle. Pour en savoir plus, consultez Yang et al., 2017.