Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Variantes du GAN

Les chercheurs continuent de trouver des techniques de GAN améliorées et de nouvelles utilisations pour les GAN. Voici un échantillon de variantes de GAN pour vous donner une idée des possibilités.

GAN progressifs

Dans un GAN progressif, les premières couches du générateur produisent des images en très basse résolution, et les couches suivantes ajoutent des détails. Cette technique permet au GAN de s'entraîner plus rapidement que les GAN non progressifs comparables et produit des images de résolution plus élevée.

Pour en savoir plus, consultez Karras et al., 2017.

GAN conditionnels

Les GAN conditionnels s'entraînent sur un ensemble de données libellé et vous permettent de spécifier le libellé de chaque instance générée. Par exemple, un GAN MNIST inconditionnel produirait des chiffres aléatoires, tandis qu'un GAN MNIST conditionnel vous permettrait de spécifier le chiffre que le GAN doit générer.

Au lieu de modéliser la probabilité conjointe P(X, Y), les GAN conditionnels modélisent la probabilité conditionnelle P(X | Y).

Pour en savoir plus sur les GAN conditionnels, consultez Mirza et al., 2014.

Traduction image-à-image

Les GAN de traduction d'image à image prennent une image en entrée et la mappent sur une image de sortie générée avec des propriétés différentes. Par exemple, nous pouvons prendre une image de masque avec une tache de couleur en forme de voiture, et le GAN peut remplir la forme avec des détails de voiture photoréalistes.

De même, vous pouvez entraîner un GAN image-à-image pour prendre des croquis de sacs à main et les transformer en images photoréalistes de sacs à main.

Tableau 3x3 de photos de sacs à main. Chaque ligne présente un style de sac à main différent. Dans chaque ligne, l'image la plus à gauche est un simple dessin au trait représentant un sac à main, l'image du milieu est une photo d'un vrai sac à main, et l'image la plus à droite est une image photoréaliste générée par un GAN. Les trois colonnes sont intitulées "Entrée", "Vérité terrain" et "Sortie".

Dans ce cas, la perte est une combinaison pondérée de la perte habituelle basée sur le discriminateur et d'une perte par pixel qui pénalise le générateur pour s'éloigner de l'image source.

Pour en savoir plus, consultez Isola et al., 2016.

CycleGAN

Les CycleGAN apprennent à transformer les images d'un ensemble en images qui pourraient plausiblement appartenir à un autre ensemble. Par exemple, un CycleGAN a produit l'image de droite ci-dessous lorsque l'image de gauche a été fournie en entrée. Il a pris une image d'un cheval et l'a transformée en image d'un zèbre.

Image d'un cheval en course et d'une deuxième image identique à tous égards, à l'exception du fait que le cheval est un zèbre.

Les données d'entraînement du CycleGAN ne sont que deux ensembles d'images (dans ce cas, un ensemble d'images de chevaux et un ensemble d'images de zèbres). Le système ne nécessite aucun libellé ni aucune correspondance par paire entre les images.

Pour en savoir plus, consultez Zhu et al., 2017, qui illustre l'utilisation de CycleGAN pour effectuer une traduction d'image à image sans données associées.

Synthèse texte-vers-image

Les GAN de texte vers image prennent le texte comme entrée et produisent des images plausibles et décrites par le texte. Par exemple, l'image de fleur ci-dessous a été générée en fournissant une description textuelle à un GAN.

"Les pétales de cette fleur sont jaunes avec des nuances d'orange."

Fleur aux pétales jaunes avec des nuances d'orange.

Notez que dans ce système, le GAN ne peut produire que des images à partir d'un petit ensemble de classes.

Pour en savoir plus, consultez Zhang et al., 2016.

Super-résolution

Les GAN super-résolution augmentent la résolution des images, en ajoutant des détails là où c'est nécessaire pour combler les zones floues. Par exemple, l'image floue au milieu ci-dessous est une version échantillonnée de l'image d'origine à gauche. À partir de l'image floue, un GAN a produit l'image plus nette à droite:

D'origine	Floutage	Restauré avec un GAN

L'image générée par le GAN ressemble beaucoup à l'image d'origine, mais si vous regardez attentivement la bandeau, vous verrez que le GAN n'a pas reproduit le motif en étoile de l'original. Au lieu de cela, il a inventé son propre modèle plausible pour remplacer le modèle effacé par le sous-échantillonnage.

Pour en savoir plus, consultez Ledig et al., 2017.

Remplissage du visage

Les GAN ont été utilisés pour la tâche d'inpainting d'images sémantiques. Dans la tâche de remplissage, des parties d'une image sont masquées, et le système tente de remplir les parties manquantes.

Yeh et al., 2017 ont utilisé un GAN pour surpasser d'autres techniques de remplissage des images de visages:

Entrée	Sortie du GAN

Text-to-Speech

Tous les GAN ne produisent pas d'images. Par exemple, les chercheurs ont également utilisé des GAN pour produire de la parole synthétisée à partir d'une entrée textuelle. Pour en savoir plus, consultez Yang et al., 2017.

Problèmes courants

TFGAN Tutoriels Colab

Variantes du GAN Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.