Odmiany GAN

Badacze wciąż znajdują nowe, sprawdzone metody GAN i nowe zastosowania tej funkcji. Oto próbka odmian GAN, aby pokazać Ci możliwości.

Progresywne sieci GAN

W progresywnej GAN pierwsze warstwy są generowane w generatorze, a potem pojawiają się w nich obrazy o bardzo niskiej rozdzielczości. Dzięki tej metodzie sieć GAN może trenować szybciej niż porównywalne wskaźniki GAN i uzyskać obrazy o wyższej rozdzielczości.

Więcej informacji znajdziesz na stronie Karras et al 2017.

Warunkowe GAN

Warunkowe GAN trenują na zbiorze danych oznaczonego etykietą i umożliwiają określenie etykiety dla każdej wygenerowanej instancji. Na przykład bezwarunkowy GNIST GAN wygeneruje losowe cyfry, a warunkowy GNIST GAN pozwoli Ci określić, którą cyfrę wygenerować GAN.

Zamiast modelować prawdopodobieństwo łączenia P(X, Y), warunkowe GAN modelują prawdopodobieństwo warunkowe P(X | Y).

Więcej informacji o warunkowych GAN znajdziesz w artykule Mirza et al 2014, 2014 r.

Tłumaczenie obrazu na obraz

Przenoszenie obrazów w obrazie do GAN wykorzystuje obrazy jako dane wejściowe, a następnie mapuje je na wygenerowany obraz wyjściowy o różnych właściwościach. Możemy na przykład zrobić zdjęcie maski z fragmentem koloru w kształcie samochodu, a identyfikator GAN wypełni go kształtem w postaci zdjęć realistycznych.

Możesz też wytrenować obrazy GAN w obrazie i zamienić je w realistyczne zdjęcia torebek.

Tabela torebek 3 x 3. Każdy rząd pokazuje inny styl torebki. W każdym rzędzie po lewej stronie znajduje się prosty rysunek, torba na środku, torba pośrodku albo prawdziwa torba, a po prawej – fotorealistyczny obraz wygenerowany przez GAN. Te 3 kolumny są oznaczone etykietą „'Input' &&33;ground truth'” oraz 'output'.

W takich przypadkach strata jest ważoną kombinacją zwykłej straty opartej na dyskryminacji i straty pikselowej, która powoduje nałożenie kary na potrzeby wyłączenia generatora z obrazu źródłowego.

Więcej informacji znajdziesz na stronie Isola et al 2016.

CycleGAN

CycleGAN uczą się przekształcać obrazy z jednego zbioru w obrazy, które prawdopodobnie należą do innego zestawu. CycleGAN może na przykład wyświetlić poniżej obraz po prawej stronie, jeśli jako dane wejściowe ma obraz po lewej stronie. Zarobił obraz konia i zamienił go w zebrę.

Obraz przedstawiający konia biegającego oraz drugi, taki sam pod każdym względem, z wyjątkiem tego, że jest to zebra.

Dane treningowe dla CycleGAN to po prostu 2 zestawy obrazów (w tym przypadku są to obrazy koni i zebry). System nie wymaga żadnych etykiet ani par przed parowaniem.

Więcej informacji można znaleźć na stronie Zhu et al, 2017, która pokazuje, jak użyć CycleGAN do tłumaczenia obrazów na obraz bez sparowanych danych.

Synteza tekstu-obrazu

Reklamy GAN wyświetlają tekst w tekście i tworzą obrazy, które są zrozumiałe i opisane. Na przykład poniższy obraz kwiatu został wygenerowany przez przesłanie opisu tekstowego do GAN.

"Ten kwiat ma żółte płatki w odcieniach pomarańczowego." Kwiat żółty z płatkami w żółtych odcieniach.

Pamiętaj, że w tym systemie GAN może tworzyć obrazy tylko z niewielkiej liczby klas.

Więcej informacji znajdziesz na stronie Zhang et al 2016.

Wysoka rozdzielczość

Reklamy GAN w wysokiej rozdzielczości Na przykład rozmyty środkowy obraz poniżej to niespróbkowana wersja oryginalnego obrazu po lewej stronie. Biorąc pod uwagę rozmyty obraz, obraz GAN został sfotografowany po prawej stronie:

OryginałZamazanePrzywrócono z GAN
Obraz dziewczyny z ozdobnym adresem. Opaska na głowę jest na drutach
      złożone w złożony sposób. Nieostre obrazy przedstawiające dziewczynę z ozdobnym adresem. Wyraźny, wyrazisty obraz dziewczyny z ozdobnym adresem. Ten obraz jest prawie taki sam jak na pierwszym zdjęciu w tej tabeli, ale niektóre szczegóły w adresach i ubraniach są nieco inne.

Obraz wygenerowany przez GAN wygląda bardzo podobnie do oryginału, ale jeśli przyjrzysz się temu opasce, zauważysz, że obraz GAN nie został odtworzony na podstawie oryginalnego wzorca. Zamiast tego tworzy własny wzór, który zastąpi wzorzec wymazany przez próbkowanie w dół.

Więcej informacji znajdziesz w artykule Ledig et al, 2017.

Renderowanie twarzy

GAN jest używany do wykonywania obrazów semantycznych. W zadaniu malarskim wszystkie fragmenty obrazu są zamazane, a system stara się wypełnić brakujące fragmenty.

Raport Yeh i in. 2017 r. wykorzystał funkcję GAN, aby pokonać inne techniki w zakresie malowania zdjęć twarzy:

Wprowadź tekstDane wyjściowe GAN
4 obrazy. Każde zdjęcie jest zdjęciem twarzy, a niektóre obszary są zaczernione. 4 obrazy. Każdy obraz to zdjęcie twarzy identyczne z jednym z obrazów w kolumnie „Wejściowa” oprócz tych, w których nie ma czarnych obszarów.

Text-to-Speech

Nie wszystkie sieci GAN generują obrazy. Badacze używają też GAN do generowania syntezy mowy przy użyciu tekstu. Więcej informacji znajdziesz na stronie Yang et al 2017.