Badacze wciąż znajdują nowe, sprawdzone metody GAN i nowe zastosowania tej funkcji. Oto próbka odmian GAN, aby pokazać Ci możliwości.
Progresywne sieci GAN
W progresywnej GAN pierwsze warstwy są generowane w generatorze, a potem pojawiają się w nich obrazy o bardzo niskiej rozdzielczości. Dzięki tej metodzie sieć GAN może trenować szybciej niż porównywalne wskaźniki GAN i uzyskać obrazy o wyższej rozdzielczości.
Więcej informacji znajdziesz na stronie Karras et al 2017.
Warunkowe GAN
Warunkowe GAN trenują na zbiorze danych oznaczonego etykietą i umożliwiają określenie etykiety dla każdej wygenerowanej instancji. Na przykład bezwarunkowy GNIST GAN wygeneruje losowe cyfry, a warunkowy GNIST GAN pozwoli Ci określić, którą cyfrę wygenerować GAN.
Zamiast modelować prawdopodobieństwo łączenia P(X, Y), warunkowe GAN modelują prawdopodobieństwo warunkowe P(X | Y).
Więcej informacji o warunkowych GAN znajdziesz w artykule Mirza et al 2014, 2014 r.Tłumaczenie obrazu na obraz
Przenoszenie obrazów w obrazie do GAN wykorzystuje obrazy jako dane wejściowe, a następnie mapuje je na wygenerowany obraz wyjściowy o różnych właściwościach. Możemy na przykład zrobić zdjęcie maski z fragmentem koloru w kształcie samochodu, a identyfikator GAN wypełni go kształtem w postaci zdjęć realistycznych.
Możesz też wytrenować obrazy GAN w obrazie i zamienić je w realistyczne zdjęcia torebek.
W takich przypadkach strata jest ważoną kombinacją zwykłej straty opartej na dyskryminacji i straty pikselowej, która powoduje nałożenie kary na potrzeby wyłączenia generatora z obrazu źródłowego.
Więcej informacji znajdziesz na stronie Isola et al 2016.
CycleGAN
CycleGAN uczą się przekształcać obrazy z jednego zbioru w obrazy, które prawdopodobnie należą do innego zestawu. CycleGAN może na przykład wyświetlić poniżej obraz po prawej stronie, jeśli jako dane wejściowe ma obraz po lewej stronie. Zarobił obraz konia i zamienił go w zebrę.
Dane treningowe dla CycleGAN to po prostu 2 zestawy obrazów (w tym przypadku są to obrazy koni i zebry). System nie wymaga żadnych etykiet ani par przed parowaniem.
Więcej informacji można znaleźć na stronie Zhu et al, 2017, która pokazuje, jak użyć CycleGAN do tłumaczenia obrazów na obraz bez sparowanych danych.
Synteza tekstu-obrazu
Reklamy GAN wyświetlają tekst w tekście i tworzą obrazy, które są zrozumiałe i opisane. Na przykład poniższy obraz kwiatu został wygenerowany przez przesłanie opisu tekstowego do GAN.
"Ten kwiat ma żółte płatki w odcieniach pomarańczowego." |
Pamiętaj, że w tym systemie GAN może tworzyć obrazy tylko z niewielkiej liczby klas.
Więcej informacji znajdziesz na stronie Zhang et al 2016.
Wysoka rozdzielczość
Reklamy GAN w wysokiej rozdzielczości Na przykład rozmyty środkowy obraz poniżej to niespróbkowana wersja oryginalnego obrazu po lewej stronie. Biorąc pod uwagę rozmyty obraz, obraz GAN został sfotografowany po prawej stronie:
Oryginał | Zamazane | Przywrócono z GAN |
Obraz wygenerowany przez GAN wygląda bardzo podobnie do oryginału, ale jeśli przyjrzysz się temu opasce, zauważysz, że obraz GAN nie został odtworzony na podstawie oryginalnego wzorca. Zamiast tego tworzy własny wzór, który zastąpi wzorzec wymazany przez próbkowanie w dół.
Więcej informacji znajdziesz w artykule Ledig et al, 2017.
Renderowanie twarzy
GAN jest używany do wykonywania obrazów semantycznych. W zadaniu malarskim wszystkie fragmenty obrazu są zamazane, a system stara się wypełnić brakujące fragmenty.
Raport Yeh i in. 2017 r. wykorzystał funkcję GAN, aby pokonać inne techniki w zakresie malowania zdjęć twarzy:
Wprowadź tekst | Dane wyjściowe GAN |
Text-to-Speech
Nie wszystkie sieci GAN generują obrazy. Badacze używają też GAN do generowania syntezy mowy przy użyciu tekstu. Więcej informacji znajdziesz na stronie Yang et al 2017.