Para peneliti terus menemukan teknik GAN yang lebih baik dan penggunaan baru untuk GAN. Berikut adalah sampel variasi GAN untuk memberi Anda gambaran tentang kemungkinannya.
GAN Progresif
Dalam GAN progresif, lapisan pertama generator menghasilkan gambar dengan resolusi sangat rendah, dan lapisan berikutnya menambahkan detail. Teknik ini memungkinkan GAN berlatih lebih cepat daripada GAN non-progresif yang sebanding, dan menghasilkan gambar resolusi yang lebih tinggi.
Untuk informasi selengkapnya, lihat Karras et al, 2017.
GAN Bersyarat
GAN bersyarat dilatih pada set data berlabel dan memungkinkan Anda menentukan label untuk setiap instance yang dihasilkan. Misalnya, MNIST GAN tanpa kondisi akan menghasilkan angka acak, sedangkan MNIST GAN bersyarat akan memungkinkan Anda menentukan angka yang akan dihasilkan GAN.
Daripada membuat model probabilitas gabungan P(X, Y), GAN bersyarat membuat model probabilitas bersyarat P(X | Y).
Untuk informasi selengkapnya tentang GAN bersyarat, lihat Mirza et al, 2014.Terjemahan Gambar ke Gambar
GAN terjemahan Gambar ke Gambar menggunakan gambar sebagai input dan memetakan gambar tersebut ke gambar output yang dihasilkan dengan properti yang berbeda. Misalnya, kita dapat mengambil gambar mask dengan gumpalan warna berbentuk mobil, dan GAN dapat mengisi bentuknya dengan detail mobil yang fotorealistik.
Demikian pula, Anda dapat melatih GAN gambar ke gambar untuk mengambil sketsa tas tangan dan mengubahnya menjadi gambar tas tangan yang fotorealistik.
Dalam hal ini, kerugian adalah kombinasi berbobot dari kerugian berbasis diskriminator biasa dan kerugian per piksel yang menghukum generator karena menyimpang dari gambar sumber.
Untuk informasi selengkapnya, lihat Isola et al, 2016.
CycleGAN
CycleGAN belajar mengubah gambar dari satu set menjadi gambar yang mungkin merupakan bagian dari set lain. Misalnya, CycleGAN menghasilkan gambar sebelah kanan di bawah saat diberi gambar sebelah kiri sebagai input. Model ini mengambil gambar kuda dan mengubahnya menjadi gambar zebra.
Data pelatihan untuk CycleGAN hanyalah dua kumpulan gambar (dalam hal ini, kumpulan gambar kuda dan kumpulan gambar zebra). Sistem ini tidak memerlukan label atau korespondensi berpasangan antargambar.
Untuk informasi selengkapnya, lihat Zhu et al, 2017, yang mengilustrasikan penggunaan CycleGAN untuk melakukan terjemahan gambar ke gambar tanpa data berpasangan.
Sintesis Teks ke Gambar
GAN teks ke gambar menggunakan teks sebagai input dan menghasilkan gambar yang masuk akal dan dijelaskan oleh teks. Misalnya, gambar bunga di bawah dihasilkan dengan memberi deskripsi teks ke GAN.
"Bunga ini memiliki kelopak berwarna kuning dengan nuansa oranye." | ![]() |
Perhatikan bahwa dalam sistem ini, GAN hanya dapat menghasilkan gambar dari sekumpulan class kecil.
Untuk informasi selengkapnya, lihat Zhang et al, 2016.
Resolusi super
GAN resolusi super meningkatkan resolusi gambar, menambahkan detail jika diperlukan untuk mengisi area yang buram. Misalnya, gambar tengah yang buram di bawah adalah versi downsampling dari gambar asli di sebelah kiri. Dengan gambar yang buram, GAN menghasilkan gambar yang lebih tajam di sebelah kanan:
Asli | Buram | Dipulihkan dengan GAN |
![]() |
![]() |
![]() |
Gambar yang dihasilkan GAN terlihat sangat mirip dengan gambar asli, tetapi jika Anda memperhatikan headband dengan cermat, Anda akan melihat bahwa GAN tidak mereproduksi pola starburst dari gambar asli. Sebagai gantinya, model ini membuat polanya sendiri yang masuk akal untuk menggantikan pola yang dihapus oleh down-sampling.
Untuk informasi selengkapnya, lihat Ledig et al, 2017.
Rekonstruksi Wajah
GAN telah digunakan untuk tugas inpainting gambar semantik. Dalam tugas inpainting, potongan gambar digelapkan, dan sistem mencoba mengisi potongan yang hilang.
Yeh et al, 2017 menggunakan GAN untuk mengungguli teknik lain untuk inpainting gambar wajah:
Input | Output GAN |
![]() |
![]() |
Text-to-Speech
Tidak semua GAN menghasilkan gambar. Misalnya, peneliti juga telah menggunakan GAN untuk memproduksi ucapan yang disintesis dari input teks. Untuk informasi selengkapnya, lihat Yang et al, 2017.