Variasi GAN

Peneliti terus menemukan teknik GAN yang ditingkatkan dan penggunaan baru untuk GAN. Berikut adalah sampel variasi GAN untuk memberikan gambaran tentang kemungkinan yang Anda miliki.

GAN Progresif

Dalam GAN progresif, lapisan pertama generator menghasilkan gambar resolusi sangat rendah, dan lapisan berikutnya menambahkan detail. Teknik ini memungkinkan GAN berlatih lebih cepat daripada GAN non-progresif yang sebanding, dan menghasilkan gambar dengan resolusi yang lebih tinggi.

Untuk informasi selengkapnya, lihat Karras et al, 2017.

GAN Bersyarat

GAN bersyarat dilatih pada set data berlabel dan memungkinkan Anda menentukan label untuk setiap instance yang dihasilkan. Misalnya, MNIST GAN tanpa syarat akan menghasilkan digit acak, sedangkan MNIST GAN bersyarat akan memungkinkan Anda menentukan digit yang harus dibuat oleh GAN.

Alih-alih memodelkan probabilitas bersama P(X, Y), GAN bersyarat memodelkan probabilitas kondisional P(X | Y).

Untuk informasi selengkapnya tentang GAN bersyarat, lihat Mirza et al, 2014.

Terjemahan Gambar ke Gambar

GAN terjemahan Image-to-Image mengambil gambar sebagai input dan memetakannya ke gambar output yang dihasilkan dengan properti yang berbeda. Misalnya, kita dapat mengambil gambar topeng dengan blob warna dalam bentuk mobil, dan GAN dapat mengisi bentuk dengan detail mobil yang realistis.

Demikian pula, Anda dapat melatih GAN gambar ke gambar untuk mengambil sketsa tas tangan dan mengubahnya menjadi gambar tas tangan yang fotorealistik.

Meja berukuran 3x3 yang berisi gambar tas tangan. Setiap baris
menunjukkan gaya tas tangan yang berbeda. Di setiap baris, gambar paling kiri adalah gambar garis sederhana, tas tangan, gambar tengah adalah foto tas tangan asli, dan
gambar paling kanan adalah gambar fotorealistik yang dihasilkan oleh GAN. Ketiga kolom tersebut diberi label 'Input', 'Ground Truth', dan 'output'.

Dalam kasus ini, kerugian merupakan kombinasi berbobot dari kerugian berbasis pembeda yang biasa dan kerugian piksel yang menghukum generator karena keluar dari gambar sumber.

Untuk informasi selengkapnya, lihat Isola et al, 2016.

Siklus

CycleGAN belajar mengubah gambar dari satu set menjadi gambar yang dapat dimiliki oleh set lainnya. Misalnya, CycleGAN menghasilkan gambar sebelah kanan di bawah saat diberikan gambar sebelah kiri sebagai input. Mengambil gambar kuda dan mengubahnya menjadi gambar zebra.

Gambar kuda yang berlari, dan gambar kedua yang identik dalam semua gambar, kecuali bahwa kuda itu adalah zebra.

Data pelatihan untuk CycleGAN hanyalah dua kumpulan gambar (dalam hal ini, serangkaian gambar kuda dan serangkaian gambar zebra). Sistem tidak memerlukan label atau korespondensi berpasangan antar-gambar.

Untuk informasi selengkapnya, lihat Zhu et al, 2017, yang mengilustrasikan penggunaan CycleGAN untuk melakukan terjemahan image-ke-gambar tanpa data yang disambungkan.

Sintesis Teks-ke-Gambar

GAN text-to-image mengambil teks sebagai input dan menghasilkan gambar yang masuk akal dan dijelaskan oleh teks. Misalnya, gambar bunga di bawah dihasilkan dengan memasukkan deskripsi teks ke GAN.

"Bunga ini memiliki kelopak yang berwarna kuning dengan nuansa oranye." Bunga dengan kelopak yang berwarna kuning dengan nuansa oranye.

Perhatikan bahwa dalam sistem ini GAN hanya dapat menghasilkan gambar dari sekumpulan kecil class.

Untuk informasi selengkapnya, lihat Zhang et al, 2016.

Resolusi super

GAN beresolusi super meningkatkan resolusi gambar, dengan menambahkan detail jika diperlukan untuk mengisi area yang buram. Misalnya, gambar tengah buram di bawah adalah versi dengan sampel yang dikurangi dari gambar asli di sebelah kiri. Mengingat gambar yang buram, GAN menghasilkan gambar yang lebih tajam di sebelah kanan:

AsliKaburDipulihkan dengan GAN
Lukisan seorang perempuan mengenakan hiasan kepala yang rumit. Ikat kepala dari hiasan kepala dirajut dengan pola
      yang rumit. Versi lukisan buram seorang perempuan mengenakan hiasan kepala yang rumit. Lukisan seorang perempuan yang mengenakan hiasan kepala yang rumit dan tajam. Lukisan ini hampir identik
      dengan gambar pertama dalam tabel ini, tetapi beberapa detail pola
      pada hiasan kepala dan pakaiannya sedikit berbeda.

Gambar yang dihasilkan GAN terlihat sangat mirip dengan gambar asli, tetapi jika Anda melihat dengan lebih ketat ikat kepala, Anda akan melihat bahwa GAN tidak mengulangi pola burst bintang dari aslinya. Sebagai gantinya, kelas ini membuat pola yang masuk akal untuk menggantikan pola yang dihapus oleh down-sampling.

Untuk informasi selengkapnya, lihat Ledig et al, 2017.

Seni Lukis Wajah

GAN telah digunakan untuk tugas inpainting gambar semantik. Dalam tugas paint, potongan gambar dihitamkan, dan sistem mencoba mengisi bagian yang hilang.

Yeh et al, 2017 menggunakan GAN untuk mengungguli teknik lain dalam melukis gambar wajah:

InputOutput GAN
Empat gambar. Setiap gambar merupakan foto wajah yang sebagian areanya diganti dengan warna hitam. Empat gambar. Setiap gambar adalah foto wajah yang identik dengan salah satu gambar pada kolom 'Input' kecuali tidak ada area hitam.

Text-to-Speech

Tidak semua GAN menghasilkan gambar. Misalnya, para peneliti juga telah menggunakan GAN untuk menghasilkan ucapan yang disintesis dari input teks. Untuk informasi selengkapnya, lihat Yang et al, 2017.