Variasi GAN

Para peneliti terus menemukan teknik GAN yang lebih baik dan penggunaan baru untuk GAN. Berikut adalah sampel variasi GAN untuk memberi Anda gambaran tentang kemungkinannya.

GAN Progresif

Dalam GAN progresif, lapisan pertama generator menghasilkan gambar dengan resolusi sangat rendah, dan lapisan berikutnya menambahkan detail. Teknik ini memungkinkan GAN berlatih lebih cepat daripada GAN non-progresif yang sebanding, dan menghasilkan gambar resolusi yang lebih tinggi.

Untuk informasi selengkapnya, lihat Karras et al, 2017.

GAN Bersyarat

GAN bersyarat dilatih pada set data berlabel dan memungkinkan Anda menentukan label untuk setiap instance yang dihasilkan. Misalnya, MNIST GAN tanpa kondisi akan menghasilkan angka acak, sedangkan MNIST GAN bersyarat akan memungkinkan Anda menentukan angka yang akan dihasilkan GAN.

Daripada membuat model probabilitas gabungan P(X, Y), GAN bersyarat membuat model probabilitas bersyarat P(X | Y).

Untuk informasi selengkapnya tentang GAN bersyarat, lihat Mirza et al, 2014.

Terjemahan Gambar ke Gambar

GAN terjemahan Gambar ke Gambar menggunakan gambar sebagai input dan memetakan gambar tersebut ke gambar output yang dihasilkan dengan properti yang berbeda. Misalnya, kita dapat mengambil gambar mask dengan gumpalan warna berbentuk mobil, dan GAN dapat mengisi bentuknya dengan detail mobil yang fotorealistik.

Demikian pula, Anda dapat melatih GAN gambar ke gambar untuk mengambil sketsa tas tangan dan mengubahnya menjadi gambar tas tangan yang fotorealistik.

Tabel 3x3 berisi gambar tas tangan. Setiap baris
menampilkan gaya tas tangan yang berbeda. Di setiap baris, gambar paling kiri adalah gambar garis sederhana dari tas tangan, gambar tengah adalah foto tas tangan sungguhan, dan gambar paling kanan adalah gambar fotorealistik yang dihasilkan oleh GAN. Tiga kolom tersebut diberi label 'Input', 'Ground Truth', dan 'output'.

Dalam hal ini, kerugian adalah kombinasi berbobot dari kerugian berbasis diskriminator biasa dan kerugian per piksel yang menghukum generator karena menyimpang dari gambar sumber.

Untuk informasi selengkapnya, lihat Isola et al, 2016.

CycleGAN

CycleGAN belajar mengubah gambar dari satu set menjadi gambar yang mungkin merupakan bagian dari set lain. Misalnya, CycleGAN menghasilkan gambar sebelah kanan di bawah saat diberi gambar sebelah kiri sebagai input. Model ini mengambil gambar kuda dan mengubahnya menjadi gambar zebra.

Gambar kuda yang berlari, dan gambar kedua
yang identik dalam semua aspek kecuali bahwa kuda tersebut adalah zebra.

Data pelatihan untuk CycleGAN hanyalah dua kumpulan gambar (dalam hal ini, kumpulan gambar kuda dan kumpulan gambar zebra). Sistem ini tidak memerlukan label atau korespondensi berpasangan antargambar.

Untuk informasi selengkapnya, lihat Zhu et al, 2017, yang mengilustrasikan penggunaan CycleGAN untuk melakukan terjemahan gambar ke gambar tanpa data berpasangan.

Sintesis Teks ke Gambar

GAN teks ke gambar menggunakan teks sebagai input dan menghasilkan gambar yang masuk akal dan dijelaskan oleh teks. Misalnya, gambar bunga di bawah dihasilkan dengan memberi deskripsi teks ke GAN.

"Bunga ini memiliki kelopak berwarna kuning dengan nuansa oranye." Bunga dengan kelopak berwarna
    kuning dengan nuansa oranye.

Perhatikan bahwa dalam sistem ini, GAN hanya dapat menghasilkan gambar dari sekumpulan class kecil.

Untuk informasi selengkapnya, lihat Zhang et al, 2016.

Resolusi super

GAN resolusi super meningkatkan resolusi gambar, menambahkan detail jika diperlukan untuk mengisi area yang buram. Misalnya, gambar tengah yang buram di bawah adalah versi downsampling dari gambar asli di sebelah kiri. Dengan gambar yang buram, GAN menghasilkan gambar yang lebih tajam di sebelah kanan:

AsliBuramDipulihkan dengan GAN
Lukisan seorang gadis yang mengenakan
      penutup kepala yang rumit. Ikat kepala hiasan kepala dirajut dalam pola
      yang kompleks. Versi buram dari
      lukisan seorang gadis yang mengenakan penutup kepala yang rumit. Lukisan yang tajam dan jelas tentang
      seorang gadis yang mengenakan hiasan kepala yang rumit. Lukisan ini hampir identik
      dengan gambar pertama dalam tabel ini, tetapi beberapa detail pola
      pada penutup kepala dan pakaiannya sedikit berbeda.

Gambar yang dihasilkan GAN terlihat sangat mirip dengan gambar asli, tetapi jika Anda memperhatikan headband dengan cermat, Anda akan melihat bahwa GAN tidak mereproduksi pola starburst dari gambar asli. Sebagai gantinya, model ini membuat polanya sendiri yang masuk akal untuk menggantikan pola yang dihapus oleh down-sampling.

Untuk informasi selengkapnya, lihat Ledig et al, 2017.

Rekonstruksi Wajah

GAN telah digunakan untuk tugas inpainting gambar semantik. Dalam tugas inpainting, potongan gambar digelapkan, dan sistem mencoba mengisi potongan yang hilang.

Yeh et al, 2017 menggunakan GAN untuk mengungguli teknik lain untuk inpainting gambar wajah:

InputOutput GAN
Empat gambar. Setiap gambar adalah
                                     foto wajah dengan beberapa area diganti
                                     dengan warna hitam. Empat gambar. Setiap gambar adalah
                                     foto wajah yang identik dengan salah satu
                                     gambar di kolom 'Input', kecuali
                                     tidak ada area hitam.

Text-to-Speech

Tidak semua GAN menghasilkan gambar. Misalnya, peneliti juga telah menggunakan GAN untuk memproduksi ucapan yang disintesis dari input teks. Untuk informasi selengkapnya, lihat Yang et al, 2017.