研究人員持續尋找改善 GAN 技術和 GAN 的新用途。以下是 GAN 變化版本的範例,讓您瞭解可能的應用方式。
漸進式 GAN
在漸進式 GAN 中,產生器的第一層會產生解析度極低的圖片,後續層則會加入細節。這項技巧可讓 GAN 比類似的非漸進式 GAN 更快完成訓練,並產生更高解析度的圖片。
詳情請參閱 Karras 等人,2017。
條件式 GAN
條件式 GAN 會在標記資料集上進行訓練,並讓您為每個產生的例項指定標籤。舉例來說,無條件 MNIST GAN 會產生隨機的數字,而有條件 MNIST GAN 則可讓您指定 GAN 應產生的數字。
條件 GAN 不會模擬聯合機率 P(X, Y),而是模擬條件機率 P(X | Y)。
如要進一步瞭解條件式 GAN,請參閱 Mirza 等人,2014。圖片轉圖片翻譯
圖像轉換 GAN 會將圖片做為輸入內容,並將其對應至具有不同屬性的產生輸出圖片。舉例來說,我們可以擷取遮罩圖片,其中包含汽車形狀的色塊,而 GAN 就能以逼真的汽車細節填入該形狀。
同樣地,您可以訓練圖像轉圖像 GAN,將手提包草圖轉換為逼真的手提包圖片。
在這些情況下,損失是經過加權的組合,包括一般以辨識器為基礎的損失,以及以像素為基礎的損失,這會對離開來源圖片的產生器處以罰分。
詳情請參閱 Isola 等人,2016。
CycleGAN
CycleGAN 會學習將一組圖片轉換為另一組圖片,舉例來說,當 CycleGAN 以左圖做為輸入內容時,會產生下方右圖。它將一張馬的圖片轉換成斑馬圖片。
CycleGAN 的訓練資料只是兩組圖片 (在本例中,一組是馬的圖片,另一組是斑馬的圖片)。系統不需要標記或圖像之間的配對。
如需更多資訊,請參閱 Zhu et al, 2017,該文章說明如何使用 CycleGAN 在沒有配對資料的情況下,執行圖像轉換。
文字轉圖片合成
文字轉圖像 GAN 會將文字做為輸入內容,產生文字所描述的合理圖像。舉例來說,下方的花朵圖片是透過將文字說明提供給 GAN 而產生。
「這朵花的花瓣是黃色,帶點橘色。」 | ![]() |
請注意,在這個系統中,GAN 只能產生少數類別的圖片。
詳情請參閱 Zhang et al, 2016。
超高解析度
超解析度 GAN 會提高圖片解析度,並視需要加入細節來填補模糊區域。例如,下方中間模糊的圖片,就是左側原始圖片的降樣版本。在模糊圖片的情況下,GAN 產生了右側較清晰的圖片:
Original (原文) | 模糊處理 | 使用 GAN 還原 |
![]() |
![]() |
![]() |
GAN 產生的圖片與原始圖片非常相似,但仔細觀察頭帶,您會發現 GAN 並未重現原始圖片的星芒圖案。而是自行產生可信的模式,取代經過降採樣而消失的模式。
詳情請參閱 Ledig 等人,2017。
臉部修飾
GAN 曾用於語意圖像修補任務。在繪製圖片任務中,系統會將圖片的部分區塊遮黑,並嘗試填入缺少的區塊。
Yeh 等人 (2017) 使用 GAN 技術,在臉孔圖像上進行修補,效果優於其他技術:
輸入 | GAN 輸出 |
![]() |
![]() |
Text-to-Speech
並非所有 GAN 都會產生圖片。舉例來說,研究人員也曾使用 GAN 從文字輸入內容產生合成語音。詳情請參閱 Yang et al, 2017。