GAN 變化版本

研究人員持續尋找改善 GAN 技術和 GAN 的新用途。以下是 GAN 變化版本的範例,讓您瞭解可能的應用方式。

漸進式 GAN

在漸進式 GAN 中,產生器的第一層會產生解析度極低的圖片,後續層則會加入細節。這項技巧可讓 GAN 比類似的非漸進式 GAN 更快完成訓練,並產生更高解析度的圖片。

詳情請參閱 Karras 等人,2017

條件式 GAN

條件式 GAN 會在標記資料集上進行訓練,並讓您為每個產生的例項指定標籤。舉例來說,無條件 MNIST GAN 會產生隨機的數字,而有條件 MNIST GAN 則可讓您指定 GAN 應產生的數字。

條件 GAN 不會模擬聯合機率 P(X, Y),而是模擬條件機率 P(X | Y)。

如要進一步瞭解條件式 GAN,請參閱 Mirza 等人,2014

圖片轉圖片翻譯

圖像轉換 GAN 會將圖片做為輸入內容,並將其對應至具有不同屬性的產生輸出圖片。舉例來說,我們可以擷取遮罩圖片,其中包含汽車形狀的色塊,而 GAN 就能以逼真的汽車細節填入該形狀。

同樣地,您可以訓練圖像轉圖像 GAN,將手提包草圖轉換為逼真的手提包圖片。

3x3 表格中的手提包圖片。每個資料列都會顯示不同的手提包款式。在每個資料列中,最左邊的圖片是手提包的簡單線條繪圖,中間圖片是真實手提包的相片,而最右邊的圖片則是 GAN 產生的逼真相片。這三個資料欄分別標示為「Input」、「Ground Truth」和「output」。

在這些情況下,損失是經過加權的組合,包括一般以辨識器為基礎的損失,以及以像素為基礎的損失,這會對離開來源圖片的產生器處以罰分。

詳情請參閱 Isola 等人,2016

CycleGAN

CycleGAN 會學習將一組圖片轉換為另一組圖片,舉例來說,當 CycleGAN 以左圖做為輸入內容時,會產生下方右圖。它將一張馬的圖片轉換成斑馬圖片。

一張馬匹奔跑的圖片,以及另一張圖片,兩者在所有方面都相同,但馬匹是斑馬。

CycleGAN 的訓練資料只是兩組圖片 (在本例中,一組是馬的圖片,另一組是斑馬的圖片)。系統不需要標記或圖像之間的配對。

如需更多資訊,請參閱 Zhu et al, 2017,該文章說明如何使用 CycleGAN 在沒有配對資料的情況下,執行圖像轉換。

文字轉圖片合成

文字轉圖像 GAN 會將文字做為輸入內容,產生文字所描述的合理圖像。舉例來說,下方的花朵圖片是透過將文字說明提供給 GAN 而產生。

「這朵花的花瓣是黃色,帶點橘色。」 花瓣是黃色與橘色調的花朵。

請注意,在這個系統中,GAN 只能產生少數類別的圖片。

詳情請參閱 Zhang et al, 2016

超高解析度

超解析度 GAN 會提高圖片解析度,並視需要加入細節來填補模糊區域。例如,下方中間模糊的圖片,就是左側原始圖片的降樣版本。在模糊圖片的情況下,GAN 產生了右側較清晰的圖片:

Original (原文)模糊處理使用 GAN 還原
一幅畫作,畫中女孩戴著精緻的頭飾。頭飾的頭帶採用複雜的編織圖案。 模糊的畫作,畫中一名女孩戴著精緻的頭飾。 一幅清晰的畫作,畫中一名女孩戴著精緻的頭飾。這幅畫作與本表中的第一張圖片幾乎完全相同,但頭飾和服裝上的圖案有些細微差異。

GAN 產生的圖片與原始圖片非常相似,但仔細觀察頭帶,您會發現 GAN 並未重現原始圖片的星芒圖案。而是自行產生可信的模式,取代經過降採樣而消失的模式。

詳情請參閱 Ledig 等人,2017

臉部修飾

GAN 曾用於語意圖像修補任務。在繪製圖片任務中,系統會將圖片的部分區塊遮黑,並嘗試填入缺少的區塊。

Yeh 等人 (2017) 使用 GAN 技術,在臉孔圖像上進行修補,效果優於其他技術:

輸入GAN 輸出
四張圖片。每張圖片都是臉部相片,其中部分區域已替換為黑色。 四張圖片。每張圖片都是與「輸入」欄位中某張圖片相同的臉部相片,但沒有黑色區域。

Text-to-Speech

並非所有 GAN 都會產生圖片。舉例來說,研究人員也曾使用 GAN 從文字輸入內容產生合成語音。詳情請參閱 Yang et al, 2017