GAN 變化版本

研究人員持續尋找改善 GAN 技術的技巧,以及新的 GAN 用途。這是一些 GAN 變化版本的取樣範例,讓您瞭解無限可能。

漸進式 GAN

在漸進式 GAN 中,產生器的第一層會產生非常低的解析度圖片,後續的層會新增詳細資料。這項技巧可讓 GAN 的訓練速度比同非漸進式 GAN 更快,並產生更高的解析度圖片。

詳情請參閱 Karras 等人,2017 年

條件式 GAN

條件式 GAN 會對已加上標籤的資料集進行訓練,方便您為每個產生的執行個體指定標籤。例如,無條件的 MNIST GAN 會產生隨機數字,而條件式 MNIST GAN 則可讓您指定 GAN 應產生的數字。

條件式 GAN 不會模擬接合機率 P(X、Y),而是將條件機率 P(X | Y) 建模。

如要進一步瞭解條件 GAN,請參閱 Mirza 等人,2014 年

圖片對圖片翻譯

圖片對圖片翻譯 GAN 會將圖片視為輸入內容,並將其對應至產生的不同屬性產生的輸出圖片。舉例來說,我們可以在車輛形狀中拿著顏色為 blob 的遮罩圖片,而 GAN 則會以寫實的車輛詳細資料填入形狀。

同樣地,您也可以訓練「圖片對圖片」的 GAN 來拍攝手提包,並將其轉換成生動的手提包圖片。

一張 3x3 相片包的手提包。每列顯示不同的手提包樣式。最左邊的圖片是簡單的線條繪圖,中間圖片是實際手提包的相片,最右邊的圖片是 GAN 產生的寫實圖片。這三個資料欄分別標示為「#39;Input'」、「'Ground Truth'」和「##9;output'」。

在這些情況下,損失的原因是一般歧視性損失和像素化損失的加權組合,懲罰發電機從來源映像檔中移除。

詳情請參閱 Isola 等人,2016 年

CycleGAN 音樂

CycleGAN 學會將圖片從一個集合轉換為可能屬於另一個集合的圖片。例如,CycleGAN 會在左側為輸入項目時產生右側圖片。它將馬匹製作成圖片,並變成斑馬的影像。

馬匹的圖片,以及不同矩形的第二張圖片,但這件馬匹是斑馬。

CycleGAN 的訓練資料只是兩張圖片 (在本例中為一組馬圖片和一組斑馬圖片)。系統不需要標籤或圖片之間的配對對應。

詳情請參閱 Zhu et al, 2017,其中說明瞭如何使用 CycleGAN 執行圖片對圖片翻譯,而不使用配對資料。

圖片與圖片合成

文字與圖片的 GAN 是將文字當做輸入內容,然後產生由文字提供及描述的圖片。舉例來說,下方的花卉圖片是向 GAN 提供文字說明而產生。

「這個花朵有黃色的綠色並帶有橘色陰影。」 一朵花有黃色陰影的花朵,黃色的是綠色。

請注意,在此系統中,GAN 只能從少數類別產生圖片。

詳情請參閱 Zhang et al, 2016

超高解析度

超高解析度 GAN 會增加圖片的解析度,並在必要情況下為模糊區域填滿。舉例來說,下方模糊的中間圖片是左側原始圖片的減少取樣版本。根據模糊圖片,GAN 會在右側產生更清晰的圖片:

原始廣告活動模糊已透過 GAN 還原
一件描繪精緻頭像的女孩畫作。堆積的頭帶以複雜的模式編織。 衣著精細頭像的女孩畫作模糊不清。 畫面描繪一顆清晰、醒目的女孩畫上精細的頭像。這幅畫幾乎與這份表格中的第一張圖片相同,但一些圖案和服飾上的圖案稍有不同。

GAN 產生的圖片與原始映像檔非常相似,但仔細查看頭帶後,就會發現 GAN 並未重現原始的星形模式。反之,它會自行建構一個可能的模式,取代由下取樣所清除的模式。

詳情請參閱 Ledig 等人,2017 年

臉部彩繪

GAN 已用於語意圖片繪製工作。在繪圖工作中,系統會將圖片區塊變成黑色,且系統會嘗試填入遺漏的區塊。

Yeh 等人,2017 年使用 GAN 來超越其他臉部塗鴉圖像技術:

輸入GAN 輸出
四張圖片。每張圖片都是一張臉孔的相片,其中部分區域以黑色取代。 四張圖片。每張圖片均為一張臉部相片,與「##99;Input'」欄中的任一張圖片相同,但不包含黑色區域。

Text-to-Speech

並非所有 GAN 都會產生圖片。舉例來說,研究人員也使用 GAN 從文字輸入產生合成語音。詳情請參閱 Yang 等人,2017 年