GAN のバリエーション

研究者らは、GAN の改善手法と GAN の新しい用途を継続的に見つけています。以下に、GAN のバリエーションのサンプルを示します。

プログレッシブ GAN

プログレッシブ GAN では、生成元の最初のレイヤは非常に低解像度の画像を生成し、その後のレイヤで詳細を追加します。この手法により、GAN は同等の非プログレッシブ GAN よりも迅速にトレーニングでき、より高解像度の画像を生成できます。

詳細については、Karras et al, 2017 をご覧ください。

条件付き GAN

条件付き GAN はラベル付きデータセットでトレーニングし、生成される各インスタンスのラベルを指定できます。たとえば、無条件の MNIST GAN はランダムな数字を生成しますが、条件付きの MNIST GAN では、GAN が生成する数字を指定できます。

条件付き GAN は、同時確率 P(X, Y) をモデル化する代わりに、条件付き確率 P(X | Y) をモデル化します。

条件付き GAN の詳細については、Mirza et al, 2014 をご覧ください。

画像から画像への変換

画像間変換 GAN は、画像を入力として受け取り、生成された出力画像にマッピングします。出力画像は、異なるプロパティを持つ画像です。たとえば、車の形をした色の塊を含むマスク画像を取得すると、GAN はフォトリアルな車の詳細でその形を埋めることができます。

同様に、画像から画像への GAN をトレーニングして、ハンドバッグのスケッチをフォトリアルなハンドバッグの画像に変換することもできます。

ハンドバッグの画像が 3x3 の表に表示されています。各行には異なるハンドバッグのスタイルが表示されます。各行の左端の画像はハンドバッグのシンプルな線画、中央の画像は実際のハンドバッグの写真、右端の画像は GAN によって生成されたフォトリアルな画像です。3 つの列には「入力」、「グラウンド トゥルース」、「出力」というラベルが付けられています。

この場合、損失は、通常の識別子ベースの損失と、ソース画像から逸脱した生成機にペナルティを科すピクセル単位の損失の重み付けされた組み合わせです。

詳しくは、Isola et al, 2016 をご覧ください。

CycleGAN

CycleGAN は、あるセットの画像を別のセットに属する可能性のある画像に変換することを学習します。たとえば、CycleGAN は、左側の画像を入力として受け取ると、右側の画像を生成します。馬の画像をゼブラの画像に変換しました。

走っている馬の画像と、馬がシマウマである点を除いてすべての点で同じ 2 つ目の画像。

CycleGAN のトレーニング データは、単純に 2 つの画像セット(この場合は馬の画像セットとシマウマの画像セット)です。このシステムでは、ラベルや画像間のペア対応は必要ありません。

詳細については、Zhu et al, 2017 をご覧ください。ここでは、ペアデータなしで画像間変換を実行するために CycleGAN を使用する方法について説明しています。

テキストから画像への合成

テキスト画像変換 GAN は、テキストを入力として受け取り、テキストで記述されている可能性のある画像を生成します。たとえば、下の花の画像は、テキスト記述を GAN に入力して生成されました。

「この花の花びらは黄色で、オレンジ色がかっています。」 オレンジ色がかった黄色の花びらを持つ花。

このシステムでは、GAN は少数のクラスの画像のみを生成できます。

詳細については、Zhang et al, 2016 をご覧ください。

超解像

超解像 GAN は画像の解像度を高め、必要に応じてぼやけた部分を埋めるように細部を追加します。たとえば、下記の中央のぼやけた画像は、左側の元の画像をダウンサンプリングしたものです。ぼやけた画像を入力すると、GAN は右側のより鮮明な画像を生成します。

オリジナルぼかしGAN で復元
精巧なヘッドドレスを身につけた少女の絵画。ヘッドドレスのヘッドバンドは複雑なパターンで編まれています。 精巧なヘッドドレスを身につけた少女の絵画のぼやけたバージョン。 精巧なヘッドドレスを身につけた少女を描いた鮮明な絵画。この絵は、この表の最初の画像とほぼ同じですが、頭飾りと衣服の模様の細部が微妙に異なります。

GAN で生成された画像は元の画像と非常によく似ていますが、ヘッドバンドをよく見ると、GAN は元のスターバースト パターンを再現していないことがわかります。代わりに、ダウンサンプリングによって消去されたパターンに代わる、独自の信頼できるパターンを作成しました。

詳細については、Ledig et al, 2017 をご覧ください。

顔の画像修復

GAN は、セマンティック画像インペインティングタスクに使用されています。インペインティング タスクでは、画像の一部が黒く塗りつぶされ、不足している部分が埋め込まれます。

Yeh et al, 2017 は GAN を使用して、顔の画像の補正において他の手法よりも優れた結果を得ています。

入力GAN の出力
4 枚の画像。各画像は、一部の領域が黒く塗りつぶされた顔の写真です。 4 枚の画像。各画像は、黒い領域がないことを除き、「入力」列の画像のいずれかと同一の顔の写真です。

Text-to-Speech

すべての GAN が画像を生成するわけではありません。たとえば、研究者は GAN を使用して、テキスト入力から合成音声を生成しています。詳細については、Yang et al, 2017 をご覧ください。