GAN のバリエーション

研究者は、改善された GAN の手法と、GAN の新たな用途を見つけ続けています。 ここでは、GAN の各パターンをサンプリングして、可能性を把握します。

プログレッシブ GAN

プログレッシブ GAN では、ジェネレータの最初のレイヤが非常に低解像度の画像を生成し、後続のレイヤでは詳細を追加します。この手法を使用すると、GAN は同等の非進歩型の GAN よりも速くトレーニングでき、高解像度の画像を生成できます。

詳細については、Karras et al、2017 をご覧ください。

条件付き GAN

条件付き GAN は、ラベル付けされたデータセットでトレーニングし、生成された各インスタンスのラベルを指定できます。たとえば、無条件の MNIST GAN ではランダムな数字が生成され、条件付き MNIST GAN では GAN が生成する数字を指定できます。

条件付き GAN は、結合確率 P(X, Y) をモデル化するのではなく、条件付き確率 P(X | Y) をモデル化します。

条件付き GAN の詳細については、Mirza et al、2014 をご覧ください。

画像間の翻訳

画像から画像への変換 GAN は、入力として画像を取得し、さまざまなプロパティを使用して、生成された出力画像にマッピングします。たとえば、車の型の形状の blob を含むマスク画像を取得し、GAN はフォトリアリスティックな車の詳細で形状を塗りつぶすことができます。

同様に、画像間 GAN をトレーニングしてハンドバッグのスケッチを撮り、ハンドバッグのフォトリアリスティックな画像に変換することもできます。

ハンドバッグの 3 枚 3 枚の表。各行は異なるハンドバッグ スタイルを示しています。各行の左端の画像はハンドバッグのシンプルな線画、中央の画像は実際のハンドバッグの写真、右端の画像は GAN によって生成されたフォトリアリスティック画像です。この 3 つの列には、'Input'、'Ground Truth'、'output' というラベルが付いています。

このような場合、損失は、通常の判別要素に基づく損失と、ジェネレータにソースイメージから出発させるペナルティとなる損失の加重の組み合わせになります。

詳しくは、Isola et al、2016 をご覧ください。

CycleGAN

CycleGAN は、あるセットの画像を別のセットに帰属する可能性のある画像に変換することを学習します。たとえば、CycleGAN は、左側の画像を入力として与えると、右側の画像を生成しました。馬の姿を映して、シマウマの画像に変えました。

走っている馬の画像と、馬がシマウマである場合を除き、すべての点で同一の 2 つ目の画像。

CycleGAN のトレーニング データは 2 セットの画像です(この例では、馬の画像とシマウマの画像のセット)。システムは、画像間でラベルやペア間の対応は必要ありません。

詳細については、Zhu et al, 2017 をご覧ください。こちらは、CycleGAN を使用して、ペア設定したデータなしで画像から画像への変換を行う方法を示しています。

テキストから画像への合成

Text-to-Image GAN は、テキストを入力として受け取り、テキストで実行可能な現実的な画像を生成します。たとえば、下の花の画像はテキスト説明を GAN に供給することによって生成されます。

&この花は、オレンジ色のシェードで黄色の花びらを持っています。" オレンジ色の花びらと黄色の花びら。

このシステムでは、GAN が生成できるイメージは少数のクラスのみであるので注意してください。

詳細については、Zhang et al、2016 をご覧ください。

超解像

超解像 GAN は、画像の解像度を上げ、不鮮明な領域を埋める必要がある場合に、詳細部分を追加します。たとえば、下のぼかしされた中央の画像は、左側の元の画像のダウンサンプリング バージョンです。ぼやけた画像では、GAN によって右側に、より鮮明な画像が生成されています。

元のぼかしGAN で復元済み
精巧な頭部をかぶった少女の絵。ヘッドウェアのヘッドバンドは、複雑なパターンで編み込まれています。 精巧な頭飾りを身に着けた少女の絵のぼやけたバージョン。 精巧な装飾が施された女の子のシャープで鮮明な絵。この絵は、この表にある最初の画像とほぼ同じですが、絵柄と洋服の柄の細部が若干異なっています。

GAN で生成された画像は元の画像とよく似ていますが、ヘッドバンドをよく見ると、GAN では元のバースト パターンが再現されていません。代わりに、独自のもっと現実的なパターンを構成し、ダウンサンプリングによって消去されたパターンを置き換えました。

詳細については、Ledig et al、2017 をご覧ください。

フェイス インペインティング

GAN は、セマンティック イメージ インペインティング タスクに使用されています。インペインティング タスクでは、画像のチャンクが黒く表示され、システムが欠落しているチャンクを埋めようとします。

Yeh et al 2017 は、GAN を使用して、顔の画像をペイントする他の手法のパフォーマンスを上回りました。

InputGAN の出力
4 枚の画像。各画像は顔写真であり、一部の領域は黒に置き換えられています。 4 枚の画像。各画像は、' Input' 列の画像の 1 つと同一の顔の写真です。ただし、黒い領域は除きます。

Text-to-Speech

すべての GAN が画像を生成するわけではありません。たとえば、研究者はテキスト入力から合成音声を生成するために GAN も使用しています。詳細については、Yang et al、2017 をご覧ください。