研究者は、改善された GAN の手法と、GAN の新たな用途を見つけ続けています。 ここでは、GAN の各パターンをサンプリングして、可能性を把握します。
プログレッシブ GAN
プログレッシブ GAN では、ジェネレータの最初のレイヤが非常に低解像度の画像を生成し、後続のレイヤでは詳細を追加します。この手法を使用すると、GAN は同等の非進歩型の GAN よりも速くトレーニングでき、高解像度の画像を生成できます。
詳細については、Karras et al、2017 をご覧ください。
条件付き GAN
条件付き GAN は、ラベル付けされたデータセットでトレーニングし、生成された各インスタンスのラベルを指定できます。たとえば、無条件の MNIST GAN ではランダムな数字が生成され、条件付き MNIST GAN では GAN が生成する数字を指定できます。
条件付き GAN は、結合確率 P(X, Y) をモデル化するのではなく、条件付き確率 P(X | Y) をモデル化します。
条件付き GAN の詳細については、Mirza et al、2014 をご覧ください。画像間の翻訳
画像から画像への変換 GAN は、入力として画像を取得し、さまざまなプロパティを使用して、生成された出力画像にマッピングします。たとえば、車の型の形状の blob を含むマスク画像を取得し、GAN はフォトリアリスティックな車の詳細で形状を塗りつぶすことができます。
同様に、画像間 GAN をトレーニングしてハンドバッグのスケッチを撮り、ハンドバッグのフォトリアリスティックな画像に変換することもできます。
このような場合、損失は、通常の判別要素に基づく損失と、ジェネレータにソースイメージから出発させるペナルティとなる損失の加重の組み合わせになります。
詳しくは、Isola et al、2016 をご覧ください。
CycleGAN
CycleGAN は、あるセットの画像を別のセットに帰属する可能性のある画像に変換することを学習します。たとえば、CycleGAN は、左側の画像を入力として与えると、右側の画像を生成しました。馬の姿を映して、シマウマの画像に変えました。
CycleGAN のトレーニング データは 2 セットの画像です(この例では、馬の画像とシマウマの画像のセット)。システムは、画像間でラベルやペア間の対応は必要ありません。
詳細については、Zhu et al, 2017 をご覧ください。こちらは、CycleGAN を使用して、ペア設定したデータなしで画像から画像への変換を行う方法を示しています。
テキストから画像への合成
Text-to-Image GAN は、テキストを入力として受け取り、テキストで実行可能な現実的な画像を生成します。たとえば、下の花の画像はテキスト説明を GAN に供給することによって生成されます。
&この花は、オレンジ色のシェードで黄色の花びらを持っています。" |
このシステムでは、GAN が生成できるイメージは少数のクラスのみであるので注意してください。
詳細については、Zhang et al、2016 をご覧ください。
超解像
超解像 GAN は、画像の解像度を上げ、不鮮明な領域を埋める必要がある場合に、詳細部分を追加します。たとえば、下のぼかしされた中央の画像は、左側の元の画像のダウンサンプリング バージョンです。ぼやけた画像では、GAN によって右側に、より鮮明な画像が生成されています。
元の | ぼかし | GAN で復元済み |
GAN で生成された画像は元の画像とよく似ていますが、ヘッドバンドをよく見ると、GAN では元のバースト パターンが再現されていません。代わりに、独自のもっと現実的なパターンを構成し、ダウンサンプリングによって消去されたパターンを置き換えました。
詳細については、Ledig et al、2017 をご覧ください。
フェイス インペインティング
GAN は、セマンティック イメージ インペインティング タスクに使用されています。インペインティング タスクでは、画像のチャンクが黒く表示され、システムが欠落しているチャンクを埋めようとします。
Yeh et al 2017 は、GAN を使用して、顔の画像をペイントする他の手法のパフォーマンスを上回りました。
Input | GAN の出力 |
Text-to-Speech
すべての GAN が画像を生成するわけではありません。たとえば、研究者はテキスト入力から合成音声を生成するために GAN も使用しています。詳細については、Yang et al、2017 をご覧ください。