Варианты ГАН

Исследователи продолжают находить улучшенные методы GAN и новые способы использования GAN. Вот выборка вариантов GAN, чтобы дать вам представление о возможностях.

Прогрессивные сети GAN

В прогрессивной GAN первые слои генератора создают изображения с очень низким разрешением, а последующие слои добавляют детали. Этот метод позволяет GAN обучаться быстрее, чем сопоставимые непрогрессивные GAN, и создавать изображения с более высоким разрешением.

Для получения дополнительной информации см. Karras et al, 2017 .

Условные GAN

Условные GAN обучаются на помеченном наборе данных и позволяют указать метку для каждого сгенерированного экземпляра. Например, безусловная MNIST GAN будет генерировать случайные цифры, а условная MNIST GAN позволит вам указать, какую цифру должна генерировать GAN.

Вместо моделирования совместной вероятности P(X, Y) условные GAN моделируют условную вероятность P(X | Y).

Дополнительные сведения об условных GAN см. в Mirza et al, 2014 .

Преобразование изображения в изображение

Преобразование изображения в изображение GAN принимают изображение в качестве входных данных и сопоставляют его с сгенерированным выходным изображением с различными свойствами. Например, мы можем взять изображение-маску с цветным пятном в форме автомобиля, а GAN может заполнить форму фотореалистичными деталями автомобиля.

Точно так же вы можете обучить GAN преобразования изображения в изображение, чтобы он делал эскизы сумок и превращал их в фотореалистичные изображения сумок.

Таблица 3х3 с изображениями сумок. В каждом ряду представлены разные стили сумок. В каждой строке крайнее левое изображение представляет собой простой линейный рисунок сумочки, среднее изображение представляет собой фотографию реальной сумки, а крайнее правое изображение представляет собой фотореалистичное изображение, сгенерированное GAN. Три столбца помечены как «Ввод», «Основная правда» и «Вывод».

В этих случаях потеря представляет собой взвешенную комбинацию обычной потери на основе дискриминатора и потери в пикселях, которая штрафует генератор за отклонение от исходного изображения.

Для получения дополнительной информации см. Isola et al, 2016 .

ЦиклГАН

CycleGAN учатся преобразовывать изображения из одного набора в изображения, которые могут принадлежать другому набору. Например, CycleGAN создал правое изображение ниже, когда в качестве входных данных было левое изображение. Он взял изображение лошади и превратил его в изображение зебры.

Изображение бегущей лошади и второе изображение, идентичное во всех отношениях, за исключением того, что лошадь — это зебра.

Обучающие данные для CycleGAN — это просто два набора изображений (в данном случае набор изображений лошадей и набор изображений зебры). Система не требует меток или попарных соответствий между изображениями.

Для получения дополнительной информации см. Zhu et al, 2017 , в котором показано использование CycleGAN для преобразования изображения в изображение без парных данных.

Синтез текста в изображение

GAN с преобразованием текста в изображение принимают текст в качестве входных данных и создают изображения, которые правдоподобны и описываются текстом. Например, изображение цветка ниже было создано путем подачи текстового описания в GAN.

«У этого цветка лепестки желтого цвета с оттенками оранжевого». Цветок с желтыми лепестками с оранжевым оттенком.

Обратите внимание, что в этой системе GAN может создавать изображения только из небольшого набора классов.

Для получения дополнительной информации см. Zhang et al, 2016 .

Супер-разрешение

GAN со сверхвысоким разрешением увеличивают разрешение изображений, добавляя детали там, где это необходимо, чтобы заполнить размытые области. Например, размытое среднее изображение ниже — это уменьшенная версия исходного изображения слева. Учитывая размытое изображение, GAN создал более четкое изображение справа:

Оригинал Размытый Восстановлено с помощью GAN
Картина девушки в сложном головном уборе. Повязка головного убора связана сложным узором.Размытая версия картины девушки в сложном головном уборе.Резкий, четкий рисунок девушки в замысловатом головном уборе. Эта картина почти идентична первому изображению в этой таблице, но некоторые детали узоров на ее головном уборе и одежде немного отличаются.

Изображение, сгенерированное GAN, очень похоже на исходное изображение, но если вы внимательно посмотрите на повязку, то увидите, что GAN не воспроизвел рисунок звездообразования из оригинала. Вместо этого он создал свой собственный правдоподобный шаблон, чтобы заменить шаблон, стертый при понижении частоты дискретизации.

Для получения дополнительной информации см. Ledig et al, 2017 .

Раскрашивание лица

GAN использовались для задачи рисования семантического изображения . В задаче рисования фрагменты изображения затемняются, и система пытается заполнить недостающие фрагменты.

Yeh et al, 2017 использовали GAN, чтобы превзойти другие методы рисования изображений лиц:

Вход Выход ГАН
Четыре изображения. Каждое изображение представляет собой фотографию лица, некоторые области которого заменены черным цветом.Четыре изображения. Каждое изображение представляет собой фотографию лица, идентичного одному из изображений в столбце «Ввод», за исключением того, что на нем нет черных областей.

Текст в речь

Не все GAN производят изображения. Например, исследователи также использовали GAN для создания синтезированной речи из текстового ввода. Для получения дополнительной информации см. Yang et al, 2017 .