Исследователи продолжают находить улучшенные методы GAN и новые способы использования GAN. Вот выборка вариантов GAN, чтобы дать вам представление о возможностях.
Прогрессивные сети GAN
В прогрессивной GAN первые слои генератора создают изображения с очень низким разрешением, а последующие слои добавляют детали. Этот метод позволяет GAN обучаться быстрее, чем сопоставимые непрогрессивные GAN, и создавать изображения с более высоким разрешением.
Для получения дополнительной информации см. Karras et al, 2017 .
Условные GAN
Условные GAN обучаются на помеченном наборе данных и позволяют указать метку для каждого сгенерированного экземпляра. Например, безусловная MNIST GAN будет генерировать случайные цифры, а условная MNIST GAN позволит вам указать, какую цифру должна генерировать GAN.
Вместо моделирования совместной вероятности P(X, Y) условные GAN моделируют условную вероятность P(X | Y).
Дополнительные сведения об условных GAN см. в Mirza et al, 2014 .Преобразование изображения в изображение
Преобразование изображения в изображение GAN принимают изображение в качестве входных данных и сопоставляют его с сгенерированным выходным изображением с различными свойствами. Например, мы можем взять изображение-маску с цветным пятном в форме автомобиля, а GAN может заполнить форму фотореалистичными деталями автомобиля.
Точно так же вы можете обучить GAN преобразования изображения в изображение, чтобы он делал эскизы сумок и превращал их в фотореалистичные изображения сумок.
В этих случаях потеря представляет собой взвешенную комбинацию обычной потери на основе дискриминатора и потери в пикселях, которая штрафует генератор за отклонение от исходного изображения.
Для получения дополнительной информации см. Isola et al, 2016 .
ЦиклГАН
CycleGAN учатся преобразовывать изображения из одного набора в изображения, которые могут принадлежать другому набору. Например, CycleGAN создал правое изображение ниже, когда в качестве входных данных было левое изображение. Он взял изображение лошади и превратил его в изображение зебры.
Обучающие данные для CycleGAN — это просто два набора изображений (в данном случае набор изображений лошадей и набор изображений зебры). Система не требует меток или попарных соответствий между изображениями.
Для получения дополнительной информации см. Zhu et al, 2017 , в котором показано использование CycleGAN для преобразования изображения в изображение без парных данных.
Синтез текста в изображение
GAN с преобразованием текста в изображение принимают текст в качестве входных данных и создают изображения, которые правдоподобны и описываются текстом. Например, изображение цветка ниже было создано путем подачи текстового описания в GAN.
«У этого цветка лепестки желтого цвета с оттенками оранжевого». |
Обратите внимание, что в этой системе GAN может создавать изображения только из небольшого набора классов.
Для получения дополнительной информации см. Zhang et al, 2016 .
Супер-разрешение
GAN со сверхвысоким разрешением увеличивают разрешение изображений, добавляя детали там, где это необходимо, чтобы заполнить размытые области. Например, размытое среднее изображение ниже — это уменьшенная версия исходного изображения слева. Учитывая размытое изображение, GAN создал более четкое изображение справа:
Оригинал | Размытый | Восстановлено с помощью GAN |
Изображение, сгенерированное GAN, очень похоже на исходное изображение, но если вы внимательно посмотрите на повязку, то увидите, что GAN не воспроизвел рисунок звездообразования из оригинала. Вместо этого он создал свой собственный правдоподобный шаблон, чтобы заменить шаблон, стертый при понижении частоты дискретизации.
Для получения дополнительной информации см. Ledig et al, 2017 .
Раскрашивание лица
GAN использовались для задачи рисования семантического изображения . В задаче рисования фрагменты изображения затемняются, и система пытается заполнить недостающие фрагменты.
Yeh et al, 2017 использовали GAN, чтобы превзойти другие методы рисования изображений лиц:
Вход | Выход ГАН |
Текст в речь
Не все GAN производят изображения. Например, исследователи также использовали GAN для создания синтезированной речи из текстового ввода. Для получения дополнительной информации см. Yang et al, 2017 .