Исследователи продолжают находить улучшенные методы GAN и новые способы их применения. Вот примеры вариантов GAN, чтобы дать вам представление о возможностях.
Прогрессивные ГАНы
В прогрессивной GAN первые слои генератора создают изображения с очень низким разрешением, а последующие слои добавляют детали. Этот метод позволяет GAN обучаться быстрее, чем сопоставимые непрогрессивные GAN, и создает изображения с более высоким разрешением.
Для получения дополнительной информации см. Каррас и др., 2017 .
Условные GAN
Условные GAN обучаются на помеченном наборе данных и позволяют указать метку для каждого сгенерированного экземпляра. Например, безусловный MNIST GAN будет генерировать случайные цифры, а условный MNIST GAN позволит вам указать, какую цифру должен генерировать GAN.
Вместо моделирования совместной вероятности P(X, Y) условные GAN моделируют условную вероятность P(X | Y).
Дополнительную информацию об условных GAN см. в Mirza et al, 2014 .Перевод изображения в изображение
Трансляция изображения в изображение GAN принимает изображение в качестве входных данных и сопоставляет его с сгенерированным выходным изображением с различными свойствами. Например, мы можем взять изображение маски с цветным пятном в форме автомобиля, а GAN может заполнить форму фотореалистичными деталями автомобиля.
Аналогичным образом вы можете обучить GAN, преобразующую изображение в изображение, делать эскизы сумок и превращать их в фотореалистичные изображения сумочек.
В этих случаях потеря представляет собой взвешенную комбинацию обычных потерь на основе дискриминатора и попиксельных потерь, которые наказывают генератор за отклонение от исходного изображения.
Для получения дополнительной информации см. Isola et al, 2016 .
ЦиклГАН
CycleGAN учатся преобразовывать изображения из одного набора в изображения, которые вполне могут принадлежать другому набору. Например, CycleGAN создал правое изображение ниже, когда в качестве входных данных было передано левое изображение. Он взял изображение лошади и превратил его в изображение зебры.
Обучающие данные для CycleGAN — это просто два набора изображений (в данном случае набор изображений лошадей и набор изображений зебры). Система не требует меток или попарных соответствий между изображениями.
Для получения дополнительной информации см. Zhu et al, 2017 , где показано использование CycleGAN для выполнения преобразования изображения в изображение без парных данных.
Синтез текста в изображение
GAN преобразования текста в изображение принимают текст в качестве входных данных и создают изображения, которые являются правдоподобными и описываются текстом. Например, изображение цветка ниже было создано путем подачи текстового описания в GAN.
«У этого цветка лепестки желтого цвета с оттенками оранжевого». | ![]() |
Обратите внимание, что в этой системе GAN может создавать изображения только из небольшого набора классов.
Для получения дополнительной информации см. Чжан и др., 2016 .
Супер-разрешение
GAN сверхвысокого разрешения увеличивают разрешение изображений, добавляя детализацию там, где это необходимо, для заполнения размытых областей. Например, размытое среднее изображение ниже представляет собой уменьшенную версию исходного изображения слева. Учитывая размытое изображение, GAN создал более четкое изображение справа:
Оригинал | размытый | Восстановлен с помощью GAN |
![]() | ![]() | ![]() |
Изображение, созданное с помощью GAN, очень похоже на исходное изображение, но если вы внимательно посмотрите на повязку, вы увидите, что GAN не воспроизвел узор звездообразования из оригинала. Вместо этого он создал свой собственный правдоподобный шаблон взамен шаблона, стертого при понижающей дискретизации.
Для получения дополнительной информации см. Ledig et al, 2017 .
Раскрашивание Лица
GAN использовались для задачи семантического рисования изображений . В задаче рисования фрагменты изображения затемняются, и система пытается заполнить недостающие фрагменты.
Йе и др. в 2017 году использовали GAN, чтобы превзойти другие методы рисования изображений лиц:
Вход | Выход ГАН |
![]() | ![]() |
Преобразование текста в речь
Не все GAN создают изображения. Например, исследователи также использовали GAN для создания синтезированной речи из текстового ввода. Для получения дополнительной информации см. Yang et al, 2017 .