연구원들은 계속해서 개선된 GAN 기법과 GAN의 새로운 용도를 찾고 있습니다. 다음은 GAN의 다양한 변형을 보여주는 샘플입니다.
프로그레시브 GAN
프로그레시브 GAN에서 생성기의 첫 번째 레이어는 매우 낮은 해상도의 이미지를 생성하고 후속 레이어는 세부정보를 추가합니다. 이 기법을 사용하면 GAN이 비진보적인 GAN보다 더 빠르게 학습하고 더 높은 해상도의 이미지를 생성할 수 있습니다.
자세한 내용은 Karras et al, 2017을 참고하세요.
조건부 GAN
조건부 GAN은 라벨이 지정된 데이터 세트에서 학습하며 생성된 각 인스턴스의 라벨을 지정할 수 있습니다. 예를 들어 비조건부 MNIST GAN은 무작위 숫자를 생성하지만 조건부 MNIST GAN은 GAN이 생성해야 하는 숫자를 지정할 수 있습니다.
조건부 GAN은 공통 확률 P(X, Y)를 모델링하는 대신 조건부 확률 P(X | Y)를 모델링합니다.
조건부 GAN에 관한 자세한 내용은 Mirza et al, 2014를 참고하세요.이미지 대 이미지 번역
이미지 대 이미지 변환 GAN은 이미지를 입력으로 받아 다른 속성을 가진 생성된 출력 이미지에 매핑합니다. 예를 들어 자동차 모양의 색상 불루브가 있는 마스크 이미지를 가져올 수 있으며 GAN은 이 모양을 사실적인 자동차 세부정보로 채울 수 있습니다.
마찬가지로 이미지 대 이미지 GAN을 학습하여 핸드백 스케치를 가져와 실사 핸드백 이미지로 변환할 수 있습니다.
이 경우 손실은 일반적인 판별자 기반 손실과 소스 이미지에서 벗어난 생성자에 대해 불이익을 주는 픽셀 단위 손실의 가중치 합산입니다.
자세한 내용은 Isola et al, 2016을 참고하세요.
CycleGAN
CycleGAN은 한 세트의 이미지를 다른 세트에 속할 수 있는 이미지로 변환하는 방법을 학습합니다. 예를 들어 CycleGAN은 왼쪽 이미지를 입력으로 받았을 때 아래의 오른쪽 이미지를 생성했습니다. 말 이미지를 zebra 이미지로 바꿨습니다.
CycleGAN의 학습 데이터는 단순히 두 세트의 이미지 (이 경우 말 이미지 세트와 얼룩말 이미지 세트)입니다. 이 시스템은 이미지 간에 라벨이나 쌍 대응이 필요하지 않습니다.
자세한 내용은 Zhu et al, 2017을 참고하세요. 여기서는 CycleGAN을 사용하여 쌍을 이루지 않은 데이터 없이 이미지 간 변환을 실행하는 방법을 보여줍니다.
텍스트 이미지 합성
텍스트 대 이미지 GAN은 텍스트를 입력으로 받아 텍스트로 설명할 수 있고 타당한 이미지를 생성합니다. 예를 들어 아래 꽃 이미지는 텍스트 설명을 GAN에 제공하여 생성되었습니다.
"이 꽃의 꽃잎은 노란색에 오렌지색 음영이 있습니다." | ![]() |
이 시스템에서 GAN은 소수의 클래스에서만 이미지를 생성할 수 있습니다.
자세한 내용은 Zhang et al, 2016을 참고하세요.
초해상도
초고해상도 GAN은 이미지의 해상도를 높여 흐릿한 영역을 채우는 데 필요한 세부정보를 추가합니다. 예를 들어 아래의 흐릿한 가운데 이미지는 왼쪽의 원본 이미지를 다운샘플링한 버전입니다. 흐릿한 이미지를 입력하면 GAN은 오른쪽의 더 선명한 이미지를 생성합니다.
원본 | 흐리게 | GAN으로 복원됨 |
![]() |
![]() |
![]() |
GAN에서 생성한 이미지는 원본 이미지와 매우 유사하지만 헤드밴드를 자세히 보면 GAN이 원본의 별 모양 패턴을 재현하지 않았음을 알 수 있습니다. 대신 다운샘플링으로 삭제된 패턴을 대체할 수 있는 자체 패턴을 만들었습니다.
자세한 내용은 Ledig et al, 2017을 참고하세요.
얼굴 인페인팅
GAN은 시맨틱 이미지 인페인팅 작업에 사용되었습니다. 인화 작업에서 이미지의 청크가 검은색으로 처리되고 시스템은 누락된 청크를 채우려고 시도합니다.
Yeh et al, 2017에서는 GAN을 사용하여 얼굴 이미지를 인화하는 다른 기법보다 우수한 성능을 보였습니다.
입력 | GAN 출력 |
![]() |
![]() |
Text-to-Speech
일부 GAN은 이미지를 생성하지 않습니다. 예를 들어 연구원들은 GAN을 사용하여 텍스트 입력에서 합성 음성을 생성하기도 했습니다. 자세한 내용은 Yang et al, 2017을 참고하세요.