GAN 변이

연구원들은 계속해서 개선된 GAN 기법과 GAN의 새로운 용도를 찾고 있습니다. 다음은 GAN의 다양한 변형을 보여주는 샘플입니다.

프로그레시브 GAN

프로그레시브 GAN에서 생성기의 첫 번째 레이어는 매우 낮은 해상도의 이미지를 생성하고 후속 레이어는 세부정보를 추가합니다. 이 기법을 사용하면 GAN이 비진보적인 GAN보다 더 빠르게 학습하고 더 높은 해상도의 이미지를 생성할 수 있습니다.

자세한 내용은 Karras et al, 2017을 참고하세요.

조건부 GAN

조건부 GAN은 라벨이 지정된 데이터 세트에서 학습하며 생성된 각 인스턴스의 라벨을 지정할 수 있습니다. 예를 들어 비조건부 MNIST GAN은 무작위 숫자를 생성하지만 조건부 MNIST GAN은 GAN이 생성해야 하는 숫자를 지정할 수 있습니다.

조건부 GAN은 공통 확률 P(X, Y)를 모델링하는 대신 조건부 확률 P(X | Y)를 모델링합니다.

조건부 GAN에 관한 자세한 내용은 Mirza et al, 2014를 참고하세요.

이미지 대 이미지 번역

이미지 대 이미지 변환 GAN은 이미지를 입력으로 받아 다른 속성을 가진 생성된 출력 이미지에 매핑합니다. 예를 들어 자동차 모양의 색상 불루브가 있는 마스크 이미지를 가져올 수 있으며 GAN은 이 모양을 사실적인 자동차 세부정보로 채울 수 있습니다.

마찬가지로 이미지 대 이미지 GAN을 학습하여 핸드백 스케치를 가져와 실사 핸드백 이미지로 변환할 수 있습니다.

핸드백 사진의 3x3 표 각 행에는 서로 다른 핸드백 스타일이 표시됩니다. 각 행에서 맨 왼쪽 이미지는 핸드백의 간단한 선화, 가운데 이미지는 실제 핸드백 사진, 맨 오른쪽 이미지는 GAN으로 생성된 사실적인 사진입니다. 세 열에는 '입력', '정답', '출력'이라는 라벨이 지정되어 있습니다.

이 경우 손실은 일반적인 판별자 기반 손실과 소스 이미지에서 벗어난 생성자에 대해 불이익을 주는 픽셀 단위 손실의 가중치 합산입니다.

자세한 내용은 Isola et al, 2016을 참고하세요.

CycleGAN

CycleGAN은 한 세트의 이미지를 다른 세트에 속할 수 있는 이미지로 변환하는 방법을 학습합니다. 예를 들어 CycleGAN은 왼쪽 이미지를 입력으로 받았을 때 아래의 오른쪽 이미지를 생성했습니다. 말 이미지를 zebra 이미지로 바꿨습니다.

달리는 말의 이미지와 말 대신 얼룩말이 등장한다는 점을 제외하고 모든 면에서 동일한 두 번째 이미지

CycleGAN의 학습 데이터는 단순히 두 세트의 이미지 (이 경우 말 이미지 세트와 얼룩말 이미지 세트)입니다. 이 시스템은 이미지 간에 라벨이나 쌍 대응이 필요하지 않습니다.

자세한 내용은 Zhu et al, 2017을 참고하세요. 여기서는 CycleGAN을 사용하여 쌍을 이루지 않은 데이터 없이 이미지 간 변환을 실행하는 방법을 보여줍니다.

텍스트 이미지 합성

텍스트 대 이미지 GAN은 텍스트를 입력으로 받아 텍스트로 설명할 수 있고 타당한 이미지를 생성합니다. 예를 들어 아래 꽃 이미지는 텍스트 설명을 GAN에 제공하여 생성되었습니다.

"이 꽃의 꽃잎은 노란색에 오렌지색 음영이 있습니다." 주황색을 띤 노란색 꽃잎이 있는 꽃

이 시스템에서 GAN은 소수의 클래스에서만 이미지를 생성할 수 있습니다.

자세한 내용은 Zhang et al, 2016을 참고하세요.

초해상도

초고해상도 GAN은 이미지의 해상도를 높여 흐릿한 영역을 채우는 데 필요한 세부정보를 추가합니다. 예를 들어 아래의 흐릿한 가운데 이미지는 왼쪽의 원본 이미지를 다운샘플링한 버전입니다. 흐릿한 이미지를 입력하면 GAN은 오른쪽의 더 선명한 이미지를 생성합니다.

원본흐리게GAN으로 복원됨
정교한 머리장식을 한 소녀의 그림 머리 장식의 머리띠는 복잡한 패턴으로 짜여 있습니다. 정교한 머리장식을 한 소녀의 그림이 흐리게 보입니다. 정교한 머리장식을 한 소녀를 선명하게 그린 그림 이 그림은 이 표의 첫 번째 이미지와 거의 동일하지만, 머리장식과 의상의 패턴 세부정보가 약간 다릅니다.

GAN에서 생성한 이미지는 원본 이미지와 매우 유사하지만 헤드밴드를 자세히 보면 GAN이 원본의 별 모양 패턴을 재현하지 않았음을 알 수 있습니다. 대신 다운샘플링으로 삭제된 패턴을 대체할 수 있는 자체 패턴을 만들었습니다.

자세한 내용은 Ledig et al, 2017을 참고하세요.

얼굴 인페인팅

GAN은 시맨틱 이미지 인페인팅 작업에 사용되었습니다. 인화 작업에서 이미지의 청크가 검은색으로 처리되고 시스템은 누락된 청크를 채우려고 시도합니다.

Yeh et al, 2017에서는 GAN을 사용하여 얼굴 이미지를 인화하는 다른 기법보다 우수한 성능을 보였습니다.

입력GAN 출력
이미지 4개 각 이미지는 일부 영역이 검은색으로 대체된 얼굴 사진입니다. 이미지 4개 각 이미지는 검은색 영역이 없다는 점을 제외하고 '입력' 열의 이미지 중 하나와 동일한 얼굴 사진입니다.

Text-to-Speech

일부 GAN은 이미지를 생성하지 않습니다. 예를 들어 연구원들은 GAN을 사용하여 텍스트 입력에서 합성 음성을 생성하기도 했습니다. 자세한 내용은 Yang et al, 2017을 참고하세요.