GAN 변이

연구자들은 계속해서 향상된 GAN 기술과 GAN의 새로운 용도를 찾고 있습니다. 다음은 GAN의 변형 샘플로 가능성을 파악하는 단계입니다.

프로그레시브 GAN

프로그레시브 GAN에서는 발전기의 첫 번째 레이어가 매우 낮은 해상도의 이미지를 생성하며, 후속 레이어는 세부정보를 추가합니다. 이 기법을 사용하면 GAN은 비슷한 비 프로그레시브 GAN보다 더 빠르게 학습하고 더 높은 해상도의 이미지를 생성할 수 있습니다.

자세한 내용은 Karaas 외(2017)를 참조하세요.

조건부 GAN

조건부 GAN은 라벨이 지정된 데이터 세트를 학습하고 생성된 인스턴스마다 라벨을 지정할 수 있습니다. 예를 들어 무조건 MNIST GAN은 임의의 숫자를 생성하는 반면 조건부 MNIST GAN을 사용하면 GAN이 생성해야 하는 숫자를 지정할 수 있습니다.

조인 확률 P(X, Y)를 모델링하는 대신 조건부 GAN은 조건부 확률 P(X | Y)를 모델링합니다.

조건부 GAN에 관한 자세한 내용은 Mirza 외, 2014를 참고하세요.

이미지 간 번역

이미지-이미지 변환 GAN은 이미지를 입력으로 받아서 속성이 다른 생성된 출력 이미지에 매핑됩니다. 예를 들어 자동차 모양과 동일한 색상의 blob이 있는 마스크 이미지를 가져와 GAN이 실감 나는 자동차 세부정보로 모양을 채울 수 있습니다.

마찬가지로 이미지 간 GAN을 학습시켜 스케치의 핸드백을 찍고 실물적인 핸드백 이미지로 변환할 수 있습니다.

핸드백 사진 3x3 표 각 행에는 서로 다른 핸드백 스타일이 표시됩니다. 각 행에서 가장 왼쪽 이미지는 핸드백의 간단한 선 그림이고 가운데 이미지는 실제 핸드백의 사진이며 가장 오른쪽 이미지는 GAN에 의해 생성된 실사적인 사진입니다. 세 개의 열은 'Input', 'Ground Truth' 및

이러한 경우 손실은 일반적인 구분자 기반 손실과 생성기에서 소스 이미지를 분리하는 데 페널티를 적용하는 픽셀별 손실의 가중치 조합입니다.

자세한 내용은 Isola et al, 2016을 참조하세요.

CycleGAN

CycleGAN은 이미지를 한 세트에서 다른 세트에 속할 수 있는 이미지로 변환하는 방법을 학습합니다. 예를 들어, CycleGAN은 왼쪽 이미지를 입력으로 주어진 경우 오른쪽 이미지를 생성했습니다. 말 이미지를 사용하여 얼룩말 이미지로 변환했습니다.

달리는 말 이미지 및 말이 얼룩말이라는 점을 제외하고는 모든 측면에서 동일한 두 번째 이미지입니다.

CycleGAN의 학습 데이터는 단순히 두 개의 이미지 집합 (이 경우 말 이미지와 얼룩말 이미지 집합)입니다. 시스템에서는 이미지 간에 라벨 또는 쌍으로 대응하지 않아도 됩니다.

자세한 내용은 Zhu 외(2017) 참조. CycleGAN을 사용하여 페어링된 데이터 없이 이미지 간 변환을 수행하는 방법을 보여줍니다.

텍스트-이미지 합성

TTS(텍스트 음성 변환) GAN은 텍스트를 입력으로 받아들여 가능하고 텍스트로 설명되는 이미지를 생성합니다. 예를 들어 아래 꽃 이미지는 GAN에 텍스트 설명을 제공하여 생성되었습니다.

"이 꽃은 노란색 꽃잎과 주황색 색조가 있습니다." 노란색 꽃잎과 주황색 색조가 있는 꽃입니다.

이 시스템에서 GAN은 소수의 클래스 집합에서만 이미지를 생성할 수 있습니다.

자세한 내용은 Zhang et al, 2016을 참조하세요.

초해상도

초해상도 GAN은 이미지 해상도를 높여 흐릿한 영역을 채우는 데 필요한 세부정보를 추가합니다. 예를 들어 아래 흐릿한 중간 이미지는 왼쪽에 있는 원본 이미지의 다운샘플링된 버전입니다. 흐린 이미지를 보면 GAN은 오른쪽에 더 선명한 이미지를 생성했습니다.

원본블러GAN을 통해 복원됨
정교하게 장식된 머리 장식을 한 소녀의 그림입니다. 헤드헤드의 머리띠는 복잡한 패턴으로 짜여집니다. 정교하게 장식된 머리 장식을 한 소녀의 흐릿한 버전 정교하게 장식된 머리 장식을 한 소녀의 선명한 명화 이 그림은 이 표의 첫 번째 이미지와 거의 동일하지만 그림에 사용된 머리 장식과 옷의 세세한 부분 중 일부가 약간 다릅니다.

GAN에서 생성된 이미지는 원본 이미지와 매우 비슷해 보이지만, 헤드밴드를 자세히 보면 GAN이 원본에서 스타버스트 패턴을 재현하지 않았음을 확인할 수 있습니다. 대신{/0}

자세한 내용은 Ledig 외, 2017을 참고하세요.

페이스 페인팅

GAN은 시맨틱 이미지 인페인팅 작업에 사용됩니다. 인페인팅 작업에서는 이미지의 청크가 블랙아웃되고 시스템이 누락된 청크를 채우려고 시도합니다.

Yeh et 2017: GAN을 사용하여 다른 사람의 얼굴 이미지를 그리는 다른 기술을 능가했습니다.

입력GAN 출력
이미지 4개 각 이미지는 검은색으로 대체된 일부 영역이 있는 얼굴 사진입니다. 이미지 4개 각 이미지는 검은색 영역이 없다는 점을 제외하고 '입력' 열의 이미지 중 하나와 동일한 얼굴 사진입니다.

Text-to-Speech

모든 GAN이 이미지를 생성하는 것은 아닙니다. 예를 들어 연구자들은 GAN을 사용하여 텍스트 입력에서 합성된 음성을 생성했습니다. 자세한 내용은 Yang et al, 2017을 참조하세요.