GAN के वैरिएशन

रिसर्चर, जीएएन की बेहतर तकनीकें और जीएएन के नए इस्तेमाल ढूंढते रहते हैं. यहां जीएएन के अलग-अलग वैरिएशन के सैंपल दिए गए हैं, ताकि आपको इसकी संभावनाओं के बारे में पता चल सके.

प्रोग्रेसिव जीएएन

प्रोग्रेसिव जीएएन में, जनरेटर की पहली लेयर बहुत कम रिज़ॉल्यूशन वाली इमेज बनाती हैं. इसके बाद की लेयर, ज़्यादा जानकारी जोड़ती हैं. इस तकनीक की मदद से, जीएएन, तुलना किए जा सकने वाले ऐसे जीएएन के मुकाबले ज़्यादा तेज़ी से ट्रेन होता है जिनमें प्रगतिशील एल्गोरिदम का इस्तेमाल नहीं किया जाता. साथ ही, इससे ज़्यादा रिज़ॉल्यूशन वाली इमेज जनरेट होती हैं.

ज़्यादा जानकारी के लिए, Karras et al, 2017 देखें.

कंडीशनल जीएएन

कंडीशनल जीएएन, लेबल किए गए डेटा सेट पर ट्रेन होते हैं. साथ ही, इनकी मदद से जनरेट किए गए हर इंस्टेंस के लिए लेबल तय किया जा सकता है. उदाहरण के लिए, बिना शर्त वाला MNIST GAN, यादृच्छिक अंक जनरेट करेगा. वहीं, शर्त वाला MNIST GAN, आपको यह तय करने की सुविधा देगा कि GAN को कौनसा अंक जनरेट करना चाहिए.

कंडीशनल जीएएन, जॉइंट प्रॉबबिलिटी P(X, Y) के बजाय, कंडीशनल प्रॉबबिलिटी P(X | Y) का मॉडल बनाते हैं.

शर्तों के साथ काम करने वाले जीएएन के बारे में ज़्यादा जानने के लिए, Mirza et al, 2014 देखें.

इमेज से इमेज में अनुवाद

इमेज से इमेज में अनुवाद करने वाले जीएएन, किसी इमेज को इनपुट के तौर पर लेते हैं और उसे अलग-अलग प्रॉपर्टी वाली जनरेट की गई आउटपुट इमेज से मैप करते हैं. उदाहरण के लिए, हम कार के आकार में रंग के ब्लॉब वाली मास्क इमेज ले सकते हैं. इसके बाद, जीएएन उस आकार में कार की ज़्यादा से ज़्यादा असल जानकारी भर सकता है.

इसी तरह, हैंडबैग के स्केच लेकर उन्हें असल हैंडबैग जैसी इमेज में बदलने के लिए, इमेज-टू-इमेज जीएएन को ट्रेन किया जा सकता है.

हैंडबैग की तस्वीरों वाली 3x3 टेबल. हर पंक्ति में, हैंडबैग का एक अलग स्टाइल दिखता है. हर पंक्ति में, सबसे बाईं ओर हैंडबैग की एक सामान्य लाइन ड्रॉइंग है. बीच में हैंडबैग की एक असली फ़ोटो है और सबसे दाईं ओर, जीएएन (जनरेटिव ऐन्टीग्रेटिव नेटवर्क) से जनरेट की गई, असल जैसी दिखने वाली इमेज है. तीन कॉलम को 'इनपुट', 'ग्राउंड ट्रूथ', और 'आउटपुट' के तौर पर लेबल किया गया है.

ऐसे मामलों में, लॉस, डिस्करिमिनेटर पर आधारित सामान्य लॉस और पिक्सल के हिसाब से लॉस का एक वज़ीदा कॉम्बिनेशन होता है. यह सोर्स इमेज से अलग होने पर जनरेटर को दंडित करता है.

ज़्यादा जानकारी के लिए, Isola et al, 2016 देखें.

CycleGAN

CycleGAN, एक सेट की इमेज को ऐसी इमेज में बदलने का तरीका सीखते हैं जो किसी दूसरे सेट की हो सकती हैं. उदाहरण के लिए, CycleGAN ने बाईं ओर दी गई इमेज को इनपुट के तौर पर इस्तेमाल करके, दाईं ओर दी गई इमेज जनरेट की. इसने घोड़े की इमेज को ज़ेब्रा की इमेज में बदल दिया.

दौड़ते हुए घोड़े की इमेज और दूसरी इमेज, जो हर मामले में एक जैसी है, सिवाय इसके कि घोड़े की जगह जेब्रा है.

CycleGAN के लिए, ट्रेनिंग डेटा सिर्फ़ इमेज के दो सेट होते हैं. इस मामले में, घोड़े की इमेज का एक सेट और जेब्रा की इमेज का एक सेट. इस सिस्टम को इमेज के बीच लेबल या एक-दूसरे से मिलते-जुलते हिस्सों की ज़रूरत नहीं होती.

ज़्यादा जानकारी के लिए, Zhu et al, 2017 देखें. इसमें, एक जैसे डेटा के बिना इमेज से इमेज में बदलाव करने के लिए, CycleGAN का इस्तेमाल करने के बारे में बताया गया है.

टेक्स्ट से इमेज जनरेट करने की प्रोसेस

टेक्स्ट-टू-इमेज जीएएन, टेक्स्ट को इनपुट के तौर पर लेते हैं और ऐसी इमेज जनरेट करते हैं जो टेक्स्ट के हिसाब से सही और काम की हों. उदाहरण के लिए, नीचे दी गई फूल की इमेज, जीएएन को टेक्स्ट के ब्यौरे के तौर पर फ़ीड करके बनाई गई है.

"इस फूल की पंखुड़ियां पीली हैं और उनमें नारंगी रंग के शेड हैं." ऐसा फूल जिसकी पंखुड़ियां
    पीले रंग के साथ नारंगी रंग की हैं.

ध्यान दें कि इस सिस्टम में, जीएएन सिर्फ़ कुछ क्लास के सेट से इमेज जनरेट कर सकता है.

ज़्यादा जानकारी के लिए, Zhang et al, 2016 देखें.

सुपर-रिज़ॉल्यूशन

सुपर-रिज़ॉल्यूशन जीएएन, इमेज का रिज़ॉल्यूशन बढ़ाते हैं. साथ ही, धुंधले हिस्सों को भरने के लिए ज़रूरी जानकारी जोड़ते हैं. उदाहरण के लिए, नीचे दी गई धुंधली इमेज, बाईं ओर मौजूद ओरिजनल इमेज का डाउनसैंपल किया गया वर्शन है. धुंधली इमेज को ध्यान में रखते हुए, जीएएन ने दाईं ओर मौजूद बेहतर इमेज जनरेट की:

ओरिजनलब्लर्डजीएएन की मदद से वापस लाया गया
ऐसी लड़की की पेंटिंग जिसने सिर पर ज़्यादा सजावट वाला मुकुट पहना हो. हेडबैंड को जटिल पैटर्न में बुना गया है. एक लड़की की पेंटिंग का धुंधला वर्शन, जिसमें वह हेडड्रेस पहने हुए है. एक लड़की की साफ़ और बेहतरीन पेंटिंग, जिसमें वह सिर पर गहरे रंग का हेडड्रेस पहने हुए है. यह पेंटिंग, इस टेबल में मौजूद पहली इमेज से काफ़ी मिलती-जुलती है. हालांकि, महिला के हेडड्रेस और कपड़ों पर मौजूद पैटर्न की कुछ जानकारी थोड़ी अलग है.

जीएएन से जनरेट की गई इमेज, ओरिजनल इमेज से काफ़ी मिलती-जुलती है. हालांकि, हेडबैंड को ध्यान से देखने पर पता चलता है कि जीएएन ने ओरिजनल इमेज के स्टारबर्स्ट पैटर्न को दोबारा नहीं बनाया है. इसके बजाय, यह अपने हिसाब से एक ऐसा पैटर्न बनाता है जो डाउन-सैंपलिंग की वजह से मिटाए गए पैटर्न की जगह ले ले.

ज़्यादा जानकारी के लिए, Ledig et al, 2017 देखें.

चेहरे को छिपाने की सुविधा

सिमेंटिक इमेज इनपेंटिंग टास्क के लिए, जीएएन का इस्तेमाल किया गया है. इनपेंटिंग के टास्क में, इमेज के कुछ हिस्सों को काला कर दिया जाता है. इसके बाद, सिस्टम उन हिस्सों को भरने की कोशिश करता है.

Yeh et al, 2017 ने चेहरों की इमेज में रंग भरने के लिए, अन्य तकनीकों से बेहतर परफ़ॉर्म करने के लिए जीएएन का इस्तेमाल किया:

इनपुटजीएएन आउटपुट
चार इमेज. हर इमेज में, किसी व्यक्ति के चेहरे की फ़ोटो होती है. इसमें कुछ हिस्सों को काले रंग से बदल दिया जाता है. चार इमेज. हर इमेज, 'इनपुट' कॉलम में मौजूद किसी एक इमेज से मिलती-जुलती किसी व्यक्ति की फ़ोटो होती है. हालांकि, इसमें कोई ब्लैक एरिया नहीं होता.

लिखाई को बोली में बदलने की सुविधा

सभी जीएएन, इमेज जनरेट नहीं करते. उदाहरण के लिए, रिसर्चर ने टेक्स्ट इनपुट से सिंथेटिक स्पीच बनाने के लिए भी जीएएन का इस्तेमाल किया है. ज़्यादा जानकारी के लिए, Yang et al, 2017 देखें.