GAN के वैरिएशन

रिसर्च करने वाले अब भी, GAN की बेहतर तकनीकों और GAN के नए इस्तेमाल के बारे में जानकारी इकट्ठा कर रहे हैं. यहां GAN के अलग-अलग सैंपल का इस्तेमाल किया गया है, ताकि आपको बेहतर संभावनाओं के बारे में पता चल सके.

प्रोग्रेसिव GAN

प्रोग्रेसिव GAN में, जनरेटर की पहली लेयर बहुत कम रिज़ॉल्यूशन वाली इमेज बनाती हैं और बाद में लेयर में जानकारी जोड़ी जाती है. यह तकनीक GAN की मदद से, बिना तुलना किए जा सकने वाली GAN की तुलना में ज़्यादा तेज़ी से ट्रेनिंग देती है. साथ ही, ज़्यादा रिज़ॉल्यूशन वाली इमेज बनाती है.

ज़्यादा जानकारी के लिए, करस एट अल, 2017 देखें.

कंडिशनल GAN

शर्तों के साथ GANs, लेबल किए गए डेटा सेट पर ट्रेनिंग देता है. यह आपको जनरेट किए गए हर इंस्टेंस का लेबल तय करने की सुविधा देता है. उदाहरण के लिए, बिना शर्त वाला MNIST GAN कोई भी रैंडम नंबर जनरेट करेगा, जबकि कंडीशनल MNIST GAN आपको यह बताने की अनुमति देगा कि GAN किन अंकों में जनरेट होना चाहिए.

जॉइंट प्रॉबबिलिटी P(X, Y) को मॉडल करने के बजाय, कंडीशनल प्रॉबबिलिटी P(X | Y) मॉडल करें.

शर्तों के साथ GAN के बारे में ज़्यादा जानने के लिए, Mirza et al, 2014 देखें.

इमेज-से-इमेज अनुवाद

इमेज-टू-इमेज अनुवाद GAN, किसी इमेज को इनपुट के तौर पर लेते हैं और जनरेट की गई आउटपुट इमेज को अलग-अलग प्रॉपर्टी के साथ मैप करते हैं. उदाहरण के लिए, हम कार के आकार में ब्लॉब वाले मास्क की इमेज ले सकते हैं और GAN, फ़ोटोकारियों की जानकारी वाली इमेज के आकार को भर सकता है.

इसी तरह, आप हैंडबैग की स्केच बनाने और उन्हें हैंडबैग की फ़ोटोरियल इमेज में बदलने के लिए, इमेज-टू-इमेज GAN को ट्रेनिंग दे सकते हैं.

हैंडबैग की तस्वीरों की 3x3 टेबल. हर लाइन में
एक अलग हैंडबैग की स्टाइल दिखती है. हर पंक्ति में, सबसे बाईं ओर दिखने वाली इमेज, हैंडबैग की आसान ड्रॉइंग है. बीच वाली इमेज में हैंडबैग की फ़ोटो है और सबसे दाईं ओर GAN से जनरेट की गई फ़ोटो है. तीनों कॉलम
'Input', 'Ground Trith', &'output' के साथ लेबल किए गए हैं.

इन मामलों में, नुकसान की सही जानकारी, नुकसान पहुंचाने वाले प्रॉडक्ट से होने वाली नुकसान के हिसाब से की जाती है. साथ ही, पिक्सल के हिसाब से होने वाली हानि से स्रोत की इमेज से हटने वाले जनरेटर पर जुर्माना लगाया जाता है.

ज़्यादा जानकारी के लिए, Isola et al, 2016 देखें.

साइकलगान

साइकल GAएन, इमेज को एक सेट से इमेज में बदलना सीखते हैं जो शायद किसी दूसरे सेट से जुड़ी हों. उदाहरण के लिए, अगर बाईं ओर दी गई इमेज को इनपुट के तौर पर दिया गया है, तो CyGAN ने नीचे दाईं ओर इमेज बनाई है. इसमें, एक घोड़े की इमेज ली गई और उसे ज़ेब्रा की इमेज में बदला गया.

इमेज में घोड़े की दौड़ की इमेज और दूसरी
ऐसी इमेज जो सभी सम्मानों में एक जैसी है. यह इमेज सिर्फ़ घोड़े की ज़ेब्रा की है.

साइकल गैलरी के ट्रेनिंग डेटा में सिर्फ़ दो तरह की इमेज (इस मामले में, घोड़े की इमेज का एक सेट और ज़ेब्रा इमेज का सेट) शामिल होता है. सिस्टम को इमेज के बीच कोई लेबल या जोड़े गए पत्राचार की ज़रूरत नहीं है.

ज़्यादा जानकारी के लिए, Zu et al, 2017 देखें. इसमें, जोड़े गए डेटा के बिना, इमेज-टू-इमेज अनुवाद करने के लिए GAGAN के इस्तेमाल को दिखाया गया है.

टेक्स्ट-टू-इमेज सिंथेसिस

टेक्स्ट से इमेज वाले GAN, टेक्स्ट को इनपुट के तौर पर लेते हैं. ये ऐसी इमेज बनाते हैं जो टेक्स्ट के रूप में दी जा सकती हैं और जिनके बारे में बताया जा सकता है. उदाहरण के लिए, नीचे दी गई फूलों की इमेज को GAN में टेक्स्ट का ब्यौरा डालकर बनाया गया है.

"इस फूल में पंखुड़ियां होती हैं, जो नारंगी रंग के शेड के साथ पीले रंग की होती हैं." नारंगी रंग के फूलों वाली पंखुड़ियों वाला फूल.

ध्यान दें कि इस सिस्टम में GAN सिर्फ़ कक्षाओं के छोटे से सेट से इमेज बना सकता है.

ज़्यादा जानकारी के लिए, ज़ांग एट अल, 2016 देखें.

सुपर रिज़ॉल्यूशन

सुपर रिज़ॉल्यूशन वाले GAN की मदद से, इमेज का रिज़ॉल्यूशन बढ़ाया जाता है. इस जानकारी के ज़रिए, धुंधली जगहों पर इमेज भरी जा सकती है. उदाहरण के लिए, नीचे बाईं ओर धुंधली इमेज, बाईं ओर ओरिजनल इमेज का डाउनसेंपल किया गया वर्शन है. धुंधली इमेज को देखते हुए, GAN से दाईं ओर ज़्यादा साफ़ इमेज बनाई गई:

ओरिजनलधुंधलाGAN से वापस लाया गया
एक लड़की की तस्वीर, जिसमें एक हैडवियर पहना हुआ है. हेडर के हैडबैंड को एक मुश्किल पैटर्न से बनाया जाता है. एक लड़की का,
      पेंटिंग का धुंधला वर्शन, जिसमें उसने हैड पहने हुए दिखाया है. एक ऐसी लड़की की, साफ़ और साफ़ तौर पर पेंट की गई तस्वीर जिसमें एक लड़की है. यह पेंटिंग इस टेबल की पहली इमेज के करीब-करीब एक जैसी है, लेकिन उनके हैडकेस और कपड़ों के पैटर्न की कुछ जानकारी बिल्कुल अलग-अलग है.

GAN से जनरेट की गई इमेज, ओरिजनल इमेज से काफ़ी मिलती-जुलती है, लेकिन अगर आप हेडबैंड की बारीकी से जांच करेंगे, तो पाएंगे कि GAN मूल इमेज से स्टारबर्स्ट पैटर्न पर काम नहीं करता है. इसके बजाय, उसने डाउन-सैंपलिंग से मिटाए गए पैटर्न को बदलने के लिए, खुद का आसान पैटर्न बनाया.

ज़्यादा जानकारी के लिए, Ledig et al, 2017 देखें.

फेस पेंटिंग

GAN का इस्तेमाल सिमेंटिक इमेज पेंटिंग टास्क के लिए किया गया है. पेंट करने के काम में, इमेज के कई हिस्से ब्लैक आउट हो जाते हैं और सिस्टम उन टुकड़ों को भरने की कोशिश करता है जो मौजूद नहीं हैं.

ये एट अल, 2017 ने चेहरे की इमेज ढूंढने के अन्य तरीकों से बेहतर परफ़ॉर्म करने के लिए GAN का इस्तेमाल किया:

इनपुटGAN आउटपुट
चार इमेज. हर इमेज, एक चेहरे की फ़ोटो होती है. कुछ जगहों पर यह इमेज काले रंग से बदल दी जाती है. चार इमेज. हर इमेज, एक चेहरे की फ़ोटो होती है. यह एक ऐसी इमेज होती है, जो &33;इनपुट' कॉलम में मौजूद किसी एक इमेज से मेल खाती है. हालांकि, इसमें कोई काले रंग की इमेज मौजूद नहीं होती.

लिखाई को बोली में बदलने की सुविधा

सभी GAN इमेज नहीं बनाते हैं. उदाहरण के लिए, रिसर्च करने वाले लोगों ने टेक्स्ट इनपुट से बोली को लेख में बदलने के लिए, GAN का इस्तेमाल किया है. ज़्यादा जानकारी के लिए, येंग और 2017 देखें.