रिसर्च करने वाले अब भी, GAN की बेहतर तकनीकों और GAN के नए इस्तेमाल के बारे में जानकारी इकट्ठा कर रहे हैं. यहां GAN के अलग-अलग सैंपल का इस्तेमाल किया गया है, ताकि आपको बेहतर संभावनाओं के बारे में पता चल सके.
प्रोग्रेसिव GAN
प्रोग्रेसिव GAN में, जनरेटर की पहली लेयर बहुत कम रिज़ॉल्यूशन वाली इमेज बनाती हैं और बाद में लेयर में जानकारी जोड़ी जाती है. यह तकनीक GAN की मदद से, बिना तुलना किए जा सकने वाली GAN की तुलना में ज़्यादा तेज़ी से ट्रेनिंग देती है. साथ ही, ज़्यादा रिज़ॉल्यूशन वाली इमेज बनाती है.
ज़्यादा जानकारी के लिए, करस एट अल, 2017 देखें.
कंडिशनल GAN
शर्तों के साथ GANs, लेबल किए गए डेटा सेट पर ट्रेनिंग देता है. यह आपको जनरेट किए गए हर इंस्टेंस का लेबल तय करने की सुविधा देता है. उदाहरण के लिए, बिना शर्त वाला MNIST GAN कोई भी रैंडम नंबर जनरेट करेगा, जबकि कंडीशनल MNIST GAN आपको यह बताने की अनुमति देगा कि GAN किन अंकों में जनरेट होना चाहिए.
जॉइंट प्रॉबबिलिटी P(X, Y) को मॉडल करने के बजाय, कंडीशनल प्रॉबबिलिटी P(X | Y) मॉडल करें.
शर्तों के साथ GAN के बारे में ज़्यादा जानने के लिए, Mirza et al, 2014 देखें.इमेज-से-इमेज अनुवाद
इमेज-टू-इमेज अनुवाद GAN, किसी इमेज को इनपुट के तौर पर लेते हैं और जनरेट की गई आउटपुट इमेज को अलग-अलग प्रॉपर्टी के साथ मैप करते हैं. उदाहरण के लिए, हम कार के आकार में ब्लॉब वाले मास्क की इमेज ले सकते हैं और GAN, फ़ोटोकारियों की जानकारी वाली इमेज के आकार को भर सकता है.
इसी तरह, आप हैंडबैग की स्केच बनाने और उन्हें हैंडबैग की फ़ोटोरियल इमेज में बदलने के लिए, इमेज-टू-इमेज GAN को ट्रेनिंग दे सकते हैं.
इन मामलों में, नुकसान की सही जानकारी, नुकसान पहुंचाने वाले प्रॉडक्ट से होने वाली नुकसान के हिसाब से की जाती है. साथ ही, पिक्सल के हिसाब से होने वाली हानि से स्रोत की इमेज से हटने वाले जनरेटर पर जुर्माना लगाया जाता है.
ज़्यादा जानकारी के लिए, Isola et al, 2016 देखें.
साइकलगान
साइकल GAएन, इमेज को एक सेट से इमेज में बदलना सीखते हैं जो शायद किसी दूसरे सेट से जुड़ी हों. उदाहरण के लिए, अगर बाईं ओर दी गई इमेज को इनपुट के तौर पर दिया गया है, तो CyGAN ने नीचे दाईं ओर इमेज बनाई है. इसमें, एक घोड़े की इमेज ली गई और उसे ज़ेब्रा की इमेज में बदला गया.
साइकल गैलरी के ट्रेनिंग डेटा में सिर्फ़ दो तरह की इमेज (इस मामले में, घोड़े की इमेज का एक सेट और ज़ेब्रा इमेज का सेट) शामिल होता है. सिस्टम को इमेज के बीच कोई लेबल या जोड़े गए पत्राचार की ज़रूरत नहीं है.
ज़्यादा जानकारी के लिए, Zu et al, 2017 देखें. इसमें, जोड़े गए डेटा के बिना, इमेज-टू-इमेज अनुवाद करने के लिए GAGAN के इस्तेमाल को दिखाया गया है.
टेक्स्ट-टू-इमेज सिंथेसिस
टेक्स्ट से इमेज वाले GAN, टेक्स्ट को इनपुट के तौर पर लेते हैं. ये ऐसी इमेज बनाते हैं जो टेक्स्ट के रूप में दी जा सकती हैं और जिनके बारे में बताया जा सकता है. उदाहरण के लिए, नीचे दी गई फूलों की इमेज को GAN में टेक्स्ट का ब्यौरा डालकर बनाया गया है.
"इस फूल में पंखुड़ियां होती हैं, जो नारंगी रंग के शेड के साथ पीले रंग की होती हैं." |
ध्यान दें कि इस सिस्टम में GAN सिर्फ़ कक्षाओं के छोटे से सेट से इमेज बना सकता है.
ज़्यादा जानकारी के लिए, ज़ांग एट अल, 2016 देखें.
सुपर रिज़ॉल्यूशन
सुपर रिज़ॉल्यूशन वाले GAN की मदद से, इमेज का रिज़ॉल्यूशन बढ़ाया जाता है. इस जानकारी के ज़रिए, धुंधली जगहों पर इमेज भरी जा सकती है. उदाहरण के लिए, नीचे बाईं ओर धुंधली इमेज, बाईं ओर ओरिजनल इमेज का डाउनसेंपल किया गया वर्शन है. धुंधली इमेज को देखते हुए, GAN से दाईं ओर ज़्यादा साफ़ इमेज बनाई गई:
ओरिजनल | धुंधला | GAN से वापस लाया गया |
GAN से जनरेट की गई इमेज, ओरिजनल इमेज से काफ़ी मिलती-जुलती है, लेकिन अगर आप हेडबैंड की बारीकी से जांच करेंगे, तो पाएंगे कि GAN मूल इमेज से स्टारबर्स्ट पैटर्न पर काम नहीं करता है. इसके बजाय, उसने डाउन-सैंपलिंग से मिटाए गए पैटर्न को बदलने के लिए, खुद का आसान पैटर्न बनाया.
ज़्यादा जानकारी के लिए, Ledig et al, 2017 देखें.
फेस पेंटिंग
GAN का इस्तेमाल सिमेंटिक इमेज पेंटिंग टास्क के लिए किया गया है. पेंट करने के काम में, इमेज के कई हिस्से ब्लैक आउट हो जाते हैं और सिस्टम उन टुकड़ों को भरने की कोशिश करता है जो मौजूद नहीं हैं.
ये एट अल, 2017 ने चेहरे की इमेज ढूंढने के अन्य तरीकों से बेहतर परफ़ॉर्म करने के लिए GAN का इस्तेमाल किया:
इनपुट | GAN आउटपुट |
लिखाई को बोली में बदलने की सुविधा
सभी GAN इमेज नहीं बनाते हैं. उदाहरण के लिए, रिसर्च करने वाले लोगों ने टेक्स्ट इनपुट से बोली को लेख में बदलने के लिए, GAN का इस्तेमाल किया है. ज़्यादा जानकारी के लिए, येंग और 2017 देखें.