গবেষকরা GAN-এর জন্য উন্নত GAN কৌশল এবং নতুন ব্যবহার খুঁজে বের করতে থাকেন। আপনাকে সম্ভাবনার ধারনা দিতে এখানে GAN বৈচিত্রের একটি নমুনা দেওয়া হল।
প্রগতিশীল GANs
একটি প্রগতিশীল GAN-এ, জেনারেটরের প্রথম স্তরগুলি খুব কম রেজোলিউশনের ছবি তৈরি করে এবং পরবর্তী স্তরগুলি বিশদ যুক্ত করে। এই কৌশলটি GAN-কে তুলনামূলক অ-প্রগতিশীল GAN-এর তুলনায় আরও দ্রুত প্রশিক্ষণের অনুমতি দেয় এবং উচ্চ রেজোলিউশনের ছবি তৈরি করে।
আরও তথ্যের জন্য Karras et al, 2017 দেখুন।
শর্তাধীন GANs
শর্তাধীন GAN একটি লেবেলযুক্ত ডেটা সেটে প্রশিক্ষণ দেয় এবং আপনাকে প্রতিটি জেনারেট হওয়া উদাহরণের জন্য লেবেল নির্দিষ্ট করতে দেয়। উদাহরণস্বরূপ, একটি শর্তহীন MNIST GAN এলোমেলো সংখ্যা তৈরি করবে, যখন একটি শর্তসাপেক্ষ MNIST GAN আপনাকে নির্দিষ্ট করতে দেবে যে GAN কোন সংখ্যা তৈরি করবে।
যৌথ সম্ভাব্যতা P(X, Y) মডেল করার পরিবর্তে, শর্তসাপেক্ষ GANগুলি শর্তাধীন সম্ভাব্যতা P(X | Y) মডেল করে।
শর্তসাপেক্ষ GAN সম্পর্কে আরও তথ্যের জন্য, Mirza et al, 2014 দেখুন।ইমেজ থেকে ইমেজ অনুবাদ
ইমেজ-টু-ইমেজ ট্রান্সলেশন GAN একটি ইমেজকে ইনপুট হিসেবে নেয় এবং বিভিন্ন বৈশিষ্ট্য সহ একটি জেনারেটেড আউটপুট ইমেজে ম্যাপ করে। উদাহরণস্বরূপ, আমরা একটি গাড়ির আকারে রঙের ব্লব সহ একটি মুখোশের চিত্র নিতে পারি এবং GAN ফটোরিয়ালিস্টিক গাড়ির বিবরণ দিয়ে আকারটি পূরণ করতে পারে।
একইভাবে, আপনি একটি ইমেজ-টু-ইমেজ GAN-কে প্রশিক্ষণ দিতে পারেন হ্যান্ডব্যাগের স্কেচ নিতে এবং সেগুলোকে হ্যান্ডব্যাগের ফটোরিয়ালিস্টিক ছবিতে পরিণত করতে।
এই ক্ষেত্রে, ক্ষতি হল সাধারণ বৈষম্য-ভিত্তিক ক্ষতি এবং একটি পিক্সেল-ভিত্তিক ক্ষতির একটি ওজনযুক্ত সমন্বয় যা উৎস চিত্র থেকে প্রস্থান করার জন্য জেনারেটরকে শাস্তি দেয়।
আরও তথ্যের জন্য, Isola et al, 2016 দেখুন।
সাইকেলগান
সাইকেলগানগুলি একটি সেট থেকে চিত্রগুলিকে এমন চিত্রগুলিতে রূপান্তর করতে শেখে যা সম্ভবত অন্য সেটের অন্তর্গত হতে পারে। উদাহরণস্বরূপ, একটি সাইকেলগান নীচের ডানদিকের ছবি তৈরি করে যখন ইনপুট হিসাবে বাম হাতের ছবি দেওয়া হয়। এটি একটি ঘোড়ার একটি চিত্র নিয়েছিল এবং এটিকে একটি জেব্রার ছবিতে পরিণত করেছিল।
CycleGAN-এর জন্য প্রশিক্ষণের ডেটা হল দুটি সেট ইমেজ (এই ক্ষেত্রে, ঘোড়ার ছবির একটি সেট এবং জেব্রা ছবির একটি সেট)। সিস্টেমের জন্য ইমেজের মধ্যে কোন লেবেল বা পেয়ারওয়াইজ চিঠিপত্রের প্রয়োজন নেই।
আরও তথ্যের জন্য Zhu et al, 2017 দেখুন, যা পেয়ার করা ডেটা ছাড়া ইমেজ-টু-ইমেজ অনুবাদ সম্পাদন করতে CycleGAN-এর ব্যবহারকে চিত্রিত করে।
টেক্সট-টু-ইমেজ সংশ্লেষণ
টেক্সট-টু-ইমেজ GANগুলি পাঠ্যকে ইনপুট হিসাবে গ্রহণ করে এবং এমন চিত্র তৈরি করে যা পাঠ্য দ্বারা ব্যাখ্যাযোগ্য এবং বর্ণনা করা হয়। উদাহরণস্বরূপ, নীচের ফুলের চিত্রটি একটি GAN কে একটি পাঠ্য বিবরণ খাওয়ানোর মাধ্যমে তৈরি করা হয়েছিল৷
"এই ফুলের পাপড়ি রয়েছে যা কমলা রঙের সাথে হলুদ।" |
মনে রাখবেন যে এই সিস্টেমে GAN শুধুমাত্র ক্লাসের একটি ছোট সেট থেকে ছবি তৈরি করতে পারে।
আরও তথ্যের জন্য, Zhang et al, 2016 দেখুন।
সুপার-রেজোলিউশন
সুপার-রেজোলিউশন GAN ছবিগুলির রেজোলিউশন বাড়ায়, যেখানে অস্পষ্ট জায়গাগুলি পূরণ করার জন্য প্রয়োজন সেখানে বিশদ যোগ করে। উদাহরণস্বরূপ, নীচের অস্পষ্ট মধ্যম চিত্রটি বাম দিকের আসল চিত্রটির একটি নিম্ন নমুনা সংস্করণ। অস্পষ্ট চিত্র দেওয়া, একটি GAN ডানদিকে তীক্ষ্ণ চিত্র তৈরি করেছে:
আসল | ঝাপসা | GAN দিয়ে পুনরুদ্ধার করা হয়েছে |
GAN-উত্পন্ন চিত্রটি আসল চিত্রের সাথে খুব মিল দেখায়, তবে আপনি যদি হেডব্যান্ডটি ঘনিষ্ঠভাবে দেখেন তবে আপনি দেখতে পাবেন যে GAN মূল থেকে স্টারবার্স্ট প্যাটার্নটি পুনরুত্পাদন করেনি। পরিবর্তে, এটি ডাউন-স্যাম্পলিং দ্বারা মুছে ফেলা প্যাটার্নটি প্রতিস্থাপন করার জন্য তার নিজস্ব প্রশংসনীয় প্যাটার্ন তৈরি করেছে।
আরও তথ্যের জন্য, লেডিগ এট আল, 2017 দেখুন।
ফেস পেইন্টিং
GAN ব্যবহার করা হয়েছে শব্দার্থিক ইমেজ ইনপেইন্টিং টাস্কের জন্য। পেইন্টিং টাস্কে, একটি চিত্রের অংশগুলি কালো করা হয় এবং সিস্টেমটি অনুপস্থিত অংশগুলি পূরণ করার চেষ্টা করে।
Yeh et al, 2017 একটি GAN ব্যবহার করে মুখের ছবি আঁকার জন্য অন্যান্য কৌশলকে ছাড়িয়ে গেছে:
ইনপুট | GAN আউটপুট |
টেক্সট-টু-স্পিচ
সমস্ত GAN ইমেজ তৈরি করে না। উদাহরণস্বরূপ, গবেষকরা পাঠ্য ইনপুট থেকে সংশ্লেষিত বক্তৃতা তৈরি করতে GAN ব্যবহার করেছেন। আরও তথ্যের জন্য Yang et al, 2017 দেখুন।