GAN বৈচিত্র

গবেষকরা GAN-এর জন্য উন্নত GAN কৌশল এবং নতুন ব্যবহার খুঁজে বের করতে থাকেন। আপনাকে সম্ভাবনার ধারনা দিতে এখানে GAN বৈচিত্রের একটি নমুনা দেওয়া হল।

প্রগতিশীল GANs

একটি প্রগতিশীল GAN-এ, জেনারেটরের প্রথম স্তরগুলি খুব কম রেজোলিউশনের ছবি তৈরি করে এবং পরবর্তী স্তরগুলি বিশদ যুক্ত করে। এই কৌশলটি GAN-কে তুলনামূলক অ-প্রগতিশীল GAN-এর তুলনায় আরও দ্রুত প্রশিক্ষণের অনুমতি দেয় এবং উচ্চ রেজোলিউশনের ছবি তৈরি করে।

আরও তথ্যের জন্য Karras et al, 2017 দেখুন।

শর্তাধীন GANs

শর্তাধীন GAN একটি লেবেলযুক্ত ডেটা সেটে প্রশিক্ষণ দেয় এবং আপনাকে প্রতিটি জেনারেট হওয়া উদাহরণের জন্য লেবেল নির্দিষ্ট করতে দেয়। উদাহরণস্বরূপ, একটি শর্তহীন MNIST GAN এলোমেলো সংখ্যা তৈরি করবে, যখন একটি শর্তসাপেক্ষ MNIST GAN আপনাকে নির্দিষ্ট করতে দেবে যে GAN কোন সংখ্যা তৈরি করবে।

যৌথ সম্ভাব্যতা P(X, Y) মডেল করার পরিবর্তে, শর্তসাপেক্ষ GANগুলি শর্তাধীন সম্ভাব্যতা P(X | Y) মডেল করে।

শর্তসাপেক্ষ GAN সম্পর্কে আরও তথ্যের জন্য, Mirza et al, 2014 দেখুন।

ইমেজ থেকে ইমেজ অনুবাদ

ইমেজ-টু-ইমেজ ট্রান্সলেশন GAN একটি ইমেজকে ইনপুট হিসেবে নেয় এবং বিভিন্ন বৈশিষ্ট্য সহ একটি জেনারেটেড আউটপুট ইমেজে ম্যাপ করে। উদাহরণস্বরূপ, আমরা একটি গাড়ির আকারে রঙের ব্লব সহ একটি মুখোশের চিত্র নিতে পারি এবং GAN ফটোরিয়ালিস্টিক গাড়ির বিবরণ দিয়ে আকারটি পূরণ করতে পারে।

একইভাবে, আপনি একটি ইমেজ-টু-ইমেজ GAN-কে প্রশিক্ষণ দিতে পারেন হ্যান্ডব্যাগের স্কেচ নিতে এবং সেগুলোকে হ্যান্ডব্যাগের ফটোরিয়ালিস্টিক ছবিতে পরিণত করতে।

হ্যান্ডব্যাগের ছবির একটি 3x3 টেবিল। প্রতিটি সারি একটি ভিন্ন হ্যান্ডব্যাগ শৈলী দেখায়. প্রতিটি সারিতে, বামদিকের চিত্রটি একটি সাধারণ লাইন অঙ্কন, একটি হ্যান্ডব্যাগের, মাঝের চিত্রটি একটি বাস্তব হ্যান্ডব্যাগের একটি ছবি এবং ডানদিকের চিত্রটি একটি GAN দ্বারা উত্পন্ন একটি ফটোরিয়ালিস্টিক ছবি৷ তিনটি কলাম 'ইনপুট', 'গ্রাউন্ড ট্রুথ' এবং 'আউটপুট' লেবেলযুক্ত।

এই ক্ষেত্রে, ক্ষতি হল সাধারণ বৈষম্য-ভিত্তিক ক্ষতি এবং একটি পিক্সেল-ভিত্তিক ক্ষতির একটি ওজনযুক্ত সমন্বয় যা উৎস চিত্র থেকে প্রস্থান করার জন্য জেনারেটরকে শাস্তি দেয়।

আরও তথ্যের জন্য, Isola et al, 2016 দেখুন।

সাইকেলগান

সাইকেলগানগুলি একটি সেট থেকে চিত্রগুলিকে এমন চিত্রগুলিতে রূপান্তর করতে শেখে যা সম্ভবত অন্য সেটের অন্তর্গত হতে পারে। উদাহরণস্বরূপ, একটি সাইকেলগান নীচের ডানদিকের ছবি তৈরি করে যখন ইনপুট হিসাবে বাম হাতের ছবি দেওয়া হয়। এটি একটি ঘোড়ার একটি চিত্র নিয়েছিল এবং এটিকে একটি জেব্রার ছবিতে পরিণত করেছিল।

একটি ঘোড়া দৌড়ানোর একটি চিত্র, এবং একটি দ্বিতীয় চিত্র যা ঘোড়াটি একটি জেব্রা ছাড়া সব ক্ষেত্রেই অভিন্ন৷

CycleGAN-এর জন্য প্রশিক্ষণের ডেটা হল দুটি সেট ইমেজ (এই ক্ষেত্রে, ঘোড়ার ছবির একটি সেট এবং জেব্রা ছবির একটি সেট)। সিস্টেমের জন্য ইমেজের মধ্যে কোন লেবেল বা পেয়ারওয়াইজ চিঠিপত্রের প্রয়োজন নেই।

আরও তথ্যের জন্য Zhu et al, 2017 দেখুন, যা পেয়ার করা ডেটা ছাড়া ইমেজ-টু-ইমেজ অনুবাদ সম্পাদন করতে CycleGAN-এর ব্যবহারকে চিত্রিত করে।

টেক্সট-টু-ইমেজ সংশ্লেষণ

টেক্সট-টু-ইমেজ GANগুলি পাঠ্যকে ইনপুট হিসাবে গ্রহণ করে এবং এমন চিত্র তৈরি করে যা পাঠ্য দ্বারা ব্যাখ্যাযোগ্য এবং বর্ণনা করা হয়। উদাহরণস্বরূপ, নীচের ফুলের চিত্রটি একটি GAN কে একটি পাঠ্য বিবরণ খাওয়ানোর মাধ্যমে তৈরি করা হয়েছিল৷

"এই ফুলের পাপড়ি রয়েছে যা কমলা রঙের সাথে হলুদ।" কমলা রঙের সাথে হলুদ রঙের পাপড়ি সহ একটি ফুল।

মনে রাখবেন যে এই সিস্টেমে GAN শুধুমাত্র ক্লাসের একটি ছোট সেট থেকে ছবি তৈরি করতে পারে।

আরও তথ্যের জন্য, Zhang et al, 2016 দেখুন।

সুপার-রেজোলিউশন

সুপার-রেজোলিউশন GAN ছবিগুলির রেজোলিউশন বাড়ায়, যেখানে অস্পষ্ট জায়গাগুলি পূরণ করার জন্য প্রয়োজন সেখানে বিশদ যোগ করে। উদাহরণস্বরূপ, নীচের অস্পষ্ট মধ্যম চিত্রটি বাম দিকের আসল চিত্রটির একটি নিম্ন নমুনা সংস্করণ। অস্পষ্ট চিত্র দেওয়া, একটি GAN ডানদিকে তীক্ষ্ণ চিত্র তৈরি করেছে:

আসল ঝাপসা GAN দিয়ে পুনরুদ্ধার করা হয়েছে
একটি বিস্তৃত হেডড্রেস পরা একটি মেয়ের একটি পেইন্টিং। হেডড্রেসের হেডব্যান্ডটি একটি জটিল প্যাটার্নে বুনা হয়।একটি বিস্তৃত হেডড্রেস পরা একটি মেয়ের পেইন্টিংয়ের একটি অস্পষ্ট সংস্করণ।একটি বিস্তৃত হেডড্রেস পরা একটি মেয়ের একটি তীক্ষ্ণ, পরিষ্কার পেইন্টিং। এই পেইন্টিংটি এই টেবিলের প্রথম চিত্রের সাথে প্রায় অভিন্ন, তবে তার হেডড্রেস এবং পোশাকের প্যাটার্নের কিছু বিবরণ সূক্ষ্মভাবে আলাদা।

GAN-উত্পন্ন চিত্রটি আসল চিত্রের সাথে খুব মিল দেখায়, তবে আপনি যদি হেডব্যান্ডটি ঘনিষ্ঠভাবে দেখেন তবে আপনি দেখতে পাবেন যে GAN মূল থেকে স্টারবার্স্ট প্যাটার্নটি পুনরুত্পাদন করেনি। পরিবর্তে, এটি ডাউন-স্যাম্পলিং দ্বারা মুছে ফেলা প্যাটার্নটি প্রতিস্থাপন করার জন্য তার নিজস্ব প্রশংসনীয় প্যাটার্ন তৈরি করেছে।

আরও তথ্যের জন্য, লেডিগ এট আল, 2017 দেখুন।

ফেস পেইন্টিং

GAN ব্যবহার করা হয়েছে শব্দার্থিক ইমেজ ইনপেইন্টিং টাস্কের জন্য। পেইন্টিং টাস্কে, একটি চিত্রের অংশগুলি কালো করা হয় এবং সিস্টেমটি অনুপস্থিত অংশগুলি পূরণ করার চেষ্টা করে।

Yeh et al, 2017 একটি GAN ব্যবহার করে মুখের ছবি আঁকার জন্য অন্যান্য কৌশলকে ছাড়িয়ে গেছে:

ইনপুট GAN আউটপুট
চারটি ছবি। প্রতিটি ছবি হল একটি মুখের ছবি যার কিছু অংশ কালো দিয়ে প্রতিস্থাপিত হয়েছে।চারটি ছবি। প্রতিটি ছবি হল 'ইনপুট' কলামের ছবিগুলির একটির সাথে অভিন্ন একটি মুখের ছবি, কোনো কালো এলাকা ছাড়া।

টেক্সট-টু-স্পিচ

সমস্ত GAN ইমেজ তৈরি করে না। উদাহরণস্বরূপ, গবেষকরা পাঠ্য ইনপুট থেকে সংশ্লেষিত বক্তৃতা তৈরি করতে GAN ব্যবহার করেছেন। আরও তথ্যের জন্য Yang et al, 2017 দেখুন।