تغییرات GAN

محققان همچنان به یافتن تکنیک های بهبود یافته GAN و کاربردهای جدید برای GAN ها ادامه می دهند. در اینجا نمونه ای از تغییرات GAN آورده شده است تا به شما حسی از احتمالات بدهد.

GAN های پیشرو

در یک GAN مترقی، اولین لایه‌های ژنراتور تصاویری با وضوح بسیار پایین تولید می‌کنند و لایه‌های بعدی جزئیات را اضافه می‌کنند. این تکنیک به GAN اجازه می‌دهد تا سریع‌تر از GAN‌های غیر پیشرونده مشابه تمرین کند و تصاویری با وضوح بالاتر تولید می‌کند.

برای اطلاعات بیشتر کاراس و همکاران، 2017 را ببینید.

GAN های مشروط

GAN های شرطی روی یک مجموعه داده برچسب دار آموزش می بینند و به شما اجازه می دهند برچسب را برای هر نمونه تولید شده مشخص کنید. به عنوان مثال، یک MNIST GAN بدون قید و شرط ارقام تصادفی تولید می کند، در حالی که یک MNIST GAN شرطی به شما امکان می دهد مشخص کنید که GAN کدام رقم را تولید کند.

به جای مدل سازی احتمال مشترک P(X, Y)، GAN های شرطی احتمال شرطی P(X | Y) را مدل می کنند.

برای اطلاعات بیشتر در مورد GAN های شرطی، میرزا و همکاران، 2014 را ببینید.

ترجمه تصویر به تصویر

GAN های ترجمه تصویر به تصویر یک تصویر را به عنوان ورودی می گیرند و آن را به یک تصویر خروجی تولید شده با ویژگی های مختلف نگاشت می کنند. برای مثال، می‌توانیم یک تصویر ماسک با لکه‌های رنگی به شکل ماشین بگیریم، و GAN می‌تواند شکل را با جزئیات واقعی خودرو پر کند.

به طور مشابه، می توانید یک GAN تصویر به تصویر را آموزش دهید تا طرح هایی از کیف های دستی بگیرد و آنها را به تصاویر واقعی از کیف های دستی تبدیل کند.

یک میز 3*3 از تصاویر کیف های دستی. هر ردیف مدل کیف دستی متفاوتی را نشان می دهد. در هر ردیف، سمت چپ ترین تصویر یک نقاشی خط ساده، یک کیف دستی، تصویر وسط عکس یک کیف دستی واقعی، و سمت راست ترین تصویر یک تصویر واقعی واقعی است که توسط یک GAN ایجاد شده است. این سه ستون دارای برچسب «ورودی»، «حقیقت پایه» و «خروجی» هستند.

در این موارد، از دست دادن ترکیب وزنی از تلفات معمول مبتنی بر تشخیصگر و از دست دادن پیکسلی است که ژنراتور را برای خروج از تصویر منبع جریمه می کند.

برای اطلاعات بیشتر، ایزولا و همکاران، 2016 را ببینید.

CycleGAN

CycleGAN ها یاد می گیرند که تصاویر را از یک مجموعه به تصاویری تبدیل کنند که به طور قابل قبولی به مجموعه دیگری تعلق دارند. به عنوان مثال، یک CycleGAN تصویر سمت راست زیر را زمانی که تصویر سمت چپ به عنوان ورودی داده می شود، تولید می کند. تصویری از اسب گرفت و آن را به تصویر گورخر تبدیل کرد.

تصویری از اسبی که در حال دویدن است و تصویر دومی که از همه جهات یکسان است به جز اینکه اسب گورخر است.

داده های آموزشی برای CycleGAN به سادگی دو مجموعه تصویر است (در این مورد، مجموعه ای از تصاویر اسب و مجموعه ای از تصاویر گورخر). این سیستم نیازی به برچسب یا مطابقت زوجی بین تصاویر ندارد.

برای اطلاعات بیشتر به Zhu و همکاران، 2017 مراجعه کنید، که استفاده از CycleGAN را برای انجام ترجمه تصویر به تصویر بدون داده های جفت نشان می دهد.

سنتز متن به تصویر

GAN های متن به تصویر متن را به عنوان ورودی می گیرند و تصاویری را تولید می کنند که قابل قبول هستند و با متن توصیف می شوند. به عنوان مثال، تصویر گل زیر با ارائه توضیحات متنی به یک GAN تولید شده است.

"این گل دارای گلبرگ هایی است که زرد با سایه های نارنجی است." گلی با گلبرگ های زرد با سایه های نارنجی.

توجه داشته باشید که در این سیستم GAN فقط می تواند تصاویر را از مجموعه کوچکی از کلاس ها تولید کند.

برای اطلاعات بیشتر، ژانگ و همکاران، 2016 را ببینید.

وضوح فوق العاده

GAN های با وضوح فوق العاده وضوح تصاویر را افزایش می دهند و در صورت لزوم جزئیات را برای پر کردن مناطق تار اضافه می کنند. برای مثال، تصویر میانی تار زیر یک نسخه پایین‌نمونه‌شده از تصویر اصلی در سمت چپ است. با توجه به تصویر تار، یک GAN تصویر واضح تری را در سمت راست ایجاد کرد:

اصل تار شده است با GAN بازیابی شد
نقاشی دختری که روسری استادانه ای به تن دارد. سربند روسری به شکل پیچیده بافته می شود.نسخه ای مبهم از نقاشی دختری که روسری استادانه ای به تن دارد.نقاشی تیز و واضح از دختری که روسری استادانه ای به تن دارد. این نقاشی تقریباً مشابه تصویر اول این جدول است، اما برخی از جزئیات الگوهای روی سر و لباس او به طور ماهرانه ای متفاوت است.

تصویر تولید شده توسط GAN بسیار شبیه به تصویر اصلی است، اما اگر به هدبند دقت کنید، خواهید دید که GAN الگوی انفجار ستاره را از تصویر اصلی بازتولید نکرده است. در عوض، الگوی قابل قبول خود را برای جایگزینی الگوی پاک شده با نمونه برداری پایین ایجاد کرد.

برای اطلاعات بیشتر، لدیگ و همکاران، 2017 را ببینید.

نقاشی چهره

GAN ها برای کار نقاشی معنایی تصویر استفاده شده اند. در کار inpainting، تکه‌های یک تصویر سیاه می‌شوند و سیستم سعی می‌کند تکه‌های از دست رفته را پر کند.

Yeh و همکاران، 2017 از یک GAN برای پیشی گرفتن از تکنیک‌های دیگر برای نقاشی درونی تصاویر چهره‌ها استفاده کردند:

ورودی خروجی GAN
چهار تصویر. هر تصویر یک عکس از یک چهره است که برخی از مناطق با رنگ سیاه جایگزین شده است.چهار تصویر. هر تصویر یک عکس از یک چهره مشابه با یکی از تصاویر در ستون "ورودی" است، با این تفاوت که هیچ ناحیه سیاهی وجود ندارد.

متن به گفتار

همه GAN ها تصویر تولید نمی کنند. به عنوان مثال، محققان همچنین از GAN برای تولید گفتار سنتز شده از ورودی متن استفاده کرده‌اند. برای اطلاعات بیشتر به یانگ و همکاران، 2017 مراجعه کنید.