محققان همچنان به یافتن تکنیک های بهبود یافته GAN و کاربردهای جدید برای GAN ها ادامه می دهند. در اینجا نمونه ای از تغییرات GAN آورده شده است تا به شما حسی از احتمالات بدهد.
GAN های پیشرو
در یک GAN مترقی، اولین لایههای ژنراتور تصاویری با وضوح بسیار پایین تولید میکنند و لایههای بعدی جزئیات را اضافه میکنند. این تکنیک به GAN اجازه میدهد تا سریعتر از GANهای غیر پیشرونده مشابه تمرین کند و تصاویری با وضوح بالاتر تولید میکند.
برای اطلاعات بیشتر کاراس و همکاران، 2017 را ببینید.
GAN های مشروط
GAN های شرطی روی یک مجموعه داده برچسب دار آموزش می بینند و به شما اجازه می دهند برچسب را برای هر نمونه تولید شده مشخص کنید. به عنوان مثال، یک MNIST GAN بدون قید و شرط ارقام تصادفی تولید می کند، در حالی که یک MNIST GAN شرطی به شما امکان می دهد مشخص کنید که GAN کدام رقم را تولید کند.
به جای مدل سازی احتمال مشترک P(X, Y)، GAN های شرطی احتمال شرطی P(X | Y) را مدل می کنند.
برای اطلاعات بیشتر در مورد GAN های شرطی، میرزا و همکاران، 2014 را ببینید.ترجمه تصویر به تصویر
GAN های ترجمه تصویر به تصویر یک تصویر را به عنوان ورودی می گیرند و آن را به یک تصویر خروجی تولید شده با ویژگی های مختلف نگاشت می کنند. برای مثال، میتوانیم یک تصویر ماسک با لکههای رنگی به شکل ماشین بگیریم، و GAN میتواند شکل را با جزئیات واقعی خودرو پر کند.
به طور مشابه، می توانید یک GAN تصویر به تصویر را آموزش دهید تا طرح هایی از کیف های دستی بگیرد و آنها را به تصاویر واقعی از کیف های دستی تبدیل کند.
در این موارد، از دست دادن ترکیب وزنی از تلفات معمول مبتنی بر تشخیصگر و از دست دادن پیکسلی است که ژنراتور را برای خروج از تصویر منبع جریمه می کند.
برای اطلاعات بیشتر، ایزولا و همکاران، 2016 را ببینید.
CycleGAN
CycleGAN ها یاد می گیرند که تصاویر را از یک مجموعه به تصاویری تبدیل کنند که به طور قابل قبولی به مجموعه دیگری تعلق دارند. به عنوان مثال، یک CycleGAN تصویر سمت راست زیر را زمانی که تصویر سمت چپ به عنوان ورودی داده می شود، تولید می کند. تصویری از اسب گرفت و آن را به تصویر گورخر تبدیل کرد.
داده های آموزشی برای CycleGAN به سادگی دو مجموعه تصویر است (در این مورد، مجموعه ای از تصاویر اسب و مجموعه ای از تصاویر گورخر). این سیستم نیازی به برچسب یا مطابقت زوجی بین تصاویر ندارد.
برای اطلاعات بیشتر به Zhu و همکاران، 2017 مراجعه کنید، که استفاده از CycleGAN را برای انجام ترجمه تصویر به تصویر بدون داده های جفت نشان می دهد.
سنتز متن به تصویر
GAN های متن به تصویر متن را به عنوان ورودی می گیرند و تصاویری را تولید می کنند که قابل قبول هستند و با متن توصیف می شوند. به عنوان مثال، تصویر گل زیر با ارائه توضیحات متنی به یک GAN تولید شده است.
"این گل دارای گلبرگ هایی است که زرد با سایه های نارنجی است." |
توجه داشته باشید که در این سیستم GAN فقط می تواند تصاویر را از مجموعه کوچکی از کلاس ها تولید کند.
برای اطلاعات بیشتر، ژانگ و همکاران، 2016 را ببینید.
وضوح فوق العاده
GAN های با وضوح فوق العاده وضوح تصاویر را افزایش می دهند و در صورت لزوم جزئیات را برای پر کردن مناطق تار اضافه می کنند. برای مثال، تصویر میانی تار زیر یک نسخه پاییننمونهشده از تصویر اصلی در سمت چپ است. با توجه به تصویر تار، یک GAN تصویر واضح تری را در سمت راست ایجاد کرد:
اصل | تار شده است | با GAN بازیابی شد |
تصویر تولید شده توسط GAN بسیار شبیه به تصویر اصلی است، اما اگر به هدبند دقت کنید، خواهید دید که GAN الگوی انفجار ستاره را از تصویر اصلی بازتولید نکرده است. در عوض، الگوی قابل قبول خود را برای جایگزینی الگوی پاک شده با نمونه برداری پایین ایجاد کرد.
برای اطلاعات بیشتر، لدیگ و همکاران، 2017 را ببینید.
نقاشی چهره
GAN ها برای کار نقاشی معنایی تصویر استفاده شده اند. در کار inpainting، تکههای یک تصویر سیاه میشوند و سیستم سعی میکند تکههای از دست رفته را پر کند.
Yeh و همکاران، 2017 از یک GAN برای پیشی گرفتن از تکنیکهای دیگر برای نقاشی درونی تصاویر چهرهها استفاده کردند:
ورودی | خروجی GAN |
متن به گفتار
همه GAN ها تصویر تولید نمی کنند. به عنوان مثال، محققان همچنین از GAN برای تولید گفتار سنتز شده از ورودی متن استفاده کردهاند. برای اطلاعات بیشتر به یانگ و همکاران، 2017 مراجعه کنید.