متغيّرات GAN

يواصل الباحثون العثور على أساليب محسّنة لشبكات GAN واستخدامات جديدة لها. في ما يلي عيّنة من الصيغ المختلفة لشبكات GAN لكي تتعرّف على الإمكانات المتاحة.

الشبكات التنافسية الإنتاجية (GAN) التدريجية

في شبكة GAN التدرّجية، تُنشئ الطبقات الأولى من المُنشئ صورًا بدرجة دقة منخفضة جدًا، وتُضيف الطبقات اللاحقة تفاصيل. تسمح هذه التقنية لشبكة GAN بالتدريب بشكل أسرع من شبكات GAN غير التدريجية المشابهة، كما تُنشئ صورًا بدقة أعلى.

لمزيد من المعلومات، يُرجى الاطّلاع على Karras et al, 2017.

الشبكات التنافسية الإنتاجية المشروطة (Conditional GAN)

يتم تدريب الشبكات التوليدية الوعائية الشَرطية على مجموعة بيانات مصنّفة وتتيح لك تحديد التصنيف لكل مثيل تم إنشاؤه. على سبيل المثال، سينتج عن شبكة GAN غير المشروطة لبيانات MNIST أرقامًا عشوائية، في حين أنّ شبكة GAN المشروطة لبيانات MNIST ستتيح لك تحديد الرقم الذي يجب أن تنشئه شبكة GAN.

بدلاً من وضع نماذج الاحتمالية المشتركة P(X, Y)، تضع نموذجَا الاحتمالية الشَرطية P(X | Y).

لمزيد من المعلومات عن الشبكات التوليدية التفاضلية الشَرطية، يُرجى الاطّلاع على مقالة Mirza et al, 2014.

ترجمة الصور

تأخذ شبكات GAN لترجمة الصور إلى صور أخرى صورة كمدخل وتربطها بمخرج صورة تم إنشاؤها بخصائص مختلفة. على سبيل المثال، يمكننا استخدام صورة قناع تتضمّن بقعة لونية على شكل سيارة، ويمكن للشبكة التوليدية الخصومية ملء الشكل بتفاصيل سيارة واقعية.

وبالمثل، يمكنك تدريب شبكة GAN لتحويل الصور إلى صور أخرى من أجل إنشاء رسومات حقائب يد و تحويلها إلى صور واقعية للحقائب.

جدول 3×3 من صور حقائب اليد يعرض كل صف
تصميمًا مختلفًا لشنطة اليد. في كل صف، تكون الصورة على يمين الشاشة عبارة عن
رسم بسيط لخطّ حقيبة يد، والصورة في الوسط هي صورة لحقيبة يد حقيقية،
وتكون الصورة على يمين الشاشة عبارة عن صورة تبدو واقعية تم إنشاؤها بواسطة شبكة معارضة تناقضية. تم تصنيف الأعمدة الثلاثة
على أنّها "إدخال" و"الحقيقة الأساسية" و"إخراج".

في هذه الحالات، تكون الخسارة عبارة عن تركيبة مرجحة من الخسارة المعتادة المستندة إلى المميّز وخسارة لكل بكسل تفرض عقوبة على المُنشئ عند الابتعاد عن الصورة المصدر.

لمزيد من المعلومات، يُرجى الاطّلاع على Isola et al, 2016.

CycleGAN

تتعلم نماذج CycleGAN تحويل الصور من مجموعة إلى صور يمكن أن تنتمي بشكل معقول إلى مجموعة أخرى. على سبيل المثال، أنشأت شبكة CycleGAN الصورة على يسار الشاشة أدناه عندما تم تقديم الصورة على يسار الشاشة كإدخال. أخذت صورة ل حصان وحوّلتها إلى صورة لحيوان زرافة.

صورة لحصان يركض وصورة ثانية
متطابقة من جميع النواحي باستثناء أنّ الحصان هو حمار وحشي

إنّ بيانات التدريب لنموذج CycleGAN هي ببساطة مجموعتَان من الصور (في هذا الحالة، مجموعة من صور الخيول ومجموعة من صور الزراف). لا يتطلّب النظام استخدام تصنيفات أو مطابقات بين الصور.

لمزيد من المعلومات، يُرجى الاطّلاع على مقالة Zhu et al, 2017، التي توضّح استخدام CycleGAN لإجراء الترجمة من صورة إلى صورة بدون بيانات مقترنة.

إنشاء صور من النصوص

تأخذ الشبكات التوليدية الخصومية (GAN) التي تعمل على تحويل النصوص إلى صور النص كإدخال وتُنشئ صورًا معقولة ويصفها النص. على سبيل المثال، تم إنشاء صورة الزهرة أدناه من خلال إدخال وصف نصي إلى شبكة معارضة تناقضية.

"هذه الزهرة لها بتلات صفراء بدرجات برتقالية". زهرة بتلاتها
    صفراء مع درجات من البرتقالي

يُرجى العلم أنّه في هذا النظام، لا يمكن لشبكة GAN إنشاء صور إلا من مجموعة صغيرة من الفئات.

لمزيد من المعلومات، يُرجى الاطّلاع على Zhang et al, 2016.

الدقة الفائقة

تزيد الشبكات التوليدية للصور الفائقة الدقة من دقة الصور، وتضيف تفاصيل عند الضرورة لملء المناطق المموّهة. على سبيل المثال، الصورة الباهتة في الوسط أدناه هي نسخة تم تقليل عيّنتها من الصورة الأصلية على اليسار. استنادًا إلى الصورة المموّهة، أنشأت شبكة GAN الصورة الأكثر وضوحًا على اليمين:

الصيغة الأصليةمموَّهتم استعادتها باستخدام شبكة تنافسية إنتاجية (GAN)
لوحة لفتاة ترتدي
      غطاء رأس مُعقّدًا تم حياكة غطاء الرأس بتصميم معقد. نسخة مموّهة من
      لوحة تصوّر فتاة ترتدي غطاء رأس مُعقّدًا لوحة واضحة وحادّة لفتاة ترتدي عمامة متقنة هذه اللوحة مطابقة تقريبًا
      للصورة الأولى في هذا الجدول، ولكن هناك اختلاف بسيط في بعض تفاصيل الأنماط
      على غطاء رأسها وملابسها.

تبدو الصورة التي أنشأتها شبكة GAN مشابهة جدًا للصورة الأصلية، ولكن إذا نظرت عن كثب إلى عصابة الرأس، ستلاحظ أنّ شبكة GAN لم تُنشئ نمط نجوم الاشتعال من الصورة الأصلية. بدلاً من ذلك، أنشأت الشبكة نمطًا معقولاً خاصًا بها ليحلّ محلّ النمط الذي تم محوه من خلال خفض الدقة.

لمزيد من المعلومات، يُرجى الاطّلاع على Ledig et al، 2017.

إعادة رسم الأجزاء الناقصة من الوجه

تم استخدام الشبكات التوليدية الجوّالة لمهمّة إضافة تفاصيل إلى الصور الدلالية. في مهمة معالجة الصور المموّهة، يتم حجب أجزاء من الصورة، ويحاول النظام ملء الأجزاء المفقودة.

استخدَم Yeh et al, 2017 شبكة GAN لتقديم أداء أفضل مقارنةً بغيرها من الأساليب لإضافة تفاصيل إلى صور الوجوه:

الإدخالناتج الشبكات التنافسية الإنتاجية (GAN)
أربع صور كل صورة هي
                                     صورة لوجه تم استبدال بعض أجزائه
                                     باللون الأسود. أربع صور كل صورة هي
                                     صورة لوجه مطابق لأحد
                                     الصور في عمود "الإدخال"، باستثناء
                                     أنّه لا تتضمّن أي مناطق سوداء.

تحويل النص إلى كلام

لا تُنشئ بعض الشبكات التوليدية المضادّة صورًا. على سبيل المثال، استخدم الباحثون أيضًا الشبكات التوليدية الجوّالة لمحاولة إنشاء كلام اصطناعي من نص مُدخل. لمزيد من المعلومات، يُرجى الاطّلاع على Yang et al، 2017.