متغيّرات GAN

يواصل الباحثون العثور على تقنيات GAN محسّنة والاستخدامات الجديدة لشبكة GAN. في ما يلي عيّنة من صيغ GAN لمنحك فكرة عن الإمكانات.

شبكات GAN التقدمية

في شبكة GAN تدريجية، ينتج عن الطبقات الأولى من المنشئ صورًا بدقة منخفضة، وستضيف الطبقات اللاحقة التفاصيل. ويسمح هذا الأسلوب لشبكة GAN بالتدرّب بسرعة أكبر من شبكات GAN غير التقدمية المشابهة، وينتج عنه صور دقة أعلى.

وللحصول على مزيد من المعلومات، يُرجى الاطّلاع على Karras et al، 2017.

GAN المشروط

يتم تدريب GAN المشروط على مجموعة بيانات مصنّفة والسماح لك بتحديد التصنيف لكل مثيل يتم إنشاؤه. على سبيل المثال، يؤدي رقم MNIST GAN غير المشروط إلى إنتاج أرقام عشوائية، بينما يسمح لك رقم MNIST GAN المشروط بتحديد الرقم الذي يجب أن يُنشئه رقم GAN.

وبدلاً من إنشاء نموذج الاحتمالية المشتركة P(X, Y)، تحدد نماذج GAN المشروطة الاحتمالية الشرطية P(X | Y).

للحصول على مزيد من المعلومات عن GAN المشروطة، يُرجى الرجوع إلى Mirza et al، 2014.

ترجمة الصور إلى صور

تلتقط شبكات GAN للترجمة من صورة إلى صورة كصورة وتُعيّنها وربطها بصورة إخراج مع خصائص مختلفة. على سبيل المثال، يمكننا التقاط صورة لقناع اللون على شكل سيارة، ويمكن أن يملأ نموذج GAN الشكل بتفاصيل سيارة واقعية.

وبالمثل، يمكنك تدريب شبكة GAN على أساس صور فوتوغرافية لالتقاط حقائب يد وتحويلها إلى صور واقعية لحقائب اليد.

جدول بزاوية 3 × 3 صور لحقائب اليد. يعرض كل صف أسلوبًا مختلفًا لحقائب اليد. في كل صف، تكون الصورة إلى أقصى اليمين رسمًا خطيًا بسيطًا لحقيبة اليد. أما الصورة الوسطى، فهي صورة لحقيبة يد حقيقية. أما الصورة في أقصى اليمين فهي صورة واقعية من إنشاء شبكة GAN. ويتم تصنيف الأعمدة الثلاثة هذه &#39؛Input' و'Ground Truth' و 'output'.

في هذه الحالات، تكون الخسارة مزيجًا مُرجحًا من الخسارة المستندة إلى المُميّز العادية والخسارة من ناحية وحدات البكسل التي يعاقب عليها أداة الاختيار للانطلاق من الصورة المصدر.

وللحصول على مزيد من المعلومات، يُرجى الاطّلاع على Isola et al, 2016.

ركوب الدراجات الهوائية

وتتعلّم CycleGAN تحويل الصور من مجموعة إلى صور قد تنتمي إلى مجموعة أخرى. على سبيل المثال، تنتج قناة CycleGAN الصورة اليمنى أدناه عند منحها الصورة اليسرى كإدخال. التقاط صورة لحصان وتحويلها إلى صورة وحشية.

صورة لحصان يركض، وصورة ثانية
تتطابق مع جميع المواصفات باستثناء أنّ الحصان هو حمار وحشي.

تقتصر بيانات التدريب على CycleGAN على مجموعتَين من الصور (في هذه الحالة، مجموعة من صور الخيول ومجموعة من صور الحمار الوحشي). لا يتطلب النظام أي تصنيفات أو مراسلات مزدوجة بين الصور.

للحصول على المزيد من المعلومات، يمكنك الاطّلاع على Zhu et al، 2017، الذي يوضّح استخدام CycleGAN لإجراء ترجمة من صورة إلى صورة بدون استخدام البيانات المقترنة.

دمج النص إلى صورة

تلتقط شبكات GAN من النص إلى صورة النص وتُنتج صورًا معقولة ووصفها النص. على سبيل المثال، تم إنتاج صورة الزهور أدناه من خلال تغذية وصف نصي إلى شبكة GAN.

"هذه الزهرة تحتوي على بتلات صفراء مع ظلال البرتقالي." زهرة مزوّدة بتلات
    صفراء مع ظلال برتقالية.

يُرجى العِلم بأنّه لا يمكن لشبكة GAN في هذا النظام إنتاج صور إلا من مجموعة صغيرة من الصفوف.

وللحصول على مزيد من المعلومات، يُرجى الاطّلاع على Zhang et al، 2016.

دقة فائقة

تزيد شبكات GAN عالية الدقة من دقة الصور، وتضيف التفاصيل عند الضرورة لملء المناطق المعتمة. على سبيل المثال، الصورة المعتمة في الأسفل هي نسخة منخفضة الدقة من الصورة الأصلية على اليمين. ونظرًا للصورة المموّهة، أدّت GAN إلى الصورة الأكثر وضوحًا على اليمين:

أصليةمعتمتمت الاستعادة باستخدام GAN
صورة لفتاة ترتدي غطاء رأس متقنًا. يتم ربط ربّاة الرأس بنمط معقّد. نسخة ضبابية من
      لوحة الفتاة ترتدي غطاء رأس متقنًا لوحة واضحة وواضحة لفتاة ترتدي غطاء رأس متقنًا وتكون هذه اللوحة مماثلة تقريبًا للصورة الأولى في هذا الجدول، ولكن بعض تفاصيل الأنماط على غطاء الرأس والملابس تختلف اختلافًا كبيرًا.

تشبه الصورة التي تم إنشاؤها من خلال GAN الصورة الأصلية إلى حدٍ كبير، ولكن إذا نظرت عن كثب إلى عصابة الرأس، سترى أنّ GAN لم تُعيد تصميم النمط النجمي الأصلي. وبدلاً من ذلك، صنعت نمطًا منطقيًا خاصًا به ليحل محل النمط الذي تم محوه من خلال العينات السفلية.

لمزيد من المعلومات، يُرجى الاطّلاع على Ledig et al، 2017.

طلاء الوجه

تم استخدام GAN في مهمة طلاء الصور الدلالية. في المهمة التي تتم معالجتها، تم تعتيم الأجزاء من الصورة ويحاول النظام ملء الأجزاء المفقودة.

Yeh et al، 2017 استخدم رقم GAN للتفوق على الأساليب الأخرى لطلاء الصور للوجوه:

إدخالمخرجات GAN
أربع صور. وكل صورة عبارة عن صورة لوجه تم استبدال بعض المناطق به باللون الأسود. أربع صور. كل صورة هي
                                     صورة لوجه مطابق لإحدى الصور
                                     في العمود 'Input'، باستثناء
                                     عدم وجود مناطق سوداء.

Text-to-Speech

لا تؤدي بعض شبكات GAN إلى إنتاج الصور. على سبيل المثال، استخدم الباحثون أيضًا شبكات GAN لإنتاج الكلام المركب من الإدخال النصي. لمزيد من المعلومات، راجِع Yang et al، 2017.