تمت ترجمة هذه الصفحة بواسطة Cloud Translation API‏.

دوال الخسارة

تحاول الشبكات التوليدية التشابهية تكرار توزيع الاحتمالية. ولذلك، يجب استخدام دوال الخسارة التي تعكس المسافة بين توزيع البيانات التي أنشأتها شبكة GAN وتوزيع البيانات الحقيقية.

كيف يمكنك تسجيل الفرق بين توزيعَين في وظائف الخسارة في شبكة GAN؟ يُعدّ هذا السؤال أحد مجالات البحث النشط، وقد تم اقتراح العديد من الأساليب. سنتناول هنا دالتَي خسارة شائعتَين لنموذج GAN، ويتم تنفيذ كلتا الدالتَين في TF-GAN:

الخسارة الحدّ الأدنى الأقصى: دالة الخسارة المستخدَمة في المقالة التي قدّمت GANs.
خسارة Wasserstein: دالة الخسارة التلقائية لتقديرات TF-GAN تم وصفه لأول مرة في مستند لعام 2017.

تنفِّذ TF-GAN العديد من دوال الخسارة الأخرى أيضًا.

دالة خسارة واحدة أم اثنتان؟

يمكن أن تتضمّن شبكة GAN دالتَي خسارة: واحدة لتدريب المُنشئ وأخرى لتدريب المُميِّز. كيف يمكن أن تعمل دالتَا خسارة معًا للتعبير عن أحد مقاييس البعد بين توزيعات الاحتمالية؟

في مخطّطات الخسارة التي سنطّلِع عليها هنا، تأتي خسائر المُنشئ والمُميِّز من مقياس واحد للمسافة بين توزيعات الاحتمالية. في كلا المخطّطَين، لا يمكن لبرنامج الإنشاء التأثير إلا في تعبير واحد في مقياس المسافة: التعبير الذي يعكس توزيع البيانات المزيّفة. لذلك، أثناء تدريب المولد، نتجاهل المصطلح الآخر الذي يعكس توزيع البيانات الحقيقية.

تبدو خسارتا المُنشئ والمُميِّز مختلفتَين في النهاية، على الرغم من أنّهما ناتجتان من صيغة واحدة.

خسارة الحد الأدنى والأقصى

في المقالة التي قدّمت الشبكات التوليدية التفاضلية، يحاول المُنشئ تقليل القيمة التالية للدالة بينما يحاول المُميّز زيادتها إلى أقصى حد:

$$E_x[log(D(x))] + E_z[log(1 - D(G(z)))]$$

في هذه الدالة:

D(x) هو تقدير المميّز لاحتمالية أن تكون مثيل البيانات الحقيقية x حقيقيًا.
E_x هي القيمة المتوقّعة لجميع نُسخ البيانات الفعلية.
G(z) هي الناتج الذي يقدّمه المولد عند تقديم الضوضاء z.
D(G(z)) هو تقدير المميّز لاحتمالية أن يكون مثيل مزيّفًا حقيقيًا.
E_z هي القيمة المتوقّعة لجميع المدخلات العشوائية التي يتلقّاها المُنشئ (في الواقع، القيمة المتوقّعة لجميع النماذج المزيّفة التي تم إنشاؤها G(z)).
تأتي الصيغة من الخلل المتبادل بين التوزيعات الحالية والموزَّعة.

لا يمكن للمولد التأثير مباشرةً في مصطلح log(D(x)) في الدالة، لذا، بالنسبة إلى المولد، يعادل تقليل الخسارة تقليل log(1 - D(G(z))).

في TF-GAN، اطّلِع على minimax_discriminator_loss و minimax_generator_loss لتنفيذ دالة الخسارة هذه.

خسارة الحد الأدنى والأقصى المعدَّلة

تشير الورقة الأصلية عن شبكة GAN إلى أنّ دالة خسارة minimax أعلاه يمكن أن تؤدي إلى تعطُّل شبكة GAN في المراحل الأولى من تدريبها عندما يكون دور المميِّز سهلاً جدًا. لذلك، تقترح الورقة تعديل خسارة المولد لكي يحاول المولد زيادة log D(G(z)) إلى أقصى حد.

في TF-GAN، اطّلِع على modified_generator_loss لتطبيق هذا التعديل.

خسارة Wasserstein

يستخدم TF-GAN تلقائيًا فقدان Wasserstein.

تعتمد وظيفة الخسارة هذه على تعديل في مخطّط GAN (يُعرف باسم "Wasserstein GAN" أو "WGAN") لا يصنّف فيه المميّز العناصر في الواقع. يتم عرض رقم لكل مثيل. ولا يجب أن يكون هذا الرقم أقل من واحد أو أكبر من 0، لذا لا يمكننا استخدام 0.5 كحدّ أدنى لتحديد ما إذا كانت النسخة حقيقية أو مزيّفة. يحاول تدريب المُميِّز فقط جعل الإخراج أكبر للعناصر الحقيقية مقارنةً بالعناصر المزيّفة.

ولأنّه لا يمكنه التمييز بين الصور الحقيقية والصور المزيفة، يُطلق على أداة التمييز في WGAN اسم "ناقد" بدلاً من "مميِّز". لهذا الالتمييز أهمية نظرية، ولكن لأغراض عملية، يمكننا التعامل معه على أنّه اعتراف بأنّ مدخلات وظائف الخسارة لا يجب أن تكون احتمالات.

دوال الخسارة نفسها بسيطة بشكل مخادع:

فقدان المراجعين: D(x) - D(G(z))

يحاول المعرِّف تحسين هذه الوظيفة إلى أقصى حدّ. بعبارة أخرى، يحاول النموذج maximizing تعظيم الفرق بين ناتجه على النماذج الحقيقية وناتجه على النماذج المزيّفة.

فقدان المولد: D(G(z))

يحاول المولد زيادة هذه الوظيفة إلى أقصى حد. بعبارة أخرى، يحاول تعظيم ناتج المميّز لحالاته المزيّفة.

في هذه الدوال:

D(x) هو ناتج أداة التحقّق من الأخطاء لنموذج حقيقي.
G(z) هي الناتج الذي يقدّمه المولد عند تقديم الضوضاء z.
D(G(z)) هو ناتج الناقد لنسخة زائفة.
لا يجب أن تتراوح قيمة التقييم الذي يقدّمه الناقد "د" بين 1 و0.
تأتي الصِيَغ من مسافة Earth Mover بين التوزيعَين الحقيقي والمُنشَئ.

في TF-GAN، اطّلِع على wasserstein_generator_loss و wasserstein_discriminator_loss لمعرفة عمليات التنفيذ.

المتطلبات

يتطلّب الأساس النظري لنموذج Wasserstein GAN (أو WGAN) أن يتم اقتصاص المرجحات في جميع أنحاء نموذج GAN كي تظل ضمن نطاق محدود.

المزايا

إنّ نماذج Wasserstein GAN أقل عرضة للتوقف عن العمل مقارنةً بنماذج GAN المستندة إلى minimax، وتتجنّب مشاكل تلاشي التدرجات. تتمتع مسافة "نقل الأرض" أيضًا بميزة أنّها مقياس حقيقي: مقياس للمسافة في مساحة توزيعات الاحتمالية. إنّ الإنتروبيا المتداخلة ليست مقياسًا بهذا المعنى.

تدريب على شبكة GAN

التحقّق من الفهم

دوال الخسارة تنظيم صفحاتك في مجموعات يمكنك حفظ المحتوى وتصنيفه حسب إعداداتك المفضّلة.