الانتشار العكسي هو الخوارزمية الأكثر شيوعًا لتدريب الشبكات العصبية. ويجعل هذا الإجراء من الممكن استخدام طريقة التدرج التنازلي للشبكات العصبية المتعدّدة الطبقات. تعالج العديد من مكتبات الرموز البرمجية لتعلُّم الآلة (مثل Keras) عملية النشر العكسي تلقائيًا، لذلك لن تحتاج إلى إجراء أي من العمليات الحسابية الأساسية بنفسك. يمكنك مشاهدة الفيديو التالي للحصول على نظرة عامة على كيفية عمل تقنية الانتشار العكسي:
أفضل الممارسات المتعلّقة بتدريب الشبكات العصبية
يوضّح هذا القسم حالات تعذُّر انتشار المعلومات إلى الخلف والطريقة الأكثر شيوعًا لتنظيم شبكة عصبية.
التدرّجات التي تُختفي
يمكن أن تصبح التدرّجات لطبقات الشبكة العصبية الدنيا (تلك الأقرب إلى طبقة الإدخال) صغيرة جدًا. في الشبكات العميقة (الشبكات التي تحتوي على أكثر من طبقة مخفية واحدة)، يمكن أن تتضمّن عملية احتساب هذه التدرجات أخذ منتج العديد من العبارات الصغيرة.
عندما تقترب قيم التدرّج من 0 للطبقات السفلية، يُقال إنّ التدرّجات "تختفي". لا يتم تدريب الطبقات التي تحتوي على تدرجات متلاشية إلا ببطء شديد أو لا يتم تدريبها على الإطلاق.
يمكن أن تساعد دالة تنشيط ReLU في منع تلاشي التدرجات.
تدرّجات الألوان المتفجرة
إذا كانت الأوزان في الشبكة كبيرة جدًا، فإنّ التدرجات للطبقات الأدنى تتضمّن منتجاتًا للعديد من العبارات الكبيرة. في هذه الحالة يمكن أن يكون لديك تدرجات متفجرة: التدرجات التي تكون كبيرة للغاية بحيث لا تتقارب.
يمكن أن يساعد تسويف الدُفعات في منع الانحدار المتزايد، كما يمكن أن يؤدي خفض معدّل التعلّم إلى ذلك.
وحدات ReLU المتوقّفة
بعد أن ينخفض المجموع المرجح لوحدة ReLU عن 0، يمكن أن تتوقف وحدة ReLU عن العمل. وتُخرج القيمة 0، ولا تساهم بأي شيء في ناتج الشبكة، ولا يمكن أن تتدفق التدرجات من خلالها أثناء الانتشار العكسي. في حال انقطاع مصدر التدرجات، قد لا يتغيّر الإدخال إلى دالة ReLU أبدًا بشكلٍ كافٍ لإعادة تجميع المجموع المرجح فوق 0.
يمكن أن يساعد خفض معدّل التعلّم في منع إيقاف وحدات ReLU.
تسوية الإسقاط
هناك شكل آخر من أشكال التنظيم يُعرف باسم تنظيم الإزالة، وهو مفيدة للشبكات العصبية. ويعمل هذا الأسلوب من خلال "إسقاط" عمليات تفعيل الوحدات بشكل عشوائي في شبكة لخطوة متدرجة واحدة. كلما انسحبت أكثر، زادت التسوية:
- 0.0 = لا يتم استخدام تسوية الإسقاط.
- 1.0 = حذف جميع العقد لا يتعلّم النموذج أيّ شيء.
- القيم بين 0.0 و1.0 = أكثر فائدة.