الشبكات العصبية: التدريب على الانتشار العكسي

"Back ChromeOS" (النشر العكسي) هو خوارزمية التطبيق الأكثر شيوعًا للشبكات العصبية. كما أنه يجعل خورازمية انحدار التدرج مناسبة للشبكات العصبية متعددة الطبقات. العديد من مكتبات الرموز البرمجية لتعلُّم الآلة (مثل Keras) معالجة عملية الانتشار التلقائي، لذلك لا تحتاج إلى تنفيذ أي من العمليات الحسابية الأساسية بنفسك. اطلع على الفيديو التالي للحصول على نظرة عامة على مفاهيم معيّنة حول آلية عمل الانتشار العكسي:

أفضل الممارسات للتدريب على الشبكة العصبونية

يوضح هذا القسم حالات فشل النشر العكسي وأكبر والطريقة الشائعة لتنظيم الشبكة العصبية.

التدرجات الزائفة

التدرجات للمستوى العصبي السفلي يمكن أن تصبح طبقات الشبكة (تلك الأقرب من طبقة الإدخال) صغيرة جدًا. في الشبكات العميقة (الشبكات ذات أكثر من طبقة مخفية)، فقد تتضمن حساب هذه التدرجات أخذ ناتج عن العديد من المصطلحات الصغيرة.

عندما تقترب قيم التدرج من 0 في الطبقات السفلى، تصبح التدرجات يقول "تختفي". يتم تدريب الطبقات ذات التدرجات المتلاشية ببطء شديد، أو لا على الإطلاق.

يمكن أن تساعد وظيفة تفعيل ReLU في منع اختفاء التدرجات.

التدرجات المتفجرة

إذا كانت الأوزان في إحدى الشبكات كبيرة للغاية، فإن تدرجات ألوان تتضمن الطبقات منتجات من العديد من المصطلحات الكبيرة. في هذه الحالة، يمكنك الحصول على التدرجات المتفجرة: التدرجات التي تزيد عن حجمها بشكل مبالغ فيه بحيث لا تتقارب.

يمكن أن تساعد تسوية الدفعة في منع الانفجار على التدرجات كما يمكن أن يؤدي خفض ومعدل التعلم.

وحدات ReLU المتوقّفة

وعندما ينخفض المجموع المرجَّح لوحدة ReLU إلى أقل من 0، يمكن الحصول على عالِق. فهي تُخرج 0، ولا تساهم بأي شيء في مخرجات الشبكة، ولم تعد التدرجات تتدفق من خلالها أثناء عملية الانتشار العكسي. مع يتم اقتطاع مصدر التدرجات، فقد لا يتغير الإدخال إلى ReLU بما يكفي أبدًا لجعل المجموع المرجح أكبر من 0.

قد يساعد خفض معدّل التعلُّم في منع إيقاف وحدات ReLU.

تسوية عملية الانسحاب

هناك شكل آخر من أشكال التسوية، يسمى تنظيم عمليات الانقطاع يكون مفيدًا للشبكات العصبية. يعمل عن طريق "التغيب" بشكل عشوائي من عمليات تنشيط الوحدة في الشبكة لخطوة تدرج واحدة. كلما انسحبت أكثر، زادت التسوية:

  • 0.0 = عدم تسوية عملية الانسحاب.
  • 1.0 = إزالة جميع العُقد. لا يتعلم النموذج شيئًا.
  • القيم بين 0.0 و1.0 = أكثر فائدة.