تدريب الشبكات العصبية

الانتشار الخلفي هو خوارزمية التدريب الأكثر شيوعًا للشبكات العصبية. تجعل خوارزمية انحدار التدرج ممكنة للشبكات العصبية متعددة الطبقات. تعالج تقنية TensorFlow ميزة الانتشار الخلفي تلقائيًا، وبالتالي لا تحتاج إلى فهم معمّق للخوارزمية. للتعرّف على آلية عملها، يُرجى الاطّلاع على ما يلي: شرح مرئي لخوارزمية الانتشار الخلفي. أثناء التمرير عبر الشرح السابق، لاحظ ما يلي:

  • كيفية تدفق البيانات في الرسم البياني
  • كيف تتيح لنا البرمجة الديناميكية حساب عدد كبير جدًا من المسارات من خلال الرسم البياني. هنا "البرمجة الديناميكية" تعني فقط تسجيل النتائج المتوسطة في الممرات للأمام والخلف.

تدريب الشبكات العصبية

  • التدرجات مهمة
    • وإذا كان قابلاً للتمييز، يمكننا على الأرجح التعرُّف عليها
  • التدرجات مهمة
    • وإذا كان قابلاً للتمييز، يمكننا على الأرجح التعرُّف عليها
  • يمكن أن تختفي التدرجات
    • ويمكن لكل طبقة إضافية تقليل الإشارة مقابل التشويش بالتتابع
    • تطبيق ReLus مفيد هنا
  • التدرجات مهمة
    • وإذا كان قابلاً للتمييز، يمكننا على الأرجح التعرُّف عليها
  • يمكن أن تختفي التدرجات
    • ويمكن لكل طبقة إضافية تقليل الإشارة مقابل التشويش بالتتابع
    • تطبيق ReLus مفيد هنا
  • يمكن أن تنفجر التدرجات
    • معدّلات التعلّم مهمة هنا
    • يمكن أن تساعد تسوية الدفعات (شريط التمرير المفيد)
  • التدرجات مهمة
    • وإذا كان قابلاً للتمييز، يمكننا على الأرجح التعرُّف عليها
  • يمكن أن تختفي التدرجات
    • ويمكن لكل طبقة إضافية تقليل الإشارة مقابل التشويش بالتتابع
    • تطبيق ReLus مفيد هنا
  • يمكن أن تنفجر التدرجات
    • معدّلات التعلّم مهمة هنا
    • يمكن أن تساعد تسوية الدفعات (شريط التمرير المفيد)
  • قد تموت طبقات ReLu
    • حافِظ على هدوئك وقلِّل معدّلات التعلّم
  • نرغب في أن يكون لميزاتنا مقاييس معقولة
    • نطاق [-1، 1] ذي مركز صفري تقريبًا يعمل بشكل جيد
    • للمساعدة في التقارب بين خورازمية انحدار التدرج؛ وتجنب فخ القيم غير الرقمية (NaN)
    • يمكن أن يساعد تجنّب القيم الخارجية أيضًا
  • يمكن استخدام بعض الطرق القياسية:
    • التحجيم الخطي
    • غطاء صلب (قطع) إلى أقصى حد، دقيقة
    • تسجيل التحجيم
  • التسرّب: شكل آخر من أشكال التسوية يكون مفيدًا للأرقام الوطنية (NN)
  • تعمل عن طريق "إسقاط" الوحدات العشوائية في الشبكة لخطوة تدرج واحدة
    • هناك صلة بالنماذج المتناسقة
  • وكلما خرجت من البرنامج، كانت عملية التنظيم أقوى.
    • 0.0 = لا تسوية للانسحاب
    • 1.0 = إسقاط كل شيء! لا يتعلم شيئًا
    • القيم المتوسطة أكثر فائدة