خوارزمية الانتشار
تُعدّ خوارزمية النشر الخلفي ضرورية لتدريب الشبكات العصبية الكبيرة بسرعة. توضّح هذه المقالة آلية عمل الخوارزمية.
يُرجى التمرير للأسفل...
شبكة عصبونية بسيطة
على يسار الصفحة، ستظهر لك شبكة عصبونية تتضمّن إدخالاً واحدًا وعقدة إخراج واحدة وطبقتَين مخفيتَين من عقدتَين لكل منهما.
يتم ربط العُقد في الطبقات المجاورة بالأوزان wij، وهي معلّمات الشبكة.
وظيفة التفعيل
تحتوي كل عُقدة على إدخال إجمالي xووظيفة تفعيل f(x)
ومخرجات y=f(x).
f(x) يجب أن تكون دالة غير خطية، وإلا لن تتمكن الشبكة العصبونية
إلا من تعلّم النماذج الخطية.
دالة التفعيل الشائعة الاستخدام هي
الدالّة الصفرية:
f(x)=11+e−x.
دالة الخطأ
والهدف هو التعرّف على القيم التقديرية للشبكة تلقائيًا من البيانات، بحيث يكون الإخراج المتوقّع youtput
قريبًا من الهدف ytarget لجميع المدخلات xinput.
نستخدم مقياس دالة Eلقياس مدى بُعدنا عن الهدف.
دالة الخطأ الشائعة هي E(youtput,ytarget)=12(youtput−ytarget)2.
الانتشار الأمامي
سنبدأ بأخذ مثال على الإدخال (xinput,ytarget) وتعديل طبقة الإدخال للشبكة.
للحفاظ على الاتّساق، نعتبر الإدخال مشابهًا لأي عُقدة أخرى ولكن بدون دالة تفعيل، بحيث يكون مخرجاته متساويًا مع الإدخال، أي y1=xinput.
الانتشار الأمامي
والآن، عدّلنا الطبقة المخفية الأولى. نأخذ مخرجات y العُقد في الطبقة السابقة ونستخدم قيم الترجيح لاحتساب إدخال x العُقد في الطبقة التالية.
الانتشار الأمامي
بعد ذلك، نحدّث مخرجات العُقد في الطبقة المخفية الأولى.
ولهذا السبب، نستخدم دالة التفعيل f(x).
الانتشار الأمامي
باستخدام هذه الصيغ ننشرها لبقية الشبكة والحصول على النتيجة النهائية للشبكة.
مشتق الخطأ
تحدّد خوارزمية انتشار البيانات مدى إمكانية تعديل كل وزن للشبكة بعد مقارنة الناتج المتوقّع بالنتائج المطلوبة لمثال محدّد.
ولهذا السبب، عليك احتساب طريقة تغيُّر الخطأ في ما يتعلّق بكل وزن dEdwij.
بعد الحصول على مشتقات الخطأ، يمكننا تعديل قيم الترجيح باستخدام قاعدة تعديل بسيطة:
حيث يكون α ثابتًا موجبًا، يُشار إليه باسم معدل التعلّم، الذي نحتاج إلى تحسينه بشكل تجريبي.
[ملاحظة] تكون قاعدة التعديل بسيطة جدًا: إذا انخفض الخطأ عند زيادة الوزن (dEdwij<0)،
يمكنك زيادة الوزن، أو إذا ارتفع الخطأ عند زيادة الوزن (dEdwij>0)،
يمكنك تقليل الوزن.
المشتقات الإضافية
للمساعدة في حساب dEdwij، نخزّن أيضًا كل عُقدة مشتقة أخرى لكل عُقدة:
كيفية تغيُّر الخطأ باستخدام:
- إجمالي إدخال العُقدة dEdx و
- مخرجات العقدة dEdy.
مكدّس
لنبدأ في نشر المشتقات من الخطأ.
وبما أنّنا نحصل على نتيجة متوقّعة لهذا المثال من الإدخال، يمكننا احتساب مدى تغيُّر الخطأ باستخدام هذا الناتج.
بالاستناد إلى وظيفة الخطأ E=12(youtput−ytarget)2 لدينا ما يلي:
مكدّس
والآن، dEdy يمكننا الآن dEdx استخدام قاعدة السلسلة.
حيث تكون ddxf(x)=f(x)(1−f(x)) f(x) هي دالة تفعيل Sigmoid.
مكدّس
بعد أن ننتج مشتقًا من الخطأ بشأن إجمالي إدخال عُقدة، يمكننا الحصول على المشتق من الخطأ في ما يتعلق بالترجيحات الواردة في تلك العُقدة.
مكدّس
وباستخدام قاعدة السلسلة، يمكننا أيضًا الحصول على dEdy من الطبقة السابقة. لقد صنعنا دائرة كاملة.
مكدّس
ما عليك سوى تكرار الصيغ الثلاث السابقة حتى نحسب جميع مشتقات الأخطاء.