شبكة عصبية أولى
في هذا التمرين، سندرّب أول شبكة عصبونية صغيرة.
وسوفّر لنا الشبكات العصبونية طريقة لتعلّم النماذج غير الخطية بدون استخدام تقاطعات العناصر الفاحشة الصريحة.
المَهمة رقم 1: يجمع النموذج كما هو موضّح بين ميزتَي الإدخال في خلية عصبية واحدة. هل سيتعلم هذا النموذج أي أخطاء غير خطية؟ ادفعها لتأكيد
تخمينك.
المَهمة 2: حاوِل زيادة عدد الخلايا العصبية في الطبقة المخفية من
1 إلى 2، وجرِّب أيضًا التغيير من عملية تفعيل خطية إلى تفعيل غير خطي
مثل ReLU. هل يمكنك إنشاء نموذج يمكنه تعلّم الترميزات غير الخطية؟ هل يمكنها إنشاء نموذج
للبيانات على نحو فعّال؟
المَهمة 3: حاوِل زيادة عدد الخلايا العصبية في الطبقة المخفية من
2 إلى 3، وذلك باستخدام عملية تفعيل غير خطي، مثل ReLU. هل يمكنه إنشاء نموذج للبيانات
بفعالية؟ كيف تختلف جودة النموذج من تشغيل إلى آخر؟
المَهمة 4: استكمِل التجارب من خلال إضافة أو إزالة طبقات مخفية وخلايا عصبية لكل طبقة. يمكنك أيضًا تغيير معدّلات التعلّم والتنظيم وإعدادات التعلّم الأخرى. ما الأقل
من الخلايا العصبية والطبقات التي يمكنك استخدامها لاختبار اختبار 0.177 أو أقل؟
هل تؤدي زيادة حجم النموذج إلى تحسين مدى ملاءمته، أو مدى سرعته؟
هل يغيّر هذا المقياس مدى اتّساق النموذج مع النموذج الجيد؟ على سبيل المثال، جرِّب البنية التالية:
- الطبقة الأولى المخفية التي تحتوي على 3 خلايا عصبية
- الطبقة الثانية المخفية: تحتوي على 3 خلايا عصبية.
- الطبقة المخفية الثالثة التي تحتوي على عصبيَين
(تظهر الإجابات تحت التمارين مباشرةً).
انقر على رمز الإضافة للإجابة عن المهمة 1.
تم ضبط التفعيل على خطي، لذلك لا يمكن لهذا النموذج تعلُّم أي
من التنسيقات غير الخطية. الخسارة كبيرة جدًا، ونعتقد أن النموذج غير ملائم
للبيانات.
انقر على رمز الإضافة للإجابة عن المهمة 2.
يمكن لدالة التفعيل غير الخطي تعلُّم نماذج غير خطية. في المقابل،
لا يمكن لطبقة واحدة مخفية تحتوي على عصبين عصبيين أن تعكس جميع القيم غير الخطية في مجموعة البيانات هذه، وستصبح حاصلة على أكبر قدر من الخسارة حتى بدون ضوضاء: وستظل البيانات أقل صلة بالبيانات. هذه التمارين غير محدّدة، لذا لن تكون بعض الركضات
تعلّم نموذجًا فعّالاً، في حين تؤدي مهام أخرى إلى أداء جيد جدًا.
قد لا يكون أفضل نموذج هو الذي تتوقّعه.
انقر على رمز الإضافة للإجابة عن المهمة 3.
وتتجلّى طبيعة الطبيعة غير الواضحة في ملعبك. وهناك طبقة واحدة مخفية تحتوي على 3 خلايا عصبية كافية لإنشاء نموذج لمجموعة البيانات (الضوضاء غير متوفّرة)، إلا أنّه لن تكون جميع الركائز متقاربة إلى نموذج جيد.
وتُعتبر 3 الخلايا العصبية كافية لأنه يمكن التعبير عن دالة XOR كمجموعة من 3 خطوط جوية (تفعيل RELU). يمكنك ملاحظة ذلك من خلال فحص صور الخلايا العصبية التي تُظهر مخرجات الخلايا العصبية الفردية. في نموذج جيد يحتوي على 3 خلايا عصبية وتفعيل ReLU، ستكون هناك صورة واحدة ذات خط عمودي تقريبًا، يتم فيها اكتشاف X1 (أو سالب، ويمكن أن يتم تبديل العلامة) وصورة واحدة ذات خط أفقي تقريبًا، وتكتشف علامة X، وصورة واحدة ذات خط مائل، وتكتشف تفاعلها.
ومع ذلك، لن تتلاقى جميع الركضات مع نموذج جيد. فبعض عمليات التشغيل لا يكون أفضل من
نموذجًا يحتوي على عصبين عصبيين، ويمكنك ملاحظة الخلايا العصبية المكرّرة في هذه الحالات.
انقر على رمز الإضافة للإجابة عن المهمة 4.
يمكن لطبقة واحدة مخفية تتضمّن 3 عصيّ أن تصنع نموذجًا للبيانات، غير أنّه لا يمكن تكرارها، لذلك فإنّها في كثير من الأحيان تؤدي إلى فقد عصبون وعدم تعلّم نموذج جيد. تكون الطبقة الواحدة التي تحتوي على أكثر من 3 خلايا عصبية أكثر تكرارًا، وبالتالي يزداد احتمال تطابقها مع نموذج جيد.
كما ذكرنا سابقًا، لا يمكن لطبقة واحدة مخفية تحتوي على عصبين فقط أن تصنع نموذجًا للبيانات. في حال تجربة هذه الميزة، يمكنك ملاحظة أنّ جميع العناصر في طبقة الإخراج يمكن أن تتألف فقط من أشكال مؤلفة من أسطر من هاتين العُقدتين. في هذه الحالة، يمكن
للشبكة الأكثر عمقًا أن تصمّم مجموعة البيانات بشكل أفضل من الطبقة الأولى المخفية وحدها:
يمكن للعصبيين الفرديين في الطبقة الثانية وضع نماذج أكثر تعقيدًا، مثل
الربع العلوي الأيمن، من خلال دمج العصبون في الطبقة الأولى. أثناء إضافة هذه
الطبقة الثانية المخفية، لا يزال بإمكانها وضع نموذج لمجموعة البيانات بشكل أفضل من الطبقة الأولى المخفية
فقط، ولكن قد يكون من المنطقي إضافة مزيد من العُقد إلى الطبقة الأولى
لجعل المزيد من الأسطر جزءًا من المجموعة التي تُنشئ منها الطبقة الثانية
أشكالها.
ومع ذلك، فإن النموذج الذي يحتوي على عصبون واحد في الطبقة الأولى الأولى لا يمكن أن يتعلّم نموذجًا جيدًا بغض النظر عن عمقه. ويرجع ذلك إلى أن مخرجات الطبقة الأولى تختلف فقط على طول بُعد واحد (عادةً ما يكون خطًا قطريًا)، وهو ما لا يكفي لتشكيل مجموعة البيانات هذه بشكل جيد. ولا يمكن أن تعوّض الطبقات اللاحقة عن هذا الأمر، بغض النظر عن مدى تعقيدها، فقدت المعلومات الواردة في بيانات الإدخال خسائر كبيرة.
ماذا لو كان لدينا بدلاً من محاولة إنشاء شبكة صغيرة، كان لدينا العديد من الطبقات التي تحتوي على العديد من الخلايا العصبية، لحل مشكلة بسيطة مثل هذه؟ كما ذكرنا سابقًا،
يمكن للطبقة الأولى تجربة الكثير من منحدرات الخطوط المختلفة. ويمكن للطبقة الثانية
تجميعها في العديد من الأشكال المختلفة،
مع العديد من الأشكال في الأسفل عبر الطبقات اللاحقة.
من خلال السماح للنموذج بالتفكير في العديد من الأشكال المختلفة من خلال العديد من الأعصاب المخفية المختلفة، تكون قد أنشأت مساحة كافية للنموذج للبدء بسهولة في الاحتواء على الضوضاء في مجموعة التدريب، ما يسمح لهذه الأشكال المعقدة بتطابق الجوانب الأساسية لبيانات التدريب بدلاً من الحقائق الأساسية العامة. في هذا المثال، يمكن أن تحتوي النماذج الأكبر حجمًا على حدود معقدة لمطابقة نقاط البيانات الدقيقة. في الحالات القصوى، يمكن أن يتعلّم النموذج الكبير جزيرة حول نقطة فردية من الضجيج، والتي تُسمّى
حفظ البيانات. من خلال السماح للنموذج أن يكون أكبر بكثير، ستلاحظ أنه يؤدي في كثير من الأحيان أسوأ من النموذج البسيط الذي يحتوي على خلايا عصبية كافية لحل المشكلة.
إعداد الشبكة العصبونية
يستخدم هذا النشاط بيانات XOR مرة أخرى، لكنّه يفحص وتيرة تكرار التدريب على الشبكات العصبية وأهمية الإعداد.
المهمة 1: شغِّل النموذج كما هو محدّد أربع أو خمس مرات. قبل كل تجربة،
اضغط على الزر إعادة ضبط الشبكة للحصول على إعداد عشوائي جديد.
(الزر إعادة ضبط الشبكة هو سهم إعادة الضبط الدائرية إلى يسار
زر التشغيل.) اسمح بتشغيل كل تجربة لمدة 500 خطوة على الأقل
لضمان تقريبها من بعضها. ما الشكل الذي يتداخل معه كل نموذج؟
ما هي أهمية ذلك في ما يتعلّق ب دور الإعداد في عملية تحسين العمليات غير المعقدة؟
المهمة 2: حاول جعل النموذج أكثر تعقيدًا بعض الشيء عن طريق إضافة طبقة
وعقدتين إضافيتين. كرِّر التجارب من المهمة 1. هل يؤدي هذا الإجراء إلى
إضافة أي ثبات إضافي إلى النتائج؟
(تظهر الإجابات تحت التمارين مباشرةً).
انقر على رمز الإضافة للإجابة عن المهمة 1.
كان للنماذج التي تم تعلُّمها أشكال مختلفة عند كل عملية تشغيل. تراوحت خسائر الاختبارات المتقاربة بين ضعفين تقريبًا من الأقل إلى الأعلى.
انقر على رمز الإضافة للإجابة عن المهمة 2.
ستؤدي إضافة الطبقة والعُقد الإضافية إلى إنشاء نتائج أكثر قابلية للتكرار.
في كل عملية تشغيل، بدا النموذج الناتج متشابهًا تقريبًا. علاوة على ذلك،
أظهرت خسارة الاختبار المتقاربة تباينًا أقل بين الركض.
الشبكة العصبونية الحلزونية
مجموعة البيانات هذه حلزونية صاخبة. ومن الواضح أنّ النموذج الخطي سيتعذّر تنفيذه هنا،
ولكن حتى لو كان من الصعب إنشاء نماذج صليب تم تحديدها يدويًا.
المهمة 1: يمكنك تدريب أفضل نموذج ممكن باستخدام X1 وX2 فقط. يمكنك إضافة الطبقات أو الخلايا العصبية أو إزالتها، وتغيير إعدادات التعلّم، مثل معدّل التعلّم ومعدّل التسوية وحجم المجموعة. ما هي أفضل خسارة للاختبار يمكن أن تحصل عليها؟ ما مدى جودة سطح العرض في الطراز؟
المَهمّة الثانية: حتى في حال استخدام الشبكات العصبونية، قد يتطلّب الأمر بعض هندسة الميزات لتحقيق أفضل أداء. جرِّب إضافة المزيد من ميزات المنتجات المشتركة أو الإحالات الناجحة الأخرى مثل
sin(X1) وsin(X2). هل تحصل على نموذج أفضل؟ هل يظهر مخرجات النموذج أي سلاسة؟
(تظهر الإجابات تحت التمارين مباشرةً).
انقر على رمز علامة الجمع للإجابات المحتملة.
يُطلعك الفيديو التالي على كيفية اختيار المعلمات العالية في "مساحة المرح" لتدريب نموذج للبيانات الحلزونية التي تقلل من فقدان الاختبار.
المحلول الحلزوني للشبكة العصبونية