فرط التخصيص: مدى تعقيد النموذج

قدّمت الوحدة السابقة النموذج التالي، الذي أخطأ في تصنيفه كثيرًا عدد الأشجار في مجموعة الاختبار:

الشكل 16. نفس الصورة مثل الشكل 13. هذا شكل معقد
            قد يسيء إلى تصنيف العديد من الأشجار.
الشكل 16. النموذج المعقد الذي يعمل بشكل سيء من الوحدة السابقة.

يحتوي النموذج السابق على الكثير من الأشكال المعقدة. هل تريد النموذج يتعامل مع البيانات الجديدة بشكل أفضل؟ لنفترض أنك استبدلت النموذج المعقد نموذج بسيط للغاية - خط مستقيم.

الشكل 17. نموذج الخط المستقيم الذي يقوم بعمل ممتاز
            وفصل الأشجار المريضة عن الأشجار السليمة.
الشكل 17. نموذج أبسط بكثير.

يعمل النموذج البسيط على تعميم أفضل من النموذج المعقد على البيانات الجديدة. أي، النموذج البسيط الذي يقدم تنبؤات أفضل في مجموعة الاختبار أكثر من النموذج المعقد.

ظلت البساطة تغلب عليها التعقيدات منذ فترة طويلة. في الواقع، يعود تفضيل البساطة إلى اليونان القديمة. بعد قرون، وقد نشر راهب من القرن الرابع عشر اسمه "ويليام أوكام" منهجًا رسميًا البساطة في فلسفة تُعرف باسم أوكام ماكينة الحلاقة. هذه الفلسفة يبقى مبدأً أساسيًا في العديد من العلوم، بما في ذلك التعلم الآلي.

تمارين: التحقق من فهمك

أنت تطوِّر معادلة فيزيائية. أي من المعادلات التالية يتوافقون بشكل وثيق مع شفرة أوكام؟
معادلة ذات ثلاثة متغيرات.
هناك ثلاثة متغيرات أكثر توافقًا مع Occam من اثني عشر متغيرًا.
معادلة تحتوي على اثني عشر متغيرًا.
اثنا عشر متغير يبدو معقدًا للغاية، أليس كذلك؟ أشهر معادلتين فيزيائيين على الإطلاق (F=ma E=mc2) يتضمّن كل منها ثلاثة متغيّرات فقط.
أنت بصدد مشروع جديد كليًا للتعلم الآلي، وعلى وشك اختيار الميزات الأولى. كم عدد الميزات التي ينبغي لك اختيارها؟
اختر 1 إلى 3 ميزات يبدو أنّ لها قوة توقّعية قوية.
ومن الأفضل أن يبدأ مسار جمع البيانات بواحد فقط ميزتين. سيساعدك ذلك في التأكّد من أنّ نموذج تعلُّم الآلة يعمل على النحو المطلوب. أيضًا، عندما تنشئ أساسًا من اثنين من الميزات، وستشعر وكأنك تحرز تقدمًا!
اختَر من 4 إلى 6 ميزات يبدو أنّها تمتلك قوة توقّعية قوية.
قد تستخدم في النهاية هذه الميزات العديدة، ولكن لا يزال من الأفضل تبدأ بالقليل. عادة ما يعني وجود ميزات أقل عددًا أقل غير ضروري إضافية.
اختر أكبر عدد ممكن من الميزات، حتى تتمكن من البدء في ملاحظة الميزات ذات القوة التنبؤية الأقوى.
ابدأ بمساحة أصغر. تضيف كل ميزة جديدة بُعدًا جديدًا إلى تدريبك مجموعة البيانات الأصلية. وعندما تزداد الأبعاد، يتلاشى حجم المساحة بسرعة كبيرة لدرجة أن بيانات التدريب المتاحة تصبح متفرقة. تشير رسالة الأشكال البيانية كلما زادت البيانات، كان من الصعب على النموذج التعرف على العلاقة بين الميزات المهمة بالفعل والتسمية. هذه الظاهرة تسمى "لعنة الأبعاد".

التسوية

يجب أن تحقّق نماذج تعلُّم الآلة هدفَين متعارضَين في الوقت نفسه:

  • ملاءمة البيانات بشكل جيد.
  • ملاءمة البيانات قدر الإمكان

ومن بين طرق إبقاء أي نموذج بسيطًا، معاقبة النماذج المعقدة، أي، لإجبار النموذج على أن يصبح أكثر بساطة أثناء التطبيق. فرض عقوبات على مركّب أحد أشكال التنظيم.

الخسارة والتعقيد

حتى الآن، اقترحت هذه الدورة أن الهدف الوحيد عند التدريب هو وتقليل الخسارة؛ وهي:

$$\text{minimize(loss)}$$

وكما لاحظت، فإنّ النماذج التي تركّز فقط على تقليل الخسارة تميل إلى الإفراط في استخدامها. وتعمل خوارزمية تحسين التدريب الأفضل على تقليل تركيبة ما من الخسارة والتعقيد:

$$\text{minimize(loss + complexity)}$$

عادةً ما يكون هناك ارتباط عكسي بين الخسارة والتعقيد. بالنسبة يزداد التعقيد، تنخفض الخسارة. مع انخفاض التعقيد، تزداد الخسارة. عليك إيجاد حل وسط معقول يتيح لك تقديم النموذج تنبؤات حول كل من بيانات التدريب والبيانات الواقعية. أي أن نموذجك يجب أن يجد حلاً وسطًا معقولاً بين الخسارة والتعقيد.

ما هو التعقيد؟

لقد رأيت بالفعل عدة طرق مختلفة لتقدير الخسارة. كيف تريد لقياس التعقيد؟ ابدأ الاستكشاف من خلال التمرين التالي:

تمرين: تحقق من حدسك

إلى الآن، لم نجِد بعد أهدافًا غير واضحة حول التعقيد. الموجودة. أي من الأفكار التالية تعتقد أنها ستكون معقولة مقاييس التعقيد؟
أما التعقيد، فهو وظيفة ترجيحات النموذج.
نعم، هذه إحدى طرق قياس بعض النماذج والتعقيد. يسمى هذا المقياس تسوية 11
ودرجة التعقيد هو دالة مربع ترجيحات النموذج.
نعم، يمكنك قياس أداء بعض النماذج التعقيد بهذه الطريقة. هذا المقياس يسمى L2 التسوية.
والتعقيد هو دالة لتحيزات جميع السمات في الأمثل.
التحيز لا يقيس التعقيد.