فرط التخصيص

التخصيص المفرط يعني إنشاء نموذج يتطابق (يحفظ) مع مجموعة التدريب بشكلٍ قريب جدًا لدرجة أنّ النموذج لا يستطيع تقديم تنبؤات صحيحة بشأن البيانات الجديدة. يشبه النموذج المُعدَّل بشكل مفرط اختراعًا يحقّق أداءً جيدًا في المختبر ولكنه لا يُجدي نفعًا في العالم الواقعي.

في الشكل 11، تخيل أنّ كل شكل هندسي يمثّل موضع شجرة في غابة مربّعة. تشير الماسّات الزرقاء إلى مواقع الأشجار السليمة، بينما تشير الدوائر البرتقالية إلى مواقع الأشجار المريضة.

الشكل 11 يحتوي هذا الشكل على 60 نقطة تقريبًا، نصفها
            أشجار صحية والنصف الآخر أشجار مريضة.
            تقع الأشجار السليمة بشكل أساسي في الربع الشمالي الشرقي، على الرغم من أنّ هناك بضع
            أشجار صحية في الأقسام الشمالية الغربية. تقع الأشجار المريضة
            بشكل أساسي في الربع الجنوبي الشرقي، ولكن هناك بعض الأشجار المريضة
            تنتشر في الأرباع الأخرى.
الشكل 11. مجموعة التدريب: مواقع الأشجار السليمة والمريضة في غابة مربّعة

 

ارسم في ذهنك أي أشكال، مثل الخطوط والمنحنيات والأشكال البيضاوية...أي شيء، لفصل الأشجار السليمة عن الأشجار المريضة. بعد ذلك، وسِّع السطر التالي لفحص فاصلة محتملة.

نجحت الأشكال المعقّدة الموضّحة في الشكل 12 في تصنيف كل الأشجار باستثناء شجرتين. إذا اعتبرنا الأشكال نموذجًا، هذا نموذج رائع.

لكن، من يدري؟ نموذج ممتاز حقًا يصنف بنجاح الأمثلة الجديدة. يوضّح الرسم 13 ما يحدث عندما يقدّم النموذج نفسه توقّعات بشأن مثالين جديدين من مجموعة الاختبار:

الشكل 13 مجموعة جديدة من الأشجار السليمة والمريضة معروضة على النموذج
            الموضَّح في الشكل 12 يصنّف النموذج العديد من
            الأشجار بشكل خاطئ.
الشكل 13: مجموعة الاختبار: نموذج معقّد للتمييز بين الأشجار المريضة والصحية

 

وبالتالي، كان النموذج المعقّد المعروض في الشكل 12 فعّالاً بشكل كبير في مجموعة التدريب، ولكنه كان سيئًا جدًا في مجموعة الاختبار. هذه حالة نموذجية لحالة الملاءمة الزائدة لبيانات مجموعة التدريب.

التخصيص وفرط التخصيص وفرط التعميم

يجب أن يقدّم النموذج تنبؤات جيدة عن البيانات الجديدة. وهذا يعني أنّك تستهدف إنشاء نموذج "يناسب" البيانات الجديدة.

كما رأيت، يقدّم النموذج الذي تمّ تدريبه بشكل مفرط توقّعات ممتازة في مجموعة data training، ولكنّه يقدّم توقّعات سيئة في البيانات الجديدة. إنّ النموذج الذي يتسم بالتخصيص غير الكافي لا يقدّم حتى توقّعات جيدة لبيانات التدريب. إذا كان النموذج الذي تمّ تدريبه بشكلٍ مفرط يشبه منتجًا يحقّق أداءً جيدًا في المختبر ولكنّه يحقّق أداءً ضعيفًا في العالم الحقيقي، فإنّ النموذج الذي تمّ تدريبه بشكلٍ غير كافٍ يشبه منتجًا لا يحقّق أداءً جيدًا حتى في المختبر.

الشكل 14 رسم بياني كارتيزيتي تم تصنيف المحور X على أنّه "جودة التوقّعات
            في مجموعة التدريب". تم تصنيف المحور ص على أنّه "جودة التوقّعات استنادًا إلى
            البيانات في العالم الواقعي". يبدأ المنحنى من نقطة الأصل ويرتفع تدريجيًا،
            ثم ينخفض بسرعة مماثلة. الجزء السفلي الأيسر من المنحنى
            (انخفاض جودة التوقّعات استنادًا إلى البيانات الواقعية وانخفاض جودة
            التوقّعات استنادًا إلى مجموعة التدريب) يُصنَّف على أنّه "نماذج غير مُناسبة". الجزء
            السفلي الأيمن من المنحنى (جودة منخفضة للتنبؤات بشأن
            البيانات الواقعية ولكن جودة عالية للتنبؤات بشأن مجموعة التدريب)
            يحمل التصنيف "النماذج التي تمّ تدريبها بشكل مفرط". يتم تصنيف قمة المنحنى (جودة عالية
            للتوقّعات استنادًا إلى بيانات العالم الحقيقي وجودة متوسطة للتوقّعات
            استنادًا إلى مجموعة التدريب) على أنّها "نماذج مناسبة".
الشكل 14. النماذج التي لا تتطابق مع البيانات، والنماذج التي تتطابق مع البيانات، والنماذج التي تتطابق بشكل مفرط مع البيانات

 

التعميم هو عكس فرط التكيّف. وهذا يعني أنّ النموذج الذي يُجري تعميمات بشكل جيد يقدّم تنبؤات جيدة بالبيانات الجديدة. هدفك هو إنشاء نموذج يُطبَّق بشكلٍ جيد على البيانات الجديدة.

رصد فرط التخصيص

تساعدك المنحنيات التالية في رصد حالات التكيّف المفرط:

  • منحنيات الخسارة
  • منحنيات التعميم

يوضِّح منحنى الخسارة خسارة النموذج مقارنةً بعدد تكرارات التدريب. يُعرف الرسم البياني الذي يعرض منحنيات خسارة أو أكثر باسم منحنى التعميم. يعرض منحنى التجميع التالي منحنى فقدانَين:

الشكل 15 تنخفض دالة الخسارة لمجموعة التدريب
            تدريجيًا. تنخفض أيضًا دالة الخسارة لمجموعة التحقّق،
            ولكن بعد ذلك تبدأ في الارتفاع بعد عدد معيّن من التكرارات.
الشكل 15. منحنى التعميم الذي يشير بقوة إلى التكيّف المفرط

 

يُرجى ملاحظة أنّ منحنيات الخسارة تتصرف بشكلٍ مشابه في البداية ثمّ تتباعد. وهذا يعني أنّه بعد عدد معيّن من التكرارات، ينخفض الخسارة أو يبقى ثابتًا (يتقارب) لمجموعة التدريب، ولكن يزداد للمجموعة التحقّق. يشير ذلك إلى فرط التكيّف.

في المقابل، يعرض منحنى التعميم لنموذج ملائم منحنيات خسارة لها أشكال مشابهة.

ما هي أسباب فرط التوافق؟

بشكل عام، تحدث مشكلة التكيّف المفرط لأحد السببَين التاليَين أو كليهما:

  • لا تمثّل مجموعة التدريب البيانات الواقعية بشكلٍ كافٍ (أو مجموعة التحقّق أو مجموعة الاختبار).
  • النموذج معقّد للغاية.

شروط التعميم

يتم تدريب النموذج على مجموعة تدريب، ولكن الاختبار الحقيقي لقيمة النموذج هو مدى نجاحه في إجراء توقّعات بشأن أمثلة جديدة، لا سيما البيانات الواقعية. أثناء تطوير نموذج، تُستخدَم مجموعة الاختبار كبديل لبيانات العالم الواقعي. يشير تدريب نموذج يُعمِّم بشكلٍ جيد إلى شروط مجموعة البيانات التالية:

  • يجب أن تكون الأمثلة موزَّعة بشكل مستقل ومتطابق، وهي طريقة أنيقة للقول بأنّه لا يمكن للأمثلة التأثير في بعضها.
  • تكون مجموعة البيانات ثابتة، ما يعني أنّ مجموعة البيانات لا تتغيّر بشكل ملحوظ بمرور الوقت.
  • تتضمّن أقسام مجموعة البيانات التوزيع نفسه. وهذا يعني أنّ الأمثلة في مجموعة التدريب مشابهة إحصائيًا لتلك المتوفّرة في مجموعة التحقّق ومجموعة الاختبار والبيانات الواقعية.

استكشِف الشروط السابقة من خلال التمارين التالية.

تمارين: التحقّق من فهمك

راجِع أقسام مجموعة البيانات التالية.
شريط أفقي مقسم إلى ثلاث قطع: 70% من الشريط
                     هي مجموعة التدريب، و15% هي مجموعة التحقّق، و15%
                     هي مجموعة الاختبار
ما الذي يجب فعله لضمان أنّ الأمثلة في مجموعة التدريب لها توزيع إحصائي مشابه للأمثلة في مجموعة التحقّق ومجموعة الاختبار؟
امزج الأمثلة في مجموعة البيانات بشكلٍ مكثّف قبل تقسيمها.
نعم. إنّ ترتيب الأمثلة بشكل عشوائي يجعل التقسيمات أكثر احتمالًا للتشابه إحصائيًا.
ترتيب الأمثلة من الأقدم إلى الأحدث
إذا لم تكن الأمثلة في مجموعة البيانات ثابتة، يؤدي الترتيب إلى جعل الأقسام أقل تشابهًا.
عدم اتّخاذ أي إجراء: في حال توفّر أمثلة كافية، يضمن قانون المتوسطات بشكل طبيعي أن تكون التوزيعات متشابهة إحصائيًا.
للأسف، هذا ليس صحيحًا. قد تختلف الأمثلة في أقسام معيّنة من مجموعة البيانات عن الأمثلة في الأقسام الأخرى.
تعمل خدمة بث على تطوير نموذج للتنبؤ بمدى رواج البرامج التلفزيونية الجديدة المحتملة خلال السنوات الثلاث المقبلة. تخطّط خدمة البث لتدريب النموذج على مجموعة بيانات تحتوي على مئات الملايين من الأمثلة التي تعود إلى السنوات العشر السابقة. هل سيواجه هذا النموذج مشكلة؟
على الأرجح. تتغيّر أذواق المشاهدين بطرق لا يمكن توقّعها بالاستناد إلى السلوك السابق.
نعم. إنّ أذواق المشاهدين ليست ثابتة. وتتغيّر هذه الأحكام باستمرار.
بالتأكيد لا. أن تكون مجموعة البيانات كبيرة بما يكفي لإجراء توقّعات جيدة
إنّ أذواق المشاهدين غير ثابتة.
على الأرجح أنّ هذه المطالبات لن تسبّب لك أي مشكلة. تتغيّر أذواق المشاهدين بطرق دورية يمكن توقّعها. ستتيح البيانات التي تعود إلى عشر سنوات للنموذج تقديم توقّعات جيدة بشأن المؤشرات المستقبلية.
على الرغم من أنّ بعض جوانب الترفيه تكون دورية إلى حدّ ما، فمن المؤكد تقريبًا أنّه لن يتمكّن النموذج الذي تم تدريبه من سجلّ الترفيه السابق من إجراء توقّعات بشأن السنوات القليلة المقبلة.
يهدف أحد النماذج إلى توقّع الوقت الذي يستغرقه الأشخاص في المشي لمسافة ميل واحد استنادًا إلى بيانات الطقس (درجة الحرارة ونقطة الندى والأمطار) التي تم جمعها على مدار عام في مدينة يختلف فيها الطقس بشكل كبير حسب الموسم. هل يمكنك إنشاء نموذج واختباره من مجموعة بيانات هذه، على الرغم من أنّ قراءات الطقس تتغيّر بشكل كبير تبعًا للموسم؟
نعم
نعم، من الممكن إنشاء نموذج واختباره من مجموعة البيانات هذه. ما عليك سوى التأكّد من تقسيم البيانات بالتساوي، بحيث تتم مشاركة البيانات من جميع الفصول الأربعة بالتساوي في الأقسام المختلفة.
لا
بافتراض أنّ مجموعة البيانات هذه تحتوي على أمثلة كافية على درجة الحرارة ونقطة الندى وهطول الأمطار، يمكنك إنشاء نموذج واختباره من هذه المجموعة. ما عليك سوى التأكّد من تقسيم البيانات بالتساوي، بحيث يتم توزيع البيانات من جميع الفصول الأربعة بالتساوي على الأقسام المختلفة.

تمرين التحدّي

أنت بصدد إنشاء نموذج يتوقّع التاريخ المثالي للركاب لشراء تذكرة قطار لمسار معيّن. على سبيل المثال، قد يقترح النموذج على المستخدمين شراء تذكرتهم في 8 تموز (يوليو) لركوب قطار يغادر في 23 تموز (يوليو). تعدّل شركة القطارات الأسعار كل ساعة استنادًا إلى مجموعة متنوعة من العوامل، ولكن بشكل أساسي استنادًا إلى العدد الحالي للمقاعد المتاحة. والمقصود:

  • إذا كانت هناك مقاعد كثيرة متاحة، تكون أسعار التذاكر عادةً منخفضة.
  • إذا كانت المقاعد المتوفّرة قليلة جدًا، تكون أسعار التذاكر عادةً مرتفعة.
يُظهر نموذجك خسائر منخفضة في مجموعة التحقّق ومجموعة الاختبار، ولكنه يقدّم أحيانًا توقّعات سيئة للبيانات في العالم الواقعي. لماذا؟
انقر هنا للاطّلاع على الإجابة.