فرط التخصيص

الإفراط في التوافق يعني إنشاء نموذج يطابق (يتذكر) مجموعة تدريب إذًا أن النموذج يعجز عن تقديم تنبؤات صحيحة عن البيانات الجديدة. يتشابه النموذج المفرط في التوافق مع اختراع يعمل بشكل جيد في المختبر ولكن لا قيمة له في العالم الحقيقي.

في الشكل 11، تخيل أن كل شكل هندسي يمثل موضع شجرة في غابة مربعة. تشير الماسات الزرقاء إلى مواقع الأشجار الصحية، بينما تحدد الدوائر البرتقالية أماكن الأشجار المرضية.

الشكل 11. يحتوي هذا الشكل على حوالي 60 نقطة، نصفها
            والأشجار الصحية والأشجار المريضة الأخرى.
            تقع الأشجار السليمة بشكل أساسي في القسم الشمالي الشرقي، على الرغم من أن بعض
            تتسلل الأشجار السليمة إلى الأرباع الشمالية الغربية. الأشجار المريضة
            تقع بشكل أساسي في ربع الدائرة الجنوبي الشرقي، ولكن بعض الأشجار المريضة
            تسقط في الأرباع الأخرى.
الشكل 11. مجموعة التدريب: مواقع تزدان بالأشجار الصحية والمريضة في غابة مربعة.

 

ارسم عقليًا أي أشكال - خطوط ومنحنيات ، أشكال بيضاوية - أي شيء - لفصل الأشجار الصحية من الأشجار المريضة. ثم قم بتوسيع السطر التالي لفحص فصل واحد محتمل.

صنفت الأشكال المعقدة الموضحة في الشكل 12 بنجاح جميع والأشجار. وإذا فكرنا في الأشكال كنموذج، فإن ذلك يمثل نموذجًا الأمثل.

لكن، من يدري؟ نجح أحد النماذج الممتازة حقًا في تصنيف الأمثلة الجديدة. يوضح الشكل 13 ما يحدث عندما يقدم هذا النموذج نفسه تنبؤات حول أمثلة من مجموعة الاختبار:

الشكل 13. مجموعة جديدة من الأشجار الصحية والمريضة متراكبة على
            كما هو موضح في الشكل 12. أخطأ النموذج في تصنيف العديد من
            الأشجار
الشكل 13.مجموعة الاختبار: نموذج معقد للتمييز بين الأشجار المرضية والأشجار الصحية.

 

إذًا، أحسن النموذج المعقد الموضح في الشكل 12 في مجموعة التطبيق لكنه عمل سيئ للغاية في مجموعة الاختبار. هذه هي الحالة الكلاسيكية لنموذج فرط التخصيص في بيانات مجموعة التطبيق.

فرط التخصيص وفرط التعميم

يجب أن يقدّم النموذج توقعات جيدة بشأن البيانات الجديدة. أي أنك تهدف إلى إنشاء نموذج "مناسب" البيانات الجديدة.

كما رأيت، ينتج عن النموذج المفرط في التوافق تنبؤات ممتازة عن التدريب البيانات ولكن توقعات سيئة للبيانات الجديدة. إنّ نموذج فرط التخصيص لا يقدم حتى تنبؤات جيدة بشأن بيانات التدريب. إذا كان النموذج المفرط في التوافق مثل أي منتج يقدم أداءً جيدًا في المختبر ولكن سيئ في العالم الحقيقي، فإن نموذج نقص التوافق يشبه منتجًا لا يعمل بشكل جيد في المعمل.

الشكل 14. المخطط الديكارتي. يتم تصنيف المحور س على أنه "جودة التوقعات
            في مجموعة التدريب". يتم تسمية المحور ص بـ "جودة التنبؤات على
            بيانات العالم الحقيقي". يبدأ المنحنى عند نقطة الأصل ويزيد تدريجيًا،
            ولكنها تقع بعد ذلك بنفس السرعة. الجزء السفلي الأيسر من المنحنى
            (جودة منخفضة للتنبؤات على بيانات العالم الحقيقي، وجودة منخفضة
            التنبؤات في مجموعة التدريب) باسم "النماذج غير المناسبة". تشير رسالة الأشكال البيانية
            الجزء السفلي الأيمن من المنحنى (جودة منخفضة للتنبؤات على
            بيانات واقعية ولكن جودة عالية من التوقعات في مجموعة التدريب)
            يسمى "النماذج المفرطة". ذروة المنحنى (جودة عالية
            التوقعات حول بيانات العالم الحقيقي وجودة متوسطة من التوقعات
            في مجموعة التدريب) باسم "النماذج المناسبة".
الشكل 14. النماذج التي تعاني من فرط التخصيص والملاءمة والنماذج الجذّابة

 

التخصيص هو عكس فرط التخصيص. أي أنّ النموذج الذي يُعمم جيدًا يكون جيدًا التوقعات بشأن البيانات الجديدة. هدفك هو إنشاء نموذج يعمم جيدًا إلى البيانات الجديدة.

اكتشاف فرط التخصيص

تساعدك المنحنيات التالية في اكتشاف فرط التخصيص:

  • منحنيات الخسارة
  • منحنيات التعميم

يشير منحنى الخسارة إلى نسبة خسارة أحد النماذج مقابل عدد التكرارات التدريبية. ويسمى الرسم البياني الذي يعرض منحني خسارة أو أكثر تعميمًا منحنى ما يلي: يُظهر منحنى التعميم منحنى خسارة:

الشكل 15. دالة الخسارة لمجموعة التدريب تدريجيًا
            يرفض. وتنخفض أيضًا دالة الخسارة لمجموعة التحقق من الصحة،
            ولكنه يبدأ في الارتفاع بعد عدد معين من التكرارات.
الشكل 15. منحنى عمومي يشير إلى فرط التخصيص.

 

لاحظ أن منحني الخسارة يعملان بشكل متماثل في البداية ثم يتباعدان. أي، بعد عدد معين من التكرارات، يحدث انخفاض الخسارة أو ثابتة (تقاربات) لمجموعة التدريب، لكنه يزيد لمجموعة التحقق من الصحة. وهذا يدل على فرط التخصيص.

في المقابل، يُظهر منحنى التعميم لنموذج مناسب جيدًا منحنى خسارة ذات الأشكال المتشابهة.

ما هي أسباب فرط التخصيص؟

وعلى نطاق واسع جدًا، يحدث فرط التخصيص نتيجة أحد السببين التاليَين أو كليهما المشكلات:

  • لا تمثل مجموعة التدريب بيانات الحياة الواقعية بشكل كافٍ (أو مجموعة التحقق أو مجموعة الاختبار).
  • النموذج معقد جدًا.

شروط التعميم

يتدرب النموذج على مجموعة تدريب، ولكن الاختبار الحقيقي لقيمة النموذج هو كيف كما أنه يقدم تنبؤات عن الأمثلة الجديدة، خاصة بشأن البيانات الواقعية. أثناء تطوير أحد النماذج، تعمل مجموعة الاختبار كخادم وكيل للبيانات الواقعية. يشير تدريب نموذج عام بشكل جيد إلى شروط مجموعة البيانات التالية:

  • يجب أن تكون الأمثلة: موزّعة بشكل متماثل ومستقل وهي طريقة رائعة للقول إن ولا يمكن أن تؤثر الأمثلة في بعضها البعض.
  • مجموعة البيانات هي ثابتة، بمعنى آخر مجموعة البيانات لا تتغير بشكل كبير بمرور الوقت.
  • أقسام مجموعة البيانات لها نفس التوزيع. أي أن الأمثلة في مجموعة التطبيق تتشابه إحصائيًا مع الأمثلة في مجموعة التحقق ومجموعة الاختبار والبيانات الواقعية.

اكتشف الشروط السابقة من خلال التمارين التالية.

تمارين: التحقق من فهمك

ضع في الاعتبار أقسام مجموعة البيانات التالية.
شريط أفقي مقسم إلى ثلاث قطع: 70٪ من الشريط
                     هو مجموعة التطبيق، و15% من مجموعة التحقق، و15%
                     مجموعة الاختبار
ما الذي يجب عليك فعله للتأكد من أن الأمثلة في مجموعة التدريب لها توزيع إحصائي مشابه للأمثلة في مجموعة التحقق ومجموعة الاختبار؟
خلط الأمثلة في مجموعة البيانات على نطاق واسع قبل وتقسيمها.
نعم. الترتيب الجيّد للأمثلة يزيد من تقسيم الأقسام من المحتمل أن تكون متشابهة إحصائيًا.
رتِّب الأمثلة من الأقدم إلى الأحدث.
إذا كانت الأمثلة في مجموعة البيانات غير ثابتة، فعندئذ يؤدي الترتيب إلى تقليل الأقسام. مماثلة.
عدم اتّخاذ أي إجراء: وبتقديم أمثلة كافية، اتضح أن قانون المتوسطات بشكل طبيعي أن التوزيعات متشابهة إحصائيًا.
لكن للأسف، لم يكُن الأمر كذلك. الأمثلة في أقسام معينة من مجموعة البيانات عن تلك الموجودة في الأقسام.
تعمل خدمة بث على تطوير نموذج للتنبؤ بمدى رواجها البرامج التلفزيونية الجديدة المحتملة في السنوات الثلاث المقبلة. تشير رسالة الأشكال البيانية لخدمة البث لتدريب النموذج على مجموعة بيانات تحتوي على مئات الملايين من الأمثلة، بدءًا من التجربة السابقة عشر سنوات. هل سيواجه هذا النموذج مشكلة؟
على الأرجح. المشاهدون تتغير الأذواق بطرق لا يمكن للسلوك السابق التنبؤ بها.
نعم. أذواق المشاهدين ليست ثابتة. تتغير باستمرار.
بالتأكيد لا. مجموعة البيانات كبيرة بما يكفي لجعل والتنبؤات.
لسوء الحظ، أذواق غير ثابتة.
على الأرجح أنّ هذه المطالبات لن تسبّب لك أي مشكلة. المشاهدون أذواقهم تتغير بطرق دورية متوقعة. ستمكّن عشر سنوات من البيانات النموذج من تقديم تنبؤات جيدة حول الاتجاهات المستقبلية
وعلى الرغم من أن بعض جوانب الترفيه دورية إلى حد ما، سيتم تدريب نموذج تم تدريبه من تاريخ الترفيه السابق صعوبة في إجراء تنبؤات حول السنوات القليلة القادمة.
يهدف النموذج إلى التنبؤ بالوقت الذي يستغرقه الأشخاص في المشي لمسافة ميل واحد. استنادًا إلى بيانات الطقس (درجة الحرارة ونقطة التكثُّف لهطول الأمطار) التي يتم جمعها على مدار عام في المدينة التي يختلف الطقس فيها بشكل كبير حسب الموسم. هل يمكنك إنشاء نموذج واختباره من خلال على الرغم من أن قراءات الطقس تتغير بشكل كبير عن طريق الموسم؟
نعم
نعم، من الممكن إنشاء نموذج واختباره من مجموعة البيانات هذه. وما عليك سوى التأكد من أن البيانات مقسَّمة بالتساوي، أن البيانات من جميع المواسم الأربعة يتم توزيعها بالتساوي في أقسام مختلفة.
لا
وبافتراض أن مجموعة البيانات هذه تحتوي على أمثلة كافية لدرجة الحرارة، والندى والنقطة وهطول الأمطار، يمكنك إنشاء واختبار نموذج من مجموعة البيانات هذه. ما عليك سوى التأكد من تقسيم البيانات. بالتساوي، بحيث يتم توزيع البيانات من جميع المواسم الأربعة بالتساوي في الأقسام المختلفة.

تمرين التحدي

أنت تنشئ نموذجًا للتنبؤ بالتاريخ المثالي لشراء الدراجين تذكرة قطار لمسار معين. على سبيل المثال، قد يوصي النموذج أن يشتري المستخدمون تذكرتهم في 8 يوليو للقطار الذي سيغادر في 23 يوليو. تعدّل شركة القطارات الأسعار كل ساعة استنادًا إلى التعديلات التي أجرتها شركة القطارات، من العوامل، وبشكل أساسي على العدد الحالي للمقاعد المتاحة. والمقصود:

  • في حال توفّر عدد كبير من المقاعد، تكون أسعار التذاكر منخفضة عادةً.
  • في حال توفّر عدد قليل جدًا من المقاعد، تكون أسعار التذاكر مرتفعة عادةً.
يعرض النموذج عددًا منخفضًا من طلبات الإعلانات خسارة في مجموعة التحقق ومجموعة الاختبار ولكنها في بعض الأحيان التنبؤات الرهيبة على بيانات العالم الحقيقي. لماذا؟
انقر هنا للاطلاع على الإجابة