مجموعات التدريب والاختبار: تقسيم البيانات

قدمت الوحدة السابقة فكرة تقسيم مجموعة البيانات إلى مجموعتين فرعيتين:

  • تدريب مجموعة: هي مجموعة فرعية لتدريب نموذج.
  • test set: هي مجموعة فرعية لاختبار النموذج المُدرَّب.

يمكنك تصور تقسيم مجموعة البيانات الفردية على النحو التالي:

شريط أفقي مقسم إلى قطعتين: %80 من مجموعة التدريب و20% لمجموعة الاختبار.

الشكل 1. تقسيم مجموعة بيانات واحدة إلى مجموعة تدريب ومجموعة اختبار

تأكّد من أنّ مجموعة الاختبار تستوفي الشرطَين التاليَين:

  • كبيرة بما يكفي للحصول على نتائج ذات مغزى إحصائيًا
  • يمثل مجموعة البيانات ككل. بعبارة أخرى، لا تختار مجموعة اختبار ذات خصائص مختلفة عن مجموعة التدريب.

بافتراض أن مجموعة الاختبار الخاصة بك تفي بالشرطين السابقين، فإن هدفك هو إنشاء نموذج يعمم بشكل جيد للبيانات الجديدة. تعمل مجموعة الاختبار كخادم وكيل للبيانات الجديدة. فعلى سبيل المثال، ضع في الاعتبار الشكل التالي. لاحظ أن النموذج الذي تم تعلمه لبيانات التدريب بسيط للغاية. هذا النموذج لا يعمل بشكل مثالي - بعض التنبؤات خاطئة. ومع ذلك، ينطبق هذا النموذج أيضًا على بيانات الاختبار كما هو الحال مع بيانات التدريب. وبعبارة أخرى، لا يفرط هذا النموذج البسيط في بيانات التدريب.

نموذجان: أحدهما يتم تشغيله على بيانات التدريب والآخر على بيانات الاختبار.  النموذج بسيط للغاية، فهو مجرد خط يقسم النقاط البرتقالية من النقاط الزرقاء.  الخسارة في بيانات التدريب مماثلة لفقدان بيانات الاختبار.

الشكل 2. التحقّق من صحة النموذج المُدرَّب بالاستناد إلى بيانات الاختبار

عدم التدرّب على بيانات الاختبار مطلقًا: إذا كنت ترى نتائج جيدة بشكل مدهش على مقاييس التقييم، فقد تكون علامة على أنك تتدرب عن طريق الخطأ على مجموعة الاختبار. على سبيل المثال، قد تشير الدقة العالية إلى تسرب بيانات الاختبار إلى مجموعة التدريب.

على سبيل المثال، ضع في اعتبارك نموذجًا يتنبأ بما إذا كانت رسالة البريد الإلكتروني غير مرغوب فيها أم لا، باستخدام سطر الموضوع، ونص الرسالة الإلكترونية، وعنوان البريد الإلكتروني للمرسل كميزات. حيث يتم تقسيم البيانات إلى مجموعات تدريب واختبار، مع تقسيم 80-20. وبعد التدريب، يحقق النموذج دقة بنسبة 99% في كل من مجموعة التدريب ومجموعة الاختبار. كنا نتوقع دقة أقل في مجموعة الاختبار، لذلك نلقي نظرة أخرى على البيانات ونكتشف أن العديد من الأمثلة في مجموعة الاختبار هي نسخ مكررة من أمثلة في مجموعة التدريب (لقد تجاهلنا تنقيح الإدخالات المكررة لنفس البريد الإلكتروني غير المرغوب فيه من قاعدة بيانات الإدخال قبل تقسيم البيانات). تدربنا بدون قصد على بعض بيانات الاختبار، ونتيجة لذلك، لم نعد نقيس بدقة مدى جودة تعميم نموذجنا إلى البيانات الجديدة.