كانت الوحدة السابقة تشرح تقسيم مجموعة بيانات إلى مجموعة تدريب ومجموعة اختبار. وقد أتاح لك هذا التقسيم إمكانية التدرّب على مجموعة واحدة من الأمثلة ثم اختبار النموذج مقارنةً بمجموعة مختلفة من الأمثلة. في حال استخدام قسمَين، يمكن أن يظهر سير العمل على النحو التالي:
الشكل 1. أي سير عمل ممكن؟
في الشكل، يعني "تعديل النموذج" تعديل أي شيء في النموذج الذي يمكن أن تحلم به - بدءًا من تغيير معدل التعلم، إلى إضافة ميزات أو إزالتها، إلى تصميم نموذج جديد تمامًا من البداية. في نهاية سير العمل هذا، يمكنك اختيار النموذج الأفضل في مجموعة الاختبار.
يعد تقسيم مجموعة البيانات إلى مجموعتين فكرة جيدة، ولكن ليس علاجًا نفسيًا. يمكنك تقليل فرص حدوث فرط التخصيص بشكل كبير عن طريق تقسيم مجموعة البيانات إلى مجموعات فرعية ثلاث كما هو موضح في الشكل التالي:
الشكل 2. تقسيم مجموعة بيانات واحدة إلى ثلاث مجموعات فرعية
استخدِم مجموعة التحقّق لتقييم النتائج الواردة من مجموعة التطبيق. ثم استخدم مجموعة الاختبار لإعادة التحقق من تقييمك بعد أن "يجتاز" النموذج مجموعة التحقق. يوضح الشكل التالي سير العمل الجديد هذا:
الشكل 3. سير عمل أفضل
في سير العمل المحسّن هذا:
- اختر النموذج الأفضل أداءً في مجموعة التحقق من الصحة.
- تحقق مرة أخرى من هذا النموذج مقابل مجموعة الاختبار.
يعد هذا سير عمل أفضل لأنه يقلل من تعرض مجموعة الاختبار.