مجموعة التحقق من الصحة: قسم آخر

كانت الوحدة السابقة تشرح تقسيم مجموعة بيانات إلى مجموعة تدريب ومجموعة اختبار. وقد أتاح لك هذا التقسيم إمكانية التدرّب على مجموعة واحدة من الأمثلة ثم اختبار النموذج مقارنةً بمجموعة مختلفة من الأمثلة. في حال استخدام قسمَين، يمكن أن يظهر سير العمل على النحو التالي:

مخطط لسير العمل يتكون من ثلاث مراحل. 1- تدريب على مجموعة التدريب 2. تقييم النموذج في مجموعة الاختبار 3. تعديل النموذج وفقًا للنتائج الواردة في مجموعة الاختبار. كرر على 1 و2 و3، واختار في النهاية النموذج الذي يعمل بشكل أفضل في مجموعة الاختبار.

الشكل 1. أي سير عمل ممكن؟

في الشكل، يعني "تعديل النموذج" تعديل أي شيء في النموذج الذي يمكن أن تحلم به - بدءًا من تغيير معدل التعلم، إلى إضافة ميزات أو إزالتها، إلى تصميم نموذج جديد تمامًا من البداية. في نهاية سير العمل هذا، يمكنك اختيار النموذج الأفضل في مجموعة الاختبار.

يعد تقسيم مجموعة البيانات إلى مجموعتين فكرة جيدة، ولكن ليس علاجًا نفسيًا. يمكنك تقليل فرص حدوث فرط التخصيص بشكل كبير عن طريق تقسيم مجموعة البيانات إلى مجموعات فرعية ثلاث كما هو موضح في الشكل التالي:

شريط أفقي مقسم إلى ثلاث قطع: 70٪ منها مجموعة التدريب و15٪ مجموعة التحقق و15٪ مجموعة الاختبار

الشكل 2. تقسيم مجموعة بيانات واحدة إلى ثلاث مجموعات فرعية

استخدِم مجموعة التحقّق لتقييم النتائج الواردة من مجموعة التطبيق. ثم استخدم مجموعة الاختبار لإعادة التحقق من تقييمك بعد أن "يجتاز" النموذج مجموعة التحقق. يوضح الشكل التالي سير العمل الجديد هذا:

سير عمل مشابه للشكل 1، باستثناء أنه بدلاً من تقييم النموذج مقابل مجموعة الاختبار، يقيّم سير العمل النموذج مقابل مجموعة التحقق. بعد ذلك، بمجرد الاتفاق بين مجموعة التطبيق ومجموعة التحقق على الأقل، قم بتأكيد النموذج على مجموعة الاختبار.

الشكل 3. سير عمل أفضل

في سير العمل المحسّن هذا:

  1. اختر النموذج الأفضل أداءً في مجموعة التحقق من الصحة.
  2. تحقق مرة أخرى من هذا النموذج مقابل مجموعة الاختبار.

يعد هذا سير عمل أفضل لأنه يقلل من تعرض مجموعة الاختبار.