مجموعات البيانات: تقسيم مجموعة البيانات الأصلية

تُخصّص جميع مشاريع هندسة البرامج الجيدة قدرًا كبيرًا من الجهد لمحاولة اختبار تطبيقاتها. وبالمثل، ننصحك بشدة باختبار نموذج الذكاء الاصطناعي لتحديد صحة توقّعاته.

مجموعات التدريب والتحقّق والاختبار

يجب اختبار النموذج على مجموعة مختلفة من الأمثلة عن تلك التي تم استخدامها لتدريب النموذج. كما ستتعرّف عليه لاحقًا، يشكّل الاختبار على أمثلة مختلفة دليلاً أقوى على ملاءمة نموذجك مقارنةً بالاختبار على المجموعة نفسها من الأمثلة. من أين تحصل على هذه الأمثلة المختلفة؟ في العادة، في تعلُّم الآلة، يمكنك الحصول على هذه الأمثلة المختلفة من خلال تقسيم مجموعة البيانات الأصلية. يمكنك بالتالي افتراض أنّه عليك تقسيم مجموعة البيانات الأصلية إلى مجموعتَين فرعيتَين:

الشكل 8. شريط أفقي مقسم إلى قطعتَين: تشكل مجموعة التدريب ‎80% تقريبًا
            من الشريط وتشكل مجموعة الاختبار ‎20% تقريبًا.
الشكل 8. تقسيم غير مثالي

 

التمرين: التحقّق من حدسك

لنفترض أنّك تدرّبت على مجموعة التدريب واختبرت على مجموعة الاختبار على مدار جولات متعددة. في كل جولة، تستخدِم نتائج مجموعة الاختبار للتوجيه بشأن كيفية تعديل مَعلمات الخوارزميات الفائقة ومجموعة الميزات. هل يمكنك رؤية أي خطأ في هذا النهج؟ اختَر إجابة واحدة فقط.
هذه الطريقة غير فعّالة من الناحية الحسابية. لا تغيِّر مَعلمات الخوارزميات الفائقة أو مجموعات الميزات بعد كل جولة من الاختبار.
قد يؤدي إجراء العديد من الجولات من هذا الإجراء إلى ملاءمة النموذج بشكل ضمني لخصائص مجموعة الاختبار.
هذا النهج مناسب. بعد كل شيء، يتم التدريب على مجموعة التدريب ويتم التقييم على مجموعة اختبار منفصلة.

إنّ تقسيم مجموعة البيانات إلى مجموعتَين فكرة جيدة، ولكن النهج الأفضل هو تقسيم مجموعة البيانات إلى ثلاث مجموعات فرعية. بالإضافة إلى مجموعة التدريب ومجموعة الاختبار، تكون المجموعة الفرعية الثالثة هي:

الشكل 9 شريط أفقي مقسم إلى ثلاث قطع: تشكل مجموعة التدريب ‎70% منها، وتشكل مجموعة التحقّق ‎15%، وتشكل مجموعة الاختبار ‎15%
الشكل 9. تقسيم أفضل بكثير

استخدِم مجموعة التحقّق لتقييم النتائج من مجموعة التدريب. بعد أن يشير الاستخدام المتكرّر لمجموعة التحقّق إلى أنّ نموذجك يقدّم تنبؤات جيدة، استخدِم مجموعة الاختبار للتحقّق من صحة نموذجك.

يوضّح الشكل التالي سير العمل هذا. في الشكل، تعني "تعديل النموذج" تعديل أيّ شيء في النموذج ، بدءًا من تغيير معدّل التعلّم وإضافة ميزات أو إزالتها ووصولاً إلى تصميم نموذج جديد تمامًا من الصفر.

الشكل 10. مخطّط بياني لسير العمل يتألّف من المراحل التالية:
            1- تدريب النموذج على مجموعة التدريب
            2. تقييم النموذج على مجموعة التحقّق
            3- عدِّل النموذج وفقًا للنتائج الواردة في مجموعة التحقّق.
            4. كرِّر الخطوات 1 و2 و3، واختَر في النهاية النموذج الذي يؤدي
               بشكل أفضل في مجموعة التحقّق.
            5- أكِّد النتائج في مجموعة الاختبار.
الشكل 10. سير عمل جيد للتطوير والاختبار

سير العمل المعروض في الشكل 10 هو الأمثل، ولكن حتى مع سير العمل هذا، لا تزال مجموعات الاختبار ومجموعات التحقّق "تتلاشى" مع الاستخدام المتكرّر. وهذا يعني أنّه كلما زاد استخدامك للبيانات نفسها لاتّخاذ قرارات بشأن إعدادات مُدخلات الضبط أو تحسينات أخرى على النموذج، انخفضت ثقتك في أنّ النموذج سيقدّم توقّعات جيدة استنادًا إلى البيانات الجديدة. لهذا السبب، من المستحسن جمع المزيد من البيانات "لإعادة تحميل" مجموعة الاختبار ومجموعة التحقّق. إنّ بدء صفحة جديدة هو طريقة رائعة لإعادة الضبط.

التمرين: التحقّق من حدسك

لقد خلطت جميع الأمثلة في مجموعة البيانات وقسمت الأمثلة المُخلطة إلى مجموعات تدريب ومجموعة التحقّق ومجموعة اختبار. ومع ذلك، فإنّ قيمة الخسارة في مجموعة الاختبار منخفضة بشكلٍ مذهل ما يثير شكوكك في حدوث خطأ. ما الذي قد يكون حدث؟
من قبيل الصدفة، احتوت مجموعة الاختبار على أمثلة حقق فيها النموذج أداءً جيدًا.
التدريب والاختبار غير محدّدَين. في بعض الأحيان، قد يكون خسائر الاختبار منخفضة جدًا بغير قصد. يُرجى إعادة إجراء الاختبار لتأكيد النتيجة.
إنّ العديد من الأمثلة في مجموعة الاختبار هي نُسخ طبق الأصل من الأمثلة في مجموعة التدريب.

مشاكل إضافية في مجموعات الاختبار

كما يوضّح السؤال السابق، يمكن أن تؤثّر الأمثلة المكرّرة في تقييم النموذج. بعد تقسيم مجموعة بيانات إلى مجموعات تدريب ومجموعة التحقّق ومجموعة الاختبار، احذِف أي أمثلة في مجموعة التحقّق أو مجموعة الاختبار تكون نُسخًا مكرّرة من الأمثلة في مجموعة التدريب. الاختبار العادل الوحيد للنموذج هو اختباره على أمثلة جديدة، وليس النُسخ المكرّرة.

على سبيل المثال، نأخذ نموذجًا يتوقّع ما إذا كانت الرسالة الإلكترونية غير مرغوب فيها، وذلك باستخدام سطر الموضوع ونص الرسالة الإلكترونية وعنوان البريد الإلكتروني للمُرسِل كميزات. لنفترض أنّك قسمت البيانات إلى مجموعتَي تدريب واختبار بنسبة ‎80-20. بعد التدريب، يحقّق النموذج دقة بنسبة% 99 في كلّ من مجموعة التدريب و مجموعة الاختبار. من المرجّح أن تتوقّع دقة أقل في مجموعة الاختبار، لذا ألقِ نظرة أخرى على البيانات وتبيّن لك أنّ العديد من الأمثلة في مجموعة الاختبار هي نُسخ طبق الأصل من الأمثلة في مجموعة التدريب. المشكلة هي أنّك تجاهلت إزالة الإدخالات المكرّرة للرسالة الإلكترونية غير المرغوب فيها نفسها من قاعدة بيانات الإدخال قبل تقسيم البيانات. إذا تمّ تدريب النموذج عن غير قصد على بعض بيانات الاختبار

باختصار، تستوفي مجموعة الاختبار أو مجموعة التحقّق الجيدة جميع المعايير التالية:

  • أن تكون كبيرة بما يكفي لتقديم نتائج اختبار ذات دلالة إحصائية
  • تمثيل مجموعة البيانات ككل بعبارة أخرى، لا تختَر مجموعة اختبار لها خصائص مختلفة عن مجموعة التدريب.
  • تمثيل البيانات الواقعية التي سيصادفها النموذج كجزء من الغرض التجاري
  • لا تتوفّر أمثلة مكرّرة في مجموعة التدريب.

تمارين: التحقّق من فهمك

في حال توفّر مجموعة بيانات واحدة تتضمّن عددًا ثابتًا من الأمثلة، أيّ من العبارات التالية صحيحة؟
يجب أن يكون عدد الأمثلة في مجموعة الاختبار أكبر من عدد الأمثلة في مجموعة التحقّق أو مجموعة التدريب.
يجب أن يكون عدد الأمثلة في مجموعة الاختبار أكبر من عدد الأمثلة في مجموعة التحقّق.
كل مثال مستخدَم في اختبار النموذج هو مثال واحد أقل مستخدَم في تدريب النموذج.
لنفترض أنّ مجموعة الاختبار تحتوي على أمثلة كافية لإجراء اختبار ذو دلالة إحصائية. بالإضافة إلى ذلك، يؤدّي الاختبار على مجموعة الاختبار إلى خسارة منخفضة. ومع ذلك، كان أداء النموذج ضعيفًا في العالم الحقيقي. ما هي الإجراءات التي عليك اتخاذها؟
إعادة الاختبار على مجموعة الاختبار نفسها قد تكون نتائج الاختبار غير عادية.
حدِّد كيف تختلف مجموعة البيانات الأصلية عن البيانات الواقعية.
كم عدد الأمثلة التي يجب أن تحتوي عليها مجموعة الاختبار؟
‫15% على الأقل من مجموعة البيانات الأصلية
أمثلة كافية لإجراء اختبار ذي دلالة إحصائية