مجموعات البيانات: تقسيم مجموعة البيانات الأصلية

تخصص جميع المشروعات الهندسية الجيدة قدرًا كبيرًا من الطاقة اختبار تطبيقاتهم. وبالمثل، نقترح بشدة اختبار نموذج تعلُّم الآلة لتحديد مدى صحة تنبؤاته.

التدريب والتحقق ومجموعات الاختبار

يجب اختبار أحد النماذج مقارنةً بمجموعة مختلفة من الأمثلة غير تلك لتطبيق النموذج. كما ستتعلم بعد ذلك بقليل، في الأمثلة المختلفة هو دليل أقوى على ملاءمة نموذجك من الاختبار على نفس مجموعة الأمثلة. أين تحصل على هذه الأمثلة المختلفة؟ تقليديًا في مجال التعلم الآلي، من الحصول على تلك الأمثلة المختلفة عن طريق قسمة مجموعة البيانات الأصلية. قد تريد لنفترض أنه ينبغي لك تقسيم مجموعة البيانات الأصلية إلى مجموعتين فرعيتين:

الشكل 8. شريط أفقي مقسم إلى جزأين: حوالى 80% منهما
            هو مجموعة التطبيق وحوالي 20٪ هي مجموعة الاختبار.
الشكل 8. ليس التقسيم الأمثل.

 

تمرين: تحقق من حدسك

أفترض أنك تتدرب على مجموعة التطبيق وتقيِّم في مجموعة الاختبار خلال جولات متعددة. وفي كل جولة، يمكنك استخدام نتائج مجموعة الاختبار لتوجيه كيفية تحديث المعلَمات الفائقة ومجموعة الخصائص. هل يمكنك ترى أي خطأ في هذا النهج؟ يُرجى اختيار إجابة واحدة فقط.
وقد يؤدي إجراء العديد من الجولات من هذا الإجراء إلى حدوث بحيث تتناسب بشكل ضمني مع الخصائص المميزة لمجموعة الاختبار.
نعم. فكلما زاد استخدامك لنفس مجموعة الاختبار، زاد احتمال توافُق النموذج مع مجموعة الاختبار بشكل وثيق. مثل المعلم "التدريس للاختبار"، النموذج عن غير قصد مناسبًا لمجموعة الاختبار، مما قد يجعل من الصعب على النموذج لتتناسب مع البيانات الواقعية.
هذا الأسلوب جيد. بعد كل شيء، أنت تتدرب على مجموعة تدريب وتقييمها في مجموعة اختبار منفصلة.
في الواقع، هناك مشكلة بسيطة هنا. فكر فيما قد يخطئون تدريجيًا.
وهذا المنهج غير فعال من الناحية الحسابية. عدم التغيير المُدخلات الفائقة أو مجموعات الخصائص بعد كل جولة من الاختبار.
الاختبار المتكرر مكلف ولكنه بالغ الأهمية. ومع ذلك، إجراء الاختبار أقل تكلفة بكثير من التدريب الإضافي. يتم التحسين يمكن للمعلَمات الفائقة ومجموعة الخصائص تحسين جودة النموذج، لذا دائمًا ما يتم توفير وقت الميزانية والموارد الحاسوبية للعمل عليها.

يعد تقسيم مجموعة البيانات إلى مجموعتين فكرة جيدة، ولكن هناك طريقة أفضل وهي تقسيم مجموعة البيانات إلى ثلاث مجموعات فرعية. بالإضافة إلى مجموعة التطبيق ومجموعة الاختبار، المجموعة الفرعية الثالثة هي:

الشكل 9. شريط أفقي مقسم إلى ثلاث قطع: 70% منها
            هو مجموعة التطبيق، و15% من مجموعة التحقق، و15%
            مجموعة الاختبار
الشكل 9: تقسيم أفضل بكثير.

استخدِم مجموعة التحقّق من الصحة لتقييم النتائج من مجموعة التدريب. فبعد الاستخدام المتكرر لمجموعة التحقق يشير إلى أن النموذج الخاص بك لتقديم تنبؤات جيدة، استخدم مجموعة الاختبار لإعادة التحقق من نموذجك.

يشير الشكل التالي إلى سير العمل هذا. في الشكل، "تعديل النموذج" يعني تعديل أي شيء حول النموذج —بدءًا من تغيير معدل التعلم، إلى إضافة أو إزالة الميزات، إلى تصميم نموذج جديد تمامًا من البداية. وفي نهاية سير العمل هذا، يمكنك اختيار النموذج الذي يحقق أفضل أداء في مجموعة الاختبار.

الشكل 10. مخطط لسير العمل يتكون من المراحل التالية:
            1- نموذج تدريب في مجموعة التدريب.
            2. تقييم النموذج على مجموعة التحقق من الصحة
            3- عدِّل النموذج وفقًا للنتائج الواردة في مجموعة التحقق من الصحة.
            4. التكرار في 1 و2 و3، وفي النهاية اختيار النموذج الذي
               الأفضل في مجموعة التحقق.
            5- أكِّد النتائج على مجموعة الاختبار.
الشكل 10. سير عمل جيد للتطوير والاختبار.

ويعد سير العمل الموضح في الشكل 10 مثاليًا، ولكن حتى مع سير العمل هذا، مجموعات الاختبار ومجموعات التحقق لا تزال في حالة "تلف" مع الاستخدام المتكرر لها. أي أنك كلما استخدمت نفس البيانات لاتخاذ قرارات بشأن أو إعدادات المعلمة الفائقة أو التحسينات الأخرى في النموذج، قلت أن النموذج سيقدم تنبؤات جيدة بشأن البيانات الجديدة. لهذا السبب، من المستحسن جمع المزيد من البيانات من أجل "إعادة التحميل" الاختبار مجموعة التحقق من الصحة. إن البدء من جديد يعني إعادة تعيين رائعة.

تمرين: تحقق من حدسك

لقد خلطت جميع الأمثلة في مجموعة البيانات وقمت بتقسيمها الأمثلة العشوائية في التطبيق والتحقق من الصحة والاختبار مجموعات. غير أن قيمة الخسارة في مجموعة الاختبار منخفضة للغاية بشكل مذهل أنك تشك في حدوث خطأ ما. ما الخطأ الذي ربما حدث؟
فالعديد من الأمثلة في مجموعة الاختبار عبارة عن نسخ مكررة من الأمثلة في مجموعة التطبيق.
نعم. يمكن أن تكون هذه مشكلة في مجموعة بيانات بها الكثير من التكرارات الأمثلة. نوصي بشدة بحذف الأمثلة المكررة من مجموعة الاختبار قبل الاختبار.
التدريب والاختبار غير محددين. في بعض الأحيان، عن طريق الصدفة، تكون خسارة الاختبار منخفضة للغاية. عليك إعادة إجراء الاختبار لتأكيد نتيجته.
رغم أن الخسارة تختلف قليلاً في كل تمرين، إلا أنها لا ينبغي أن تختلف أنك تعتقد أنك فزت بيانصيب التعلم الآلي.
عن طريق الصدفة، احتوت مجموعة الاختبار على أمثلة أداء النموذج جيدًا.
تم ترتيب الأمثلة عشوائيًا بشكل جيد، لذلك من غير المرجح أن يحدث ذلك.

مسائل إضافية متعلقة بمجموعات الاختبار

كما يوضح السؤال السابق، يمكن أن تؤثر الأمثلة المكررة على تقييم النموذج. وبعد تقسيم مجموعة البيانات إلى مجموعات تطبيق والتحقق من الصحة والاختبار، حذف أي أمثلة في مجموعة التحقق أو مجموعة الاختبار والتي تكون مكررة من الأمثلة في مجموعة التطبيق. الاختبار العادل الوحيد لأي نموذج هو مقابل أمثلة جديدة، وليس تكرارات.

فعلى سبيل المثال، ضع في الاعتبار نموذجًا للتنبؤ بما إذا كانت رسالة البريد الإلكتروني غير مرغوب فيها أم لا، وباستخدام سطر الموضوع ونص الرسالة الإلكترونية وعنوان البريد الإلكتروني للمرسل كميزات. لنفترض أنك قسّمت البيانات إلى مجموعات تطبيق واختبار، بتقسيم 80-20. بعد التطبيق، يحقق النموذج دقة بنسبة 99% في كل من مجموعة التطبيق مجموعة الاختبار. ربما تتوقع دقة أقل في مجموعة الاختبار، لذا إلقاء نظرة أخرى على البيانات واكتشاف أن العديد من الأمثلة في الاختبار مجموعة هي تكرارات لأمثلة في مجموعة التطبيق. المشكلة هي أنك تم إهمال مسح الإدخالات المكررة للبريد الإلكتروني غير المرغوب فيه نفسه من البيانات التي أدخلتها قاعدة البيانات قبل قسمة البيانات. لقد تدربت بدون قصد على بعض بيانات الاختبار.

باختصار، تلبي مجموعة الاختبار الجيدة أو مجموعة التحقق من الصحة جميع المعايير التالية:

  • كبيرة بما يكفي لتحقيق نتائج اختبار ذات دلالة إحصائية.
  • ممثل مجموعة البيانات ككل. بمعنى آخر، لا تختار مجموعة اختبار لها خصائص مختلفة عن مجموعة التطبيق.
  • ممثل بيانات العالم الحقيقي التي سيواجهها النموذج كجزء من الغرض من أعمالها.
  • لا توجد أمثلة مكررة في مجموعة التطبيق.

تمارين: التحقق من فهمك

بناءً على مجموعة بيانات واحدة بها عدد ثابت من الأمثلة، أي من العبارات التالية صحيحة؟
كل مثال يتم استخدامه في اختبار النموذج هو مثال أقل استخدامًا في تطبيق النموذج.
تعتبر لعبة تقسيم الأمثلة إلى مجموعات تطبيق/اختبار/التحقق من الصحة لعبة صفرية. هذه هي المقايضة المركزية.
يجب أن يكون عدد الأمثلة في مجموعة الاختبار أكبر من عدد الأمثلة في مجموعة التحقق من الصحة.
من الناحية النظرية، يجب أن تحتوي مجموعة التحقق من الصحة واختبار الاختبار على نفس أو عدد الأمثلة تقريبًا أو نحو ذلك.
يجب أن يكون عدد الأمثلة في مجموعة الاختبار أكبر من عدد الأمثلة في مجموعة التحقق أو مجموعة التدريب.
وعادةً ما يكون عدد الأمثلة في مجموعة التطبيق أكبر من عدد الأمثلة في مجموعة التحقق أو مجموعة الاختبار؛ وَلَكِنْ وليست هناك أي متطلبات للنسبة المئوية للمجموعات المختلفة.
لنفترض أن مجموعة الاختبار تحتوي على أمثلة كافية لإجراء اختبار ذو دلالة إحصائية. علاوة على ذلك، يساعد الاختبار مقابل مجموعة الاختبار ينتج عنها خسارة منخفضة. ومع ذلك، نفذ النموذج سيئ في العالم الحقيقي. ما هي الإجراءات التي عليك اتخاذها؟
حدد كيف تختلف مجموعة البيانات الأصلية عن البيانات الواقعية.
نعم. حتى أفضل مجموعات البيانات هي مجرد لقطة لبيانات واقعية؛ الجزء الأساسي الواقع تميل إلى التغير بمرور الوقت. وعلى الرغم من تطابق مجموعة الاختبار مع التدريب جيدًا بما يكفي لاقتراح جودة نموذج جيدة، مجموعة البيانات ربما لا تتطابق بشكل كافٍ مع بيانات العالم الحقيقي. قد تضطر إلى إعادة التدريب وإعادة الاختبار مقابل مجموعة بيانات جديدة.
أعِد الاختبار على مجموعة الاختبار نفسها. قد تحتوي نتائج الاختبار على يعد أمرًا غير مألوف.
وعلى الرغم من أن إعادة الاختبار قد تسفر عن نتائج مختلفة قليلاً، فإن هذا الأسلوب ربما لا يكون مفيدًا للغاية.
كم عدد الأمثلة التي يجب أن تحتوي عليها مجموعة الاختبار؟
أمثلة كافية للتوصل إلى اختبار ذي دلالة إحصائية.
نعم. كم عدد الأمثلة على ذلك؟ ستحتاج إلى التجربة.
15% على الأقل من مجموعة البيانات الأصلية.
و% 15 قد تكون أو لا تكون أمثلة كافية.