تقسيم البيانات

وكما يوضّح مثال القصة الإخبارية، فإن التقسيم العشوائي فقط ليس دائمًا المنهج الصحيح.

من الأساليب المتكررة للأنظمة على الإنترنت تقسيم البيانات حسب الوقت، بهذه الطريقة:

  • جمع البيانات على مدار 30 يومًا
  • تمر القطار على البيانات من اليوم الأول إلى اليوم التاسع.
  • التقييم استنادًا إلى بيانات اليوم الـ 30

بالنسبة إلى الأنظمة على الإنترنت، تكون بيانات التدريب أقدم من بيانات العرض، لذا يضمن هذا الأسلوب أن مجموعة التحقق من الصحة تعكس الفجوة بين التدريب والعرض. ومع ذلك، تعمل التقسيمات المستندة إلى الوقت بشكل أفضل مع مجموعات البيانات الكبيرة جدًا، مثل تلك التي تحتوي على عشرات الملايين من الأمثلة. في المشاريع التي تحتوي على بيانات أقل، تختلف التوزيعات بشكلٍ كبير بين التدريب والتحقّق والاختبار.

تذكّر أيضًا وجود عيّن تقسيم البيانات في مشروع أدب التعلم الآلي الذي تم وصفه في الدورة التدريبية لتعلّم الآلة. وكانت البيانات الأدبية من تأليف أحد المؤلفين الثلاثة، لذا تم تقسيم البيانات إلى ثلاث مجموعات رئيسية. وبما أن الفريق طبّق تقسيمًا عشوائيًا، كانت البيانات الواردة من كل مجموعة موجودة في مجموعات التدريب والتقييم والاختبار، لذا تعلّم النموذج من المعلومات التي لم يكن ضروريًا لها في وقت التوقّع. ويمكن أن تحدث هذه المشكلة في أي وقت يتم فيه تجميع بياناتك، سواء كانت بيانات سلسلة زمنية أو مجمَّعة حسب معايير أخرى. يمكنك من خلال معرفة النطاق معرفة كيفية تقسيم بياناتك.

لإجراء مراجعة إضافية، يُرجى الاطّلاع على هذه الوحدات في الدورة التدريبية لتعلُّم الآلة: