بعد جمع بياناتك وأخذ عينات منها عند الحاجة، تتمثل الخطوة التالية في تقسيم بياناتك إلى مجموعات التدريب ومجموعات التحقق ومجموعات الاختبار.
عندما لا يكون "التقسيم العشوائي" أفضل منهج
على الرغم من أن التقسيم العشوائي هو الطريقة الأفضل للعديد من مشاكل تعلّم الآلة، إلا أنها ليست دائمًا الحل المناسب. على سبيل المثال، ضع في الاعتبار مجموعات البيانات التي يتم فيها تجميع الأمثلة بشكل طبيعي في أمثلة مشابهة.
لنفترض أنك تريد أن يصنّف النموذج الموضوع من نص مقالة إخبارية. لماذا يسبّب التقسيم العشوائي مشكلة؟
الشكل 1. يتم تجميع القصص الإخبارية.
تظهر الأخبار في مجموعات: يتم نشر أخبار متعددة حول الموضوع نفسه في الوقت نفسه تقريبًا. وبالتالي، إذا قسّمنا البيانات عشوائيًا، يمكن أن تحتوي مجموعة الاختبار ومجموعة التدريب على الأخبار نفسها. في الواقع، لا يمكنك العمل بهذه الطريقة لأنّ جميع القصص ستظهر في الوقت نفسه، لذا سيؤدي التقسيم كهذا إلى حدوث انحراف.
الشكل 2. سيؤدي التقسيم العشوائي إلى تقسيم مجموعة على مجموعات، ما يؤدي إلى انحراف.
أحد الأساليب البسيطة لحل هذه المشكلة هو تقسيم بياناتنا استنادًا إلى وقت نشر القصة، ربما حسب يوم نشر القصة. وينتج عن ذلك تقسيم الأخبار من اليوم نفسه إلى التقسيم نفسه.
الشكل 3. ويسمح التقسيم في الوقت نفسه بانتهاء صلاحية المجموعات في الغالب في المجموعة نفسها.
وقد يتم تقسيم نسبة مئوية على مدار أيام عشرات آلاف الأخبار الإخبارية أو أكثر. لا بأس، ولكن في الواقع، تم تقسيم هذه الأخبار على مدار يومين من دورة الأخبار. يمكنك بدلاً من ذلك رمي البيانات ضمن مسافة معينة من الموعد النهائي لضمان عدم حدوث أي تداخل. على سبيل المثال، يمكنك التدريب على سرد القصص في شهر نيسان (أبريل)، ثم استخدام الأسبوع الثاني من شهر أيار (مايو) على أنه مجموعة الاختبار، مع منع الفجوة الأسبوعية مع التداخل.