مثال على تقسيم البيانات

بعد جمع بياناتك وأخذ عينات منها عند الحاجة، تتمثل الخطوة التالية في تقسيم بياناتك إلى مجموعات التدريب ومجموعات التحقق ومجموعات الاختبار.

عندما لا يكون "التقسيم العشوائي" أفضل منهج

على الرغم من أن التقسيم العشوائي هو الطريقة الأفضل للعديد من مشاكل تعلّم الآلة، إلا أنها ليست دائمًا الحل المناسب. على سبيل المثال، ضع في الاعتبار مجموعات البيانات التي يتم فيها تجميع الأمثلة بشكل طبيعي في أمثلة مشابهة.

لنفترض أنك تريد أن يصنّف النموذج الموضوع من نص مقالة إخبارية. لماذا يسبّب التقسيم العشوائي مشكلة؟

تظهر أربع مجموعات منفصلة من المقالات (المصنّفة والقصة 1&القصة&، والقصة 2&القصة;&&القشرة 3&القصاصة&و&القصة 4&القصاصة) على مخطط زمني. الشكل 1. يتم تجميع القصص الإخبارية.

تظهر الأخبار في مجموعات: يتم نشر أخبار متعددة حول الموضوع نفسه في الوقت نفسه تقريبًا. وبالتالي، إذا قسّمنا البيانات عشوائيًا، يمكن أن تحتوي مجموعة الاختبار ومجموعة التدريب على الأخبار نفسها. في الواقع، لا يمكنك العمل بهذه الطريقة لأنّ جميع القصص ستظهر في الوقت نفسه، لذا سيؤدي التقسيم كهذا إلى حدوث انحراف.

لم تعُد المقالات نفسها من الشكل 1 متوفّرة على مخطط زمني. وبدلاً من ذلك، يتم الآن تقسيم المقالات عشوائيًا إلى
 مجموعة تدريب ومجموعة اختبار. وتحتوي مجموعة التدريب ومجموعة الاختبار على مزيج من الأمثلة المختلفة من القصص الأربع. الشكل 2. سيؤدي التقسيم العشوائي إلى تقسيم مجموعة على مجموعات، ما يؤدي إلى انحراف.

أحد الأساليب البسيطة لحل هذه المشكلة هو تقسيم بياناتنا استنادًا إلى وقت نشر القصة، ربما حسب يوم نشر القصة. وينتج عن ذلك تقسيم الأخبار من اليوم نفسه إلى التقسيم نفسه.

تم الآن تقسيم المخطط الزمني الأصلي من الشكل 1 إلى مجموعة تدريب ومجموعة اختبار. تم العثور على جميع المقالات من "القصة 1" و"القصة 1" و"القصة 2": الشكل 3. ويسمح التقسيم في الوقت نفسه بانتهاء صلاحية المجموعات في الغالب في المجموعة نفسها.

وقد يتم تقسيم نسبة مئوية على مدار أيام عشرات آلاف الأخبار الإخبارية أو أكثر. لا بأس، ولكن في الواقع، تم تقسيم هذه الأخبار على مدار يومين من دورة الأخبار. يمكنك بدلاً من ذلك رمي البيانات ضمن مسافة معينة من الموعد النهائي لضمان عدم حدوث أي تداخل. على سبيل المثال، يمكنك التدريب على سرد القصص في شهر نيسان (أبريل)، ثم استخدام الأسبوع الثاني من شهر أيار (مايو) على أنه مجموعة الاختبار، مع منع الفجوة الأسبوعية مع التداخل.