نمونه تقسیم داده ها

پس از جمع‌آوری داده‌ها و نمونه‌برداری در صورت نیاز، گام بعدی تقسیم داده‌های خود به مجموعه‌های آموزشی، مجموعه‌های اعتبارسنجی و مجموعه‌های آزمایشی است .

وقتی تقسیم تصادفی بهترین روش نیست

در حالی که تقسیم تصادفی بهترین روش برای بسیاری از مشکلات ML است، اما همیشه راه حل مناسبی نیست. به عنوان مثال، مجموعه داده هایی را در نظر بگیرید که در آن نمونه ها به طور طبیعی در نمونه های مشابه خوشه بندی شده اند.

فرض کنید می خواهید مدل شما موضوع را از متن یک مقاله خبری طبقه بندی کند. چرا یک تقسیم تصادفی مشکل ساز است؟

چهار دسته مجزا از مقالات (با برچسب "داستان 1"، "داستان 2"، "داستان 3" و "داستان 4") در یک جدول زمانی ظاهر می شوند. شکل 1. اخبار خوشه ای هستند.

داستان‌های خبری به‌صورت خوشه‌ای ظاهر می‌شوند: چندین داستان درباره یک موضوع در همان زمان منتشر می‌شوند. بنابراین، اگر داده ها را به صورت تصادفی تقسیم کنیم، مجموعه آزمون و مجموعه آموزشی احتمالاً حاوی داستان های مشابهی خواهند بود. در واقعیت، به این ترتیب کار نمی‌کند، زیرا همه داستان‌ها همزمان وارد می‌شوند، بنابراین انجام این تقسیم‌بندی باعث کج شدن می‌شود.

همان مقالات شکل 1 دیگر در جدول زمانی نیستند. در عوض، مقالات به طور تصادفی به یک مجموعه آموزشی و یک مجموعه آزمایشی تقسیم می شوند. مجموعه آموزشی و مجموعه تست هر کدام شامل ترکیبی از نمونه های مختلف از هر چهار داستان است. شکل 2. یک تقسیم تصادفی یک خوشه را در بین مجموعه ها تقسیم می کند و باعث انحراف می شود.

یک روش ساده برای رفع این مشکل این است که داده های خود را بر اساس زمان انتشار داستان، شاید بر اساس روز منتشر شده، تقسیم کنیم. این باعث می‌شود داستان‌هایی از همان روز در یک تقسیم قرار بگیرند.

جدول زمانی اصلی از شکل 1 اکنون به یک مجموعه آموزشی و یک مجموعه آزمایشی تقسیم شده است. تمامی مقالات "داستان 1" و "داستان 2" در مجموعه آموزشی و تمامی مقالات "داستان 3" و "داستان 4" در مجموعه تست قرار دارند. شکل 3. تقسیم به موقع به خوشه ها اجازه می دهد تا اکثراً به یک مجموعه ختم شوند.

با ده‌ها هزار خبر یا بیشتر، ممکن است درصدی در طول روز تقسیم شود. با این حال، اشکالی ندارد. در واقع این داستان ها در دو روز از چرخه اخبار تقسیم شدند. از طرف دیگر، می‌توانید داده‌ها را در فاصله مشخصی از بریدگی خود بیرون بیاورید تا اطمینان حاصل کنید که هیچ همپوشانی ندارید. برای مثال، می‌توانید داستان‌های ماه آوریل را آموزش دهید، و سپس از هفته دوم ماه می به‌عنوان مجموعه آزمایشی استفاده کنید، در حالی که فاصله هفته از همپوشانی جلوگیری می‌کند.