پس از جمعآوری دادهها و نمونهبرداری در صورت نیاز، گام بعدی تقسیم دادههای خود به مجموعههای آموزشی، مجموعههای اعتبارسنجی و مجموعههای آزمایشی است .
وقتی تقسیم تصادفی بهترین روش نیست
در حالی که تقسیم تصادفی بهترین روش برای بسیاری از مشکلات ML است، اما همیشه راه حل مناسبی نیست. به عنوان مثال، مجموعه داده هایی را در نظر بگیرید که در آن نمونه ها به طور طبیعی در نمونه های مشابه خوشه بندی شده اند.
فرض کنید می خواهید مدل شما موضوع را از متن یک مقاله خبری طبقه بندی کند. چرا یک تقسیم تصادفی مشکل ساز است؟
شکل 1. اخبار خوشه ای هستند.
داستانهای خبری بهصورت خوشهای ظاهر میشوند: چندین داستان درباره یک موضوع در همان زمان منتشر میشوند. بنابراین، اگر داده ها را به صورت تصادفی تقسیم کنیم، مجموعه آزمون و مجموعه آموزشی احتمالاً حاوی داستان های مشابهی خواهند بود. در واقعیت، به این ترتیب کار نمیکند، زیرا همه داستانها همزمان وارد میشوند، بنابراین انجام این تقسیمبندی باعث کج شدن میشود.
شکل 2. یک تقسیم تصادفی یک خوشه را در بین مجموعه ها تقسیم می کند و باعث انحراف می شود.
یک روش ساده برای رفع این مشکل این است که داده های خود را بر اساس زمان انتشار داستان، شاید بر اساس روز منتشر شده، تقسیم کنیم. این باعث میشود داستانهایی از همان روز در یک تقسیم قرار بگیرند.
شکل 3. تقسیم به موقع به خوشه ها اجازه می دهد تا اکثراً به یک مجموعه ختم شوند.
با دهها هزار خبر یا بیشتر، ممکن است درصدی در طول روز تقسیم شود. با این حال، اشکالی ندارد. در واقع این داستان ها در دو روز از چرخه اخبار تقسیم شدند. از طرف دیگر، میتوانید دادهها را در فاصله مشخصی از بریدگی خود بیرون بیاورید تا اطمینان حاصل کنید که هیچ همپوشانی ندارید. برای مثال، میتوانید داستانهای ماه آوریل را آموزش دهید، و سپس از هفته دوم ماه می بهعنوان مجموعه آزمایشی استفاده کنید، در حالی که فاصله هفته از همپوشانی جلوگیری میکند.