همانطور که مثال داستان خبری نشان می دهد، یک تقسیم تصادفی خالص همیشه رویکرد درستی نیست.
یک تکنیک متداول برای سیستم های آنلاین این است که داده ها را بر اساس زمان تقسیم کنید، به طوری که:
- 30 روز داده جمع آوری کنید.
- آموزش داده ها از روزهای 1 تا 29.
- بر اساس داده های روز 30 ارزیابی کنید.
برای سیستمهای آنلاین، دادههای آموزشی قدیمیتر از دادههای ارائهشده هستند، بنابراین این تکنیک تضمین میکند که مجموعه اعتبارسنجی شما بازتاب تاخیر بین آموزش و سرویس است. با این حال، تقسیمهای مبتنی بر زمان با مجموعه دادههای بسیار بزرگ، مانند آنهایی که دهها میلیون نمونه دارند، بهترین کار را دارند. در پروژههایی با دادههای کمتر، توزیعها بین آموزش، اعتبارسنجی و آزمایش کاملاً متفاوت است.
همچنین نقص تقسیم دادهها از پروژه ادبیات یادگیری ماشینی را که در دوره تصادف یادگیری ماشین توضیح داده شده است، به یاد بیاورید. داده ها ادبیاتی بود که توسط یکی از سه نویسنده نوشته شده بود، بنابراین داده ها به سه گروه اصلی تقسیم شدند. از آنجایی که تیم یک تقسیم تصادفی را اعمال کرد، دادههای هر گروه در مجموعههای آموزش، ارزیابی و آزمایش وجود داشت، بنابراین مدل از اطلاعاتی که لزوماً در زمان پیشبینی در اختیار نداشت، آموخت. این مشکل میتواند هر زمان که دادههای شما گروهبندی میشوند، چه بهعنوان دادههای سری زمانی، چه بهوسیله معیارهای دیگر خوشهبندی شوند. دانش دامنه می تواند نحوه تقسیم داده های خود را به شما اطلاع دهد.
برای بررسی بیشتر، این ماژولها را در دوره آموزشی Crash Learning Machine ببینید: