تقسیم داده های شما

همانطور که مثال داستان خبری نشان می دهد، یک تقسیم تصادفی خالص همیشه رویکرد درستی نیست.

یک تکنیک متداول برای سیستم های آنلاین این است که داده ها را بر اساس زمان تقسیم کنید، به طوری که:

30 روز داده جمع آوری کنید.
آموزش داده ها از روزهای 1 تا 29.
بر اساس داده های روز 30 ارزیابی کنید.

برای سیستم‌های آنلاین، داده‌های آموزشی قدیمی‌تر از داده‌های ارائه‌شده هستند، بنابراین این تکنیک تضمین می‌کند که مجموعه اعتبارسنجی شما بازتاب تاخیر بین آموزش و سرویس است. با این حال، تقسیم‌های مبتنی بر زمان با مجموعه داده‌های بسیار بزرگ، مانند آنهایی که ده‌ها میلیون نمونه دارند، بهترین کار را دارند. در پروژه‌هایی با داده‌های کمتر، توزیع‌ها بین آموزش، اعتبارسنجی و آزمایش کاملاً متفاوت است.

همچنین نقص تقسیم داده‌ها از پروژه ادبیات یادگیری ماشینی را که در دوره تصادف یادگیری ماشین توضیح داده شده است، به یاد بیاورید. داده ها ادبیاتی بود که توسط یکی از سه نویسنده نوشته شده بود، بنابراین داده ها به سه گروه اصلی تقسیم شدند. از آنجایی که تیم یک تقسیم تصادفی را اعمال کرد، داده‌های هر گروه در مجموعه‌های آموزش، ارزیابی و آزمایش وجود داشت، بنابراین مدل از اطلاعاتی که لزوماً در زمان پیش‌بینی در اختیار نداشت، آموخت. این مشکل می‌تواند هر زمان که داده‌های شما گروه‌بندی می‌شوند، چه به‌عنوان داده‌های سری زمانی، چه به‌وسیله معیارهای دیگر خوشه‌بندی شوند. دانش دامنه می تواند نحوه تقسیم داده های خود را به شما اطلاع دهد.

برای بررسی بیشتر، این ماژول‌ها را در دوره آموزشی Crash Learning Machine ببینید: