نمونه برداری و تقسیم: درک خود را بررسی کنید

برای سوالات زیر، روی فلش مورد نظر کلیک کنید تا پاسخ خود را بررسی کنید:

تصور کنید که یک مجموعه داده با نسبت مثبت به منفی 1:1000 دارید. متأسفانه، مدل شما همیشه طبقه اکثریت را پیش‌بینی می‌کند. چه تکنیکی به شما کمک می کند تا با این مشکل مقابله کنید؟ توجه داشته باشید که می خواهید مدل یک احتمال کالیبره شده را گزارش کند.
فقط نمونه های منفی را پایین بیاورید.
این شروع خوبی است، اما شما نرخ پایه مدل را تغییر خواهید داد، بنابراین دیگر کالیبره نمی شود.
نمونه های منفی (کلاس اکثریت) را پایین بیاورید. سپس طبقه پایین نمونه را با همان فاکتور وزن کنید.
این یک راه موثر برای مقابله با داده های نامتعادل و همچنان توزیع واقعی برچسب ها است. توجه داشته باشید که مهم است که آیا مدل یک احتمال کالیبره شده را گزارش می دهد یا خیر. اگر نیازی به کالیبره شدن ندارد، لازم نیست نگران تغییر نرخ پایه باشید.
کدام تکنیک ها داده ها را از دنباله یک مجموعه داده از دست می دهند؟ همه موارد اعمال شده را بررسی کنید.
فیلتر PII
فیلتر کردن PII از داده های شما می تواند اطلاعات موجود در دم را حذف کند و توزیع شما را منحرف کند.
وزن دهی
وزن دهی مثال اهمیت مثال های مختلف را تغییر می دهد، اما اطلاعات را از دست نمی دهد. در واقع، اضافه کردن وزن به نمونه های دم می تواند به مدل شما کمک کند تا رفتار دم را یاد بگیرد.
کاهش نمونه
دنباله توزیع ویژگی ها اطلاعات را در نمونه برداری پایین از دست می دهد. با این حال، از آنجایی که ما معمولاً کلاس اکثریت را پایین می آوریم، این ضرر معمولاً مشکل بزرگی نیست.
عادی سازی
عادی سازی بر روی نمونه های فردی عمل می کند، بنابراین باعث سوگیری نمونه گیری نمی شود.
شما روی یک مشکل طبقه بندی کار می کنید و داده ها را به طور تصادفی به مجموعه های آموزشی، ارزیابی و آزمایش تقسیم می کنید. به نظر می رسد طبقه بندی کننده شما کاملاً کار می کند! اما در تولید، طبقه بندی کننده یک شکست کامل است. بعداً متوجه می شوید که مشکل ناشی از تقسیم تصادفی است. چه نوع داده هایی مستعد این مشکل هستند؟
داده های سری زمانی
تقسیم تصادفی هر خوشه را در تقسیم آزمایش/قطار تقسیم می‌کند و یک «پیش‌نمایش مخفیانه» برای مدلی ارائه می‌کند که در تولید در دسترس نخواهد بود.
داده هایی که در طول زمان تغییر چندانی نمی کنند
اگر اطلاعات شما در طول زمان تغییر چندانی نکند، با تقسیم تصادفی شانس بیشتری خواهید داشت. به عنوان مثال، ممکن است بخواهید نژاد سگ را در عکس ها شناسایی کنید یا بر اساس داده های بیومتریک قبلی، بیمارانی را که در معرض خطر نقص قلبی هستند پیش بینی کنید. در هر دو مورد، داده ها به طور کلی در طول زمان تغییر نمی کنند، بنابراین تقسیم تصادفی نباید مشکلی ایجاد کند.
گروه بندی داده ها
مجموعه آزمون همیشه بسیار شبیه به مجموعه آموزشی خواهد بود زیرا خوشه هایی از داده های مشابه در هر دو مجموعه هستند. به نظر می رسد این مدل از قدرت پیش بینی بهتری نسبت به آن برخوردار است.
داده‌ها با انفجار (داده‌هایی که به صورت پشت سر هم متناوب می‌رسند بر خلاف جریان پیوسته)
خوشه هایی از داده های مشابه (انفجارها) هم در آموزش و هم در آزمایش نشان داده می شوند. این مدل در آزمایش پیش بینی های بهتری نسبت به داده های جدید انجام می دهد.