مجموعه داده ای را در نظر بگیرید که حاوی یک برچسب دسته بندی است که مقدار آن مثبت یا منفی است. در یک مجموعه داده متعادل ، تعداد برچسب های مثبت و منفی تقریباً برابر است. با این حال، اگر یک برچسب از برچسب دیگر رایج تر باشد، مجموعه داده نامتعادل است. برچسب غالب در یک مجموعه داده نامتعادل، کلاس اکثریت نامیده می شود. برچسب کمتر رایج را کلاس اقلیت می نامند.
جدول زیر نام ها و محدوده های پذیرفته شده کلی را برای درجات مختلف عدم تعادل ارائه می دهد:
درصد داده های متعلق به کلاس اقلیت | درجه عدم تعادل |
---|---|
20-40٪ از مجموعه داده | خفیف |
1-20٪ از مجموعه داده | متوسط |
<1٪ از مجموعه داده | افراطی |
به عنوان مثال، یک مجموعه داده شناسایی ویروس را در نظر بگیرید که در آن کلاس اقلیت 0.5٪ از مجموعه داده و کلاس اکثریت نشان دهنده 99.5٪ است. مجموعه داده های بسیار نامتعادل مانند این در پزشکی رایج است زیرا اکثر افراد مبتلا به ویروس نیستند.
مجموعه داده های نامتعادل گاهی اوقات حاوی نمونه های کلاس اقلیت کافی برای آموزش صحیح یک مدل نیستند. یعنی با تعداد بسیار کمی از برچسبهای مثبت، مدل تقریباً منحصراً روی برچسبهای منفی آموزش میدهد و نمیتواند به اندازه کافی درباره برچسبهای مثبت یاد بگیرد. به عنوان مثال، اگر اندازه دسته 50 باشد، بسیاری از دسته ها فاقد برچسب مثبت هستند.
اغلب، بهویژه برای مجموعه دادههای با نامتعادل خفیف و برخی از مجموعههای داده نسبتاً نامتعادل، عدم تعادل مشکلی ایجاد نمیکند. بنابراین، ابتدا باید آموزش روی مجموعه داده اصلی را امتحان کنید. اگر مدل به خوبی کار می کند، کار شما تمام شده است. اگر نه، حداقل مدل زیر بهینه، مبنای خوبی برای آزمایشهای آینده فراهم میکند. پس از آن، می توانید تکنیک های زیر را برای غلبه بر مشکلات ناشی از مجموعه داده های نامتعادل امتحان کنید.
Downsampling و Upweighting
یکی از راههای مدیریت یک مجموعه داده نامتعادل، کاهش نمونه و افزایش وزن طبقه اکثریت است. در اینجا تعاریف این دو اصطلاح جدید آمده است:
- نمونه برداری (در این زمینه) به معنای آموزش در زیر مجموعه ای نامتناسب از نمونه های کلاس اکثریت است.
- Upweighting به معنای اضافه کردن یک وزن مثال به کلاس پاییننمونهشده برابر با فاکتوری است که به وسیله آن نمونهبرداری کردهاید.
مرحله 1: از کلاس اکثریت نمونه برداری کنید. آن مجموعه داده ویروسی را در نظر بگیرید که دارای نسبت 1 برچسب مثبت به ازای هر 200 برچسب منفی است. کاهش نمونه با ضریب 20 تعادل را به 1 مثبت به 10 منفی (10٪) بهبود می بخشد. اگرچه مجموعه تمرینی به دست آمده هنوز نسبتاً نامتعادل است، نسبت نکات مثبت به منفی بسیار بهتر از نسبت بسیار نامتعادل اصلی (0.5٪) است.
مرحله 2: کلاس پاییننمونهشده را وزن کنید : وزنهای نمونه را به کلاس نمونهبرداری شده اضافه کنید. پس از کاهش نمونه با ضریب 20، وزن نمونه باید 20 باشد. (بله، ممکن است این امر غیر منطقی به نظر برسد، اما دلیل آن را بعداً توضیح خواهیم داد.)
اصطلاح وزن به پارامترهای مدل (مانند w 1 یا w 2 ) اشاره نمی کند. در اینجا، وزن به وزن های نمونه اشاره دارد که اهمیت یک مثال فردی را در طول تمرین افزایش می دهد. وزن مثال 10 به این معنی است که مدل به عنوان مثال 10 برابر مهمتر از وزن 1 (هنگام محاسبه ضرر) رفتار می کند.
وزن باید برابر با فاکتوری باشد که برای نمونه برداری استفاده کردید:
\[\text{ \{example weight\} = \{original example weight\} × \{downsampling factor\} }\]
ممکن است عجیب به نظر برسد که وزنهای نمونه را پس از نمونهگیری پایین اضافه کنید. به هر حال، شما در تلاش هستید که مدل را در طبقه اقلیت بهبود بخشید، پس چرا طبقه اکثریت را بالا ببرید؟ در واقع، بالا بردن وزن طبقه اکثریت تمایل به کاهش سوگیری پیش بینی دارد. به این معنا که افزایش وزن پس از نمونه برداری پایین باعث کاهش دلتای بین میانگین پیش بینی های مدل شما و میانگین برچسب های مجموعه داده شما می شود.
نسبت های تعادل مجدد
برای متعادل کردن مجدد مجموعه داده خود، چقدر باید نمونه برداری و وزن بالا را کاهش دهید؟ برای تعیین پاسخ، باید نسبت تعادل مجدد را آزمایش کنید، همانطور که با سایر فراپارامترها آزمایش می کنید. با این حال، پاسخ در نهایت به عوامل زیر بستگی دارد:
- اندازه دسته
- نسبت عدم تعادل
- تعداد نمونه های مجموعه آموزشی
در حالت ایده آل، هر دسته باید شامل چندین نمونه کلاس اقلیت باشد. دستههایی که دارای کلاسهای اقلیت کافی نیستند، آموزش بسیار ضعیفی خواهند داشت. اندازه دسته باید چندین برابر بیشتر از نسبت عدم تعادل باشد. به عنوان مثال، اگر نسبت عدم تعادل 100:1 باشد، اندازه دسته باید حداقل 500 باشد.
تمرین: درک خود را بررسی کنید
وضعیت زیر را در نظر بگیرید:
- اندازه دسته 128 است.
- نسبت عدم تعادل 100:1 است.
- مجموعه آموزشی شامل یک میلیارد مثال است.