ارزیابی خارج از کیف

جنگل‌های تصادفی به مجموعه داده اعتبارسنجی نیاز ندارند. اکثر جنگل‌های تصادفی از تکنیکی به نام ارزیابی خارج از کیسه ( ارزیابی OOB ) برای ارزیابی کیفیت مدل استفاده می‌کنند. ارزیابی OOB با مجموعه آموزشی به گونه ای رفتار می کند که گویی در مجموعه آزمایشی یک اعتبارسنجی متقابل قرار دارد.

همانطور که قبلا توضیح داده شد، هر درخت تصمیم در یک جنگل تصادفی معمولاً بر روی 67٪ از نمونه های آموزشی آموزش داده می شود. بنابراین، هر درخت تصمیم 33% از نمونه های آموزشی را نمی بیند. ایده اصلی ارزیابی OOB به شرح زیر است:

  • برای ارزیابی جنگل تصادفی در مجموعه آموزشی.
  • برای هر مثال، فقط از درخت های تصمیمی استفاده کنید که در طول آموزش نمونه را ندیده اند.

جدول زیر ارزیابی OOB یک جنگل تصادفی با 3 درخت تصمیم را نشان می دهد که بر روی 6 مثال آموزش داده شده اند. (بله، این همان جدول در قسمت Bagging است). جدول نشان می دهد که درخت تصمیم با کدام مثال در هنگام ارزیابی OOB استفاده می شود.

جدول 7. ارزیابی OOB - اعداد نشان دهنده تعداد دفعاتی هستند که یک مثال آموزشی در طول آموزش مثال داده شده استفاده شده است.

نمونه های آموزشی نمونه هایی برای ارزیابی OOB
#1 #2 #3 #4 #5 #6
مجموعه داده اصلی 1 1 1 1 1 1
درخت تصمیم 1 1 1 0 2 1 1 #3
درخت تصمیم 2 3 0 1 0 2 0 شماره 2 و 4 و 6
درخت تصمیم 3 0 1 3 1 0 1 شماره 1 و 5

در مثال نشان داده شده در جدول 7، پیش بینی های OOB برای آموزش مثال 1 با درخت تصمیم شماره 3 محاسبه می شود (زیرا درخت های تصمیم شماره 1 و شماره 2 از این مثال برای آموزش استفاده کردند). در عمل، در یک مجموعه داده با اندازه معقول و با چند درخت تصمیم، همه نمونه‌ها دارای یک پیش‌بینی OOB هستند.

کد YDF
در YDF، اگر مدل با compute_oob_performances=True آموزش داده شود، ارزیابی OOB در گزارش‌های آموزشی موجود است.

ارزیابی OOB همچنین برای محاسبه اهمیت متغیر جایگشت برای مدل‌های جنگل تصادفی مؤثر است. از اهمیت متغیر به یاد داشته باشید که اهمیت متغیر جایگشت اهمیت یک متغیر را با اندازه‌گیری افت کیفیت مدل زمانی که این متغیر به هم ریخته می‌شود، اندازه‌گیری می‌کند. جنگل تصادفی "اهمیت متغیر جایگشت OOB" یک اهمیت متغیر جایگشت است که با استفاده از ارزیابی OOB محاسبه می شود.

کد YDF
در YDF، اگر مدل با compute_oob_variable_importances=True آموزش داده شود، اهمیت متغیر جایگشت OOB در گزارش‌های آموزشی موجود است.