تقييم حالة الطرد
لا تتطلب الغابات العشوائية مجموعة بيانات للتحقق من الصحة. تستخدم معظم الغابات العشوائية أسلوبًا يُسمى out-of-bag-evaluation (out-of-bag-evaluation out-of-bag-evaluation) لتقييم جودة النموذج. يتعامل تقييم OOB مع مجموعة التدريب كما لو كانت في مجموعة اختبار التحقق المتبادل.
كما أوضحنا سابقًا، يتم عادةً تدريب كل شجرة قرارات في غابة عشوائية على حوالي 67٪ من أمثلة التطبيق. لذلك، لا ترى كل شجرة قرار حوالي 33٪ من أمثلة التدريب. تتمثل الفكرة الأساسية لتقييم OOB في ما يلي:
- لتقييم الغابة العشوائية في مجموعة التطبيق.
- لكل مثال، استخدم فقط أشجار القرارات التي لم تشاهد المثال أثناء التدريب.
يوضح الجدول التالي تقييم OOB لغابة عشوائية باستخدام 3 أشجار قرار مدرَّبة على 6 أمثلة. (نعم، هذا هو نفس الجدول الموجود في قسم التغليف). يوضح الجدول شجرة القرار التي يتم استخدامها مع أي مثال أثناء تقييم OOB.
الجدول 7. تقييم OOB - تمثّل الأرقام عدد المرات التي يُستخدم فيها مثال تدريب معيّن أثناء تدريب المثال المعني.
أمثلة على التدريب | أمثلة على تقييم OOB | ||||||
---|---|---|---|---|---|---|---|
#1 | #2 | #3 | #4 | #5 | #6 | ||
مجموعة البيانات الأصلية | 1 | 1 | 1 | 1 | 1 | 1 | |
شجرة القرار 1 | 1 | 1 | 0 | 2 | 1 | 1 | #3 |
شجرة القرار 2 | 3 | 0 | 1 | 0 | 2 | 0 | #2 و4 و6 |
شجرة القرار 3 | 0 | 1 | 3 | 1 | 0 | 1 | #1 و5 |
في المثال المعروض في الجدول 7، سيتم احتساب توقعات OOB للتدريب 1 مع شجرة القرار رقم 3 (نظرًا لأن شجرتي القرار رقم 1 و2 تم استخدامهما هذا المثال للتدريب). من الناحية العملية، في مجموعة بيانات ذات حجم معقول ومع عدد قليل من أشجار القرار، تحتوي جميع الأمثلة على توقع OOB.
compute_oob_performances=True
.
يكون تقييم OOB فعالاً أيضًا في حساب أهمية متغير التبديل لنماذج الغابة العشوائية. تذكّر من الأهمية المتغيرة أنّ أهمية متغير التبديل تقيس أهمية المتغير عن طريق قياس الانخفاض في جودة النموذج عند الترتيب العشوائي لهذا المتغير. الغابة العشوائية "أهمية متغير التبديل بين OOB" هي أهمية متغير تبديل يتم حسابها باستخدام تقييم OOB.
compute_oob_variable_importances=True
.