تدرس هذه الوحدة المواضيع التالية:
- تفسير الغابات العشوائية
- تدريب الغابات العشوائية
- إيجابيات وسلبيات الغابات العشوائية
تفسير الغابات العشوائية
يعتبر تفسير الغابات العشوائية أكثر تعقيدًا من أشجار القرارات. غابات عشوائية أن تحتوي على أشجار قرارات مدربة بضوضاء عشوائية. لذلك، من الصعب واتخاذ أحكام بشأن هيكل شجرة القرارات. ومع ذلك، يمكننا تفسير الاحتمالات العشوائية نماذج الغابة بعدة طرق.
إن أحد أساليب تفسير الغابة العشوائية هو ببساطة تدريب وتفسير شجرة القرارات باستخدام خوارزمية CART. نظرًا لأن كلاً من الغابة العشوائية وCART تدريبًا باستخدام الخوارزمية الأساسية نفسها، فإنهما "يتشاركان نفس الرؤية العالمية" من مجموعة البيانات الأصلية. يعمل هذا الخيار بشكل جيد مع مجموعات البيانات البسيطة وفهم التفسير العام للنموذج.
الأهمية المتغيرة هي وسيلة أخرى جيدة للتفسير الخاص بك. فعلى سبيل المثال، يُصنف الجدول التالي الأهمية المتغيرة الخصائص المختلفة لنموذج غابة عشوائي مدرَّب على مجموعة بيانات الإحصاء (أيضًا المعروف باسم للبالغين).
الجدول 8. أهمية متغيرة لـ 14 ميزة مختلفة.
الميزة | مجموع النقاط | متوسط الانخفاض في الدقة | متوسط الانخفاض في قيمة "التخصيص حسب الفئة العمرية" (AUC) | متوسط دقيقة العمق | عدد العُقد | متوسط الانخفاض في قيمة PR-AUC | رقم الجذر |
---|---|---|---|---|---|---|---|
العلاقة | 4203592.6 |
0.0045 |
0.0172 |
4.970 |
57040 |
0.0093 |
1095 |
capital_gain | 3363045.1 |
0.0199 |
0.0194 |
2.852 |
56468 |
0.0655 |
457 |
marital_status | 3128996.3 |
0.0018 |
0.0230 |
6.633 |
52391 |
0.0107 |
750 |
العمر | 2520658.8 |
0.0065 |
0.0074 |
4.969 |
356784 |
0.0033 |
200 |
التعليم | 2015905.4 |
0.0018 |
-0.0080 |
5.266 |
115751 |
-0.0129 |
205 |
المهنة | 1939409.3 |
0.0063 |
-0.0040 |
5.017 |
221935 |
-0.0060 |
62 |
education_num | 1673648.4 |
0.0023 |
-0.0066 |
6.009 |
58303 |
-0.0080 |
197 |
fnlwgt | 1564189.0 |
-0.0002 |
-0.0038 |
9.969 |
431987 |
-0.0049 |
0 |
hours_per_week | 1333976.3 |
0.0030 |
0.0007 |
6.393 |
206526 |
-0.0031 |
20 |
capital_loss | 866863.8 |
0.0060 |
0.0020 |
8.076 |
58531 |
0.0118 |
1 |
حصة العمل | 644208.4 |
0.0025 |
-0.0019 |
9.898 |
132196 |
-0.0023 |
0 |
native_country | 538841.2 |
0.0001 |
-0.0016 |
9.434 |
67211 |
-0.0058 |
0 |
جنس | 226049.3 |
0.0002 |
0.0002 |
10.911 |
37754 |
-0.0011 |
13 |
عرقي | 168180.9 |
-0.0006 |
-0.0004 |
11.571 |
42262 |
-0.0031 |
0 |
كما ترى، هناك مقاييس مختلفة للتعريفات المختلفة للأهمية ويمكن أن يؤدي إلى اختلافات في ترتيب الميزات.
القيم المتغيرة التي تأتي من بنية النموذج (على سبيل المثال، المجموع الدرجة، ومتوسط الحد الأدنى للعمق، وعدد العقد وعدد النقاط كجذر في الجدول أعلاه) قد تم احتسابها بشكل مماثل لأشجار القرارات (راجع القسم "سلة التسوق | الأهمية المتغيرة") وغابات عشوائية.
أهمية متغير التبديل (على سبيل المثال، متوسط الانخفاض في {accuracy, auc, pr-auc} في الجدول أعلاه) عبارة عن مقاييس حيادية للنموذج يمكن حسابها على لأي نموذج من نماذج التعلم الآلي باستخدام مجموعة بيانات للتحقق من الصحة. مع غابة عشوائية، ومع ذلك، بدلاً من استخدام مجموعة بيانات التحقق من الصحة، يمكنك حساب التباديل أهمية متغيرة مع تقييم خارج الحقيبة.
SHAP (تفسيرات SHapley Additive exPlanations) هي طريقة غير مرتبطة بنماذجنا لشرح التنبؤات الفردية أو التفسير الحكيم النموذجي. (راجع تعلُّم الآلة القابل للتفسير "مولنار" للحصول على مقدمة حول التفسير غير الحيادي النموذجي). SHAP هو حسابها مكلفًا ولكن يمكن تسريع العملية بشكل كبير لاتخاذ القرار الغابات، لذا فهي طريقة جيدة لتفسير غابات القرارات.
مثال على الاستخدام
في الدرس السابق، درّبنا شجرة قرارات CART على مجموعة بيانات صغيرة
عبر الاتصال بالرقم tfdf.keras.CartModel
. ولتدريب نموذج غابة عشوائي،
ما عليك سوى استبدال tfdf.keras.CartModel
بـ tfdf.keras.RandomForestModel
:
model = tfdf.keras.RandomForestModel()
model.fit(tf_train_dataset)
الإيجابيات والسلبيات
يحتوي هذا القسم على ملخص سريع لإيجابيات وسلبيات الغابات العشوائية.
الإيجابيات:
- مثلما هو الحال مع أشجار القرارات، تدعم الغابات العشوائية أعدادًا ذات خصائص فئوية، ولا تحتاج غالبًا إلى معالجة مسبقة للميزات.
- ولأن أشجار القرارات مستقلة، يمكن تدريب الغابات العشوائية على موازٍ. وبالتالي، يمكنك تدريب الغابات العشوائية بسرعة.
- تحتوي الغابات العشوائية على معلمات افتراضية غالبًا ما تعطي نتائج رائعة. التوليف لهذه المعاملات في الغالب تأثير طفيف على النموذج.
السلبيات:
- نظرًا لأن أشجار القرارات غير مشذّبة، يمكن أن تكون كبيرة. طُرز تحتوي على المزيد من النماذج أكثر من مليون عقدة شائعة. ويمثل حجم (وبالتالي سرعة الاستنتاج) الغابة العشوائية تمثل أحيانًا خطأ.
- لا يمكن للغابات العشوائية تعلم التمثيلات الداخلية وإعادة استخدامها. على كل شجرة القرارات (وكل فرع من فروع كل شجرة قرارات) إعادة التعرف على نمط مجموعة البيانات. في بعض مجموعات البيانات، لا سيما مجموعات البيانات غير الجدولية (مثل هذا يؤدي إلى نتائج أسوأ من الطرق الأخرى في الغابات العشوائية.