مواضيع أخرى

تدرس هذه الوحدة المواضيع التالية:

  • تفسير الغابات العشوائية
  • تدريب الغابات العشوائية
  • إيجابيات وسلبيات الغابات العشوائية

تفسير الغابات العشوائية

يعتبر تفسير الغابات العشوائية أكثر تعقيدًا من أشجار القرارات. غابات عشوائية أن تحتوي على أشجار قرارات مدربة بضوضاء عشوائية. لذلك، من الصعب واتخاذ أحكام بشأن هيكل شجرة القرارات. ومع ذلك، يمكننا تفسير الاحتمالات العشوائية نماذج الغابة بعدة طرق.

إن أحد أساليب تفسير الغابة العشوائية هو ببساطة تدريب وتفسير شجرة القرارات باستخدام خوارزمية CART. نظرًا لأن كلاً من الغابة العشوائية وCART تدريبًا باستخدام الخوارزمية الأساسية نفسها، فإنهما "يتشاركان نفس الرؤية العالمية" من مجموعة البيانات الأصلية. يعمل هذا الخيار بشكل جيد مع مجموعات البيانات البسيطة وفهم التفسير العام للنموذج.

الأهمية المتغيرة هي وسيلة أخرى جيدة للتفسير الخاص بك. فعلى سبيل المثال، يُصنف الجدول التالي الأهمية المتغيرة الخصائص المختلفة لنموذج غابة عشوائي مدرَّب على مجموعة بيانات الإحصاء (أيضًا المعروف باسم للبالغين).

الجدول 8. أهمية متغيرة لـ 14 ميزة مختلفة.

الميزة مجموع النقاط متوسط الانخفاض في الدقة متوسط الانخفاض في قيمة "التخصيص حسب الفئة العمرية" (AUC) متوسط دقيقة العمق عدد العُقد متوسط الانخفاض في قيمة PR-AUC رقم الجذر
العلاقة

4203592.6

0.0045

0.0172

4.970

57040

0.0093

1095

capital_gain

3363045.1

0.0199

0.0194

2.852

56468

0.0655

457

marital_status

3128996.3

0.0018

0.0230

6.633

52391

0.0107

750

العمر

2520658.8

0.0065

0.0074

4.969

356784

0.0033

200

التعليم

2015905.4

0.0018

-0.0080

5.266

115751

-0.0129

205

المهنة

1939409.3

0.0063

-0.0040

5.017

221935

-0.0060

62

education_num

1673648.4

0.0023

-0.0066

6.009

58303

-0.0080

197

fnlwgt

1564189.0

-0.0002

-0.0038

9.969

431987

-0.0049

0

hours_per_week

1333976.3

0.0030

0.0007

6.393

206526

-0.0031

20

capital_loss

866863.8

0.0060

0.0020

8.076

58531

0.0118

1

حصة العمل

644208.4

0.0025

-0.0019

9.898

132196

-0.0023

0

native_country

538841.2

0.0001

-0.0016

9.434

67211

-0.0058

0

جنس

226049.3

0.0002

0.0002

10.911

37754

-0.0011

13

عرقي

168180.9

-0.0006

-0.0004

11.571

42262

-0.0031

0

كما ترى، هناك مقاييس مختلفة للتعريفات المختلفة للأهمية ويمكن أن يؤدي إلى اختلافات في ترتيب الميزات.

القيم المتغيرة التي تأتي من بنية النموذج (على سبيل المثال، المجموع الدرجة، ومتوسط الحد الأدنى للعمق، وعدد العقد وعدد النقاط كجذر في الجدول أعلاه) قد تم احتسابها بشكل مماثل لأشجار القرارات (راجع القسم "سلة التسوق | الأهمية المتغيرة") وغابات عشوائية.

أهمية متغير التبديل (على سبيل المثال، متوسط الانخفاض في {accuracy, auc, pr-auc} في الجدول أعلاه) عبارة عن مقاييس حيادية للنموذج يمكن حسابها على لأي نموذج من نماذج التعلم الآلي باستخدام مجموعة بيانات للتحقق من الصحة. مع غابة عشوائية، ومع ذلك، بدلاً من استخدام مجموعة بيانات التحقق من الصحة، يمكنك حساب التباديل أهمية متغيرة مع تقييم خارج الحقيبة.

SHAP (تفسيرات SHapley Additive exPlanations) هي طريقة غير مرتبطة بنماذجنا لشرح التنبؤات الفردية أو التفسير الحكيم النموذجي. (راجع تعلُّم الآلة القابل للتفسير "مولنار" للحصول على مقدمة حول التفسير غير الحيادي النموذجي). SHAP هو حسابها مكلفًا ولكن يمكن تسريع العملية بشكل كبير لاتخاذ القرار الغابات، لذا فهي طريقة جيدة لتفسير غابات القرارات.

مثال على الاستخدام

في الدرس السابق، درّبنا شجرة قرارات CART على مجموعة بيانات صغيرة عبر الاتصال بالرقم tfdf.keras.CartModel. ولتدريب نموذج غابة عشوائي، ما عليك سوى استبدال tfdf.keras.CartModel بـ tfdf.keras.RandomForestModel:

model = tfdf.keras.RandomForestModel()
model.fit(tf_train_dataset)

الإيجابيات والسلبيات

يحتوي هذا القسم على ملخص سريع لإيجابيات وسلبيات الغابات العشوائية.

الإيجابيات:

  • مثلما هو الحال مع أشجار القرارات، تدعم الغابات العشوائية أعدادًا ذات خصائص فئوية، ولا تحتاج غالبًا إلى معالجة مسبقة للميزات.
  • ولأن أشجار القرارات مستقلة، يمكن تدريب الغابات العشوائية على موازٍ. وبالتالي، يمكنك تدريب الغابات العشوائية بسرعة.
  • تحتوي الغابات العشوائية على معلمات افتراضية غالبًا ما تعطي نتائج رائعة. التوليف لهذه المعاملات في الغالب تأثير طفيف على النموذج.

السلبيات:

  • نظرًا لأن أشجار القرارات غير مشذّبة، يمكن أن تكون كبيرة. طُرز تحتوي على المزيد من النماذج أكثر من مليون عقدة شائعة. ويمثل حجم (وبالتالي سرعة الاستنتاج) الغابة العشوائية تمثل أحيانًا خطأ.
  • لا يمكن للغابات العشوائية تعلم التمثيلات الداخلية وإعادة استخدامها. على كل شجرة القرارات (وكل فرع من فروع كل شجرة قرارات) إعادة التعرف على نمط مجموعة البيانات. في بعض مجموعات البيانات، لا سيما مجموعات البيانات غير الجدولية (مثل هذا يؤدي إلى نتائج أسوأ من الطرق الأخرى في الغابات العشوائية.