مواضيع أخرى

تفحص هذه الوحدة المواضيع التالية:

  • تفسير الغابات العشوائية
  • تدريب على غابات عشوائية
  • إيجابيات وسلبيات الغابات العشوائية

تفسير الغابات العشوائية

إنّ الغابات العشوائية أكثر تعقيدًا من تفسير أشجار القرار. تحتوي الغابات العشوائية على أشجار القرار التي يتم تدريبها بضوضاء عشوائية. لذلك، من الصعب التوصّل إلى أحكام بشأن بنية شجرة القرارات. ولكن يمكننا تفسير نماذج الغابات العادية بطريقتين.

تتمثل أحد طرق تفسير الغابة العشوائية في تدريب شجرة القرارات وتفسيرها باستخدام خوارزمية CART. ونظرًا لتدريب كل من الغابة العشوائية وCART على الخوارزمية الأساسية نفسها، فإنهما "يتشاركان" طريقة العرض العالمية "للمشاركة" في مجموعة البيانات. يعمل هذا الخيار بشكل جيد لمجموعات البيانات البسيطة وفهم التفسير العام للنموذج.

تمثّل الأهمية المتغيّرة منهجًا جيدًا آخر للتفسير. على سبيل المثال، يرتّب الجدول التالي الأهمية المتغيّرة للميزات المختلفة لنموذج غابة عشوائي تم تدريبه على مجموعة بيانات الإحصاء السكاني (المعروفة أيضًا باسم الأشخاص البالغون).

الجدول 8. أهمية متغيرة لـ 14 ميزة مختلفة.

الميزة مجموع النقاط متوسّط الدقة متوسط الانخفاض في AUC متوسط العمق عدد العُقد متوسط الانخفاض في PR-AUC رقم كجذر
علاقة

4203592.6

0.0045

0.0172

يورو

57040

0.0093

1095

رأس_الربح

3363045.1

0.0199

0.0194

2.852

56468

0.0655

457

الحالة_الزوجية

3128996.3

من 0018

0.0230

6.633

52391

0.0107

750

العمر

2520658.8

0.0065

0.0074

يورو

356784

0.0033

200

تعليم

2015905.4

من 0018

-0.0080

5.266

115751

-0.0129

205

المهنة

1939409.3

0.0063

-0.0040

0.017

221935

-0.0060

62

رقم_التعليم

1673648.4

0.0023

-0.0066

6,009

58303

-0.0080

197

fnlwgt

1564189.0

-0.0002

-0.0038

يورو

431987

-0.0049

0

ساعة_لكل أسبوع

1333976.3

0.0030

0.0007

6.393

206526

-0.0031

20

فقدان_رأس المال

866863.8

0.0060

0000

8.076

58531

من 0118

1

درس

644208.4

0.0025

-0.0019

9.898

132196

-0.0023

0

المدمجة_بالبلد

538841.2

0.0001

-0.0016

9.434

67211

-0.0058

0

الجنس

226049.3

0.0002

0.0002

10,911

37754

-0.0011

13

عرقي

168180.9

-0.0006

-0.0004

11.571

42262

-0.0031

0

كما ترى، فالتعريفات المختلفة للأهمية المتغيرة لها مقاييس مختلفة ويمكن أن تؤدي إلى اختلافات في ترتيب الميزات.

يتم حساب الأهمية المتغيرة التي تأتي من بنية النموذج (على سبيل المثال، نتيجة المجموع والمتوسط الأدنى والعُقد العددية والعدد كجذر في الجدول أعلاه) بشكلٍ مشابه لأشجار القرار (اطّلع على القسم "السلالة | المتغيّر المهم</&quot، والغابات العشوائية).

تمثّل أهمية متغيّر التبديل (على سبيل المثال، الانخفاض في {accuracy, auc,pr-auc} في الجدول أعلاه) تدابير نموذجية يمكن حسابها على أي نموذج لتعلّم الآلة يتضمن مجموعة بيانات التحقق. ومع ذلك، باستخدام الغابة العشوائية، بدلاً من استخدام مجموعة بيانات للتحقّق من الصحة، يمكنك حساب القيمة المتغيرة للتقييم من خلال التقييم خارج الحقيبة.

تمثّل طريقة SHAP (SHapley Additive ComPlanations) أسلوبًا حيًّا يستند إلى النماذج لشرح عبارات بحث مقترَحة فردية أو تفسيرًا على مستوى النماذج. (اطّلِع على مقالة تعلُّم الآلة القابلة للتفسير من إعداد Monnar للاطّلاع على مقدمة حول نموذج التفسير اللانهائي.) وعادةً ما تكون الخوارزمية SHAP مكلفة لاحتسابها، ولكن يمكن تسريعها بشكل كبير بالنسبة إلى الغابات المتعلّقة بالقرارات، لذا فهي طريقة جيدة لتفسير غابات القرارات.

مثال الاستخدام

في الدرس السابق، درّبنا شجرة قرارات CART على مجموعة بيانات صغيرة عن طريق استدعاء tfdf.keras.CartModel. لتدريب نموذج عشوائي من الغابات، ما عليك سوى استبدال tfdf.keras.CartModel بـ tfdf.keras.RandomForestModel:

model = tfdf.keras.RandomForestModel()
model.fit(tf_train_dataset)

الإيجابيات والسلبيات

يحتوي هذا القسم على ملخص سريع عن مزايا وعيوب الغابات العشوائية.

الإيجابيات:

  • مثل أشجار القرار، تتوافق الغابات العشوائية مع الميزات الرقمية والتصنيفية حسب النوع الأصلي، ولا تحتاج غالبًا إلى معالجة هذه الميزات بشكل مسبق.
  • ونظرًا لأن أشجار القرار مستقلة، يمكن تدريب الغابات العشوائية على التوازي. وبالتالي، يمكنك تدريب الغابات العشوائية بسرعة.
  • ويكون للغابات العشوائية معلّمات تلقائية غالبًا ما توفّر نتائج رائعة. وغالبًا ما يكون لتوليف هذه المعلمات تأثير كبير على النموذج.

السلبيات:

  • نظرًا لعدم تقليص أشجار القرار، قد تكون كبيرة. إنّ النماذج التي تتضمّن أكثر من مليون عقدة شائعة. قد يكون حجم الغابة العشوائية (وبالتالي استنتاجها) مشكلة في بعض الأحيان.
  • ولا يمكن للغابات العشوائية تعلُّم التمثيلات الداخلية وإعادة استخدامها. يجب أن يتعلّم كل شجرة قرارات (وكل فرع لكل شجرة قرارات) نمط مجموعة البيانات. في بعض مجموعات البيانات، خصوصًا مجموعة البيانات غير الجدولية (مثل الصورة والنص)، يؤدي ذلك إلى غابات عشوائية تؤدي إلى نتائج أسوأ من الطرق الأخرى.