موضوعات دیگر

این واحد به بررسی موضوعات زیر می پردازد:

  • تفسیر جنگل های تصادفی
  • آموزش جنگل های تصادفی
  • مزایا و معایب جنگل های تصادفی

تفسیر جنگل های تصادفی

جنگل های تصادفی برای تفسیر پیچیده تر از درخت های تصمیم هستند. جنگل های تصادفی شامل درخت های تصمیم گیری هستند که با نویز تصادفی آموزش دیده اند. بنابراین، قضاوت در مورد ساختار درخت تصمیم دشوارتر است. با این حال، می‌توانیم مدل‌های جنگل تصادفی را به چند روش تفسیر کنیم.

یک رویکرد برای تفسیر یک جنگل تصادفی به سادگی آموزش و تفسیر درخت تصمیم با الگوریتم CART است. از آنجایی که هر دو جنگل تصادفی و CART با الگوریتم اصلی یکسان آموزش داده شده‌اند، "نمای کلی یکسانی" از مجموعه داده دارند. این گزینه برای مجموعه داده های ساده و درک تفسیر کلی مدل به خوبی کار می کند.

اهمیت متغیر یکی دیگر از رویکردهای قابل تفسیر خوب است. به عنوان مثال، جدول زیر اهمیت متغیر ویژگی های مختلف را برای یک مدل جنگل تصادفی آموزش دیده بر روی مجموعه داده سرشماری (همچنین به عنوان بزرگسالان ) رتبه بندی می کند.

جدول 8. اهمیت متغیر 14 ویژگی مختلف.

ویژگی امتیاز جمع میانگین کاهش دقت میانگین کاهش AUC میانگین عمق حداقل تعداد گره ها میانگین کاهش PR-AUC شماره به عنوان ریشه
ارتباط

4203592.6

0.0045

0.0172

4.970

57040

0.0093

1095

سرمایه_کسب

3363045.1

0.0199

0.0194

2.852

56468

0.0655

457

وضعیت_تأهل

3128996.3

0.0018

0.0230

6.633

52391

0.0107

750

سن

2520658.8

0.0065

0.0074

4.969

356784

0.0033

200

تحصیلات

2015905.4

0.0018

-0.0080

5.266

115751

-0.0129

205

اشتغال

1939409.3

0.0063

-0.0040

5.017

221935

-0.0060

62

Education_num

1673648.4

0.0023

-0.0066

6.009

58303

-0.0080

197

fnlwgt

1564189.0

-0.0002

-0.0038

9.969

431987

-0.0049

0

ساعت در هفته

1333976.3

0.0030

0.0007

6.393

206526

-0.0031

20

سرمایه_از دست دادن

866863.8

0.0060

0.0020

8.076

58531

0.0118

1

کلاس کار

644208.4

0.0025

-0.0019

9.898

132196

-0.0023

0

کشور مادری

538841.2

0.0001

-0.0016

9.434

67211

-0.0058

0

رابطه ی جنسی

226049.3

0.0002

0.0002

10.911

37754

-0.0011

13

نژاد

168180.9

-0.0006

-0.0004

11.571

42262

-0.0031

0

همانطور که می بینید، تعاریف مختلف از اهمیت متغیرها مقیاس های متفاوتی دارند و می توانند منجر به تفاوت در رتبه بندی ویژگی ها شوند.

اهمیت متغیری که از ساختار مدل ناشی می شود (به عنوان مثال، مجموع امتیاز، میانگین عمق، تعداد گره ها و تعداد به عنوان ریشه در جدول بالا) به طور مشابه برای درخت های تصمیم (به بخش "سبد خرید | اهمیت متغیر") و جنگل های تصادفی محاسبه می شوند.

اهمیت متغیر جایگشت (به عنوان مثال، کاهش میانگین در {accuracy, auc, pr-auc} در جدول بالا) معیارهای آگنوستیک مدل هستند که می‌توانند بر روی هر مدل یادگیری ماشینی با مجموعه داده اعتبارسنجی محاسبه شوند. با این حال، با جنگل تصادفی، به جای استفاده از مجموعه داده اعتبارسنجی، می توانید اهمیت متغیر جایگشت را با ارزیابی خارج از کیسه محاسبه کنید.

SHAP ( SHapley Additive Explanations ) یک روش آگنوستیک مدل برای توضیح پیش بینی های فردی یا تفسیر مدل عاقلانه است. (برای مقدمه‌ای بر مدل‌سازی تفسیر آگنوستیک، به یادگیری ماشین قابل تفسیر توسط مولنار مراجعه کنید.) محاسبه SHAP معمولاً گران است، اما می‌تواند برای جنگل‌های تصمیم‌گیری سرعت قابل توجهی داشته باشد، بنابراین راه خوبی برای تفسیر جنگل‌های تصمیم‌گیری است.

مثال استفاده

در درس قبلی، با فراخوانی tfdf.keras.CartModel ، یک درخت تصمیم CART را روی یک مجموعه داده کوچک آموزش دادیم. برای آموزش یک مدل جنگل تصادفی، به سادگی tfdf.keras.CartModel را با tfdf.keras.CartModel جایگزین tfdf.keras.RandomForestModel :

model = tfdf.keras.RandomForestModel()
model.fit(tf_train_dataset)

مزایا و معایب

این بخش شامل خلاصه‌ای سریع از مزایا و معایب جنگل‌های تصادفی است.

طرفداران:

  • جنگل‌های تصادفی مانند درخت‌های تصمیم‌گیری از ویژگی‌های عددی و دسته‌بندی بومی پشتیبانی می‌کنند و اغلب نیازی به پیش پردازش ویژگی ندارند.
  • از آنجایی که درخت های تصمیم مستقل هستند، جنگل های تصادفی را می توان به صورت موازی آموزش داد. در نتیجه، می توانید به سرعت جنگل های تصادفی را آموزش دهید.
  • جنگل‌های تصادفی دارای پارامترهای پیش‌فرض هستند که اغلب نتایج عالی به دست می‌دهند. تنظیم این پارامترها اغلب تأثیر کمی بر مدل دارد.

معایب:

  • از آنجا که درختان تصمیم هرس نمی شوند، می توانند بزرگ باشند. مدل هایی با بیش از 1 میلیون گره رایج هستند. اندازه (و در نتیجه سرعت استنتاج) جنگل تصادفی گاهی اوقات می تواند مشکل ساز باشد.
  • جنگل های تصادفی نمی توانند بازنمایی های داخلی را یاد بگیرند و دوباره استفاده کنند. هر درخت تصمیم (و هر شاخه از هر درخت تصمیم) باید الگوی مجموعه داده را دوباره بیاموزد. در برخی از مجموعه‌های داده، به‌ویژه مجموعه داده‌های غیر جدولی (مثلاً تصویر، متن)، این جنگل‌های تصادفی را به نتایج بدتری نسبت به روش‌های دیگر سوق می‌دهد.