این صفحه به‌وسیله ‏Cloud Translation API‏ ترجمه شده است.

موضوعات دیگر

این واحد به بررسی موضوعات زیر می پردازد:

تفسیر جنگل های تصادفی
آموزش جنگل های تصادفی
مزایا و معایب جنگل های تصادفی

تفسیر جنگل های تصادفی

جنگل های تصادفی برای تفسیر پیچیده تر از درخت های تصمیم هستند. جنگل های تصادفی شامل درخت های تصمیم گیری هستند که با نویز تصادفی آموزش دیده اند. بنابراین، قضاوت در مورد ساختار درخت تصمیم دشوارتر است. با این حال، می‌توانیم مدل‌های جنگل تصادفی را به چند روش تفسیر کنیم.

یک رویکرد برای تفسیر یک جنگل تصادفی به سادگی آموزش و تفسیر درخت تصمیم با الگوریتم CART است. از آنجایی که هر دو جنگل تصادفی و CART با الگوریتم اصلی یکسان آموزش داده شده‌اند، "نمای کلی یکسانی" از مجموعه داده دارند. این گزینه برای مجموعه داده های ساده و درک تفسیر کلی مدل به خوبی کار می کند.

اهمیت متغیر یکی دیگر از رویکردهای قابل تفسیر خوب است. به عنوان مثال، جدول زیر اهمیت متغیر ویژگی های مختلف را برای یک مدل جنگل تصادفی آموزش دیده بر روی مجموعه داده سرشماری (همچنین به عنوان بزرگسالان ) رتبه بندی می کند.

جدول 8. اهمیت متغیر 14 ویژگی مختلف.

ویژگی	امتیاز جمع	میانگین کاهش دقت	میانگین کاهش AUC	میانگین عمق حداقل	تعداد گره ها	میانگین کاهش PR-AUC	شماره به عنوان ریشه
رابطه	4203592.6	0.0045	0.0172	4.970	57040	0.0093	1095
سرمایه_کسب	3363045.1	0.0199	0.0194	2.852	56468	0.0655	457
وضعیت_تأهل	3128996.3	0.0018	0.0230	6.633	52391	0.0107	750
سن	2520658.8	0.0065	0.0074	4.969	356784	0.0033	200
آموزش و پرورش	2015905.4	0.0018	-0.0080	5.266	115751	-0.0129	205
شغل	1939409.3	0.0063	-0.0040	5.017	221935	-0.0060	62
Education_num	1673648.4	0.0023	-0.0066	6.009	58303	-0.0080	197
fnlwgt	1564189.0	-0.0002	-0.0038	9.969	431987	-0.0049	0
ساعت_در_هفته	1333976.3	0.0030	0.0007	6.393	206526	-0.0031	20
سرمایه_از دست دادن	866863.8	0.0060	0.0020	8.076	58531	0.0118	1
کلاس کار	644208.4	0.0025	-0.0019	9.898	132196	-0.0023	0
کشور_بومی	538841.2	0.0001	-0.0016	9.434	67211	-0.0058	0
جنسیت	226049.3	0.0002	0.0002	10.911	37754	-0.0011	13
نژاد	168180.9	-0.0006	-0.0004	11.571	42262	-0.0031	0

همانطور که می بینید، تعاریف مختلف از اهمیت متغیرها مقیاس های متفاوتی دارند و می توانند منجر به تفاوت در رتبه بندی ویژگی ها شوند.

اهمیت متغیری که از ساختار مدل ناشی می شود (به عنوان مثال، مجموع امتیاز، میانگین عمق، تعداد گره ها و تعداد به عنوان ریشه در جدول بالا) به طور مشابه برای درخت های تصمیم (به بخش "سبد خرید | اهمیت متغیر") و جنگل های تصادفی محاسبه می شوند.

اهمیت متغیر جایگشت (به عنوان مثال، کاهش میانگین در {accuracy, auc, pr-auc} در جدول بالا) معیارهای آگنوستیک مدل هستند که می‌توانند بر روی هر مدل یادگیری ماشینی با مجموعه داده اعتبارسنجی محاسبه شوند. با این حال، با جنگل تصادفی، به جای استفاده از مجموعه داده اعتبارسنجی، می توانید اهمیت متغیر جایگشت را با ارزیابی خارج از کیسه محاسبه کنید.

SHAP ( SHapley Additive Explanations ) یک روش آگنوستیک مدل برای توضیح پیش بینی های فردی یا تفسیر مدل عاقلانه است. (برای مقدمه‌ای بر مدل‌سازی تفسیر آگنوستیک، به یادگیری ماشین قابل تفسیر توسط Molnar مراجعه کنید.) محاسبه SHAP معمولاً گران است اما می‌توان آن را برای جنگل‌های تصمیم‌گیری به طور قابل‌توجهی سرعت بخشید ، بنابراین راه خوبی برای تفسیر جنگل‌های تصمیم‌گیری است.

مثال استفاده

در درس قبلی، با فراخوانی tfdf.keras.CartModel ، یک درخت تصمیم CART را روی یک مجموعه داده کوچک آموزش دادیم. برای آموزش یک مدل جنگل تصادفی، به سادگی tfdf.keras.CartModel را با tfdf.keras.RandomForestModel جایگزین کنید:

model = tfdf.keras.RandomForestModel()
model.fit(tf_train_dataset)

مزایا و معایب

این بخش شامل خلاصه‌ای سریع از مزایا و معایب جنگل‌های تصادفی است.

جوانب مثبت:

جنگل‌های تصادفی مانند درخت‌های تصمیم‌گیری از ویژگی‌های عددی و دسته‌بندی بومی پشتیبانی می‌کنند و اغلب نیازی به پیش پردازش ویژگی ندارند.
از آنجایی که درخت های تصمیم مستقل هستند، جنگل های تصادفی را می توان به صورت موازی آموزش داد. در نتیجه، می توانید به سرعت جنگل های تصادفی را آموزش دهید.
جنگل‌های تصادفی دارای پارامترهای پیش‌فرض هستند که اغلب نتایج عالی به دست می‌دهند. تنظیم این پارامترها اغلب تأثیر کمی بر مدل دارد.

معایب:

از آنجا که درختان تصمیم هرس نمی شوند، می توانند بزرگ باشند. مدل هایی با بیش از 1 میلیون گره رایج هستند. اندازه (و در نتیجه سرعت استنتاج) جنگل تصادفی گاهی اوقات می تواند مشکل ساز باشد.
جنگل های تصادفی نمی توانند بازنمایی های داخلی را یاد بگیرند و دوباره استفاده کنند. هر درخت تصمیم (و هر شاخه از هر درخت تصمیم) باید الگوی مجموعه داده را دوباره بیاموزد. در برخی از مجموعه‌های داده، به‌ویژه مجموعه داده‌های غیر جدولی (مثلاً تصویر، متن)، این جنگل‌های تصادفی را به نتایج بدتری نسبت به روش‌های دیگر سوق می‌دهد.