این واحد به بررسی موضوعات زیر می پردازد:
- تفسیر جنگل های تصادفی
- آموزش جنگل های تصادفی
- مزایا و معایب جنگل های تصادفی
تفسیر جنگل های تصادفی
جنگل های تصادفی برای تفسیر پیچیده تر از درخت های تصمیم هستند. جنگل های تصادفی شامل درخت های تصمیم گیری هستند که با نویز تصادفی آموزش دیده اند. بنابراین، قضاوت در مورد ساختار درخت تصمیم دشوارتر است. با این حال، میتوانیم مدلهای جنگل تصادفی را به چند روش تفسیر کنیم.
یک رویکرد برای تفسیر یک جنگل تصادفی به سادگی آموزش و تفسیر درخت تصمیم با الگوریتم CART است. از آنجایی که هر دو جنگل تصادفی و CART با الگوریتم اصلی یکسان آموزش داده شدهاند، "نمای کلی یکسانی" از مجموعه داده دارند. این گزینه برای مجموعه داده های ساده و درک تفسیر کلی مدل به خوبی کار می کند.
اهمیت متغیر یکی دیگر از رویکردهای قابل تفسیر خوب است. به عنوان مثال، جدول زیر اهمیت متغیر ویژگی های مختلف را برای یک مدل جنگل تصادفی آموزش دیده بر روی مجموعه داده سرشماری (همچنین به عنوان بزرگسالان ) رتبه بندی می کند.
جدول 8. اهمیت متغیر 14 ویژگی مختلف.
ویژگی | امتیاز جمع | میانگین کاهش دقت | میانگین کاهش AUC | میانگین عمق حداقل | تعداد گره ها | میانگین کاهش PR-AUC | شماره به عنوان ریشه |
---|---|---|---|---|---|---|---|
رابطه | 4203592.6 | 0.0045 | 0.0172 | 4.970 | 57040 | 0.0093 | 1095 |
سرمایه_کسب | 3363045.1 | 0.0199 | 0.0194 | 2.852 | 56468 | 0.0655 | 457 |
وضعیت_تأهل | 3128996.3 | 0.0018 | 0.0230 | 6.633 | 52391 | 0.0107 | 750 |
سن | 2520658.8 | 0.0065 | 0.0074 | 4.969 | 356784 | 0.0033 | 200 |
آموزش و پرورش | 2015905.4 | 0.0018 | -0.0080 | 5.266 | 115751 | -0.0129 | 205 |
شغل | 1939409.3 | 0.0063 | -0.0040 | 5.017 | 221935 | -0.0060 | 62 |
Education_num | 1673648.4 | 0.0023 | -0.0066 | 6.009 | 58303 | -0.0080 | 197 |
fnlwgt | 1564189.0 | -0.0002 | -0.0038 | 9.969 | 431987 | -0.0049 | 0 |
ساعت_در_هفته | 1333976.3 | 0.0030 | 0.0007 | 6.393 | 206526 | -0.0031 | 20 |
سرمایه_از دست دادن | 866863.8 | 0.0060 | 0.0020 | 8.076 | 58531 | 0.0118 | 1 |
کلاس کار | 644208.4 | 0.0025 | -0.0019 | 9.898 | 132196 | -0.0023 | 0 |
کشور_بومی | 538841.2 | 0.0001 | -0.0016 | 9.434 | 67211 | -0.0058 | 0 |
جنسیت | 226049.3 | 0.0002 | 0.0002 | 10.911 | 37754 | -0.0011 | 13 |
نژاد | 168180.9 | -0.0006 | -0.0004 | 11.571 | 42262 | -0.0031 | 0 |
همانطور که می بینید، تعاریف مختلف از اهمیت متغیرها مقیاس های متفاوتی دارند و می توانند منجر به تفاوت در رتبه بندی ویژگی ها شوند.
اهمیت متغیری که از ساختار مدل ناشی می شود (به عنوان مثال، مجموع امتیاز، میانگین عمق، تعداد گره ها و تعداد به عنوان ریشه در جدول بالا) به طور مشابه برای درخت های تصمیم (به بخش "سبد خرید | اهمیت متغیر") و جنگل های تصادفی محاسبه می شوند.
اهمیت متغیر جایگشت (به عنوان مثال، کاهش میانگین در {accuracy, auc, pr-auc} در جدول بالا) معیارهای آگنوستیک مدل هستند که میتوانند بر روی هر مدل یادگیری ماشینی با مجموعه داده اعتبارسنجی محاسبه شوند. با این حال، با جنگل تصادفی، به جای استفاده از مجموعه داده اعتبارسنجی، می توانید اهمیت متغیر جایگشت را با ارزیابی خارج از کیسه محاسبه کنید.
SHAP ( SHapley Additive Explanations ) یک روش آگنوستیک مدل برای توضیح پیش بینی های فردی یا تفسیر مدل عاقلانه است. (برای مقدمهای بر مدلسازی تفسیر آگنوستیک، به یادگیری ماشین قابل تفسیر توسط Molnar مراجعه کنید.) محاسبه SHAP معمولاً گران است اما میتوان آن را برای جنگلهای تصمیمگیری به طور قابلتوجهی سرعت بخشید ، بنابراین راه خوبی برای تفسیر جنگلهای تصمیمگیری است.
مثال استفاده
در درس قبلی، با فراخوانی tfdf.keras.CartModel
، یک درخت تصمیم CART را روی یک مجموعه داده کوچک آموزش دادیم. برای آموزش یک مدل جنگل تصادفی، به سادگی tfdf.keras.CartModel
را با tfdf.keras.RandomForestModel
جایگزین کنید:
model = tfdf.keras.RandomForestModel()
model.fit(tf_train_dataset)
مزایا و معایب
این بخش شامل خلاصهای سریع از مزایا و معایب جنگلهای تصادفی است.
جوانب مثبت:
- جنگلهای تصادفی مانند درختهای تصمیمگیری از ویژگیهای عددی و دستهبندی بومی پشتیبانی میکنند و اغلب نیازی به پیش پردازش ویژگی ندارند.
- از آنجایی که درخت های تصمیم مستقل هستند، جنگل های تصادفی را می توان به صورت موازی آموزش داد. در نتیجه، می توانید به سرعت جنگل های تصادفی را آموزش دهید.
- جنگلهای تصادفی دارای پارامترهای پیشفرض هستند که اغلب نتایج عالی به دست میدهند. تنظیم این پارامترها اغلب تأثیر کمی بر مدل دارد.
معایب:
- از آنجا که درختان تصمیم هرس نمی شوند، می توانند بزرگ باشند. مدل هایی با بیش از 1 میلیون گره رایج هستند. اندازه (و در نتیجه سرعت استنتاج) جنگل تصادفی گاهی اوقات می تواند مشکل ساز باشد.
- جنگل های تصادفی نمی توانند بازنمایی های داخلی را یاد بگیرند و دوباره استفاده کنند. هر درخت تصمیم (و هر شاخه از هر درخت تصمیم) باید الگوی مجموعه داده را دوباره بیاموزد. در برخی از مجموعههای داده، بهویژه مجموعه دادههای غیر جدولی (مثلاً تصویر، متن)، این جنگلهای تصادفی را به نتایج بدتری نسبت به روشهای دیگر سوق میدهد.