مدلهای جنگل تصمیم از درختان تصمیم تشکیل شدهاند. الگوریتمهای یادگیری جنگل تصمیم (مانند جنگلهای تصادفی) حداقل تا حدی به یادگیری درختهای تصمیمگیری متکی هستند.
در این بخش از دوره، شما یک مجموعه داده نمونه کوچک را مطالعه خواهید کرد و یاد خواهید گرفت که چگونه یک درخت تصمیم واحد آموزش داده می شود. در بخشهای بعدی، نحوه ترکیب درختهای تصمیمگیری برای آموزش جنگلهای تصمیمگیری را خواهید آموخت.
در YDF، از یادگیرنده CART برای آموزش مدل های درخت تصمیم فردی استفاده کنید:
# https://ydf.readthedocs.io/en/latest/py_api/CartLearner import ydf model = ydf.CartLearner(label="my_label").train(dataset)
مدل
درخت تصمیم مدلی متشکل از مجموعهای از «سوالات» است که به شکل یک درخت به صورت سلسله مراتبی سازماندهی شدهاند. معمولاً سؤالات شرط، تقسیم یا آزمون نامیده می شود. ما از اصطلاح "شرط" در این کلاس استفاده خواهیم کرد. هر گره غیر برگ شامل یک شرط و هر گره برگ حاوی یک پیش بینی است.
درختان گیاه شناسی به طور کلی با ریشه در پایین رشد می کنند. با این حال، درختان تصمیم معمولا با ریشه (اولین گره) در بالا نشان داده می شوند.
شکل 1. درخت تصمیم گیری طبقه بندی ساده. افسانه سبز بخشی از درخت تصمیم نیست.
استنتاج یک مدل درخت تصمیم با مسیریابی یک مثال از ریشه (در بالا) به یکی از گره های برگ (در پایین) با توجه به شرایط محاسبه می شود. مقدار برگ به دست آمده پیش بینی درخت تصمیم است. مجموعه گره های بازدید شده را مسیر استنتاج می نامند. به عنوان مثال، مقادیر ویژگی زیر را در نظر بگیرید:
num_legs | شماره_چشم |
---|---|
4 | 2 |
پیش بینی سگ خواهد بود. مسیر استنتاج این خواهد بود:
- num_legs ≥ 3 → بله
- num_eyes ≥ 3 → No
شکل 2. مسیر استنتاج که در مثال *{num_legs : 4, num_eyes : 2}* به برگ *dog* ختم می شود.
در مثال قبلی، برگ های درخت تصمیم شامل پیش بینی های طبقه بندی می شود. یعنی هر برگ شامل یک گونه حیوانی در میان مجموعه ای از گونه های ممکن است.
به طور مشابه، درختان تصمیم می توانند مقادیر عددی را با برچسب گذاری برگ ها با پیش بینی های رگرسیون (مقادیر عددی) پیش بینی کنند. به عنوان مثال، درخت تصمیم زیر امتیاز عددی ناز یک حیوان را بین 0 تا 10 پیش بینی می کند.
شکل 3. درخت تصمیم که پیش بینی عددی را انجام می دهد.