درختان تصمیم

مدل‌های جنگل تصمیم از درختان تصمیم تشکیل شده‌اند. الگوریتم‌های یادگیری جنگل تصمیم (مانند جنگل‌های تصادفی) حداقل تا حدی به یادگیری درخت‌های تصمیم‌گیری متکی هستند.

در این بخش از دوره، شما یک مجموعه داده نمونه کوچک را مطالعه خواهید کرد و یاد خواهید گرفت که چگونه یک درخت تصمیم واحد آموزش داده می شود. در بخش‌های بعدی، نحوه ترکیب درخت‌های تصمیم‌گیری برای آموزش جنگل‌های تصمیم‌گیری را خواهید آموخت.

کد YDF

در YDF، از یادگیرنده CART برای آموزش مدل های درخت تصمیم فردی استفاده کنید:

# https://ydf.readthedocs.io/en/latest/py_api/CartLearner
import ydf
model = ydf.CartLearner(label="my_label").train(dataset)

مدل

درخت تصمیم مدلی متشکل از مجموعه‌ای از «سوالات» است که به شکل یک درخت به صورت سلسله مراتبی سازماندهی شده‌اند. معمولاً سؤالات شرط، تقسیم یا آزمون نامیده می شود. ما از اصطلاح "شرط" در این کلاس استفاده خواهیم کرد. هر گره غیر برگ شامل یک شرط و هر گره برگ حاوی یک پیش بینی است.

درختان گیاه شناسی به طور کلی با ریشه در پایین رشد می کنند. با این حال، درختان تصمیم معمولا با ریشه (اولین گره) در بالا نشان داده می شوند.

A decision tree containing two conditions and three leaves. The first
condition (the root) is num_legs >= 3; the second condition is
num_eyes >= 3. The three leaves are penguin, spider,
and dog.

شکل 1. درخت تصمیم گیری طبقه بندی ساده. افسانه سبز بخشی از درخت تصمیم نیست.

استنتاج یک مدل درخت تصمیم با مسیریابی یک مثال از ریشه (در بالا) به یکی از گره های برگ (در پایین) با توجه به شرایط محاسبه می شود. مقدار برگ به دست آمده پیش بینی درخت تصمیم است. مجموعه گره های بازدید شده را مسیر استنتاج می نامند. به عنوان مثال، مقادیر ویژگی زیر را در نظر بگیرید:

num_legs شماره_چشم
4 2

پیش بینی سگ خواهد بود. مسیر استنتاج این خواهد بود:

  1. num_legs ≥ 3 → بله
  2. num_eyes ≥ 3 → No

The same illustration as Figure 1, but this illustration shows the
  inference path across two conditions, terminating in the leaf for dog.

شکل 2. مسیر استنتاج که در مثال *{num_legs : 4, num_eyes : 2}* به برگ *dog* ختم می شود.

در مثال قبلی، برگ های درخت تصمیم شامل پیش بینی های طبقه بندی می شود. یعنی هر برگ شامل یک گونه حیوانی در میان مجموعه ای از گونه های ممکن است.

به طور مشابه، درختان تصمیم می توانند مقادیر عددی را با برچسب گذاری برگ ها با پیش بینی های رگرسیون (مقادیر عددی) پیش بینی کنند. به عنوان مثال، درخت تصمیم زیر امتیاز عددی ناز یک حیوان را بین 0 تا 10 پیش بینی می کند.

A decision tree in which each leaf contains a different floating-point
  number.

شکل 3. درخت تصمیم که پیش بینی عددی را انجام می دهد.