Modele lasów decyzyjnych składają się z drzew decyzyjnych. Algorytmy uczenia się lasów decyzyjnych (np. lasy losowe) polegają przynajmniej częściowo na uczeniu się drzew decyzyjnych.
W tej sekcji kursu zapoznasz się z małym przykładowym zbiorem danych i dowiesz się, jak trenuje się pojedyncze drzewo decyzyjne. W kolejnych sekcjach dowiesz się, jak łączyć schematy decyzyjne, aby szkolić lasy decyzyjne.
W YDF użyj systemu uczącego CART do trenowania poszczególnych modeli drzewek decyzyjnych:
# https://ydf.readthedocs.io/en/latest/py_api/CartLearner import ydf model = ydf.CartLearner(label="my_label").train(dataset)
Model
Drzewo decyzyjne to model składający się z zbioru „pytań” uporządkowanych hierarchicznie w postaci drzewa. Pytania te są zwykle nazywane warunkiem, podziałem lub testem. W tej klasie używamy terminu „stan”. Każdy węzeł niebędący węzłem liścia zawiera warunek, a każdy węzeł liścia zawiera prognozę.
Drzewa botaniczne zwykle rosną od korzenia do góry, ale drzewa decyzji są zwykle reprezentowane przez korzeń (pierwszy węzeł) u góry.
Rysunek 1. Prosty schemat decyzyjny klasyfikacji. Legendy w kolorze zielonym nie uwzględnia się w drzewku decyzji.
Wniosek z modelu drzewa decyzyjnego jest obliczany przez przekierowanie przykładu z korzenia (u góry) do jednego z węzłów liści (u dołu) zgodnie z warunkami. Wartość docelowego elementu końcowego to prognoza drzewa decyzyjnego. Zbiór odwiedzonych węzłów to ścieżka wnioskowania. Weź pod uwagę te wartości funkcji:
num_legs | num_eyes |
---|---|
4 | 2 |
Prognoza to pies. Ścieżka wnioskowania:
- num_legs ≥ 3 → tak
- num_eyes ≥ 3 → Nie
Rysunek 2. Ścieżka wnioskowania, która kończy się w liściu *dog* w przykładzie *{num_legs : 4, num_eyes : 2}*.
W poprzednim przykładzie liście drzewa decyzyjnego zawierają prognozy klasyfikacji, czyli każdy liść zawiera gatunek zwierzęcia spośród zestawu możliwych gatunków.
Podobnie drzewa decyzyjne mogą przewidywać wartości liczbowe, oznaczając liście prognozami regresyjnymi (wartościami liczbowymi). Na przykład ten diagram decyzyjny przewiduje liczbową ocenę słodkości zwierzęcia w zakresie od 0 do 10.
Ilustracja 3. Drzewo decyzyjne, które wykonuje prognozy liczbowe.