Słowniczek systemów uczących się: lasy decyzyjne

Ta strona zawiera hasła z glosariusza dotyczące lasów decyzyjnych. Aby poznać wszystkie terminy z glosariusza, kliknij tutaj.

A

próbkowanie atrybutów

#df

Taktyka trenowania lasu decyzyjnego, w której każdy drzewo decyzyjne bierze pod uwagę tylko losowy podzbiór możliwych cech podczas uczenia się stanu. Zazwyczaj w przypadku każdego węzła jest losowany inny podzbiór cech. Natomiast podczas trenowania drzewa decyzyjnego bez próbkowania atrybutów w przypadku każdego węzła są brane pod uwagę wszystkie możliwe cechy.

warunek zgodny z osią

#df

W drzewie decyzyjnym warunek, który obejmuje tylko 1 cechę. Jeśli na przykład area jest cechą, to warunek dopasowany do osi będzie wyglądał tak:

area > 200

Kontrast z warunkiem ukośnym.

B

bagging

#df

Metoda treningu zbioru, w którym każdy model jest trenowany na losowym podzbiorze przykładów treningowych z wymianą. Na przykład losowy las to zbiór drzew decyzyjnych wytrenowanych za pomocą metody baggingu.

Termin bagging to skrót od bootstrap aggregating.

Więcej informacji znajdziesz w temacie lasy losowe w kursie Lasy decyzyjne.

warunek binarny

#df

W drzewie decyzyjnym występuje warunek, który ma tylko 2 możliwe wyniki, zwykle tak lub nie. Przykładem warunku binarnego jest:

temperature >= 100

Porównaj z stanem niebinarnym.

Więcej informacji znajdziesz w sekcji Typy warunków w Kursie „Lasy decyzyjne”.

C

warunek

#df

W drzewie decyzji dowolny węzeł, który ocenia wyrażenie. Na przykład ta część drzewa decyzyjnego zawiera 2 warunki:

Drzewo decyzyjne z 2 warunkami: (x > 0) i (y > 0).

Warunek jest też nazywany podziałem lub testem.

Warunek kontrastu z liśćmi.

Zobacz także:

Więcej informacji znajdziesz w sekcji Typy warunków w Kursie „Lasy decyzyjne”.

D

las decyzyjny

#df

Model utworzony na podstawie wielu drzew decyzyjnych. Las decyzyjny formułuje prognozę na podstawie agregacji prognoz swoich drzew decyzyjnych. Popularne typy lasów decyzyjnych to losowe lasy i drzewa z wzmocnieniem gradientowym.

Więcej informacji znajdziesz w sekcji Lasy decyzyjne w szkoleniu Lasy decyzyjne.

drzewo decyzyjne

#df

Nadzorowany model systemów uczących się, który składa się z zestawu warunkówgałęzi uporządkowanych hierarchicznie. Oto przykład drzewka decyzji:

Drzewo decyzyjne składające się z 4 warunków uporządkowanych hierarchicznie, które prowadzą do 5 węzłów.

E

entropia

#df

W teorii informacji jest to opis tego, jak nieprzewidywalna jest rozkład prawdopodobieństwa. Entropię można też zdefiniować jako ilość informacji zawartych w każdym przykładzie. Rozkład ma najwyższą możliwą entropię, gdy wszystkie wartości zmiennej losowej są równie prawdopodobne.

Entropia zbioru o dwóch możliwych wartościach „0” i „1” (np. etykiety w problemie dwudzielnej klasyfikacji) ma postać:

  H = -p log p - q log q = -p log p - (1-p) * log (1-p)

gdzie:

  • H to entropia.
  • p to ułamek przykładów „1”.
  • q to ułamek przykładów o wartości „0”. Zwróć uwagę, że q = (1 - p)
  • log to zwykle log2. W tym przypadku jednostką entropii jest bit.

Załóżmy na przykład, że:

  • 100 przypadków zawiera wartość „1”.
  • 300 przykładów zawiera wartość „0”

Dlatego wartość entropii wynosi:

  • p = 0,25
  • q = 0,75
  • H = (-0,25)log2(0,25) - (0,75)log2(0,75) = 0,81 b na przykład

Zbiór, który jest idealnie zrównoważony (np.200 wartości „0” i 200 wartości „1”), będzie miał entropię wynoszącą 1,0 bita na przykład. W miarę jak zbiór staje się bardziej niezrównoważony, jego entropia zbliża się do 0,0.

W drzewach decyzyjnych entropia pomaga formułować wzrost informacji, aby ułatwić spółczynnikowi wybór warunków podczas tworzenia drzewa decyzyjnego klasyfikacji.

Porównaj entropię z:

Entropia jest często nazywana entropią Shannona.

Więcej informacji znajdziesz w sekcji Rozdzielacz dokładny do klasyfikacji binarnej z cechami liczbowymi w Kursie lasów decyzyjnych.

F

znaczenie cech

#df

Synonim wartości zmiennej.

G

wskaźnik gini,

#df

Dane podobne do entropii. Separatory używają wartości pochodzących z nieczystości Gini lub entropii do tworzenia warunków służących do klasyfikacji w drzewach decyzyjnych. Zyskane informacje pochodzą z entropii. Nie ma ogólnie przyjętego odpowiednika dla danych pochodzących z wskaźnika gini; jednak te nienazwane dane są równie ważne jak zysk informacji.

Zanieczyszczenie Giniego nazywane jest też wskaźnikiem Giniego lub po prostu Ginim.

drzewa gradientowe (decyzyjne) (GBT)

#df

Typ lasu decyzyjnego, w którym:

Więcej informacji znajdziesz w sekcji Gradient Boosted Decision Trees w szkoleniu dotyczącego lasów decyzyjnych.

wzmacnianie gradientowe

#df

Algorytm trenowania, w którym słabe modele są trenowane w celu stopniowego polepszania jakości (zmniejszania strat) silnego modelu. Słabością modelu może być np. model liniowy lub małe drzewo decyzyjne. Mocny model staje się sumą wszystkich wcześniej wytrenowanych słabych modeli.

W najprostszej formie wzmacniania gradientu na każdej iteracji słaby model jest trenowany do przewidywania gradientu utraty siły modelu silnego. Następnie dane wyjściowe modelu silnego są aktualizowane przez odjęcie przewidywanego gradientu, podobnie jak w przypadku spadku gradientu.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

gdzie:

  • $F_{0}$ to silny model początkowy.
  • $F_{i+1}$ to kolejny silny model.
  • $F_{i}$ to bieżący silny model.
  • $\xi$ to wartość z zakresu od 0,0 do 1,0 nazywana kurczeniem, która jest analogią stopy uczenia się w metodach gradientu schodkowego.
  • $f_{i}$ to słaby model wytrenowany do przewidywania gradientu straty $F_{i}$.

Nowoczesne warianty wzmacniania gradientu uwzględniają w swoim działaniu także drugą pochodną (Hesjana) funkcji strat.

Drzewa decyzyjne są często używane jako słabe modele w wzmacnianiu gradientowym. Zobacz drzewa decyzyjne z wzmocnieniem gradientowym.

I

ścieżka wnioskowania

#df

drzewie decyzyjnym podczas uogólniania przykład przechodzi od korzenia do innych warunków, aż do listka. Na przykład w tym schemacie decyzyjnym grubsze strzałki wskazują ścieżkę wnioskowania w przypadku przykładu z tymi wartościami cech:

  • x = 7
  • y = 12
  • z = –3

Ścieżka wnioskowania na ilustracji poniżej przechodzi przez 3 warunki, zanim dotrze do liścia (Zeta).

Drzewo decyzyjne składające się z 4 warunków i 5 węzłów
          Warunek pierwotny to (x > 0). Ponieważ odpowiedź to „Tak”, ścieżka wnioskowania przechodzi od węzła głównego do następnego warunku (y > 0).
          Ponieważ odpowiedź to „Tak”, ścieżka wnioskowania przechodzi do następnego warunku (z > 0). Ponieważ odpowiedź to „Nie”, ścieżka wnioskowania dociera do węzła końcowego, który jest węzłem końcowym (Zeta).

3 grube strzałki wskazują ścieżkę wnioskowania.

Więcej informacji znajdziesz w schematach decyzyjnych w kursie „Lasy decyzyjne”.

zysk informacji

#df

W lasach decyzyjnych jest to różnica między entropią węzła a ważoną (pod względem liczby przykładów) sumą entropii jego węzłów podrzędnych. Entropia węzła to entropia przykładów w tym węźle.

Weźmy na przykład te wartości entropii:

  • entropia węzła nadrzędnego = 0,6
  • entropia jednego węzła podrzędnego z 16 odpowiednimi przykładami = 0,2
  • entropia innego węzła podrzędnego z 24 odpowiednimi przykładami = 0,1

Oznacza to, że 40% przykładów znajduje się w jednym węźle podrzędnym, a 60% – w drugim. Dlatego:

  • ważona suma entropii węzłów podrzędnych = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Informacje, które można uzyskać, to:

  • przyrost informacji = entropia węzła nadrzędnego – ważona suma entropii węzłów podrzędnych
  • przyrost informacji = 0,6 - 0,14 = 0,46

Większość rozdzielaczy stara się tworzyć warunki, które maksymalizują zysk informacji.

warunek w zestawie

#df

drzewie decyzyjnym warunek, który sprawdza obecność jednego elementu w zbiorze elementów. Przykładem warunku w zbiorze jest:

  house-style in [tudor, colonial, cape]

Jeśli podczas wnioskowania wartość cechy typu domu wynosi tudor, colonial lub cape, to ten warunek jest oceniany jako „Tak”. Jeśli wartość funkcji typu domu jest inna (np. ranch), warunek ten przyjmuje wartość Nie.

Warunki w zbiorze zwykle prowadzą do bardziej wydajnych drzewek decyzyjnych niż warunki testujące zmienną zakodowaną w postaci 1-hot.

L

liść

#df

dowolny punkt końcowy w drzewie decyzyjnym. W przeciwieństwie do warunku element nie wykonuje testu. Liść jest tylko możliwym przewidywanym wynikiem. Liść jest też węzłem ścieżki wnioskowania.

Na przykład ten schemat decyzyjny zawiera 3 liście:

Drzewo decyzyjne z 2 warunkami prowadzącymi do 3 wierzchołków

N

węzeł (drzewo decyzyjne)

#df

W drzewie decyzyjnym dowolny warunek lub liść.

Drzewo decyzyjne z 2 warunkami i 3 listkami.

warunek niebinarny

#df

Warunek zawierający więcej niż 2 możliwe wyniki. Na przykład ten warunek niebinarny zawiera 3 możliwe wyniki:

Warunek (number_of_legs = ?) prowadzący do 3 możliwych wyników. Jeden wynik (number_of_legs = 8) prowadzi do liścia o nazwie pająk. Drugi wynik (number_of_legs = 4) prowadzi do liścia o nazwie pies. Trzeci wynik (number_of_legs = 2) prowadzi do liścia o nazwie pingwin.

O

warunek ukośny

#df

W drzewie decyzyjnym warunek, który obejmuje więcej niż 1 cechę. Jeśli na przykład wysokość i szerokość są cechami, to warunek ukośny będzie wyglądał tak:

  height > width

Porównaj z warunkiem dopasowanym do osi.

ocena „out-of-bag” (OOB)

#df

Mechanizm oceny jakości lasu decyzji polegający na testowaniu każdego drzewa decyzji na przykładach nie używanych podczas trenowania tego drzewa decyzji. Na przykład na poniższym diagramie widać, że system trenuje każde drzewo decyzyjne na około 2/3 przykładów, a potem ocenia je na podstawie pozostałej 1/3 przykładów.

Las decyzyjny składający się z 3 drzew decyzyjnych.
          Jedno drzewo decyzyjne jest trenowane na 2 / 3 przykładów, a następnie wykorzystuje pozostałą 1 / 3 do oceny poza zakresem.
          Drugie drzewo decyzyjne jest trenowane na 2/3 innych przykładów niż poprzednie drzewo decyzyjne, a potem używa innej 1/3 do oceny poza zakresem poprzedniego drzewa decyzyjnego.

Ocena z wykorzystaniem danych z innych próbek to wydajne i konserwatywne zastąpienie mechanizmu potwierdzenia krzyżowego. W przypadku walidacji krzyżowej w każdej rundzie walidacji krzyżowej trenowany jest jeden model (np. w walidacji krzyżowej 10-krotnej trenowanych jest 10 modeli). W przypadku oceny OOB trenowany jest jeden model. Podczas trenowania bagging zatrzymuje niektóre dane z każdego drzewa, dlatego ocena OOB może używać tych danych do przybliżonej walidacji krzyżowej.

P

permutacyjna ważność zmiennych

#df

Typ znaczenia zmiennej, który ocenia wzrost błędu prognozy modelu po permutacji wartości cechy. Permutacyjna ważność zmiennej jest miarą niezależną od modelu.

R

las losowy

#df

Zbiór drzew decyzyjnych, w których każde drzewo decyzyjne jest trenowane z użyciem określonego losowego szumu, takiego jak bagging.

Lasy losowe to rodzaj lasu decyzyjnego.

poziom główny

#df

Węzeł początkowy (pierwszy warunek) w drzewie decyzyjnym. Zgodnie z zasadą na diagramach węzeł główny znajduje się u góry drzewa decyzyjnego. Na przykład:

Drzewo decyzyjne z 2 warunkami i 3 listkami. Warunek początkowy (x > 2) to pierwiastek.

S

próbkowanie z wymianą,

#df

Metoda wybierania elementów z zestawu elementów kandydujących, w której ten sam element może zostać wybrany kilka razy. Wyrażenie „z zastąpieniem” oznacza, że po każdym wyborze wybrany element wraca do puli elementów kandydujących. Metoda odwrotna, czyli próbkowanie bez zastąpienia, oznacza, że element kandydat może zostać wybrany tylko raz.

Weź pod uwagę te owoce:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Załóżmy, że system losowo wybiera fig jako pierwszy element. Jeśli używasz próbkowania z wymianą, system wybiera drugi element z tego zbioru:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Tak, to ten sam zestaw, co wcześniej, więc system może ponownie wybrać fig.

Jeśli używasz próbkowania bez zastępowania, wybranej próbki nie można wybrać ponownie. Jeśli na przykład system losowo wybierze fig jako pierwszą próbkę, fig nie zostanie wybrana ponownie. Dlatego system wybiera drugą próbkę z tego (zmniejszonego) zbioru:

fruit = {kiwi, apple, pear, cherry, lime, mango}

kurczenie się

#df

Hiperparametrwzmacnianiu gradientu, który kontroluje nadmierne dopasowanie. Zmniejszenie w wzmacnianiu gradientem jest analogiczne do tempa uczenia sięspadku wzdłuż gradientu. Skurcz to wartość dziesiętna z zakresu od 0,0 do 1,0. Mniejsza wartość skurczenia zmniejsza ryzyko przetrenowania bardziej niż większa wartość skurczenia.

podziel

#df

W drzewie decyzyjnym inna nazwa warunku.

splitter

#df

Podczas trenowania drzewa decyzji rutyna (i algorytm) odpowiedzialna za znajdowanie najlepszej warunku w każdym węźle.

T

test

#df

W drzewie decyzyjnym inna nazwa warunku.

próg (w przypadku drzew decyzyjnych),

#df

W warunku dopasowanym do osi porównywana jest wartość atrybutu. Na przykład 75 to wartość progowa w tym warunku:

grade >= 75

V

wagi zmiennych

#df

Zestaw wyników, który wskazuje względne znaczenie poszczególnych cech dla modelu.

Rozważ na przykład drzewo decyzyjne, które szacuje ceny domów. Załóżmy, że ten schemat decyzyjny używa 3 cech: rozmiar, wiek i styl. Jeśli zestaw zmiennych ważności dla 3 cech został obliczony jako {rozmiar=5,8, wiek=2,5, styl=4,7}, to rozmiar jest ważniejszy dla drzewa decyzji niż wiek lub styl.

Istnieją różne wskaźniki znaczenia zmiennych, które mogą informować ekspertów ds. ML o różnych aspektach modeli.

W

mądrość tłumu

#df

Według tej teorii uśrednianie opinii lub szacunków dużej grupy osób („grupy”) często przynosi zaskakująco dobre wyniki. Załóżmy na przykład, że w grze uczestnicy mają odgadnąć liczbę cukierków w dużym słoiku. Chociaż większość indywidualnych przewidywań będzie niedokładna, średnia wszystkich przewidywań okazała się zaskakująco zbliżona do rzeczywistej liczby żelek w słoiku.

Zestawy to oprogramowanie, które wykorzystuje mądrość tłumu. Nawet jeśli poszczególne modele generują bardzo niedokładne prognozy, uśrednianie prognoz wielu modeli często daje zaskakująco dobre wyniki. Na przykład drzewo decyzyjne może generować słabe prognozy, ale las decyzyjny często generuje bardzo dobre prognozy.