Obejmuje on takie tematy:
- interpretacja lasów przypadkowych
- trenowanie lasów losowych
- zalety i wady lasów losowych
Interpretowanie lasów przypadkowych
Losowe lasy są bardziej złożone do interpretacji niż drzewa decyzyjne. Losowe lasy zawierają drzewa decyzyjne wytrenowane tak, by szum losowy. W związku z tym trudniej jest ocenić strukturę drzewa decyzji. Możemy jednak interpretować modele lasów na kilka sposobów.
Jednym ze sposobów interpretowania losowego lasu jest wytrenowanie i zinterpretowanie drzewa decyzyjnego za pomocą algorytmu CART. Zarówno las losowy, jak i metoda CART są trenowane z wykorzystaniem tego samego algorytmu podstawowego, więc udostępniają ten sam globalny widok zbioru danych. Ta opcja sprawdza się w przypadku prostych zbiorów danych i do zrozumienia ogólnej interpretacji modelu.
Zróżnicowane znaczenie to kolejne podejście, które można łatwo zinterpretować. Na przykład w tabeli poniżej przedstawiono znaczenie różnych funkcji losowego modelu lasu wytrenowanego w zbiorze danych statystycznych (nazywanym też dorosłym).
Tabela 8. Różne znaczenie 14 różnych funkcji.
Funkcja | Suma punktów | Średni spadek dokładności | Średni spadek AUC | Średnia min. głębokość | Liczba węzłów | Średni spadek PR-AUC | Num jako root |
---|---|---|---|---|---|---|---|
związki | 4203592 |
0,0045 |
0,0172 |
4970 |
57040 |
0,0093 |
1095 |
Capital_gain | 3363045.1 |
0,0199 |
0,0194 |
2852 |
56468 |
0,0655 |
457 |
stan cywilny | 312 899 6,3 |
0,0018 |
0,0230 |
6633 |
52391 |
0,0107 |
750 |
wiek | 2520658,8 |
0,0065 |
0,0074 |
4969 |
356784 |
0,0033 |
200 |
edukacja | 2015905,4 |
0,0018 |
-0,0080 |
5266 |
115751 |
-0,0129 |
205 |
zawód | 1939409,3 |
0,0063 |
-0,0040 |
5017 |
221935 |
-0,0060 |
62 |
edukacja_num | 1673648,4 |
0,0023 |
-0,0066 |
6009 |
58303 |
-0,0080 |
197 |
Fnlwgt | 1564189,0 |
-0,0002 |
-0,0038 |
9969 |
431987 |
-0,0049 |
0 |
godz._na tydzień | 1333976.3 |
0,0030 |
0,0007 |
6393 |
206526 |
-0,0031 |
20 |
Capital_loss | 866 863,8 |
0,0060 |
0,0020 |
8076 |
58531 |
0,0118 |
1 |
klasa | 644208.4 |
0,0025 |
-0,0019 |
9898 |
132196 |
-0,0023 |
0 |
natywny_kraj | 538 841,2 |
0,0001 |
-0,0016 |
9434 |
67211 |
-0,0058 |
0 |
płeć | 226049,3 |
0,0002 |
0,0002 |
10 911 |
37754 |
-0,0011 |
13 |
rasa | 168180,9 |
-0,0006 |
-0,0004 |
11 571 |
42262 |
-0,0031 |
0 |
Jak widać, różne definicje zmiennych zmiennych są różne i mogą powodować różnice w rankingu funkcji.
Znaczenie zmiennych o określonej wartości pochodzące ze struktury modelu (np. wynik sumy, średnia głębokość, liczba węzłów i liczba rdzeni w tabeli powyżej) jest obliczane podobnie w przypadku drzew decyzyjnych (patrz sekcja &Kosz; | Zmienna zmienna") i lasów losowych.
Znaczenie zmiennej permutacji (np. średnie obniżenie wartości {accuracy, auc, prprauau} w tabeli powyżej) jest modelem niezależnym modelem, który można obliczyć na dowolnym modelu systemu uczącego się, korzystając ze zbioru danych do walidacji. Jednak w przypadku lasu losowego zamiast weryfikacji za pomocą zbioru danych można ocenić znaczenie zmiennej w permutacji.
SHAPley (Shapley Additive exPlanations) to metoda diagnozowania modeli, która służy do wyjaśniania poszczególnych prognoz lub interpretacji modelu. Zapoznaj się z artykułem Interpretowane systemy uczące się przygotowanym przez Molarr, aby zapoznać się z wprowadzeniem do interpretacji modelu. SHAP to zwykle dość kosztowne rozwiązanie, ale w przypadku lasów decyzyjnych może być przyspieszone, dlatego jest to dobry sposób na interpretację lasów decyzyjnych.
Przykład zastosowania
Na poprzedniej lekcji wytrenowaliśmy drzewo decyzyjne CART w małym zbiorze danych przez wywołanie tfdf.keras.CartModel
. Aby wytrenować losowy model lasu, po prostu zastąp tfdf.keras.CartModel
na tfdf.keras.RandomForestModel
:
model = tfdf.keras.RandomForestModel()
model.fit(tf_train_dataset)
Zalety i wady
Zawiera ona krótkie podsumowanie wad i zalet lasów losowych.
Zalety:
- Tak jak w przypadku drzew decyzyjnych, lasy losowe obsługują naturalnie cechy numeryczne i kategoryzacyjne i często nie wymagają wstępnego przetwarzania cech.
- Drzewa decyzyjne są niezależne, więc lasy losowe można trenować równolegle. W efekcie można szybko trenować lasy.
- Lasy losowe mają parametry domyślne, które często przynoszą najlepsze rezultaty. Dostrajanie tych parametrów często ma niewielki wpływ na model.
Wady:
- Ponieważ drzewa decyzyjne nie są obcinane, mogą być duże. Typowe są modele o liczbie węzłów przekraczającej 1 mln. Rozmiarem (a tym samym szybkością) lasu losowego może być problem.
- Losowe lasy nie mogą się uczyć i używać ponownie. Każde drzewo decyzyjne (i każda gałąź każdej drzewa decyzji) musi ponownie poznać wzorzec zbioru danych. W niektórych zbiorach danych, zwłaszcza w postaci zdjęć, w postaci zdjęć, tekstu, co prowadzi do przypadkowych lasów, pogarsza to wyniki innych metod.