Inne tematy

Obejmuje on takie tematy:

  • interpretacja lasów przypadkowych
  • trenowanie lasów losowych
  • zalety i wady lasów losowych

Interpretowanie lasów przypadkowych

Losowe lasy są bardziej złożone do interpretacji niż drzewa decyzyjne. Losowe lasy zawierają drzewa decyzyjne wytrenowane tak, by szum losowy. W związku z tym trudniej jest ocenić strukturę drzewa decyzji. Możemy jednak interpretować modele lasów na kilka sposobów.

Jednym ze sposobów interpretowania losowego lasu jest wytrenowanie i zinterpretowanie drzewa decyzyjnego za pomocą algorytmu CART. Zarówno las losowy, jak i metoda CART są trenowane z wykorzystaniem tego samego algorytmu podstawowego, więc udostępniają ten sam globalny widok zbioru danych. Ta opcja sprawdza się w przypadku prostych zbiorów danych i do zrozumienia ogólnej interpretacji modelu.

Zróżnicowane znaczenie to kolejne podejście, które można łatwo zinterpretować. Na przykład w tabeli poniżej przedstawiono znaczenie różnych funkcji losowego modelu lasu wytrenowanego w zbiorze danych statystycznych (nazywanym też dorosłym).

Tabela 8. Różne znaczenie 14 różnych funkcji.

Funkcja Suma punktów Średni spadek dokładności Średni spadek AUC Średnia min. głębokość Liczba węzłów Średni spadek PR-AUC Num jako root
związki

4203592

0,0045

0,0172

4970

57040

0,0093

1095

Capital_gain

3363045.1

0,0199

0,0194

2852

56468

0,0655

457

stan cywilny

312 899 6,3

0,0018

0,0230

6633

52391

0,0107

750

wiek

2520658,8

0,0065

0,0074

4969

356784

0,0033

200

edukacja

2015905,4

0,0018

-0,0080

5266

115751

-0,0129

205

zawód

1939409,3

0,0063

-0,0040

5017

221935

-0,0060

62

edukacja_num

1673648,4

0,0023

-0,0066

6009

58303

-0,0080

197

Fnlwgt

1564189,0

-0,0002

-0,0038

9969

431987

-0,0049

0

godz._na tydzień

1333976.3

0,0030

0,0007

6393

206526

-0,0031

20

Capital_loss

866 863,8

0,0060

0,0020

8076

58531

0,0118

1

klasa

644208.4

0,0025

-0,0019

9898

132196

-0,0023

0

natywny_kraj

538 841,2

0,0001

-0,0016

9434

67211

-0,0058

0

płeć

226049,3

0,0002

0,0002

10 911

37754

-0,0011

13

rasa

168180,9

-0,0006

-0,0004

11 571

42262

-0,0031

0

Jak widać, różne definicje zmiennych zmiennych są różne i mogą powodować różnice w rankingu funkcji.

Znaczenie zmiennych o określonej wartości pochodzące ze struktury modelu (np. wynik sumy, średnia głębokość, liczba węzłów i liczba rdzeni w tabeli powyżej) jest obliczane podobnie w przypadku drzew decyzyjnych (patrz sekcja &Kosz; | Zmienna zmienna") i lasów losowych.

Znaczenie zmiennej permutacji (np. średnie obniżenie wartości {accuracy, auc, prprauau} w tabeli powyżej) jest modelem niezależnym modelem, który można obliczyć na dowolnym modelu systemu uczącego się, korzystając ze zbioru danych do walidacji. Jednak w przypadku lasu losowego zamiast weryfikacji za pomocą zbioru danych można ocenić znaczenie zmiennej w permutacji.

SHAPley (Shapley Additive exPlanations) to metoda diagnozowania modeli, która służy do wyjaśniania poszczególnych prognoz lub interpretacji modelu. Zapoznaj się z artykułem Interpretowane systemy uczące się przygotowanym przez Molarr, aby zapoznać się z wprowadzeniem do interpretacji modelu. SHAP to zwykle dość kosztowne rozwiązanie, ale w przypadku lasów decyzyjnych może być przyspieszone, dlatego jest to dobry sposób na interpretację lasów decyzyjnych.

Przykład zastosowania

Na poprzedniej lekcji wytrenowaliśmy drzewo decyzyjne CART w małym zbiorze danych przez wywołanie tfdf.keras.CartModel. Aby wytrenować losowy model lasu, po prostu zastąp tfdf.keras.CartModel na tfdf.keras.RandomForestModel:

model = tfdf.keras.RandomForestModel()
model.fit(tf_train_dataset)

Zalety i wady

Zawiera ona krótkie podsumowanie wad i zalet lasów losowych.

Zalety:

  • Tak jak w przypadku drzew decyzyjnych, lasy losowe obsługują naturalnie cechy numeryczne i kategoryzacyjne i często nie wymagają wstępnego przetwarzania cech.
  • Drzewa decyzyjne są niezależne, więc lasy losowe można trenować równolegle. W efekcie można szybko trenować lasy.
  • Lasy losowe mają parametry domyślne, które często przynoszą najlepsze rezultaty. Dostrajanie tych parametrów często ma niewielki wpływ na model.

Wady:

  • Ponieważ drzewa decyzyjne nie są obcinane, mogą być duże. Typowe są modele o liczbie węzłów przekraczającej 1 mln. Rozmiarem (a tym samym szybkością) lasu losowego może być problem.
  • Losowe lasy nie mogą się uczyć i używać ponownie. Każde drzewo decyzyjne (i każda gałąź każdej drzewa decyzji) musi ponownie poznać wzorzec zbioru danych. W niektórych zbiorach danych, zwłaszcza w postaci zdjęć, w postaci zdjęć, tekstu, co prowadzi do przypadkowych lasów, pogarsza to wyniki innych metod.