Oto krótkie podsumowanie informacji zdobytych w ramach kursu:
- Drzewo decyzyjne to model złożony z kolekcji warunków ustrukturyzowanych hierarchicznie w kształcie drzewa. Warunki dzielą się na różne kategorie:
- Warunek wyrównany do osi obejmuje tylko jedną cechę. Warunek skośny obejmuje wiele cech.
- Warunek binarny ma 2 możliwe rezultaty. Warunek niebinarny ma więcej niż 2 możliwe wyniki.
- Trenowanie drzewa decyzyjnego obejmuje wyszukanie najlepszego warunku w każdym węźle. Procedura splitter określa najlepszy stan na podstawie takich wskaźników jak wzrost informacji lub Gini.
- las decyzyjny to tryb składający się z wielu drzew decyzyjnych, Prognoza dotycząca lasu decyzyjnego jest agregacją prognoz dotyczących drzew decyzyjnych.
- las losowy to zespół drzew decyzyjnych, w których każde drzewo decyzyjne jest trenowane przy użyciu określonego losowego szumu.
- Bagowanie to technika, w której każde drzewo decyzyjne w przypadkowym lesie jest trenowane na różnych podzbiorze przykładów.
- Lasy losowe nie wymagają zbioru danych do walidacji. Zamiast tego większość lasów losowych korzysta z metody zwanej out-of-bag-evaluation, która służy do oceny jakości modelu.
- Drzewo decyzyjne ze wzmocnionym gradientem to typ lasu decyzyjnego wytrenowany przez iteryczne korekty z drzew decyzji wejściowych. Wartość skurcz steruje szybkością uczenia się drzewa decyzyjnego oraz stopniem, w jakim można je przeostrzać.
Źródła
- A przybliżenie funkcji Greedy: A maszyna wzmocnienia gradientu, J. Friedmana.
- The Elements of Statistical Learning, Trevor Hastie. Rozdział 10
- Uogólnione modele rozszerzone: przewodnik po pakiecie GBM, G. Ridgeway