Oto krótkie podsumowanie informacji zdobytych w kursie:
- Drzewo decyzyjne to model,
złożony ze zbioru
uporządkowane warunki
hierarchicznie na kształt drzewa. Warunki dzielą się na:
kategorie:
- Wyrównany do osi warunku wiąże się tylko jedną cechę. Kąt skośny warunku wiąże się wiele funkcji.
- Plik binarny stan ma 2 możliwe wyniki. Osoba niebinarna stan ma więcej niż dwóch możliwych rozwiązań.
- Trenowanie drzewa decyzyjnego polega na wyszukiwaniu najlepszych warunków w każdego węzła. Procedura splitter korzysta z danych, takich jak informacje przybrać lub Gini do .
- las decyzji to jako tryb złożony z wielu drzew decyzyjnych. Prognoza lasu decyzji to agregacja prognoz drzew decyzyjnych.
- Przypadkowy las to zbiór drzew decyzyjnych, w którym każde drzewo decyzyjne jest wytrenowane na podstawie konkretny losowy szum.
- Bagowanie to technika, w której każde drzewo decyzyjne w lesie losowym jest trenowane na innym podzbiorze, z przykładami.
- Lasy losowe nie wymagają zbioru danych do weryfikacji. Zamiast tego najbardziej losowe korzystają z metody zwanej out-of-bag-evaluation aby ocenić jakość modelu.
- Wzmocnienie gradientu (decyzja) drzewo to typ lasu decyzyjnego wytrenowanego przez iteracyjne korekty na podstawie danych wejściowych drzewa decyzyjne. Wartość o nazwie skurcz kontroluje szybkość czego uczy drzewo gradientu (decyzja) i stopień, w jakim może być za duża.
Pliki referencyjne
- Przybliżenie funkcji chwytliwej: wzmocnienie gradientem Komputer, J. Friedmana.
- Elementy statystyk Edukacja, Trevor Hastie, Rozdział 10.
- Uogólnione modele Boosted: przewodnik po GBM pakiet, Br. Ridgeway