Oto krótkie podsumowanie wiedzy zdobytej w trakcie kursu:
- Drzewo decyzyjne to model składający się z kolekcji warunków uporządkowanych hierarchicznie w postaci drzewa. Warunki dzielą się na różne kategorie:
- Warunek dopasowania do osi dotyczy tylko jednej funkcji. Warunek ukośny obejmuje wiele funkcji.
- Warunek binarny może mieć 2 możliwe wyniki. Warunek niebinarny ma więcej niż 2 możliwe wyniki.
- Trenowanie drzewa decyzyjnego polega na wyszukiwaniu najlepszego warunku w każdym węźle. Procedura splitter używa danych takich jak informacje na temat zysku lub Gini, aby określić najlepszy stan.
- Las decyzyjny to tryb korzystający z wielu drzew decyzyjnych. Prognoza lasu decyzyjnego jest agregacją prognoz drzew decyzyjnych.
- Las losowy to zbiór drzew decyzyjnych, w których każde drzewo jest trenowane z użyciem określonego losowego szumu.
- Bagging to technika, w której każdy schemat decyzyjny w lesie losowym jest trenowany na podstawie innego podzbioru przykładów.
- Lasy losowe nie wymagają zbioru danych do weryfikacji. Zamiast tego większość losowych lasów wykorzystuje technikę zwaną out-of-bag-evaluation do oceny jakości modelu.
- Gradient boosting (decision) tree to rodzaj lasu decyzyjnego trenowanego przez powtarzane dostosowywanie na podstawie drzew decyzyjnych podanych na wejściu. Wartość o nazwie shrinkage kontroluje tempo, z jakim drzewo gradientowe (decyzyjne) uczy się i w jakim stopniu może ono dopasowywać model do danych.
Pliki referencyjne
- Greedy Function Approximation: A Gradient Boosting Machine, J. Friedman.
- The Elements of Statistical Learning, Trevor Hastie. Rozdział 10.
- Generalized Boosted Models: A guide to the gbm package (Ogólne wzmacniane modele: przewodnik po pakiecie gbm), G. Ridgeway