Ecco un breve riepilogo di ciò che hai imparato nel corso:
- Un albero decisionale è un modello composto da una raccolta di condizioni organizzate gerarchicamente a forma di albero. Le condizioni rientrano in varie categorie:
- Una condizione allineata all'asse riguarda una sola funzionalità. Una condizione obbligatoria coinvolge più funzionalità.
- Una condizione binaria ha due possibili risultati. Una condizione non binaria ha più di due risultati possibili.
- Addestrare un albero decisionale comporta la ricerca della condizione migliore in ogni nodo. La routine splitter utilizza metriche come accumulo di informazioni o Gini per determinare la condizione migliore.
- Una forte decisionale è una modalità composta da più alberi decisionali. La previsione di una foresta decisionale è l'aggregazione delle previsioni dei relativi alberi decisionali.
- Una foresta casuale è un insieme di alberi decisionali in cui ogni albero decisionale viene addestrato con un rumore casuale specifico.
- Il bagging è una tecnica in base alla quale ogni albero decisionale nella foresta casuale viene addestrato su un sottoinsieme diverso di esempi.
- Le foreste casuali non richiedono un set di dati di convalida. Al contrario, la maggior parte delle foreste casuali utilizza una tecnica chiamata out-of-bag-evaluation per valutare la qualità del modello.
- Un albero con gradiente (decisione) è un tipo di foresta di decisioni addestrato tramite aggiustamenti iterativi provenienti dagli alberi di decisione degli input. Un valore chiamato retrazione controlla la velocità di apprendimento di un albero con gradiente (decisione) e il grado di overfit.
Riferimenti
- Greedy Function Approximation: A Gradient Boosting Machine, J. Friedman.
- The Elements of Statistical Learning, Trevor Hastie. Capitolo 10
- Modelli boosted generali: guida al pacchetto gbm, G. Ridgeway