Ecco un breve riepilogo di ciò che hai imparato nel corso:
- Un albero decisionale è un modello costituito da una raccolta di condizioni organizzate gerarchicamente sotto forma di albero. Le condizioni rientrano in varie categorie:
- Una condizione aliniata all'asse coinvolge solo una singola caratteristica. Una condizione oblique coinvolge più elementi.
- Una condizione binaria ha due possibili risultati. Una condizione non binaria ha più di due possibili risultati.
- L'addestramento di un albero decisionale prevede la ricerca della condizione migliore in ogni nodo. La routine splitter utilizza metriche come il guadagno di informazione o il coefficiente di Gini per determinare la condizione migliore.
- Una foresta di alberi decisionali è una modalità composta da più alberi decisionali. La previsione di una foresta decisionale è l'aggregazione delle previsioni dei suoi alberi decisionali.
- Una foresta casuale è un insieme di alberi decisionali in cui ogni albero viene addestrato con un rumore casuale specifico.
- Il bagging è una tecnica in cui ogni albero decisionale nella foresta casuale viene addestrato su un sottoinsieme diverso di esempi.
- Le foreste casuali non richiedono un set di dati di convalida. La maggior parte delle foreste randomizzate utilizza invece una tecnica chiamata out-of-bag-evaluation per valutare la qualità del modello.
- Un albero (decisionale) con boosting della scosta è un tipo di foresta decisionale addestrata tramite aggiustamenti iterativi degli alberi decisionali di input. Un valore chiamato shrinkage controlla la velocità con cui un albero decisionale con boosting del gradiente apprende e il grado in cui potrebbe verificarsi un overfitting.
Riferimenti
- Greedy Function Approximation: A Gradient Boosting Machine, J. Friedman.
- The Elements of Statistical Learning, Trevor Hastie. Capitolo 10.
- Generalized Boosted Models: A guide to the gbm package, G. Ridgeway