Valutazione out-of-bag
Le foreste casuali non richiedono un set di dati di convalida. La maggior parte delle foreste casuali utilizza una tecnica chiamata valutazione out-of-bag (valutazione OOB) per valutare la qualità del modello. La valutazione OOB tratta il set di addestramento come se fosse nel set di test di una convalida incrociata.
Come spiegato in precedenza, ogni albero decisionale in una foresta casuale viene in genere addestrato su circa il 67% degli esempi di addestramento. Pertanto, ogni albero decisionale non vede circa il 33% degli esempi di addestramento. L'idea di base della valutazione OOB è la seguente:
- Per valutare la foresta casuale sul set di addestramento.
- Per ogni esempio, utilizza solo gli alberi decisionali che non hanno visto l'esempio durante l'addestramento.
La tabella seguente illustra la valutazione OOB di una foresta casuale con 3 alberi decisionali addestrati su 6 esempi. Sì, si tratta della stessa tabella della sezione relativa al bagging. La tabella mostra quale albero decisionale viene utilizzato con quale esempio durante la valutazione OOB.
Tabella 7. Valutazione OOB: i numeri rappresentano il numero di volte in cui un determinato esempio di addestramento viene utilizzato durante l'addestramento del determinato esempio
Esempi di addestramento | Esempi per la valutazione OOB | ||||||
---|---|---|---|---|---|---|---|
#1 | #2 | #3 | #4 | #5 | #6 | ||
set di dati originale | 1 | 1 | 1 | 1 | 1 | 1 | |
albero decisionale 1 | 1 | 1 | 0 | 2 | 1 | 1 | #3 |
albero decisionale 2 | 3 | 0 | 1 | 0 | 2 | 0 | 2, 4 e 6 |
albero decisionale 3 | 0 | 1 | 3 | 1 | 0 | 1 | 1 e 5 |
Nell'esempio mostrato nella Tabella 7, le previsioni OOB per l'esempio di addestramento 1 verranno calcolate con l'albero decisionale 3 (poiché gli alberi decisionali 1 e 2 hanno utilizzato questo esempio per l'addestramento). In pratica, su un set di dati di dimensioni ragionevoli e con alcuni alberi decisionali, tutti gli esempi hanno una previsione OOB.
compute_oob_performances=True
.
La valutazione OOB è efficace anche per calcolare l'importanza delle variabili di permutazione per i modelli di foresta casuale. Ricorda da Importanza delle variabili che l'importanza della variabile di permutazione misura l'importanza di una variabile misurando la diminuzione della qualità del modello quando questa variabile viene rimescolata. L'importanza della variabile di permutazione "OOB" del foresta casuale è un'importanza della variabile di permutazione calcolata utilizzando la valutazione OOB.
compute_oob_variable_importances=True
.