Valutazione out-of-bag

Le foreste casuali non richiedono un set di dati di convalida. La maggior parte delle foreste casuali utilizza una tecnica chiamata out-of-bag-evaluation (out-of-bag-evaluation out-of-bag-evaluation) per valutare la qualità del modello. La valutazione OOB tratta il set di addestramento come se fosse sul set di test di una convalida incrociata.

Come spiegato in precedenza, ogni albero decisionale in una foresta casuale viene generalmente addestrato su circa il 67% degli esempi di addestramento. Pertanto, ogni albero decisionale non vede ~33% gli esempi di addestramento. L'idea alla base della valutazione OOB è la seguente:

  • a valutare la foresta casuale sul set di addestramento.
  • Per ogni esempio, utilizza solo gli alberi decisionali che non hanno visto l'esempio durante l'addestramento.

La seguente tabella illustra la valutazione OOB di una foresta casuale con 3 alberi decisionali addestrati sulla base di 6 esempi. (Sì, è la stessa tabella della sezione Imballaggio). La tabella mostra quale albero decisionale viene utilizzato e quale esempio durante la valutazione OOB.

Tabella 7. Valutazione OOB: i numeri rappresentano il numero di volte in cui un determinato esempio di addestramento viene utilizzato durante l'addestramento dell'esempio specificato.

Esempi di addestramento Esempi di valutazione OOB
#1 #2 #3 #4 #5 #6
set di dati originale 1 1 1 1 1 1
albero decisionale 1 1 1 0 2 1 1 #3
albero decisionale 2 3 0 1 0 2 0 2, 4 e 6
albero decisionale 3 0 1 3 1 0 1 1 e 5

Nell'esempio mostrato nella Tabella 7, le previsioni OOB per l'addestramento dell'esempio 1 verranno calcolate con l'albero decisionale 3 (poiché gli alberi decisionali n. 1 e 2 hanno utilizzato questo esempio per l'addestramento). In pratica, con un set di dati di dimensioni ragionevoli e pochi alberi decisionali, tutti gli esempi hanno una previsione OOB.

Codice YDF
In YDF, la valutazione OOB è disponibile nei log di addestramento se il modello viene addestrato con compute_oob_performances=True.

La valutazione OOB è efficace anche per calcolare l'importanza della variabile di permutazione per i modelli di foreste casuali. Da Importazioni delle variabili, ricorda che l'importanza delle variabili di permutazione misura l'importanza di una variabile misurando il calo della qualità del modello quando questa variabile viene applicata in modo casuale. L'importanza della variabile di permutazione OOB della foresta casuale è l'importanza di una variabile di permutazione calcolata utilizzando la valutazione OOB.

Codice YDF
In YDF, le priorità delle variabili di permutazione OOB sono disponibili nei log di addestramento se il modello viene addestrato con compute_oob_variable_importances=True.