Out-of-Bag-Bewertung

Für Random Forests ist kein Validierungs-Dataset erforderlich. Bei den meisten zufälligen Wäldern wird die Qualität des Modells mithilfe der Out-of-Bag-Bewertung (OOB-Bewertung) bewertet. Bei der OOB-Bewertung wird der Trainingssatz so behandelt, als wäre er der Testsatz einer Kreuzvalidierung.

Wie bereits erwähnt, wird jeder Entscheidungsbaum in einem Random Forest in der Regel mit etwa 67% der Trainingsbeispiele trainiert. Daher werden jedem Entscheidungsbaum etwa 33% der Trainingsbeispiele nicht präsentiert. Die Grundidee der OOB-Bewertung ist folgende:

  • Um den Random Forest auf dem Trainingssatz zu bewerten.
  • Verwenden Sie für jedes Beispiel nur die Entscheidungsbäume, die das Beispiel während des Trainings nicht gesehen haben.

In der folgenden Tabelle ist die OOB-Bewertung eines Random Forest mit 3 Entscheidungsbäumen zu sehen, die anhand von 6 Beispielen trainiert wurden. Ja, dies ist dieselbe Tabelle wie im Abschnitt „Bagging“. In der Tabelle sehen Sie, welcher Entscheidungsbaum bei der OOB-Bewertung mit welchem Beispiel verwendet wird.

Tabelle 7. OOB-Bewertung: Die Zahlen geben an, wie oft ein bestimmtes Trainingsbeispiel beim Training des jeweiligen Beispiels verwendet wird.

Trainingsbeispiele Beispiele für die Bewertung außerhalb des Betriebs
#1 2. #3 #4 #5 #6
Ursprüngliches Dataset 1 1 1 1 1 1
Entscheidungsbaum 1 1 1 0 2 1 1 #3
Entscheidungsbaum 2 3 0 1 0 2 0 2, 4 und 6
Entscheidungsbaum 3 0 1 3 1 0 1 1 und 5

Im Beispiel in Tabelle 7 werden die OoB-Vorhersagen für Trainingsbeispiel 1 mit Entscheidungsbaum 3 berechnet, da Entscheidungsbäume 1 und 2 dieses Beispiel für das Training verwendet haben. In der Praxis haben bei einem Datensatz mit angemessener Größe und einigen Entscheidungsbäumen alle Beispiele eine OoB-Prognose.

YDF-Code
In YDF ist die OOB-Bewertung in den Trainingsprotokollen verfügbar, wenn das Modell mit compute_oob_performances=True trainiert wird.

Die OOB-Bewertung eignet sich auch, um die Wichtigkeit der Permutationsvariablen für Random-Forest-Modelle zu berechnen. Wie Sie unter Variablengewichte erfahren haben, wird die Wichtigkeit einer Variablen anhand der Modellqualität gemessen, die sich durch das Zufallsmixen dieser Variablen verringert. Die „OOB-Permutationsvariablen-Wichtigkeit“ des Random Forest ist eine Permutationsvariablen-Wichtigkeit, die anhand der OOB-Bewertung berechnet wird.

YDF-Code
In YDF sind die Wichtigkeitsbewertungen der OOB-Permutationsvariablen in den Trainingsprotokollen verfügbar, wenn das Modell mit compute_oob_variable_importances=True trainiert wird.