Out-of-Bag-Bewertung
Für Random Forests ist kein Validierungs-Dataset erforderlich. Bei den meisten zufälligen Wäldern wird die Qualität des Modells mithilfe der Out-of-Bag-Bewertung (OOB-Bewertung) bewertet. Bei der OOB-Bewertung wird der Trainingssatz so behandelt, als wäre er der Testsatz einer Kreuzvalidierung.
Wie bereits erwähnt, wird jeder Entscheidungsbaum in einem Random Forest in der Regel mit etwa 67% der Trainingsbeispiele trainiert. Daher werden jedem Entscheidungsbaum etwa 33% der Trainingsbeispiele nicht präsentiert. Die Grundidee der OOB-Bewertung ist folgende:
- Um den Random Forest auf dem Trainingssatz zu bewerten.
- Verwenden Sie für jedes Beispiel nur die Entscheidungsbäume, die das Beispiel während des Trainings nicht gesehen haben.
In der folgenden Tabelle ist die OOB-Bewertung eines Random Forest mit 3 Entscheidungsbäumen zu sehen, die anhand von 6 Beispielen trainiert wurden. Ja, dies ist dieselbe Tabelle wie im Abschnitt „Bagging“. In der Tabelle sehen Sie, welcher Entscheidungsbaum bei der OOB-Bewertung mit welchem Beispiel verwendet wird.
Tabelle 7. OOB-Bewertung: Die Zahlen geben an, wie oft ein bestimmtes Trainingsbeispiel beim Training des jeweiligen Beispiels verwendet wird.
Trainingsbeispiele | Beispiele für die Bewertung außerhalb des Betriebs | ||||||
---|---|---|---|---|---|---|---|
#1 | 2. | #3 | #4 | #5 | #6 | ||
Ursprüngliches Dataset | 1 | 1 | 1 | 1 | 1 | 1 | |
Entscheidungsbaum 1 | 1 | 1 | 0 | 2 | 1 | 1 | #3 |
Entscheidungsbaum 2 | 3 | 0 | 1 | 0 | 2 | 0 | 2, 4 und 6 |
Entscheidungsbaum 3 | 0 | 1 | 3 | 1 | 0 | 1 | 1 und 5 |
Im Beispiel in Tabelle 7 werden die OoB-Vorhersagen für Trainingsbeispiel 1 mit Entscheidungsbaum 3 berechnet, da Entscheidungsbäume 1 und 2 dieses Beispiel für das Training verwendet haben. In der Praxis haben bei einem Datensatz mit angemessener Größe und einigen Entscheidungsbäumen alle Beispiele eine OoB-Prognose.
compute_oob_performances=True
trainiert wird.
Die OOB-Bewertung eignet sich auch, um die Wichtigkeit der Permutationsvariablen für Random-Forest-Modelle zu berechnen. Wie Sie unter Variablengewichte erfahren haben, wird die Wichtigkeit einer Variablen anhand der Modellqualität gemessen, die sich durch das Zufallsmixen dieser Variablen verringert. Die „OOB-Permutationsvariablen-Wichtigkeit“ des Random Forest ist eine Permutationsvariablen-Wichtigkeit, die anhand der OOB-Bewertung berechnet wird.
compute_oob_variable_importances=True
trainiert wird.