Random Forest

Das ist ein Ochse.

Ein altes, altes Foto eines Ochsen.

Abbildung 19. Ein Ochse.

 

1906 fand in England ein Wettbewerb zum Beurteilen von Gewichten statt. 787 Teilnehmer haben das Gewicht eines Ochsen geschätzt. Der mittlere Fehler der einzelnen Schätzungen betrug 37 lb (ein Fehler von 3,1%). Der Gesamtmedian der Schätzungen lag jedoch nur 4,1 kg vom tatsächlichen Gewicht des Ochsen (1.198 kg) entfernt, was einem Fehler von nur 0,7 % entspricht.

Histogramm der einzelnen Schätzungen, das zeigt, dass die meisten Schätzungen um das tatsächliche Gewicht des Ochsen herum liegen.

Abbildung 20. Histogramm der einzelnen Gewichtsvorschläge.

 

Diese Anekdote veranschaulicht die Weisheit der Masse: In bestimmten Situationen ist die kollektive Meinung eine sehr gute Grundlage für eine Entscheidung.

Mathematisch kann die Weisheit der Vielen mit dem zentralen Grenzwertsatz modelliert werden: Im Allgemeinen geht der quadratische Fehler zwischen einem Wert und dem Durchschnitt von N rauschen Schätzungen dieses Werts mit einem Faktor 1/N gegen Null. Wenn die Variablen jedoch nicht unabhängig sind, ist die Varianz größer.

Im Bereich maschinelles Lernen ist ein Ensemble eine Sammlung von Modellen, deren Vorhersagen gemittelt (oder auf andere Weise aggregiert) werden. Wenn sich die Ensemblemodelle ausreichend unterscheiden, ohne einzeln zu schlecht zu sein, ist die Qualität des Ensembles in der Regel besser als die Qualität der einzelnen Modelle. Ein Ensemble erfordert mehr Trainings- und Inferenzzeit als ein einzelnes Modell. Schließlich müssen Sie das Training und die Inferenz nicht nur für ein Modell, sondern für mehrere Modelle ausführen.

Im Allgemeinen sollten die einzelnen Modelle unabhängig voneinander sein, damit ein Ensemble optimal funktioniert. Zur Veranschaulichung: Ein Ensemble aus zehn genau denselben Modellen (d. h. überhaupt nicht unabhängig) ist nicht besser als das einzelne Modell. Andererseits kann es sein, dass Modelle schlechter werden, wenn sie gezwungen werden, unabhängig zu sein. Für ein effektives Ensemble ist es wichtig, die richtige Balance zwischen Modellunabhängigkeit und Qualität der Teilmodelle zu finden.