Zufallswald

Das ist ein Ochse.

Ein altes, altes Foto eines Ochsen.

Abbildung 19. Ein Ochse.

 

1906 fand in England ein Wettbewerb zur Gewichtsbewertung statt. 787 Teilnehmer erraten das Gewicht eines Ochsen. Der durchschnittliche Fehler einzelner Profile betrug 37 lb (ein Fehler von 3,1%). Der Medianwert der Ratespiele lag jedoch nur 9 lb vom echten Gewicht des Ochsen (1.198 lb) entfernt, was ein Fehler von nur 0,7 % war.

Histogramm mit individuellen Schätzungen, die die meisten Schätzungen zum tatsächlichen Gewicht des Ochsen enthalten.

Abbildung 20. Histogramm mit individuellen Gewichtsschätzungen.

 

Diese Anekdote veranschaulicht die Weisheit der Menge: In bestimmten Situationen kann die kollektive Meinung sehr ein gutes Urteilsvermögen sein.

Mathematisch kann die Weisheit der Menge anhand des Zentralsatzes modelliert werden: In der Regel liegt der Quadratwert für den Fehlerwert zwischen dem Wert und dem Durchschnitt der N-Schätzwerte für diesen Wert bei einem Faktor von 1/N bei null. Sind die Variablen jedoch nicht unabhängig, ist die Varianz größer.

Beim maschinellen Lernen ist ein ensemble eine Sammlung von Modellen, deren Vorhersagen gemittelt oder auf irgendeine Weise aggregiert werden. Wenn die Ensemblemodelle unterschiedlich genug sind, ohne dass sie zu schlecht sind, ist die Qualität des Ensembles in der Regel besser als die Qualität der einzelnen Modelle. Ein Ensemble erfordert mehr Trainings- und Inferenzzeit als ein einzelnes Modell. Schließlich müssen Sie das Training und die Inferenz für mehrere Modelle ausführen, anstatt für ein einzelnes Modell.

Damit ein Ensemble am besten funktioniert, sollten die einzelnen Modelle unabhängig sein. Zur Veranschaulichung: Ein Ensemble, das aus 10 genau derselben Modellen besteht (also nicht unabhängig), ist nicht besser als das einzelne Modell. Andererseits kann das Erzwingen von Modellen zur Unabhängigkeit dazu führen, dass sie sich verschlimmern. Für ein effektives Ensemble muss ein Gleichgewicht zwischen der Modellunabhängigkeit und der Qualität der untergeordneten Modelle gefunden werden.