Überanpassung: Modellkomplexität

Im vorherigen Abschnitt wurde das folgende Modell vorgestellt, das viele Bäume im Testsatz falsch kategorisiert hat:

Abbildung 16: Das gleiche Bild wie in Abbildung 13. Dies ist eine komplexe Form, die viele Bäume falsch kategorisiert.
Abbildung 16. Das komplexe Modell mit Fehlverhalten aus dem vorherigen Block.

Das vorherige Modell enthält viele komplexe Formen. Würde ein einfacheres Modell mit neuen Daten besser umgehen? Angenommen, Sie ersetzen das komplexe Modell durch ein lächerlich einfaches Modell – eine gerade Linie.

Abbildung 17: Ein Geradenmodell, das kranke von gesunden Bäumen hervorragend unterscheidet.
Abbildung 17: Ein viel einfacheres Modell.

Das einfache Modell kann neue Daten besser verallgemeinern als das komplexe Modell. Das einfache Modell hat also bessere Vorhersagen für den Testsatz geliefert als das komplexe Modell.

Einfachheit schlägt Komplexität schon seit langem. Die Vorliebe für Einfachheit reicht sogar bis ins antike Griechenland zurück. Jahrhunderte später formalisierte ein Franziskanermönch aus dem 14. Jahrhundert namens Wilhelm von Ockham die Vorliebe für Einfachheit in einer Philosophie, die als Ockhamsches Rasiermesser bekannt ist. Diese Philosophie ist nach wie vor ein wesentliches Grundprinzip vieler Wissenschaften, einschließlich des Machine Learning.

Übungen: Wissen testen

Sie entwickeln eine physikalische Gleichung. Welche der folgenden Formeln entspricht eher dem Occam'schen Rasiermesser?
Eine Formel mit zwölf Variablen.
Eine Formel mit drei Variablen.
Sie arbeiten an einem brandneuen Projekt für maschinelles Lernen und stehen kurz davor, Ihre ersten Funktionen auszuwählen. Wie viele Funktionen sollten Sie auswählen?
Wählen Sie vier bis sechs Merkmale aus, die eine hohe Vorhersagekraft haben.
Wählen Sie ein bis drei Merkmale aus, die eine hohe Vorhersagekraft haben.
Wählen Sie so viele Funktionen wie möglich aus, damit Sie beobachten können, welche Funktionen die höchste Vorhersagekraft haben.

Regularisierung

Modelle für maschinelles Lernen müssen gleichzeitig zwei widersprüchliche Ziele erfüllen:

  • Sie passen gut zu den Daten.
  • Passen Sie die Daten so einfach wie möglich an.

Eine Möglichkeit, ein Modell einfach zu halten, besteht darin, komplexe Modelle zu bestrafen, d. h. das Modell während des Trainings zu zwingen, einfacher zu werden. Die Bestrafung komplexer Modelle ist eine Form der Regelmäßigkeitsherstellung.

Verlust und Komplexität

Bisher wurde in diesem Kurs davon ausgegangen, dass das einzige Ziel des Trainings darin besteht, den Verlust zu minimieren. Das bedeutet:

minimize(loss)

Wie Sie gesehen haben, neigen Modelle, die sich ausschließlich auf die Minimierung des Verlusts konzentrieren, dazu, zu überfitten. Ein besserer Algorithmus zur Trainingsoptimierung minimiert eine Kombination aus Verlust und Komplexität:

minimize(loss + complexity)

Leider stehen Verlust und Komplexität in der Regel in umgekehrtem Verhältnis zueinander. Mit zunehmender Komplexität nimmt die Ausfallrate ab. Je geringer die Komplexität, desto höher der Verlust. Sie sollten einen vernünftigen Mittelweg finden, bei dem das Modell sowohl mit den Trainingsdaten als auch mit den Realdaten gute Vorhersagen macht. Das Modell sollte also einen angemessenen Kompromiss zwischen Verlust und Komplexität finden.

Was ist Komplexität?

Sie haben bereits einige Möglichkeiten zur Quantifizierung von Verlusten kennengelernt. Wie würden Sie Komplexität quantifizieren? Beginnen Sie mit der folgenden Übung:

Übung: Ihre Intuition überprüfen

Bisher haben wir uns ziemlich vage darüber geäußert, was Komplexität eigentlich ist. Welche der folgenden Ideen wären Ihrer Meinung nach sinnvolle Komplexitätsmesswerte?
Die Komplexität ist eine Funktion des Quadrats der Gewichte des Modells.
Die Komplexität ist eine Funktion der Voreingenommenheit aller Merkmale im Modell.
Die Komplexität ist eine Funktion der Gewichte des Modells.