Überanpassung: Verlustkurven interpretieren

Maschinelles Lernen wäre viel einfacher, wenn alle Verlustkurven beim ersten Training Ihres Modells so aussehen würden:

Abbildung 20. Ein Diagramm, das die ideale Verlustkurve beim Trainieren eines Modells für maschinelles Lernen zeigt. Auf der Verlustkurve wird der Verlust auf der y-Achse in Relation zur Anzahl der Trainingsschritte auf der x-Achse dargestellt. Mit zunehmender Anzahl von Trainingsschritten beginnt der Verlust hoch, sinkt dann exponentiell und flacht schließlich ab, bis ein minimaler Verlust erreicht wird.
Abbildung 20: Eine ideale Verlustkurve.

Leider sind Verlustkurven oft schwer zu interpretieren. Nutzen Sie Ihr Bauchgefühl in Bezug auf Verlustkurven, um die Übungen auf dieser Seite zu lösen.

Übung 1: Oszillierende Verlustkurve

Abbildung 21: Eine Verlustkurve (Verlust auf der y-Achse; Anzahl der Trainingsschritte auf der x-Achse), bei der der Verlust nicht abnimmt.
            Stattdessen schwankt der Verlust unregelmäßig.
Abbildung 21. Oszillierende Verlustkurve.
Was könnten Sie drei Dinge tun, um die in Abbildung 21 dargestellte Verlustkurve zu verbessern?
Prüfen Sie Ihre Daten anhand eines Datenschemas, um fehlerhafte Beispiele zu erkennen, und entfernen Sie diese dann aus dem Trainingssatz.
Ja, das ist für alle Modelle empfehlenswert.
Reduzieren Sie die Lernrate.
Ja, die Lernrate zu reduzieren, ist oft eine gute Idee, wenn Sie ein Trainingsproblem beheben.
Reduzieren Sie den Trainingssatz auf eine winzige Anzahl vertrauenswürdiger Beispiele.
Auch wenn diese Technik künstlich klingt, ist sie eigentlich eine gute Idee. Angenommen, das Modell konvergiert auf die kleine Gruppe vertrauenswürdiger Beispiele, können Sie nach und nach weitere Beispiele hinzufügen und so herausfinden, welche Beispiele die Verlustkurve zum Oszillieren bringen.
Erhöhen Sie die Anzahl der Beispiele im Trainingssatz.
Das ist eine verlockende Idee, aber es ist äußerst unwahrscheinlich, dass das Problem dadurch behoben wird.
Erhöhen Sie die Lernrate.
Steigern Sie die Lernrate im Allgemeinen nicht, wenn die Lernkurve eines Modells auf ein Problem hinweist.

Übung 2 Verlustkurve mit einem scharfen Sprung

Abbildung 22. Eine Verlustkurve, die zeigt, dass der Verlust bis zu einer bestimmten Anzahl von Trainingsschritten abnimmt und dann mit weiteren Trainingsschritten plötzlich ansteigt.
Abbildung 22. Starker Anstieg der Verluste.
Welche zwei der folgenden Aussagen nennen mögliche Gründe für den in Abbildung 22 dargestellten explodierenden Verlust?
Die Eingabedaten enthalten mindestens einen NaN-Wert, z. B. einen Wert, der durch eine Division durch Null verursacht wurde.
Das kommt häufiger vor als Sie vielleicht denken.
Die Eingabedaten enthalten eine Reihe von Ausreißern.
Manchmal enthält ein Batch aufgrund einer unsachgemäßen Zufallsmixung viele Ausreißer.
Die Lernrate ist zu niedrig.
Eine sehr niedrige Lernrate kann die Trainingszeit verlängern, ist aber nicht die Ursache für die ungewöhnliche Verlustkurve.
Die Kalibrierungsrate ist zu hoch.
Eine sehr hohe Regularisierung kann zwar verhindern, dass ein Modell konvergiert, führt aber nicht zu der seltsamen Verlustkurve in Abbildung 22.

Übung 3 Testverlust weicht vom Trainingsverlust ab

Abbildung 23: Die Kurve des Trainingsverlusts scheint zu konvergieren, aber der Validierungsverlust steigt nach einer bestimmten Anzahl von Trainingsschritten an.
Abbildung 23. Starker Anstieg der Validierungsverluste.
Welche der folgenden Aussagen beschreibt am besten den Grund für diesen Unterschied zwischen den Verlustkurven der Trainings- und Testsätze?
Das Modell passt sich zu stark an das Trainings-Dataset an.
Ja, das ist wahrscheinlich der Fall. Mögliche Lösungen:
  • Vereinfachen Sie das Modell, indem Sie gegebenenfalls die Anzahl der Features reduzieren.
  • Erhöhen Sie die Kalibrierungsrate.
  • Achten Sie darauf, dass der Trainings- und der Testsatz statistisch äquivalent sind.
Die Lernrate ist zu hoch.
Wäre die Lernrate zu hoch, hätte sich die Verlustkurve für den Trainingssatz wahrscheinlich nicht so verhalten.

Übung 4 Verlustkurve bleibt hängen

Abbildung 24: Ein Diagramm einer Verlustkurve, in dem zu sehen ist, dass der Verlust mit dem Training allmählich konvergiert, dann aber wiederholte Muster wie eine rechteckige Welle anzeigt.
Abbildung 24. Chaotischer Verlust nach einer bestimmten Anzahl von Schritten.
Welche der folgenden Aussagen ist die wahrscheinlichste Erklärung für die unregelmäßige Verlustkurve in Abbildung 24?
Das Trainingsset enthält sich wiederholende Beispielsequenzen.
Das ist eine Möglichkeit. Achten Sie darauf, dass Sie die Beispiele ausreichend mischen.
Die Kalibrierungsrate ist zu hoch.
Das ist unwahrscheinlich.
Der Trainingsdatensatz enthält zu viele Features.
Das ist unwahrscheinlich.