Überanpassung

Überanpassung bedeutet, dass ein Modell erstellt wird, die mit den Trainingssatz, damit dass das Modell keine richtigen Vorhersagen für neue Daten trifft. Ein überangepasstes Modell ist analog zu einer Erfindung, die im Labor gut funktioniert, aber ist in der realen Welt wertlos.

Stellen Sie sich in Abbildung 11 vor, dass jede geometrische Form die Position eines Baums darstellt. in einem quadratischen Wald. Die blauen Rauten kennzeichnen die Standorte gesunder Bäume, während die Standorte erkrankter Bäume durch orangefarbene Kreise gekennzeichnet sind.

Abbildung 11. Diese Abbildung enthält etwa 60 Punkte, von denen die Hälfte
            gesunde Bäume und die anderen halben kranken Bäume.
            Die gesunden Bäume befinden sich vor allem im nordöstlichen Quadranten, obwohl einige
            gesunde Bäume schleichen sich in die Nordwest-Quadranten ein. Die kranken Bäume
            befinden sich hauptsächlich im südöstlichen Quadranten, aber einige der Krankenbäume
            in andere Quadranten austreten. <ph type="x-smartling-placeholder">
</ph> Abbildung 11: Trainings-Dataset: Standorte gesunder und kranker Bäume in einem quadratischen Wald.

 

Zeichnen Sie mental alle Formen – Linien, Kurven, Ovale usw. –, um die gesunden Bäumen von den kranken Bäumen ab. Maximieren Sie dann die nächste Zeile, eine mögliche Trennung.

Bei den in Abbildung 12 gezeigten komplexen Formen wurden bis auf zwei alle Bäume. Wenn wir uns die Formen als Modell vorstellen, ist dies Modell.

Oder vielleicht doch? Ein wirklich hervorragendes Modell kategorisiert erfolgreich neue Beispiele. In Abbildung 13 sehen Sie, was passiert, wenn dasselbe Modell Vorhersagen für neue Beispiele aus dem Test-Dataset:

Abbildung 13. Eine neue Gruppe gesunder und kranker Bäume, die auf dem
            wie in Abbildung 12 dargestellt. Das Modell kategorisiert viele der
            Bäumen. <ph type="x-smartling-placeholder">
</ph> Abbildung 13.Testsatz: ein komplexes Modell zur Unterscheidung von kranken von gesunden Bäumen.

 

Das in Abbildung 12 gezeigte komplexe Modell hat also beim Trainings-Dataset aber auf den Test-Datasets ziemlich schlecht. Dies ist ein klassischer Fall eines Modells, Überanpassung an die Daten des Trainings-Datasets.

Anpassung, Überanpassung und Unteranpassung

Ein Modell muss gute Vorhersagen für neue Daten treffen. Das heißt, Sie möchten ein Modell erstellen, neuen Daten.

Wie Sie gesehen haben, trifft ein Überanpassungsmodell hervorragende Vorhersagen für das Training. aber schlechte Vorhersagen für neue Daten zu treffen. Eine Unteranpassung-Modell macht noch keine guten Vorhersagen anhand der Trainingsdaten. Wenn ein überangepasstes Modell wie ein Produkt, das im Labor gut, aber in der realen Welt schlecht funktioniert, ist ein Unterfit-Modell ein Produkt, das in im Labor.

Abbildung 14. kartesisches Diagramm. Die X-Achse trägt die Bezeichnung „Qualität der Vorhersagen“.
            für das Trainings-Dataset. Die Y-Achse trägt die Bezeichnung
„Qualität der Vorhersagen auf
            realen Daten“ ein. Eine Kurve beginnt am Ursprung und
steigt allmählich an.
            fällt aber genauso schnell. Der untere linke Teil der Kurve
            (niedrige Qualität der Vorhersagen mit realen Daten und niedrige Qualität
            Vorhersagen für das Trainings-Dataset) wird als „Unteranpassungsmodelle“ bezeichnet. Die
            Teil der Kurve unten rechts (niedrige Qualität der Vorhersagen auf
            realen Daten, aber hoher Qualität der Vorhersagen im Trainings-Dataset)
            mit dem Label „Überanpassungsmodelle“ versehen. Der Spitzenwert der Kurve (hohe Qualität
            von Vorhersagen mit realen Daten und mittlere Qualität der Vorhersagen
            im Trainings-Dataset) trägt das Label &quot;Fitnessmodelle&quot;. <ph type="x-smartling-placeholder">
</ph> Abbildung 14: Unter-, Pass- und Überfitnessmodelle

 

Generalisierung ist die das Gegenteil von Überanpassung. Das heißt, ein Modell, das gut verallgemeinert, erzielt gute Vorhersagen zu neuen Daten. Ihr Ziel ist es, ein Modell zu erstellen, auf neue Daten übertragen.

Überanpassung erkennen

Mit den folgenden Kurven können Sie eine Überanpassung erkennen:

  • Verlustkurven
  • Generalisierungskurven

In einer Verlustkurve wird der Verlust eines Modells dargestellt. mit der Anzahl der Trainingsdurchläufe. Ein Diagramm, das zwei oder mehr Verlustkurven zeigt, wird als Generalisierung Kurve. Die folgenden Die Generalisierungskurve zeigt zwei Verlustkurven:

Abbildung 15: Die Verlustfunktion für das Trainings-Dataset nach und nach
            Ablehnungen. Die Verlustfunktion für das Validierungs-Dataset
            aber nach einer bestimmten Anzahl
von Iterationen steigt er an. <ph type="x-smartling-placeholder">
</ph> Abbildung 15. Generalisierungskurve, die stark eine Überanpassung impliziert.

 

Beachten Sie, dass sich die beiden Verlustkurven zunächst ähnlich verhalten und dann divergieren. Das heißt, nach einer bestimmten Anzahl von Iterationen bleibt für das Trainings-Dataset konstant (konvergiert), erhöht sich jedoch für das Validierungs-Dataset. Das deutet auf eine Überanpassung hin.

Im Gegensatz dazu zeigt eine Generalisierungskurve für ein gut angepasstes Modell zwei Verlustkurven. die ähnliche Formen haben.

Wodurch entsteht eine Überanpassung?

Ganz allgemein gesprochen wird eine Überanpassung durch eine oder beide der folgenden Ursachen verursacht: Probleme:

  • Das Trainings-Dataset repräsentiert reale Daten nicht angemessen (oder Validierungs- oder Test-Dataset).
  • Das Modell ist zu komplex.

Generalisierungsbedingungen

Ein Modell wird mit einem Trainings-Dataset trainiert. Der tatsächliche Wert eines Modells macht sie Vorhersagen für neue Beispiele, insbesondere bei realen Daten. Bei der Entwicklung eines Modells dient Ihr Test-Dataset als Stellvertreter für reale Daten. Wenn Sie ein Modell trainieren, das gut generalisierbar ist, bedeutet das die folgenden Dataset-Bedingungen:

  • Beispiele: unabhängig und identisch verteilt ist, mit dem Sie sagen können, Beispiele können sich nicht gegenseitig beeinflussen.
  • Das Dataset ist stationär, d. h. dass sich das Dataset im Laufe der Zeit nicht wesentlich ändert.
  • Die Dataset-Partitionen haben die gleiche Verteilung. Das heißt, die Beispiele im Trainings-Dataset sind statistisch ähnlich wie die Beispiele im Validierungs-Dataset, im Test-Dataset und in realen Daten.

Sehen Sie sich die vorherigen Bedingungen mithilfe der folgenden Übungen an.

Übungen: Wissen testen

Betrachten Sie die folgenden Dataset-Partitionen.
Ein horizontaler Balken, der in drei Teile unterteilt ist: 70% des Balkens
                     sind das Trainings-Dataset, 15% das Validierungs-Dataset und 15%
                     das Test-Dataset
Wie können Sie sicherstellen, dass die Beispiele im Trainings-Dataset eine ähnliche statistische Verteilung wie die Beispiele in das Validierungs-Dataset und das Test-Dataset?
Vermischen Sie die Beispiele im Dataset umfassend, eine Partitionierung.
Ja. Ein gutes Zufallsmix von Beispielen erschwert Partitionen viel mehr statistisch ähnlich sind.
Sortieren Sie die Beispiele vom frühesten bis zum neuesten.
Wenn die Beispiele im Dataset nicht unbeweglich sind, Durch das Sortieren werden Partitionen weniger ähnlich.
Nichts unternehmen. Wenn wir genügend Beispiele haben, ist das Gesetz der Durchschnittswerte stellt natürlich sicher, dass die Verteilung statistisch ähnlich sind.
Das ist leider nicht der Fall. Beispiele können sich in bestimmten Bereichen des Datasets von denen in anderen .
Ein Streamingdienst entwickelt ein Modell zur Vorhersage der Beliebtheit mit potenziellen neuen Fernsehsendungen für die nächsten drei Jahre. Die Streaming-Dienstpläne zum Trainieren des Modells an einem Dataset mit Hunderten Millionen Beispielen aus den vorherigen zehn Jahren. Wird es bei diesem Modell Probleme geben?
Wahrscheinlich. Zuschauer Geschmäcker ändern sich auf eine Weise, die in der Vergangenheit voraussagen lassen.
Ja. Die Vorlieben der Zuschauer sind nicht feststehend. Sie ändern sich ständig.
Definitiv nicht. Das Dataset ist groß genug, um Vorhersagen zu treffen.
Leider ist das Geschmäcker sind instabil.
Wahrscheinlich nicht. Zuschauer Geschmäcker ändern sich vorhersehbar zyklisch. Anhand von Daten aus zehn Jahren kann das Modell gute Vorhersagen treffen. zu zukünftigen Trends.
Auch wenn bestimmte Aspekte der Unterhaltung eher zyklisch sind, die aus der bisherigen Unterhaltungsgeschichte trainiert wurde, haben Schwierigkeiten, Vorhersagen für die nächsten Jahre zu treffen.
Ein Modell soll die Zeit vorhersagen, die Menschen brauchen, um eine Meile zu gehen auf Wetterdaten (Temperatur, Taupunkt und Niederschlag), die über ein Jahr in einer Stadt mit schwankendem Wetter gesammelt wurden erheblich nach Jahreszeit. Können Sie anhand dieser Daten ein Modell erstellen und testen? -Daten, obwohl die Wettermesswerte sich durch die Saison?
Ja
Ja, es ist möglich, ein Modell aus diesem Dataset zu erstellen und zu testen. Sie müssen nur sicherstellen, dass die Daten gleichmäßig partitioniert sind, dass die Daten aus allen vier Jahreszeiten gleichmäßig in verschiedene Partitionen.
Nein
Vorausgesetzt, dieses Dataset enthält genügend Beispiele für Temperatur, Tau Punkt und Niederschlag haben, können Sie ein Modell aus dieses Dataset. Sie müssen nur sicherstellen, dass die Daten partitioniert sind, gleichmäßig, sodass die Daten aus allen vier Jahreszeiten gleichmäßig verteilt sind in die verschiedenen Partitionen.

Challenge-Training

Sie erstellen ein Modell, das das ideale Datum für den Kauf eines Zugfahrkarte für eine bestimmte Route. Zum Beispiel könnte das Modell dass Nutzer ihr Ticket am 8. Juli für einen Zug kaufen, der am 23. Juli abfährt. Das Bahnunternehmen aktualisiert die Preise stündlich und stützt sich dabei auf verschiedene sondern hauptsächlich von der aktuellen Anzahl der verfügbaren Plätze. Das bedeutet:

  • Wenn viele Sitzplätze verfügbar sind, sind die Ticketpreise in der Regel niedrig.
  • Wenn nur sehr wenige Sitzplätze verfügbar sind, sind die Ticketpreise in der Regel hoch.
Ihr Modell weist einen niedrigen Wert auf beim Validierungs-Dataset und Test-Dataset, schreckliche Vorhersagen an realen Daten ab. Warum?
Klicke hier, um die Antwort anzuzeigen.