Beaufsichtigtes Lernen

Die Aufgaben des Supervised Learning sind klar definiert und können auf eine Vielzahl von Szenarien angewendet werden, z. B. auf die Erkennung von Spam oder die Vorhersage von Niederschlag.

Grundlegende Konzepte des überwachten Lernens

Supervisiertes maschinelles Lernen basiert auf den folgenden Kernkonzepten:

  • Daten
  • Modell
  • Training
  • Wird bewertet
  • Inferenz

Daten

Daten sind die treibende Kraft des maschinellen Lernens. Daten können in Form von Wörtern und Zahlen in Tabellen oder als Pixelwerte und Wellenformen in Bildern und Audiodateien vorliegen. Wir speichern zugehörige Daten in Datensätzen. Angenommen, wir haben einen Datensatz mit den folgenden Daten:

  • Fotos von Katzen
  • Wohnraumkosten
  • Wetterinformationen

Datasets bestehen aus einzelnen Beispielen, die Features und ein Label enthalten. Sie können sich ein Beispiel als analog zu einer einzelnen Zeile in einer Tabelle vorstellen. Merkmale sind die Werte, mit denen ein überwachtes Modell das Label vorhersagt. Das Label ist die „Antwort“ oder der Wert, den das Modell vorhersagen soll. In einem Wettermodell, das Niederschlag vorhersagt, könnten die Merkmale Breitengrad, Längengrad, Temperatur, Luftfeuchtigkeit, Wolkenbedeckung, Windrichtung und Luftdruck sein. Das Label wäre Niederschlagsmenge.

Beispiele, die sowohl Features als auch ein Label enthalten, werden als beschriftete Beispiele bezeichnet.

Zwei Beispiele mit Labels

Platzhalterbild.

Beispiele ohne Label enthalten dagegen Funktionen, aber kein Label. Nachdem Sie ein Modell erstellt haben, wird das Label anhand der Features vorhergesagt.

Zwei Beispiele ohne Labels

Platzhalterbild.

Dataset-Eigenschaften

Ein Datensatz zeichnet sich durch seine Größe und Vielfalt aus. „Größe“ gibt die Anzahl der Beispiele an. Vielfalt gibt an, welchen Bereich diese Beispiele abdecken. Gute Datensätze sind sowohl groß als auch sehr vielfältig.

Einige Datensätze sind sowohl groß als auch vielfältig. Einige Datasets sind jedoch groß, aber wenig divers, andere sind klein, aber sehr vielfältig. Mit anderen Worten: Ein großer Datensatz ist keine Garantie für ausreichende Vielfalt und ein sehr vielfältiger Datensatz ist keine Garantie für ausreichende Beispiele.

Ein Datensatz kann beispielsweise Daten aus 100 Jahren enthalten, aber nur für den Monat Juli. Wenn Sie mit diesem Datensatz den Niederschlag im Januar vorhersagen, sind die Ergebnisse nicht sehr aussagekräftig. Umgekehrt kann ein Datensatz nur wenige Jahre umfassen, aber jeden Monat enthalten. Mit diesem Datensatz können möglicherweise schlechte Vorhersagen erzielt werden, da er nicht genügend Jahre enthält, um die Variabilität zu berücksichtigen.

Wissen testen

Welche Attribute eines Datensatzes eignen sich am besten für die ML?
Große Größe / Hohe Vielfalt
Eine große Anzahl von Beispielen, die eine Vielzahl von Anwendungsfällen abdecken, ist für ein System für maschinelles Lernen unerlässlich, um die zugrunde liegenden Muster in den Daten zu verstehen. Mit einem Modell, das mit dieser Art von Datensatz trainiert wurde, lassen sich mit größerer Wahrscheinlichkeit gute Vorhersagen für neue Daten treffen.
Große Größe / geringe Vielfalt
Modelle für maschinelles Lernen sind nur so gut wie die Beispiele, mit denen sie trainiert werden. Ein Modell liefert schlechtere Vorhersagen für neue Daten, mit denen es nie trainiert wurde.
Kleine Größe / Hohe Vielfalt
Die meisten Modelle können in einem kleinen Datensatz keine zuverlässigen Muster finden. Die Vorhersagen sind dann nicht so zuverlässig wie bei einem größeren Datenpool.
Kleine Größe / geringe Vielfalt
Wenn Ihr Datensatz klein und nicht sehr vielfältig ist, profitieren Sie möglicherweise nicht von maschinellem Lernen.

Ein Datensatz kann auch durch die Anzahl seiner Features gekennzeichnet werden. Einige Wetterdatensätze können beispielsweise Hunderte von Elementen enthalten, von Satellitenbildern bis hin zu Werten für die Wolkenbedeckung. Andere Datasets enthalten möglicherweise nur drei oder vier Merkmale, z. B. Luftfeuchtigkeit, Luftdruck und Temperatur. Mit Datensätzen mit mehr Funktionen kann ein Modell zusätzliche Muster erkennen und bessere Vorhersagen treffen. Datasets mit mehr Features führen jedoch nicht immer zu Modellen, die bessere Vorhersagen treffen, da einige Features möglicherweise keinen kausalen Zusammenhang mit dem Label haben.

Modell

Beim überwachten Lernen ist ein Modell die komplexe Sammlung von Zahlen, die die mathematische Beziehung zwischen bestimmten Eingabemerkmalen und bestimmten Ausgabelabelwerten definieren. Das Modell erkennt diese Muster durch Training.

Training

Bevor ein Modell mit beaufsichtigtem Lernen Vorhersagen treffen kann, muss es trainiert werden. Zum Trainieren eines Modells geben wir ihm ein Dataset mit gekennzeichneten Beispielen. Ziel des Modells ist es, die beste Lösung für die Vorhersage der Labels anhand der Merkmale zu finden. Das Modell findet die beste Lösung, indem es den vorhergesagten Wert mit dem tatsächlichen Wert des Labels vergleicht. Basierend auf der Differenz zwischen den prognostizierten und den tatsächlichen Werten, die als Verlust definiert ist, aktualisiert das Modell seine Lösung nach und nach. Mit anderen Worten: Das Modell lernt die mathematische Beziehung zwischen den Features und dem Label, damit es die besten Vorhersagen für nicht beobachtete Daten treffen kann.

Wenn das Modell beispielsweise 1.15 inches mm Regen vorhergesagt hat, der tatsächliche Wert aber .75 inches mm war, ändert das Modell seine Lösung so, dass die Vorhersage näher an .75 inches mm liegt. Nachdem das Modell jedes Beispiel im Datensatz betrachtet hat – in einigen Fällen mehrmals –, wird eine Lösung gefunden, mit der im Durchschnitt die besten Vorhersagen für jedes der Beispiele getroffen werden.

Im Folgenden wird das Training eines Modells veranschaulicht:

  1. Das Modell nimmt ein einzelnes Beispiel mit Label als Eingabe und liefert eine Vorhersage.

    Ein Bild eines Modells, das eine Vorhersage trifft.

    Abbildung 1. Ein ML-Modell, das eine Vorhersage anhand eines gekennzeichneten Beispiels trifft.

     

  2. Das Modell vergleicht den vorhergesagten Wert mit dem tatsächlichen Wert und aktualisiert die Lösung.

    Ein Bild eines Modells, in dem die Vorhersage mit dem tatsächlichen Wert verglichen wird.

    Abbildung 2. Ein ML-Modell aktualisiert seinen vorhergesagten Wert.

     

  3. Das Modell wiederholt diesen Vorgang für jedes beschriftete Beispiel im Dataset.

    Ein Bild eines Modells, das den Prozess der Vorhersage im Vergleich zum tatsächlichen Wert wiederholt.

    Abbildung 3. Ein ML-Modell, das seine Vorhersagen für jedes Beispiel mit Label im Trainingsdatensatz aktualisiert.

     

So lernt das Modell nach und nach die richtige Beziehung zwischen den Merkmalen und dem Label. Aus diesem Grund führen große und vielfältige Datensätze auch zu einem besseren Modell. Das Modell hat mehr Daten mit einem breiteren Wertebereich gesehen und die Beziehung zwischen den Features und dem Label optimiert.

Während des Trainings können ML-Experten die Konfigurationen und Funktionen, die das Modell für Vorhersagen verwendet, geringfügig anpassen. Beispielsweise haben bestimmte Merkmale eine höhere Vorhersagekraft als andere. Daher können ML-Experten auswählen, welche Funktionen das Modell während des Trainings verwendet. Angenommen, ein Wetter-Dataset enthält time_of_day als Feature. In diesem Fall kann ein ML-Experte time_of_day während des Trainings hinzufügen oder entfernen, um zu sehen, ob das Modell mit oder ohne time_of_day bessere Vorhersagen macht.

Wird bewertet

Wir bewerten ein trainiertes Modell, um festzustellen, wie gut es gelernt hat. Bei der Bewertung eines Modells verwenden wir ein beschriftetes Dataset, geben dem Modell aber nur die Merkmale des Datasets. Anschließend vergleichen wir die Vorhersagen des Modells mit den tatsächlichen Werten des Labels.

Ein Bild, das ein trainiertes Modell zeigt, dessen Vorhersagen mit den tatsächlichen Werten verglichen werden.

Abbildung 4. Ein ML-Modell wird bewertet, indem seine Vorhersagen mit den tatsächlichen Werten verglichen werden.

 

Je nach den Vorhersagen des Modells kann es sein, dass wir es noch weiter trainieren und bewerten, bevor wir es in einer realen Anwendung einsetzen.

Wissen testen

Warum muss ein Modell trainiert werden, bevor es Vorhersagen treffen kann?
Ein Modell muss trainiert werden, um die mathematische Beziehung zwischen den Features und dem Label in einem Dataset zu lernen.
Ein Modell muss nicht trainiert werden. Modelle sind auf den meisten Computern verfügbar.
Ein Modell muss trainiert werden, damit es keine Daten für eine Vorhersage benötigt.

Inferenz

Sobald wir mit den Ergebnissen der Modellbewertung zufrieden sind, können wir mit dem Modell Vorhersagen (Inferenzen) für nicht beschriftete Beispiele treffen. Im Beispiel der Wetter-App würden wir dem Modell die aktuellen Wetterbedingungen wie Temperatur, Luftdruck und relative Luftfeuchtigkeit geben und es würde die Regenmenge vorhersagen.