Die Aufgaben des überwachten Lernens sind klar definiert und können auf eine Vielzahl von Szenarien angewendet werden, z. B. das Erkennen von Spam oder die Vorhersage eines Niederschlags.
Grundlegende Konzepte des überwachten Lernens
Das überwachte maschinelle Lernen basiert auf den folgenden Kernkonzepten:
- Daten
- Modell
- Training
- Wird bewertet
- Inferenz
Daten
Daten sind die treibende Kraft von ML. Die Daten liegen in Form von Wörtern und Zahlen vor, die in Tabellen gespeichert sind, oder als Werte von Pixeln und Wellenformen, die in Bildern und Audiodateien erfasst werden. Wir speichern verwandte Daten in Datasets. Angenommen, wir haben ein Dataset mit den folgenden Daten:
- Fotos von Katzen
- Immobilienpreise
- Wetterinformationen
Datasets bestehen aus einzelnen Beispielen, die Features und ein Label enthalten. Stellen Sie sich ein Beispiel als analog zu einer einzelnen Zeile in einer Tabellenkalkulation vor. Features sind die Werte, die ein überwachtes Modell verwendet, um das Label vorherzusagen. Das Label ist die „Antwort“, d. h. der Wert, den das Modell vorhersagen soll. In einem Wettermodell, das Niederschlag vorhersagt, können die Elemente Breitengrad, Längengrad, Temperatur, Luftfeuchtigkeit, Wolkenabdeckung, Windrichtung und Atmosphärischer Druck sein. Das Label wäre rainfall amount (Regenfallbetrag).
Beispiele, die sowohl Funktionen als auch ein Label enthalten, werden als Beispiele mit Labels bezeichnet.
Zwei Beispiele mit Labels
Beispiele ohne Label enthalten Elemente, aber kein Label. Nachdem Sie ein Modell erstellt haben, sagt das Modell das Label aus den Features vorher.
Zwei Beispiele ohne Label
Dataset-Eigenschaften
Datasets sind durch ihre Größe und Vielfalt gekennzeichnet. Die Größe gibt die Anzahl der Beispiele an. Diversität gibt den Bereich an, den diese Beispiele abdecken. Gute Datasets sind sowohl groß als auch sehr vielfältig.
Einige Datasets sind sowohl groß als auch vielfältig. Einige Datasets sind jedoch groß, haben aber eine geringe Vielfalt, während andere klein, aber sehr vielfältig sind. Mit anderen Worten: Ein großes Dataset garantiert nicht genügend Vielfalt und ein sehr vielfältiges Dataset garantiert nicht genügend Beispiele.
Beispielsweise kann ein Dataset Daten aus 100 Jahren enthalten, jedoch nur für den Monat Juli. Die Verwendung dieses Datasets zur Vorhersage des Niederschlags im Januar würde zu schlechten Vorhersagen führen. Umgekehrt kann ein Dataset auch nur einige Jahre umfassen, enthält aber jeden Monat. Dieses Dataset könnte schlechte Vorhersagen liefern, da es nicht genügend Jahre umfasst, um Schwankungen zu berücksichtigen.
Wissensstand überprüfen
Ein Dataset kann sich auch durch die Anzahl seiner Merkmale auszeichnen. Manche Wetter-Datasets enthalten beispielsweise Hunderte von Merkmalen, von Satellitenbildern bis hin zu Werten für die Wolkendecke. Andere Datasets können nur drei oder vier Merkmale wie Luftfeuchtigkeit, Luftdruck und Temperatur enthalten. Datasets mit mehr Features können einem Modell dabei helfen, zusätzliche Muster zu erkennen und bessere Vorhersagen zu treffen. Datasets mit mehr Features generieren jedoch immer Modelle, die bessere Vorhersagen treffen, da einige Features möglicherweise keinen kausalen Zusammenhang zum Label haben.
Modell
Beim überwachten Lernen ist ein Modell die komplexe Sammlung von Zahlen, die die mathematische Beziehung von bestimmten Eingabefeaturemustern zu bestimmten Ausgabelabelwerten definieren. Das Modell erkennt diese Muster durch Training.
Training
Bevor ein überwachtes Modell Vorhersagen treffen kann, muss es trainiert werden. Um ein Modell zu trainieren, geben wir dem Modell ein Dataset mit Beispielen mit Labels. Das Ziel des Modells ist es, die beste Lösung für die Vorhersage der Labels aus den Features zu finden. Das Modell findet die beste Lösung, indem es den vorhergesagten Wert mit dem tatsächlichen Wert des Labels vergleicht. Basierend auf dem Unterschied zwischen den vorhergesagten und tatsächlichen Werten – definiert als Verlust – aktualisiert das Modell seine Lösung schrittweise. Mit anderen Worten, das Modell lernt die mathematische Beziehung zwischen den Merkmalen und dem Label, sodass es die besten Vorhersagen für unbekannte Daten treffen kann.
Wenn das Modell beispielsweise 1.15 inches
für Regen vorhergesagt hat, der tatsächliche Wert aber .75 inches
war, ändert das Modell seine Lösung so, dass die Vorhersage näher an .75 inches
liegt. Nachdem sich das Modell jedes Beispiel im Dataset – in einigen Fällen mehrmals – angesehen hat, kommt es zu einer Lösung, die im Durchschnitt die besten Vorhersagen für jedes der Beispiele trifft.
Im Folgenden wird das Trainieren eines Modells veranschaulicht:
Das Modell verwendet ein einzelnes, mit Labels versehenes Beispiel und liefert eine Vorhersage.
Abbildung 1. Ein ML-Modell, das eine Vorhersage anhand eines Beispiels mit Label trifft.
Das Modell vergleicht seinen vorhergesagten Wert mit dem tatsächlichen Wert und aktualisiert seine Lösung.
Abbildung 2. Ein ML-Modell, das seinen vorhergesagten Wert aktualisiert.
Das Modell wiederholt diesen Vorgang für jedes mit einem Label versehene Beispiel im Dataset.
Abbildung 3. Ein ML-Modell, das seine Vorhersagen für jedes mit einem Label versehene Beispiel im Trainings-Dataset aktualisiert.
Auf diese Weise lernt das Modell nach und nach die richtige Beziehung zwischen den Features und dem Label. Dieses allmähliche Verständnis ist auch der Grund dafür, dass große und vielfältige Datasets ein besseres Modell liefern. Das Modell hat mehr Daten mit einem größeren Wertebereich erkannt und die Beziehung zwischen den Merkmalen und dem Label verfeinert.
Während des Trainings können ML-Fachleute subtile Anpassungen an den Konfigurationen und Funktionen vornehmen, die das Modell für Vorhersagen verwendet. Bestimmte Features haben beispielsweise eine höhere Vorhersagekraft als andere. Daher können ML-Anwender auswählen, welche Features das Modell während des Trainings verwenden soll. Angenommen, ein Wetter-Dataset enthält time_of_day
als Feature. In diesem Fall kann ein ML-Anwender time_of_day
während des Trainings hinzufügen oder entfernen, um zu sehen, ob das Modell mit oder ohne das Modell bessere Vorhersagen trifft.
Wird bewertet
Wir bewerten ein trainiertes Modell, um festzustellen, wie gut es gelernt hat. Wenn wir ein Modell bewerten, verwenden wir ein Dataset mit Label. Wir geben dem Modell jedoch nur die Features des Datasets. Anschließend vergleichen wir die Vorhersagen des Modells mit den tatsächlichen Werten des Labels.
Abbildung 4. ML-Modell durch Vergleich der Vorhersagen mit den tatsächlichen Werten bewerten
Abhängig von den Vorhersagen des Modells führen wir möglicherweise ein weiteres Training und eine weitere Bewertung durch, bevor wir das Modell in einer realen Anwendung bereitstellen.
Wissensstand überprüfen
Inferenz
Wenn wir mit den Ergebnissen der Bewertung des Modells zufrieden sind, können wir das Modell verwenden, um Vorhersagen, sogenannte Inferenzen, für Beispiele ohne Label zu treffen. In der Wetter-App würden wir dem Modell die aktuellen Wetterbedingungen wie Temperatur, atmosphärischer Druck und relative Luftfeuchtigkeit nennen und die Niederschlagsmenge prognostizieren.