Framing: Wichtige ML-Terminologie

Was ist (überwachtes) maschinelles Lernen? Einfach ausgedrückt:

  • ML-Systeme lernen, wie sich Eingaben kombinieren lassen, um nützliche Vorhersagen für bisher unbekannte Daten zu erhalten.

Sehen wir uns grundlegende Terminologien des maschinellen Lernens an.

Labels

Ein Label ist das, was wir vorhersagen: die Variable y in einer einfachen linearen Regression. Das Label kann der zukünftige Weizenpreis, die auf einem Bild gezeigte Tierart, die Bedeutung eines Audioclips oder so gut wie alles sein.

Features

Ein Feature ist eine Eingabevariable – die Variable x in einer einfachen linearen Regression. In einem einfachen Projekt für maschinelles Lernen kann ein einzelnes Feature verwendet werden. Für ein komplexeres Projekt im Bereich des maschinellen Lernens können dagegen Millionen von Features verwendet werden. Diese werden so angegeben:

\[\\{x_1, x_2, ... x_N\\}\]

Beispiele für Spamerkennung:

  • Wörter im E-Mail-Text
  • Adresse des Absenders
  • Tageszeit, zu der die E-Mail gesendet wurde
  • E-Mail enthält den Text "ein seltsamer Trick".

Beispiele

Ein Beispiel ist eine bestimmte Instanz von Daten, x. (Wir setzen fett in Fettschrift, um anzugeben, dass es sich um einen Vektor handelt.) Wir unterteilen die Beispiele in zwei Kategorien:

  • Beispiele mit Labels
  • Beispiele ohne Label

Ein Beispiel mit Label enthält sowohl die Funktion(en) als auch das Label. Das bedeutet:

  labeled examples: {features, label}: (x, y)

Verwenden Sie Beispiele mit Labels, um das Modell zu trainieren. In unserem Beispiel für Spamerkennung sind solche E-Mails die einzelnen E-Mails, die Nutzer explizit als „Spam“ oder „Kein Spam“ markiert haben.

Die folgende Tabelle enthält 5 Beispiele mit Labels aus einem Datensatz mit Informationen zu Immobilienpreisen in Kalifornien:

ImmobilienMedianAge
(feature)
totalRooms
(feature)
totalBedrooms
(feature)
medianHouseValue
(Label)
15 5612 1283 66900
19 7650 1901 80100
17 720 174 85700
14 1501 337 73400
20 1454 326 65500

Ein Beispiel ohne Label enthält Funktionen, aber nicht das Label. Das bedeutet:

  unlabeled examples: {features, ?}: (x, ?)

Hier sind drei Beispiele ohne Label aus demselben Immobilien-Dataset, die medianHouseValue ausschließen:

ImmobilienMedianAge
(feature)
totalRooms
(feature)
totalBedrooms
(feature)
42 1686 361
34 1226 180
33 1077 271

Nachdem wir unser Modell mit Beispielen mit Labels trainiert haben, verwenden wir dieses Modell, um das Label für Beispiele ohne Label vorherzusagen. Beispiele dafür sind neue E-Mails, die noch nicht mit einem Label versehen wurden.

Modelle

Ein Modell definiert die Beziehung zwischen Merkmalen und Label. Ein Modell zur Spamerkennung kann beispielsweise bestimmte Funktionen stark mit "&" verbinden. Sehen wir uns zwei Phasen des Modelllebens an:

  • Training bedeutet, das Modell zu erstellen oder zu lernen. Das heißt, Sie zeigen die mit Labels versehenen Modelle an und ermöglichen dem Modell, die Beziehungen zwischen Merkmalen und Label nach und nach zu lernen.

  • Inferenz bedeutet, dass das trainierte Modell auf Beispiele ohne Label angewendet wird. Das heißt, Sie verwenden das trainierte Modell, um nützliche Vorhersagen zu erstellen (y'). Während der Inferenz können Sie beispielsweise medianHouseValue für neue unbeschriftete Beispiele vorhersagen.

Regression vs. Klassifizierung

Ein Regressionsmodell sagt kontinuierliche Werte vorher. Beispielsweise erstellen Regressionsmodelle Vorhersagen, die Fragen wie die folgenden beantworten:

  • Welchen Wert hat ein Haus in Kalifornien?

  • Wie wahrscheinlich ist es, dass ein Nutzer auf diese Anzeige klickt?

Ein Klassifizierungsmodell prognostiziert diskrete Werte. Klassifizierungsmodelle erstellen beispielsweise Vorhersagen, die Fragen wie die folgenden beantworten:

  • Ist eine bestimmte E-Mail-Nachricht Spam oder kein Spam?

  • Ist das ein Bild eines Hundes, einer Katze oder eines Hamsters?