Datasets: Labels

In diesem Abschnitt geht es um Labels.

Direkte Labels im Vergleich zu Proxy-Labels

Es gibt zwei verschiedene Arten von Labels:

  • Direkte Labels: Labels, die mit der Vorhersage identisch sind, die Ihr Modell treffen soll. Das heißt, die Vorhersage, die Ihr Modell treffen soll, ist genau als Spalte in Ihrem Datensatz vorhanden. Eine Spalte mit dem Namen bicycle owner wäre beispielsweise ein direktes Label für ein binäres Klassifizierungsmodell, mit dem vorhergesagt wird, ob eine Person ein Fahrrad hat oder nicht.
  • Proxy-Labels: Labels, die der Vorhersage, die Ihr Modell treffen soll, ähneln, aber nicht identisch sind. Eine Person, die das Magazin „Fahrrad Bizarre“ abonniert, hat wahrscheinlich, aber nicht unbedingt, ein Fahrrad.

Direktlabels sind im Allgemeinen besser als Proxylabels. Wenn Ihr Dataset ein mögliches direktes Label enthält, sollten Sie es verwenden. Oft sind direkte Labels jedoch nicht verfügbar.

Proxy-Labels sind immer ein Kompromiss – eine ungenaue Annäherung an ein direktes Label. Einige Proxy-Labels sind jedoch nah genug an der Realität, um nützlich zu sein. Modelle mit Proxy-Labels sind nur so nützlich wie die Verbindung zwischen dem Proxy-Label und der Vorhersage.

Wie Sie sich erinnern, muss jedes Label im Featurevektor als Gleitkommazahl dargestellt werden, da maschinelles Lernen im Grunde nur ein riesiges Amalgam aus mathematischen Operationen ist. Manchmal gibt es ein direktes Label, das aber nicht einfach als Gleitkommazahl im Featurevektor dargestellt werden kann. Verwenden Sie in diesem Fall ein Proxy-Label.

Übung: Wissen testen

Ihr Unternehmen möchte Folgendes tun:

Senden Sie Fahrradbesitzern Gutscheine („Altes Fahrrad eintauschen und 15% Rabatt auf ein neues Fahrrad erhalten“) per Post.

Ihr Modell muss daher Folgendes tun:

Vorhersagen, welche Personen ein Fahrrad haben.

Leider enthält das Dataset keine Spalte mit dem Namen bike owner. Das Dataset enthält jedoch eine Spalte mit dem Namen recently bought a bicycle.

Wäre recently bought a bicycle ein gutes oder schlechtes Proxy-Label für dieses Modell?
Label für guten Proxy
Die Spalte recently bought a bicycle ist ein relativ gutes Proxy-Label. Schließlich haben die meisten Menschen, die Fahrräder kaufen, bereits ein Fahrrad. Wie alle Proxy-Labels, auch sehr gute, ist recently bought a bicycle jedoch nicht perfekt. Schließlich ist nicht immer die Person, die einen Artikel kauft, die Person, die ihn verwendet (oder besitzt). Manchmal kaufen Nutzer Fahrräder beispielsweise als Geschenk.
Unpassendes Proxy-Label
Wie alle Proxy-Labels ist auch recently bought a bicycle nicht perfekt. Einige Fahrräder werden beispielsweise als Geschenk gekauft und an andere verschenkt. recently bought a bicycle ist jedoch immer noch ein relativ guter Indikator dafür, dass jemand ein Fahrrad hat.

Von Menschen generierte Daten

Einige Daten werden von Menschen erstellt. Das bedeutet, dass eine oder mehrere Personen Informationen prüfen und einen Wert angeben, in der Regel für das Label. So könnten beispielsweise ein oder mehrere Meteorologen Bilder des Himmels untersuchen und Wolkentypen identifizieren.

Einige Daten werden automatisch generiert. Der Wert wird also von Software (möglicherweise einem anderen Modell für maschinelles Lernen) bestimmt. Ein Modell für maschinelles Lernen könnte beispielsweise Bilder des Himmels analysieren und Wolkentypen automatisch identifizieren.

In diesem Abschnitt werden die Vor- und Nachteile von von Menschen generierten Daten untersucht.

Vorteile

  • Menschen können eine Vielzahl von Aufgaben ausführen, die selbst für ausgefeilte Modelle des maschinellen Lernens schwierig sein können.
  • Der Prozess zwingt den Inhaber des Datensatzes, klare und einheitliche Kriterien zu entwickeln.

Nachteile

  • Sie zahlen in der Regel menschliche Beurteiler, daher können von Menschen generierte Daten teuer sein.
  • Irren ist menschlich. Daher müssen möglicherweise mehrere Bewerter dieselben Daten bewerten.

Überlegen Sie sich die folgenden Fragen, um Ihre Anforderungen zu ermitteln:

  • Wie qualifiziert müssen Ihre Bewerter sein? Müssen die Bewerter beispielsweise eine bestimmte Sprache sprechen? Benötigen Sie Linguisten für Dialog- oder NLP-Anwendungen?)
  • Wie viele beschriftete Beispiele benötigen Sie? Wie schnell benötigen Sie sie?
  • Wie hoch ist Ihr Budget?

Prüfen Sie die Bewertungen Ihrer menschlichen Prüfer immer noch einmal. Sie können beispielsweise 1.000 Beispiele selbst kennzeichnen und sehen, ob Ihre Ergebnisse mit denen anderer Bewerter übereinstimmen. Wenn Abweichungen auftreten, gehen Sie nicht davon aus, dass Ihre Bewertungen korrekt sind, insbesondere wenn es um eine Wertung geht. Wenn menschliche Bewerter Fehler gemacht haben, können Sie eine Anleitung hinzufügen, um ihnen zu helfen, und es noch einmal versuchen.