Datasets: Labels

In diesem Abschnitt geht es um Labels.

Direkte Labels im Vergleich zu Proxy-Labels

Es gibt zwei verschiedene Arten von Labels:

  • Direkte Labels: Labels, die mit der Vorhersage identisch sind, die Ihr Modell treffen soll. Das heißt, die Vorhersage, die Ihr Modell treffen soll, ist genau als Spalte in Ihrem Datensatz vorhanden. Eine Spalte mit dem Namen bicycle owner wäre beispielsweise ein direktes Label für ein binäres Klassifizierungsmodell, mit dem vorhergesagt wird, ob eine Person ein Fahrrad hat oder nicht.
  • Proxy-Labels: Labels, die der Vorhersage, die Ihr Modell treffen soll, ähneln, aber nicht identisch sind. Eine Person, die das Magazin „Fahrrad Bizarre“ abonniert, hat wahrscheinlich, aber nicht unbedingt, ein Fahrrad.

Direktlabels sind im Allgemeinen besser als Proxylabels. Wenn Ihr Dataset ein mögliches direktes Label enthält, sollten Sie es verwenden. Oft sind direkte Labels jedoch nicht verfügbar.

Proxy-Labels sind immer ein Kompromiss – eine ungenaue Annäherung an ein direktes Label. Einige Proxy-Labels sind jedoch nah genug an der Realität, um nützlich zu sein. Modelle mit Proxy-Labels sind nur so nützlich wie die Verbindung zwischen dem Proxy-Label und der Vorhersage.

Wie Sie sich erinnern, muss jedes Label im Featurevektor als Gleitkommazahl dargestellt werden, da maschinelles Lernen im Grunde nur ein riesiges Amalgam aus mathematischen Operationen ist. Manchmal gibt es ein direktes Label, das aber nicht einfach als Gleitkommazahl im Featurevektor dargestellt werden kann. Verwenden Sie in diesem Fall ein Proxy-Label.

Übung: Wissen testen

Ihr Unternehmen möchte Folgendes tun:

Senden Sie Fahrradbesitzern Gutscheine („Altes Fahrrad eintauschen und 15% Rabatt auf ein neues Fahrrad erhalten“) per Post.

Ihr Modell muss daher Folgendes tun:

Vorhersagen, welche Personen ein Fahrrad haben.

Leider enthält das Dataset keine Spalte mit dem Namen bike owner. Das Dataset enthält jedoch eine Spalte mit dem Namen recently bought a bicycle.

Wäre recently bought a bicycle ein gutes oder schlechtes Proxy-Label für dieses Modell?
Label für guten Proxy
Unpassendes Proxy-Label

Von Menschen generierte Daten

Einige Daten werden von Menschen erstellt. Das bedeutet, dass eine oder mehrere Personen Informationen prüfen und einen Wert angeben, in der Regel für das Label. So könnten beispielsweise ein oder mehrere Meteorologen Bilder des Himmels untersuchen und Wolkentypen identifizieren.

Einige Daten werden automatisch generiert. Der Wert wird also von Software (möglicherweise einem anderen Modell für maschinelles Lernen) bestimmt. Ein Modell für maschinelles Lernen könnte beispielsweise Bilder des Himmels analysieren und Wolkentypen automatisch identifizieren.

In diesem Abschnitt werden die Vor- und Nachteile von von Menschen generierten Daten untersucht.

Vorteile

  • Menschen können eine Vielzahl von Aufgaben ausführen, die selbst für ausgefeilte Modelle des maschinellen Lernens schwierig sein können.
  • Der Prozess zwingt den Inhaber des Datensatzes, klare und einheitliche Kriterien zu entwickeln.

Nachteile

  • Sie zahlen in der Regel menschliche Beurteiler, daher können von Menschen generierte Daten teuer sein.
  • Irren ist menschlich. Daher müssen möglicherweise mehrere Bewerter dieselben Daten bewerten.

Überlegen Sie sich die folgenden Fragen, um Ihre Anforderungen zu ermitteln:

  • Wie qualifiziert müssen Ihre Bewerter sein? Müssen die Bewerter beispielsweise eine bestimmte Sprache sprechen? Benötigen Sie Linguisten für Dialog- oder NLP-Anwendungen?)
  • Wie viele beschriftete Beispiele benötigen Sie? Wie schnell benötigen Sie sie?
  • Wie hoch ist Ihr Budget?

Prüfen Sie die Bewertungen Ihrer menschlichen Prüfer immer noch einmal. Sie können beispielsweise 1.000 Beispiele selbst kennzeichnen und sehen, ob Ihre Ergebnisse mit denen anderer Bewerter übereinstimmen. Wenn Abweichungen auftreten, gehen Sie nicht davon aus, dass Ihre Bewertungen korrekt sind, insbesondere wenn es um eine Wertung geht. Wenn menschliche Bewerter Fehler gemacht haben, können Sie eine Anleitung hinzufügen, um ihnen zu helfen, und es noch einmal versuchen.

Unabhängig davon, wie Sie Ihre Daten erhalten haben, ist es eine gute Übung, sie manuell zu prüfen. Andrej Karpathy hat dies auf ImageNet getan und darüber geschrieben.

Modelle können mit einer Mischung aus automatischen und manuell erstellten Labels trainiert werden. Bei den meisten Modellen ist ein zusätzlicher Satz von von Menschen erstellten Labels (die veraltet werden können) jedoch in der Regel nicht die zusätzliche Komplexität und Wartung wert. Manchmal enthalten die manuell erstellten Labels jedoch zusätzliche Informationen, die in den automatischen Labels nicht verfügbar sind.