Datasets: Labels

In diesem Abschnitt geht es um Labels.

Direkte und Proxy-Labels

Es gibt zwei Arten von Labels:

  • Direkte Labels, die mit der Vorhersage identisch sind, die Ihr Modell treffen soll. Die Vorhersage, die Ihr Modell treffen soll, ist also genau als Spalte in Ihrem Dataset vorhanden. Eine Spalte mit dem Namen bicycle owner wäre beispielsweise ein direktes Label für ein binäres Klassifikationsmodell, das vorhersagt, ob eine Person ein Fahrrad besitzt oder nicht.
  • Proxy-Labels, die Labels sind, die der Vorhersage, die Ihr Modell treffen soll, ähneln, aber nicht mit ihr identisch sind. Wenn jemand beispielsweise das Magazin „Bicycle Bizarre“ abonniert, besitzt er wahrscheinlich ein Fahrrad, aber nicht unbedingt.

Direkte Labels sind in der Regel besser als Proxy-Labels. Wenn in Ihrem Dataset ein direktes Label verfügbar ist, sollten Sie es verwenden. Oft sind jedoch keine direkten Labels verfügbar.

Proxy-Labels sind immer ein Kompromiss – eine unvollkommene Annäherung an ein direktes Label. Einige Proxy-Labels sind jedoch so nah an den tatsächlichen Werten, dass sie nützlich sind. Modelle, die Proxy-Labels verwenden, sind nur so nützlich wie die Verbindung zwischen dem Proxy-Label und der Vorhersage.

Jedes Label muss als Gleitkommazahl im Featurevektor dargestellt werden, da maschinelles Lernen im Grunde nur eine riesige Mischung aus mathematischen Operationen ist. Manchmal ist ein direktes Label vorhanden, das sich aber nicht einfach als Gleitkommazahl im Featurevektor darstellen lässt. Verwenden Sie in diesem Fall ein Proxy-Label.

Übung: Wissen testen

Ihr Unternehmen möchte Folgendes tun:

Gutscheine („15% Rabatt auf einen neuen Fahrradhelm“) an Fahrradbesitzer senden

Ihr Modell muss also Folgendes tun:

Vorhersagen, welche Personen ein Fahrrad besitzen.

Leider enthält das Dataset keine Spalte mit dem Namen bike owner. Das Dataset enthält jedoch eine Spalte mit dem Namen recently bought a bicycle.

Wäre recently bought a bicycle ein guter oder schlechter Proxy-Label für dieses Modell?
Gutes Proxy-Label
Die Spalte recently bought a bicycle ist ein relativ gutes Proxy-Label. Schließlich besitzen die meisten Menschen, die jetzt Fahrräder kaufen, bereits Fahrräder. Wie alle Proxy-Labels, auch sehr gute, ist recently bought a bicycle jedoch nicht perfekt. Schließlich ist die Person, die einen Artikel kauft, nicht immer die Person, die ihn verwendet oder besitzt. Manchmal werden Fahrräder beispielsweise als Geschenk gekauft.
Ungeeignetes Proxy-Label
Wie alle Proxy-Labels ist recently bought a bicycle unvollkommen, da einige Fahrräder als Geschenke gekauft und an andere weitergegeben werden. recently bought a bicycle ist jedoch immer noch ein relativ guter Indikator dafür, dass jemand ein Fahrrad besitzt.

Von Menschen generierte Daten

Einige Daten werden von Menschen generiert. Das bedeutet, dass ein oder mehrere Menschen Informationen prüfen und einen Wert angeben, in der Regel für das Label. Beispielsweise könnten ein oder mehrere Meteorologen Bilder des Himmels untersuchen und Wolkentypen identifizieren.

Alternativ werden einige Daten automatisch generiert. Das heißt, Software (möglicherweise ein anderes Machine-Learning-Modell) bestimmt den Wert. Ein Modell für maschinelles Lernen könnte beispielsweise Himmelsbilder untersuchen und automatisch Wolkentypen identifizieren.

In diesem Abschnitt werden die Vor- und Nachteile von von Menschen generierten Daten untersucht.

Vorteile

  • Bewerter können eine Vielzahl von Aufgaben ausführen, die selbst für hochentwickelte Modelle für maschinelles Lernen schwierig sein können.
  • Der Prozess zwingt den Inhaber des Datasets, klare und konsistente Kriterien zu entwickeln.

Nachteile

  • In der Regel bezahlen Sie menschliche Beurteiler. Von Menschen erstellte Daten können also teuer sein.
  • Irren ist menschlich. Daher müssen dieselben Daten möglicherweise von mehreren menschlichen Bewertern ausgewertet werden.

Beantworten Sie die folgenden Fragen, um Ihre Anforderungen zu ermitteln:

  • Wie qualifiziert müssen Ihre Rater sein? Müssen die Rater beispielsweise eine bestimmte Sprache beherrschen? Benötigen Sie Linguisten für Dialog- oder NLP-Anwendungen?)
  • Wie viele gelabelte Beispiele sind erforderlich? Wie schnell benötigen Sie sie?
  • Wie hoch ist Ihr Budget?

Prüfen Sie die Bewertungen durch menschliche Prüfer immer noch einmal. Sie können beispielsweise 1.000 Beispiele selbst labeln und sehen, wie Ihre Ergebnisse mit denen anderer Rater übereinstimmen. Wenn Unstimmigkeiten auftreten, sollten Sie nicht davon ausgehen, dass Ihre Bewertungen die richtigen sind, insbesondere wenn es sich um eine Wertung handelt. Wenn menschliche Rater Fehler gemacht haben, fügen Sie Anleitungen hinzu, um ihnen zu helfen, und versuchen Sie es noch einmal.