Datasets: Labels

In diesem Abschnitt geht es hauptsächlich um Labels.

Direkte und Proxy-Labels im Vergleich

Betrachten Sie zwei verschiedene Arten von Labels:

  • Direkte Labels: Dies sind Labels, die mit der Vorhersage Ihres Modells identisch sind. zu erzielen. Das heißt, die Vorhersage, die Ihr Modell zu treffen versucht, genau als Spalte im Dataset vorhanden ist. So wäre beispielsweise die Spalte bicycle owner ein direktes Label für ein binäres Klassifizierungsmodell, das vorhersagt, ob eine Person Eigentümer mit dem Fahrrad.
  • Proxy-Labels: Dies sind ähnliche Labels, nicht identisch mit der Vorhersage, die Ihr Modell zu treffen versucht. Beispiel: Eine Person, die die Zeitschrift „Bike Bizarre“ abonniert besitzt wahrscheinlich – aber nicht unbedingt – ein Fahrrad.

Direkte Labels sind im Allgemeinen besser als Proxy-Labels. Wenn Ihr Dataset eine mögliche direkte Beschriftung bietet, sollten Sie diese verwenden. Häufig sind direkte Labels jedoch nicht verfügbar.

Proxy-Labels sind immer ein Kompromiss – eine unzureichende Annäherung an eine direkte Beschriftung. Einige Proxy-Labels sind jedoch nah genug nützlich sein. Modelle, die Proxy-Labels verwenden, sind nur so nützlich wie die Verbindung zwischen dem Proxy-Label und der Vorhersage.

Jedes Label muss als Gleitkommazahl dargestellt werden. im Featurevektor (denn maschinelles Lernen ist im Grunde nur eine riesige Mischung aus mathematischer Betriebsabläufe). Manchmal existiert eine direkte Beschriftung, die nicht einfach als solche dargestellt werden kann. als Gleitkommazahl im Featurevektor. Verwenden Sie in diesem Fall ein Proxy-Label.

Übung: Wissenstest

Ihr Unternehmen möchte Folgendes tun:

Postgutscheine ("Trade dein altes Fahrrad gegen 15% Rabatt auf ein neues Fahrrad“) an Fahrradbesitzer.

Ihr Modell muss also Folgendes tun:

Vorhersagen, welche Personen ein Fahrrad besitzen

Das Dataset enthält keine Spalte mit dem Namen bike owner. Das Dataset enthält jedoch eine Spalte mit dem Namen recently bought a bicycle.

Wäre recently bought a bicycle ein gutes Proxy-Label? oder ein schlechtes Proxy-Label für dieses Modell?
Gutes Proxy-Label
Die Spalte recently bought a bicycle ist ein und ein relativ gutes Proxy-Label ist. Schließlich haben die meisten Menschen die Fahrräder kaufen, besitzen jetzt Fahrräder. Trotzdem ist wie bei allen Proxy-Labels, selbst sehr guten, recently bought a bicycle ist nicht perfekt. Schließlich möchte der Kaufende ein Element ist nicht immer die Person, die es nutzt oder besitzt. Manche kaufen beispielsweise Fahrräder als Geschenk.
Schlechter Proxy-Label
Wie alle Proxy-Labels auch recently bought a bicycle nicht perfekt ist (einige Fahrräder werden als Geschenk gekauft andere). recently bought a bicycle ist jedoch immer noch ein relativ guter Indikator dafür, mit dem Fahrrad.

Von Menschen erstellte Daten

Einige Daten werden menschlich generiert. d. h., ein oder mehrere Menschen untersuchen einige und einen Wert angeben, in der Regel für das Label. Beispiel: könnten ein oder mehrere Meteorologen Bilder vom Himmel untersuchen und Cloud-Typen.

Einige Daten werden auch automatisch generiert. Das heißt, Software (möglicherweise ein anderes ML-Modell) wird der Wert bestimmt. Beispiel: könnte ein Modell für maschinelles Lernen Himmelbilder untersuchen und automatisch Cloud-Typen.

In diesem Abschnitt werden die Vor- und Nachteile von Menschen-generierten Daten erläutert.

Vorteile

  • Evaluatoren können eine Vielzahl von Aufgaben erledigen, die selbst anspruchsvolle ist es für Modelle für maschinelles Lernen möglicherweise schwierig.
  • Der Prozess zwingt die Besitzerin des Datasets, klare und einheitliche Kriterien.

Nachteile

  • Normalerweise bezahlen Sie Prüfer, sodass von Menschen erstellte Daten teuer sein können.
  • Irren ist menschlich. Daher müssen unter Umständen mehrere Prüfer die dieselben Daten.

Gehen Sie die folgenden Fragen durch, um Ihren Bedarf zu ermitteln:

  • Wie qualifiziert müssen die Prüfer sein? (Müssen die Prüfer z. B. eine bestimmte Sprache sprechen? Brauchst du Linguisten für Dialoge oder NLP? Anwendungen?)
  • Wie viele Beispiele mit Labels benötigen Sie? Wie schnell benötigen Sie sie?
  • Wie hoch ist Ihr Budget?

Prüfe immer genau die Prüfer. Fügen Sie beispielsweise 1.000 Beispiele mit Labels hinzu. und sehen, wie Ihre Ergebnisse mit denen anderer Prüfer übereinstimmen Ergebnisse. Wenn Abweichungen auftauchen, gehen Sie nicht davon aus, dass Ihre Bewertungen korrekt sind, insbesondere wenn ein Werturteil beteiligt ist. Wenn Prüfer hinzufügen, fügen Sie eine entsprechende Anleitung hinzu und versuchen Sie es noch einmal.