In diesem Abschnitt geht es hauptsächlich um Labels.
Direkte und Proxy-Labels im Vergleich
Betrachten Sie zwei verschiedene Arten von Labels:
- Direkte Labels: Dies sind Labels, die mit der Vorhersage Ihres Modells identisch sind.
zu erzielen. Das heißt, die Vorhersage,
die Ihr Modell zu treffen versucht,
genau als Spalte im Dataset vorhanden ist.
So wäre beispielsweise die Spalte
bicycle owner
ein direktes Label für ein binäres Klassifizierungsmodell, das vorhersagt, ob eine Person Eigentümer mit dem Fahrrad. - Proxy-Labels: Dies sind ähnliche Labels, nicht identisch mit der Vorhersage, die Ihr Modell zu treffen versucht. Beispiel: Eine Person, die die Zeitschrift „Bike Bizarre“ abonniert besitzt wahrscheinlich – aber nicht unbedingt – ein Fahrrad.
Direkte Labels sind im Allgemeinen besser als Proxy-Labels. Wenn Ihr Dataset eine mögliche direkte Beschriftung bietet, sollten Sie diese verwenden. Häufig sind direkte Labels jedoch nicht verfügbar.
Proxy-Labels sind immer ein Kompromiss – eine unzureichende Annäherung an eine direkte Beschriftung. Einige Proxy-Labels sind jedoch nah genug nützlich sein. Modelle, die Proxy-Labels verwenden, sind nur so nützlich wie die Verbindung zwischen dem Proxy-Label und der Vorhersage.
Jedes Label muss als Gleitkommazahl dargestellt werden. im Featurevektor (denn das maschinelle Lernen ist im Grunde nur eine riesige Mischung aus mathematischer Betriebsabläufe). Manchmal existiert eine direkte Beschriftung, die nicht einfach als solche dargestellt werden kann. als Gleitkommazahl im Featurevektor. Verwenden Sie in diesem Fall ein Proxy-Label.
Übung: Wissenstest
Ihr Unternehmen möchte Folgendes tun:
Postgutscheine ("Trade dein altes Fahrrad gegen 15% Rabatt auf ein neues Fahrrad“) an Fahrradbesitzer.
Ihr Modell muss also Folgendes tun:
Vorhersagen, welche Personen ein Fahrrad besitzen
Das Dataset enthält keine Spalte mit dem Namen bike owner
.
Das Dataset enthält jedoch eine Spalte mit dem Namen recently bought a bicycle
.
recently bought a bicycle
ein gutes Proxy-Label?
oder ein schlechtes Proxy-Label
für dieses Modell?recently bought a bicycle
ist ein
und ein relativ gutes Proxy-Label ist. Schließlich haben die meisten Menschen
die Fahrräder kaufen, besitzen jetzt Fahrräder. Trotzdem ist wie bei allen
Proxy-Labels, selbst sehr guten, recently bought a
bicycle
ist nicht perfekt. Schließlich möchte der Kaufende
ein Element ist nicht immer die Person, die es nutzt oder besitzt.
Manche kaufen beispielsweise Fahrräder als Geschenk.recently bought a bicycle
nicht perfekt ist (einige Fahrräder werden als Geschenk gekauft
andere). recently bought a bicycle
ist jedoch
immer noch ein relativ guter Indikator dafür,
mit dem Fahrrad.Von Menschen erstellte Daten
Einige Daten werden menschlich generiert. d. h., ein oder mehrere Menschen untersuchen einige und einen Wert angeben, in der Regel für das Label. Beispiel: könnten ein oder mehrere Meteorologen Bilder vom Himmel untersuchen und Cloud-Typen.
Einige Daten werden auch automatisch generiert. Das heißt, Software (möglicherweise ein anderes ML-Modell) wird der Wert bestimmt. Beispiel: könnte ein Modell für maschinelles Lernen Himmelbilder untersuchen und automatisch Cloud-Typen.
In diesem Abschnitt werden die Vor- und Nachteile von Menschen-generierten Daten erläutert.
Vorteile
- Evaluatoren können eine Vielzahl von Aufgaben erledigen, die selbst anspruchsvolle ist es für Modelle für maschinelles Lernen möglicherweise schwierig.
- Der Prozess zwingt die Eigentümerin des Datasets, klare und einheitliche Kriterien.
Nachteile
- Normalerweise bezahlen Sie Prüfer, sodass von Menschen erstellte Daten teuer sein können.
- Irren ist menschlich. Daher müssen die Ergebnisse unter Umständen von mehreren Prüfern dieselben Daten.
Gehen Sie die folgenden Fragen durch, um Ihren Bedarf zu ermitteln:
- Wie qualifiziert müssen die Prüfer sein? (Müssen die Prüfer z. B. eine bestimmte Sprache sprechen? Brauchst du Linguisten für Dialoge oder NLP? Anwendungen?)
- Wie viele Beispiele mit Labels benötigen Sie? Wie schnell benötigen Sie sie?
- Wie hoch ist Ihr Budget?
Prüfe immer genau die Prüfer. Fügen Sie beispielsweise 1.000 Beispiele mit Labels hinzu. und sehen, wie Ihre Ergebnisse mit denen anderer Prüfer übereinstimmen Ergebnisse. Wenn Abweichungen auftauchen, gehen Sie nicht davon aus, dass Ihre Bewertungen korrekt sind, insbesondere, wenn ein Werturteil beteiligt ist. Wenn Prüfer hinzufügen, fügen Sie eine entsprechende Anleitung hinzu und versuchen Sie es noch einmal.