In diesem Abschnitt geht es um Labels.
Direkte und Proxy-Labels
Es gibt zwei Arten von Labels:
- Direkte Labels, die mit der Vorhersage identisch sind, die Ihr Modell treffen soll. Die Vorhersage, die Ihr Modell treffen soll, ist also genau als Spalte in Ihrem Dataset vorhanden.
Eine Spalte mit dem Namen
bicycle owner
wäre beispielsweise ein direktes Label für ein binäres Klassifikationsmodell, das vorhersagt, ob eine Person ein Fahrrad besitzt oder nicht. - Proxy-Labels, die Labels sind, die der Vorhersage, die Ihr Modell treffen soll, ähneln, aber nicht mit ihr identisch sind. Wenn jemand beispielsweise das Magazin „Bicycle Bizarre“ abonniert, besitzt er wahrscheinlich ein Fahrrad, aber nicht unbedingt.
Direkte Labels sind in der Regel besser als Proxy-Labels. Wenn in Ihrem Dataset ein direktes Label verfügbar ist, sollten Sie es verwenden. Oft sind jedoch keine direkten Labels verfügbar.
Proxy-Labels sind immer ein Kompromiss – eine unvollkommene Annäherung an ein direktes Label. Einige Proxy-Labels sind jedoch so nah an den tatsächlichen Werten, dass sie nützlich sind. Modelle, die Proxy-Labels verwenden, sind nur so nützlich wie die Verbindung zwischen dem Proxy-Label und der Vorhersage.
Jedes Label muss als Gleitkommazahl im Featurevektor dargestellt werden, da maschinelles Lernen im Grunde nur eine riesige Mischung aus mathematischen Operationen ist. Manchmal ist ein direktes Label vorhanden, das sich aber nicht einfach als Gleitkommazahl im Featurevektor darstellen lässt. Verwenden Sie in diesem Fall ein Proxy-Label.
Übung: Wissen testen
Ihr Unternehmen möchte Folgendes tun:
Gutscheine („15% Rabatt auf einen neuen Fahrradhelm“) an Fahrradbesitzer senden
Ihr Modell muss also Folgendes tun:
Vorhersagen, welche Personen ein Fahrrad besitzen.
Leider enthält das Dataset keine Spalte mit dem Namen bike owner
.
Das Dataset enthält jedoch eine Spalte mit dem Namen recently bought a bicycle
.
recently bought a bicycle
ein guter oder schlechter Proxy-Label für dieses Modell?recently bought a bicycle
ist ein relativ gutes Proxy-Label. Schließlich besitzen die meisten Menschen, die jetzt Fahrräder kaufen, bereits Fahrräder. Wie alle Proxy-Labels, auch sehr gute, ist recently bought a
bicycle
jedoch nicht perfekt. Schließlich ist die Person, die einen Artikel kauft, nicht immer die Person, die ihn verwendet oder besitzt.
Manchmal werden Fahrräder beispielsweise als Geschenk gekauft.recently bought a bicycle
unvollkommen, da einige Fahrräder als Geschenke gekauft und an andere weitergegeben werden. recently bought a bicycle
ist jedoch immer noch ein relativ guter Indikator dafür, dass jemand ein Fahrrad besitzt.Von Menschen generierte Daten
Einige Daten werden von Menschen generiert. Das bedeutet, dass ein oder mehrere Menschen Informationen prüfen und einen Wert angeben, in der Regel für das Label. Beispielsweise könnten ein oder mehrere Meteorologen Bilder des Himmels untersuchen und Wolkentypen identifizieren.
Alternativ werden einige Daten automatisch generiert. Das heißt, Software (möglicherweise ein anderes Machine-Learning-Modell) bestimmt den Wert. Ein Modell für maschinelles Lernen könnte beispielsweise Himmelsbilder untersuchen und automatisch Wolkentypen identifizieren.
In diesem Abschnitt werden die Vor- und Nachteile von von Menschen generierten Daten untersucht.
Vorteile
- Bewerter können eine Vielzahl von Aufgaben ausführen, die selbst für hochentwickelte Modelle für maschinelles Lernen schwierig sein können.
- Der Prozess zwingt den Inhaber des Datasets, klare und konsistente Kriterien zu entwickeln.
Nachteile
- In der Regel bezahlen Sie menschliche Beurteiler. Von Menschen erstellte Daten können also teuer sein.
- Irren ist menschlich. Daher müssen dieselben Daten möglicherweise von mehreren menschlichen Bewertern ausgewertet werden.
Beantworten Sie die folgenden Fragen, um Ihre Anforderungen zu ermitteln:
- Wie qualifiziert müssen Ihre Rater sein? Müssen die Rater beispielsweise eine bestimmte Sprache beherrschen? Benötigen Sie Linguisten für Dialog- oder NLP-Anwendungen?)
- Wie viele gelabelte Beispiele sind erforderlich? Wie schnell benötigen Sie sie?
- Wie hoch ist Ihr Budget?
Prüfen Sie die Bewertungen durch menschliche Prüfer immer noch einmal. Sie können beispielsweise 1.000 Beispiele selbst labeln und sehen, wie Ihre Ergebnisse mit denen anderer Rater übereinstimmen. Wenn Unstimmigkeiten auftreten, sollten Sie nicht davon ausgehen, dass Ihre Bewertungen die richtigen sind, insbesondere wenn es sich um eine Wertung handelt. Wenn menschliche Rater Fehler gemacht haben, fügen Sie Anleitungen hinzu, um ihnen zu helfen, und versuchen Sie es noch einmal.