Datasets: Labels

In diesem Abschnitt geht es um Labels.

Direkte und Proxy-Labels

Es gibt zwei Arten von Labels:

Direkte Labels, die mit der Vorhersage identisch sind, die Ihr Modell treffen soll. Die Vorhersage, die Ihr Modell treffen soll, ist also genau als Spalte in Ihrem Dataset vorhanden. Eine Spalte mit dem Namen bicycle owner wäre beispielsweise ein direktes Label für ein binäres Klassifikationsmodell, das vorhersagt, ob eine Person ein Fahrrad besitzt oder nicht.
Proxy-Labels, die Labels sind, die der Vorhersage, die Ihr Modell treffen soll, ähneln, aber nicht mit ihr identisch sind. Wenn jemand beispielsweise das Magazin „Bicycle Bizarre“ abonniert, besitzt er wahrscheinlich ein Fahrrad, aber nicht unbedingt.

Direkte Labels sind in der Regel besser als Proxy-Labels. Wenn in Ihrem Dataset ein direktes Label verfügbar ist, sollten Sie es verwenden. Oft sind jedoch keine direkten Labels verfügbar.

Proxy-Labels sind immer ein Kompromiss – eine unvollkommene Annäherung an ein direktes Label. Einige Proxy-Labels sind jedoch so nah an den tatsächlichen Werten, dass sie nützlich sind. Modelle, die Proxy-Labels verwenden, sind nur so nützlich wie die Verbindung zwischen dem Proxy-Label und der Vorhersage.

Jedes Label muss als Gleitkommazahl dargestellt werden, ähnlich wie der Featurevektor, da maschinelles Lernen im Grunde nur eine Sammlung mathematischer Operationen ist. Manchmal ist ein direktes Label vorhanden, das sich aber nicht einfach als Gleitkommazahl darstellen lässt. Verwenden Sie in diesem Fall ein Proxy-Label.

Übung: Wissen testen

Ihr Unternehmen möchte Folgendes tun:

Gutscheine („15% Rabatt auf einen neuen Fahrradhelm“) an Fahrradbesitzer senden

Ihr Modell muss also Folgendes tun:

Vorhersagen, welche Personen ein Fahrrad besitzen.

Leider enthält das Dataset keine Spalte mit dem Namen bike owner. Das Dataset enthält jedoch eine Spalte mit dem Namen recently bought a bicycle.

Wäre recently bought a bicycle ein guter oder schlechter Proxy-Label für dieses Modell?

Gutes Proxy-Label

Die Spalte recently bought a bicycle ist ein relativ gutes Proxy-Label. Schließlich besitzen die meisten Menschen, die jetzt Fahrräder kaufen, bereits Fahrräder. Wie alle Proxy-Labels, auch sehr gute, ist

recently bought a
            bicycle

jedoch nicht perfekt. Schließlich ist die Person, die einen Artikel kauft, nicht immer die Person, die ihn verwendet oder besitzt. So werden Fahrräder beispielsweise manchmal als Geschenk gekauft.

Ungeeignetes Proxy-Label

Wie alle Proxy-Labels ist recently bought a bicycle unvollkommen (einige Fahrräder werden als Geschenke gekauft und an andere weitergegeben). recently bought a bicycle ist jedoch immer noch ein relativ guter Indikator dafür, dass jemand ein Fahrrad besitzt.

Von Menschen generierte Daten

Einige Daten werden von Menschen generiert. Das bedeutet, dass ein oder mehrere Menschen Informationen prüfen und einen Wert angeben, in der Regel für das Label. Beispielsweise könnten ein oder mehrere Meteorologen Bilder des Himmels untersuchen und Wolkentypen identifizieren.

Alternativ werden einige Daten automatisch generiert. Das heißt, Software (möglicherweise ein anderes Machine-Learning-Modell) bestimmt den Wert. Ein Modell für maschinelles Lernen könnte beispielsweise Himmelsbilder untersuchen und automatisch Wolkentypen identifizieren.

In diesem Abschnitt werden die Vor- und Nachteile von von Menschen generierten Daten untersucht.

Vorteile

Bewerter können eine Vielzahl von Aufgaben ausführen, die selbst für hochentwickelte Machine-Learning-Modelle schwierig sein können.
Der Prozess zwingt den Inhaber des Datasets, klare und konsistente Kriterien zu entwickeln.

Nachteile

In der Regel bezahlen Sie menschliche Beurteiler. Von Menschen erstellte Daten können also teuer sein.
Irren ist menschlich. Daher müssen dieselben Daten möglicherweise von mehreren menschlichen Bewertern ausgewertet werden.

Beantworten Sie diese Fragen, um Ihre Anforderungen zu ermitteln:

Wie qualifiziert müssen Ihre Rater sein? Müssen die Rater beispielsweise eine bestimmte Sprache beherrschen? Benötigen Sie Linguisten für Dialog- oder NLP-Anwendungen?)
Wie viele gelabelte Beispiele sind erforderlich? Wie schnell benötigen Sie sie?
Wie hoch ist Ihr Budget?

Prüfen Sie die Bewertungen durch menschliche Prüfer immer noch einmal. Sie können beispielsweise 1.000 Beispiele selbst labeln und sehen, wie Ihre Ergebnisse mit denen anderer Rater übereinstimmen. Wenn Unstimmigkeiten auftreten, sollten Sie nicht davon ausgehen, dass Ihre Bewertungen die richtigen sind, insbesondere wenn es sich um eine Wertung handelt. Wenn menschliche Rater Fehler gemacht haben, fügen Sie Anleitungen hinzu, um ihnen zu helfen, und versuchen Sie es noch einmal.

Klicken Sie auf das Pluszeichen, um mehr über von Menschen generierte Daten zu erfahren.

Es ist immer sinnvoll, sich die Daten anzusehen, unabhängig davon, wie Sie sie erhalten haben. Andrej Karpathy hat dies mit ImageNet getan und darüber geschrieben.

Modelle können mit einer Mischung aus automatisierten und von Menschen erstellten Labels trainiert werden. Für die meisten Modelle ist ein zusätzlicher Satz von von Menschen erstellten Labels (die veraltet sein können) jedoch in der Regel nicht den zusätzlichen Aufwand und die zusätzliche Wartung wert. Manchmal können die von Menschen erstellten Labels jedoch zusätzliche Informationen liefern, die in den automatischen Labels nicht verfügbar sind.

Zurück

Datenmerkmale (10 Minuten)

Weiter

Unausgeglichene Datasets (10 Min.)