Kategorische Daten: Häufige Probleme

Numerische Daten werden oft von wissenschaftlichen Instrumenten oder automatische Messungen. Kategorische Daten hingegen durch Menschen oder ML-Modelle kategorisiert. Wer entscheidet zu Kategorien und Labels und darauf, wie diese Entscheidungen treffen, Zuverlässigkeit und Nützlichkeit dieser Daten.

Manuelle Prüfer

Daten, die manuell von Menschen mit Labels versehen wurden, werden oft als Goldlabels bezeichnet. und für das Training von Modellen besserer als Daten mit Maschinenlabels angesehen wird, da sie eine relativ bessere Datenqualität bieten.

Das bedeutet nicht unbedingt, dass irgendein Dataset mit von Menschen gekennzeichneten Daten hochwertig ist. die Qualität zu verbessern. Menschliche Fehler, Voreingenommenheit und Böswillige können an diesem Punkt oder während der Datenbereinigung und -verarbeitung. Nach ihnen suchen vor dem Training.

Zwei Menschen können ein Beispiel unterschiedlich beschriften. Der Unterschied zwischen den Prüfern werden als inter-Bewerter Vereinbarung. Sie können sich ein Bild davon machen, Meinungen mithilfe von und die Vereinbarung zwischen den Prüfern messen.

Bewerter

Maschinell gekennzeichnete Daten, bei denen die Kategorien automatisch durch ein oder Klassifizierungsmodelle, wird oft als silberne Labels bezeichnet. Die Qualität von Daten mit Maschinenlabels kann stark variieren. Überprüfung nicht nur auf Genauigkeit Voreingenommenheiten, aber auch für Verstöße gegen den gesunden Menschenverstand, die Realität und die Absichten. Für Wenn z. B. ein Modell für maschinelles Sehen ein falsches Label für ein Foto Chihuahua als Muffin, oder ein Foto eines Muffins als Chihuahua, werden Modelle, die mit diesen beschrifteten Daten trainiert wurden, von geringerer Qualität sein.

Entsprechend bewertet ein Sentimentanalyse-Tool neutrale Wörter mit -0,25, wenn 0,0 gleich der neutrale Wert, könnte alle Wörter mit einer zusätzlichen negativen Verzerrung bewertet werden. die nicht in den Daten vorhanden ist. Detektor für überempfindliche Toxizität viele neutrale Aussagen fälschlicherweise als unangemessen melden. Versuchen Sie, ein Gefühl für die Qualität und Verzerrungen von Maschinenlabels und -annotationen in Ihren Daten, bevor darin zu üben.

Hohe Dimensionalität

Kategorische Daten neigen dazu, hochdimensionale Merkmalsvektoren zu erzeugen. also: Featurevektoren mit einer großen Anzahl von Elementen. Hohe Dimensionalität erhöht die Trainingskosten und erhöht das Training schwierig. Aus diesen Gründen suchen ML-Experten oft nach Möglichkeiten, vor dem Training an Dimensionen herangehen.

Die wichtigste Methode zur Reduzierung von Dimensionalität ist bei Daten in natürlicher Sprache, um Featurevektoren in Einbettungsvektoren umzuwandeln. Dies wird im Moduls "Embeddings" weiter unten im diesem Kurs.