Kategorische Daten: Häufige Probleme

Numerische Daten werden häufig von wissenschaftlichen Instrumenten oder automatisierten Messungen aufgezeichnet. Kategorische Daten werden hingegen häufig von Menschen oder durch Modelle für maschinelles Lernen (ML) kategorisiert. Wer über Kategorien und Labels entscheidet und wie diese Entscheidungen getroffen werden, wirkt sich auf die Zuverlässigkeit und Nützlichkeit dieser Daten aus.

Bewerter

Daten, die manuell von Menschen mit einem Label versehen wurden, werden oft als Gold-Labels bezeichnet und gelten aufgrund ihrer relativ besseren Datenqualität für Trainingsmodelle besser als Daten mit Maschinenlabels.

Das bedeutet nicht unbedingt, dass alle manuell gekennzeichneten Daten von hoher Qualität sind. Menschliche Fehler, Voreingenommenheit und böswillige Absichten können bei der Datenerhebung oder bei der Datenbereinigung und -verarbeitung auftreten. Prüfen Sie dies vor dem Training.

Zwei Menschen können dasselbe Beispiel unterschiedlich labeln. Der Unterschied zwischen den Entscheidungen der menschlichen Bewerter wird als Übereinstimmung zwischen Bewerter bezeichnet. Sie können sich ein Bild von der Abweichung in den Meinungen der Bewerter machen, indem Sie mehrere Bewerter pro Beispiel verwenden und die Übereinstimmung zwischen Bewertern messen.

Maschinelle Bewerter

Daten mit maschinellem Labeln, bei denen die Kategorien automatisch durch ein oder mehrere Klassifizierungsmodelle bestimmt werden, werden oft als silberne Labels bezeichnet. Die Qualität von maschinell gekennzeichneten Daten kann stark variieren. Prüfen Sie sie nicht nur auf Richtigkeit und Voreingenommenheit, sondern auch auf Verstöße gegen gesunden Menschenverstand, Realität und Absicht. Wenn beispielsweise ein Modell für maschinelles Sehen ein Foto eines Chihuahuas als Muffin falsch oder ein Foto eines Muffins als Chihuahua mit einem falschen Label einsieht, sind Modelle, die mit diesen gekennzeichneten Daten trainiert wurden, von geringerer Qualität.

Ähnlich kann ein Sentiment-Analysetool, das neutrale Wörter mit -0,25 bewertet, wenn 0,0 der neutrale Wert ist, alle Wörter mit einer zusätzlichen negativen Voreingenommenheit bewerten, die in den Daten nicht vorhanden ist. Ein überempfindlicher Toxizitäts-Detektor kann viele neutrale Aussagen fälschlicherweise als toxisch kennzeichnen. Versuchen Sie, sich ein Bild von der Qualität und den Voreingenommenheiten der maschinellen Labels und Anmerkungen in Ihren Daten zu machen, bevor Sie sie für das Training verwenden.

Hohe Dimensionalität

Bei kategorischen Daten entstehen in der Regel hochdimensionale Featurevektoren, d. h. Featurevektoren mit einer großen Anzahl von Elementen. Eine hohe Dimensionalität erhöht die Trainingskosten und erschwert das Training. Aus diesen Gründen suchen ML-Experten vor dem Training oft nach Möglichkeiten, die Anzahl der Dimensionen zu reduzieren.

Bei Daten in natürlicher Sprache besteht die Hauptmethode zur Reduzierung der Dimensionalität darin, Merkmalsvektoren in Einbettungsvektoren umzuwandeln. Darauf wird später in diesem Kurs im Modul „Embeddings“ eingegangen.