Modelle für maschinelles Lernen können nur mit Gleitkommawerten trainiert werden. Viele Dataset-Elemente sind jedoch keine Gleitkommawerte. Ein wichtiger Teil des maschinellen Lernens ist daher die Transformation Nicht-Gleitkomma-Features in Gleitkomma-Darstellungen.
Beispiel: street names
ist ein Element. Meiste Straßennamen
sind Zeichenfolgen wie "Broadway" oder „Vilakazi“.
Ihr Modell kann nicht auf „Broadway“ trainiert werden, also müssen Sie „Broadway“ transformieren
in eine Gleitkommazahl umwandeln. Die kategorialen Daten
Modul
wie das geht.
Darüber hinaus sollten Sie sogar die meisten Gleitkommaelemente transformieren. Dieser Transformationsprozess, der als Normalisierung, konvertiert Gleitkommazahlen in einen beschränkten Bereich, der das Modelltraining verbessert. Die numerischen Daten Modul wie das geht.
Stichprobendaten verwenden, wenn Sie zu viele davon haben
Einige Organisationen profitieren von einer Fülle von Daten. Wenn das Dataset zu viele Beispiele enthält, müssen Sie eine Teilmenge auswählen von Beispielen für das Training. Wählen Sie nach Möglichkeit die Teilmenge aus, die für die Vorhersagen Ihres Modells relevant sind.
Beispiele mit personenidentifizierbaren Informationen filtern
Gute Datasets enthalten keine Beispiele mit personenidentifizierbaren Informationen. (personenidentifizierbare Informationen). Diese Richtlinie trägt zum Datenschutz bei, kann aber Einfluss auf das Modell haben.
Weitere Informationen zu diesen Themen finden Sie im Modul „Sicherheit und Datenschutz“ weiter unten im Kurs.