Datasets: Daten transformieren

Modelle für maschinelles Lernen können nur mit Gleitkommawerten trainiert werden. Viele Dataset-Elemente sind jedoch keine Gleitkommawerte. Ein wichtiger Teil des maschinellen Lernens ist daher die Transformation Nicht-Gleitkomma-Features in Gleitkomma-Darstellungen.

Beispiel: street names ist ein Element. Meiste Straßennamen sind Zeichenfolgen wie "Broadway" oder „Vilakazi“. Ihr Modell kann nicht auf „Broadway“ trainiert werden, also müssen Sie „Broadway“ transformieren in eine Gleitkommazahl umwandeln. Die kategorialen Daten Modul wie das geht.

Darüber hinaus sollten Sie sogar die meisten Gleitkommaelemente transformieren. Dieser Transformationsprozess, der als Normalisierung, konvertiert Gleitkommazahlen in einen beschränkten Bereich, der das Modelltraining verbessert. Die numerischen Daten Modul wie das geht.

Stichprobendaten verwenden, wenn Sie zu viele davon haben

Einige Organisationen profitieren von einer Fülle von Daten. Wenn das Dataset zu viele Beispiele enthält, müssen Sie eine Teilmenge auswählen von Beispielen für das Training. Wählen Sie nach Möglichkeit die Teilmenge aus, die für die Vorhersagen Ihres Modells relevant sind.

Beispiele mit personenidentifizierbaren Informationen filtern

Gute Datasets enthalten keine Beispiele mit personenidentifizierbaren Informationen. (personenidentifizierbare Informationen). Diese Richtlinie trägt zum Datenschutz bei, kann aber Einfluss auf das Modell haben.

Weitere Informationen zu diesen Themen finden Sie im Modul „Sicherheit und Datenschutz“ weiter unten im Kurs.