Datasets: Daten transformieren

Machine-Learning-Modelle können nur mit Gleitkommawerten trainiert werden. Viele Datensatzmerkmale sind jedoch nicht von Natur aus Gleitkommawerte. Daher ist ein wichtiger Teil des maschinellen Lernens die Umwandlung von nicht-Float-Features in Float-Darstellungen.

Angenommen, street names ist ein Feature. Die meisten Straßennamen sind Strings wie „Broadway“ oder „Vilakazi“. Ihr Modell kann nicht mit „Broadway“ trainiert werden. Sie müssen „Broadway“ also in eine Gleitkommazahl umwandeln. Im Modul zu kategorischen Daten wird dies erläutert.

Außerdem sollten Sie die meisten Gleitkommafunktionen transformieren. Dieser Transformationsprozess, der als Normalisierung bezeichnet wird, wandelt Gleitkommazahlen in einen eingeschränkten Bereich um, was das Modelltraining verbessert. Im Modul zu numerischen Daten wird dies erläutert.

Stichproben bei zu vielen Daten

Einige Organisationen verfügen über eine Fülle von Daten. Wenn das Dataset zu viele Beispiele enthält, müssen Sie eine Teilmenge der Beispiele für das Training auswählen. Wählen Sie nach Möglichkeit die Teilmenge aus, die für die Vorhersagen Ihres Modells am relevantesten ist.

Beispiele für Filter, die personenidentifizierbare Informationen enthalten

Gute Datasets enthalten keine Beispiele mit personenidentifizierbaren Informationen. Diese Richtlinie trägt zum Schutz der Privatsphäre bei, kann aber das Modell beeinflussen.

Weitere Informationen zu diesen Themen finden Sie später im Kurs im Modul „Sicherheit und Datenschutz“.