Datenvorbereitung

In diesem Abschnitt werden die Schritte zur Datenvorbereitung beschrieben, die für das Clustering am wichtigsten sind aus der Mit numerischen Daten arbeiten im Crashkurs „Machine Learning“.

Beim Clustering berechnen Sie die Ähnlichkeit zwischen zwei Beispielen, indem Sie alle Featuredaten für diese Beispiele in einen numerischen Wert um. Dazu ist die gleich groß sein müssen. Dies lässt sich durch Normalisierung, Transformieren oder Erstellen von Quantilen. Wenn Sie eine Transformation ohne die Verteilung der Daten zu überprüfen, können Sie Quantile als Standard festlegen.

Daten normalisieren

Sie können Daten für mehrere Elemente in denselben Maßstab umwandeln, indem Sie mit den Daten.

Z-Werte

Immer, wenn Sie ein Dataset sehen, das ungefähr die Form Gaußsche Verteilung sollten Sie den Z-Wert für die Daten. Z-Werte sind die Anzahl der Standardabweichungen, die ein Wert von der Mittelwert. Sie können auch z-Werte verwenden, wenn das Dataset nicht groß genug ist, Quantile.

Weitere Informationen finden Sie unter Z-Faktor-Skalierung um die Schritte noch einmal durchzugehen.

Hier ist eine Visualisierung zweier Merkmale eines Datasets vor und nach Z-Score-Skalierung:

<ph type="x-smartling-placeholder">
</ph> Zwei Diagramme, in denen Featuredaten vor und nach der Normalisierung verglichen werden
Abbildung 1: Vergleich der Featuredaten vor und nach der Normalisierung

Im nicht normalisierten Dataset links, Merkmal 1 und Merkmal 2, die jeweils auf der x- und y-Achse dargestellt sind, haben nicht dieselbe Skala. Am links das rote Beispiel näher an Blau als an Gelb erscheinen. Rechts nach dem z-Faktor-Skalierung, Merkmal 1 und Merkmal 2 haben die gleiche Skala, und die roten Beispiel erscheint näher am gelben Beispiel. Das normalisierte Dataset gibt genauere Messung der Ähnlichkeit zwischen Punkten.

Logtransformationen

Wenn ein Dataset perfekt mit einer Stromverteilung, wenn Daten bei den niedrigsten Werten stark gebündelt ist, verwenden Sie eine Log-Transformation. Weitere Informationen finden Sie unter Log-Skalierung um die Schritte noch einmal durchzugehen.

Hier ist eine Visualisierung eines Potenz-Gesetz-Datasets vor und nach einer Log-Transformation:

<ph type="x-smartling-placeholder">
</ph> Ein Balkendiagramm, bei dem die meisten Daten am unteren Rand liegen
Abbildung 2: Eine Verteilung des Potenzgesetzes.
<ph type="x-smartling-placeholder">
</ph> Ein Diagramm, das eine Normalverteilung (Gauß&#39;sche) zeigt
Abbildung 3: Log-Transformation aus Abbildung 2

Vor der Log-Skalierung (Abbildung 2) ähnelt das rote Beispiel Gelb eher. Nach der logarithmischen Skalierung (Abbildung 3) ähnelt Rot Blau eher.

Quantile

Das Gruppieren der Daten in Quantile funktioniert gut, wenn das Dataset nicht konform ist. bis zu einer bekannten Verteilung. Nehmen wir als Beispiel dieses Dataset:

<ph type="x-smartling-placeholder">
</ph> Ein Diagramm, das eine Datenverteilung vor der Vorverarbeitung zeigt
Abbildung 4: Eine nicht kategorisierbare Verteilung vor der Vorverarbeitung.

Intuitiv sind zwei Beispiele ähnlicher, wenn nur wenige Beispiele zwischen unabhängig von ihren Werten und sind unterschiedlicher, wenn viele Beispiele zwischen ihnen fallen. In der obigen Visualisierung ist es schwierig, den Gesamtwert zu sehen. Anzahl der Beispiele zwischen Rot und Gelb oder zwischen Rot und Blau.

Dieses Verständnis von Ähnlichkeit kann erreicht werden, indem das Dataset in Quantile oder Intervalle, die jeweils die gleiche Anzahl von Beispielen enthalten und indem Sie jedem Beispiel den Quantilindex zuweisen. Weitere Informationen finden Sie unter Quantile-Bucketing um die Schritte noch einmal durchzugehen.

Hier ist die vorherige Verteilung, unterteilt in Quantile, und zeigt, dass Rot ein Quantil von Gelb und drei Quantile von Blau entfernt:

<ph type="x-smartling-placeholder">
</ph> Ein Diagramm mit den Daten nach der Conversion
  in Quantile umwandeln. Die Linie steht für 20 Intervalle.]
Abbildung 5: Die Verteilung in Abbildung 4 nach der Umwandlung in 20 Quanten

Sie können eine beliebige Anzahl \(n\) von Quantilen auswählen. Damit die Quantile die zugrunde liegenden Daten sinnvoll darstellen, sollte Ihr Dataset mindestens \(10n\) Beispiele. Wenn nicht genügend Daten vorhanden sind, normalisieren Sie sie stattdessen.

Wissen testen

Gehen wir bei den folgenden Fragen davon aus, dass Sie genügend Daten haben, um Quantile zu erstellen.

Frage 1

Ein Diagramm mit drei Datenverteilungen
Wie sollten Sie die oben gezeigte Datenverteilung verarbeiten? Grafik?
Quantile erstellen
Korrekt. Da die Verteilung nicht mit einem Standard-Datenverteilung wählen, sollten Sie Quantile entstehen.
Normalisieren.
Sie normalisieren Daten normalerweise in folgenden Fällen: <ph type="x-smartling-placeholder">
    </ph>
  • Die Datenverteilung ist Gaußsch.
  • Sie haben einen Einblick in die Bedeutung der Daten was darauf hindeutet, dass die Daten nicht nicht linear transformiert werden sollten.
Keiner der beiden Fälle trifft hier zu. Die Datenverteilung ist nicht gaußsch, nicht symmetrisch sein. Und Sie wissen nicht, was diese Werte in der realen Welt darstellen.
Log-Transformation.
Das ist keine perfekte Verteilung gemäß dem Potenzgesetz, verwenden Sie also kein Log Transformieren.

Frage 2

Ein Diagramm mit drei Datenverteilungen
Wie würden Sie diese Datenverteilung verarbeiten?
Normalisieren.
Korrekt. Das ist eine Gauß-Verteilung.
Quantile erstellen
Falsch. Da es sich um eine Gauß-Verteilung handelt, ist Normalisierung.
Log-Transformation.
Falsch. Wenden Sie eine Log-Transformation nur auf Potenzgesetz-Verteilungen an.

Fehlende Daten

Wenn Ihr Dataset Beispiele mit fehlenden Werten für ein bestimmtes Feature enthält, aber wenn diese Beispiele nur selten auftreten, können Sie sie entfernen. Wenn diese Beispiele häufig auftreten, können Sie diese Funktion entweder ganz entfernen oder die fehlenden Werte aus anderen Beispielen vorhersagen. Lernmodells. So können Sie zum Beispiel fehlende numerische Daten implizieren mit einer Regressionsmodell, das mit vorhandenen Featuredaten trainiert wurde.