In diesem Abschnitt werden die Schritte zur Datenvorbereitung beschrieben, die für das Clustering am wichtigsten sind aus der Mit numerischen Daten arbeiten im Crashkurs „Machine Learning“.
Beim Clustering berechnen Sie die Ähnlichkeit zwischen zwei Beispielen, indem Sie alle Featuredaten für diese Beispiele in einen numerischen Wert um. Dazu ist die gleich groß sein müssen. Dies lässt sich durch Normalisierung, Transformieren oder Erstellen von Quantilen. Wenn Sie eine Transformation ohne die Verteilung der Daten zu überprüfen, können Sie Quantile als Standard festlegen.
Daten normalisieren
Sie können Daten für mehrere Elemente in denselben Maßstab umwandeln, indem Sie mit den Daten.
Z-Werte
Immer, wenn Sie ein Dataset sehen, das ungefähr die Form Gaußsche Verteilung sollten Sie den Z-Wert für die Daten. Z-Werte sind die Anzahl der Standardabweichungen, die ein Wert von der Mittelwert. Sie können auch z-Werte verwenden, wenn das Dataset nicht groß genug ist, Quantile.
Weitere Informationen finden Sie unter Z-Faktor-Skalierung um die Schritte noch einmal durchzugehen.
Hier ist eine Visualisierung zweier Merkmale eines Datasets vor und nach Z-Score-Skalierung:
<ph type="x-smartling-placeholder">Im nicht normalisierten Dataset links, Merkmal 1 und Merkmal 2, die jeweils auf der x- und y-Achse dargestellt sind, haben nicht dieselbe Skala. Am links das rote Beispiel näher an Blau als an Gelb erscheinen. Rechts nach dem z-Faktor-Skalierung, Merkmal 1 und Merkmal 2 haben die gleiche Skala, und die roten Beispiel erscheint näher am gelben Beispiel. Das normalisierte Dataset gibt genauere Messung der Ähnlichkeit zwischen Punkten.
Logtransformationen
Wenn ein Dataset perfekt mit einer Stromverteilung, wenn Daten bei den niedrigsten Werten stark gebündelt ist, verwenden Sie eine Log-Transformation. Weitere Informationen finden Sie unter Log-Skalierung um die Schritte noch einmal durchzugehen.
Hier ist eine Visualisierung eines Potenz-Gesetz-Datasets vor und nach einer Log-Transformation:
<ph type="x-smartling-placeholder"> <ph type="x-smartling-placeholder">Vor der Log-Skalierung (Abbildung 2) ähnelt das rote Beispiel Gelb eher. Nach der logarithmischen Skalierung (Abbildung 3) ähnelt Rot Blau eher.
Quantile
Das Gruppieren der Daten in Quantile funktioniert gut, wenn das Dataset nicht konform ist. bis zu einer bekannten Verteilung. Nehmen wir als Beispiel dieses Dataset:
<ph type="x-smartling-placeholder">Intuitiv sind zwei Beispiele ähnlicher, wenn nur wenige Beispiele zwischen unabhängig von ihren Werten und sind unterschiedlicher, wenn viele Beispiele zwischen ihnen fallen. In der obigen Visualisierung ist es schwierig, den Gesamtwert zu sehen. Anzahl der Beispiele zwischen Rot und Gelb oder zwischen Rot und Blau.
Dieses Verständnis von Ähnlichkeit kann erreicht werden, indem das Dataset in Quantile oder Intervalle, die jeweils die gleiche Anzahl von Beispielen enthalten und indem Sie jedem Beispiel den Quantilindex zuweisen. Weitere Informationen finden Sie unter Quantile-Bucketing um die Schritte noch einmal durchzugehen.
Hier ist die vorherige Verteilung, unterteilt in Quantile, und zeigt, dass Rot ein Quantil von Gelb und drei Quantile von Blau entfernt:
<ph type="x-smartling-placeholder">Sie können eine beliebige Anzahl \(n\) von Quantilen auswählen. Damit die Quantile die zugrunde liegenden Daten sinnvoll darstellen, sollte Ihr Dataset mindestens \(10n\) Beispiele. Wenn nicht genügend Daten vorhanden sind, normalisieren Sie sie stattdessen.
Wissen testen
Gehen wir bei den folgenden Fragen davon aus, dass Sie genügend Daten haben, um Quantile zu erstellen.
Frage 1
- </ph>
- Die Datenverteilung ist Gaußsch.
- Sie haben einen Einblick in die Bedeutung der Daten was darauf hindeutet, dass die Daten nicht nicht linear transformiert werden sollten.
Frage 2
Fehlende Daten
Wenn Ihr Dataset Beispiele mit fehlenden Werten für ein bestimmtes Feature enthält, aber wenn diese Beispiele nur selten auftreten, können Sie sie entfernen. Wenn diese Beispiele häufig auftreten, können Sie diese Funktion entweder ganz entfernen oder die fehlenden Werte aus anderen Beispielen vorhersagen. Lernmodells. So können Sie zum Beispiel fehlende numerische Daten implizieren mit einer Regressionsmodell, das mit vorhandenen Featuredaten trainiert wurde.