Cette section passe en revue les étapes de préparation des données les plus pertinentes pour le clustering à partir de Utiliser des données numériques du cours d'initiation au machine learning.
Dans le clustering, vous calculez la similarité entre deux exemples en combinant toutes les données de caractéristiques de ces exemples en une valeur numérique. Pour ce faire, d'avoir la même échelle. Vous pouvez normaliser ou la création de quantiles. Si vous souhaitez transformer vos données sans inspecter leur distribution, vous pouvez utiliser par défaut les quantiles.
Normalisation des données
Vous pouvez transformer les données de plusieurs caractéristiques à la même échelle en normalisant les données.
Scores Z
Chaque fois que vous voyez un jeu de données à peu près en forme Distribution gaussienne, vous devez calculer la note z. pour les données. Les scores z sont le nombre d'écarts types d'une valeur moyenne. Vous pouvez également utiliser des notes z lorsque le jeu de données n'est pas assez grand pour quantiles.
Voir Scaling du score Z pour revoir les étapes.
Voici une visualisation de deux caractéristiques d'un ensemble de données avant et après Mise à l'échelle de la note z:
Dans l'ensemble de données non normalisé de gauche, Caractéristique 1 et Caractéristique 2, représentées respectivement sur les axes x et y, n'ont pas la même échelle. Le à gauche, l'exemple en rouge est plus proche ou plus similaire du bleu que du jaune. Sur la droite, après la notation z, la caractéristique 1 et la caractéristique 2 ont la même échelle, et l'étiquette rouge est plus proche de l'exemple jaune. L'ensemble de données normalisé mesure plus précise la similarité entre les points.
Transformations de journaux
Lorsqu'un ensemble de données est parfaitement conforme à un distribution par loi du pouvoir, où les données est fortement agglomérée aux valeurs les plus basses, utilisez une transformation log. Voir Scaling logarithmique pour revoir les étapes.
Voici une visualisation d'un ensemble de données de lois du pouvoir avant et après une transformation logarithmique:
Avant la mise à l'échelle logarithmique (figure 2), l'exemple rouge ressemble davantage au jaune. Après la mise à l'échelle logarithmique (figure 3), le rouge ressemble plus au bleu.
Quantiles
Le binning des données en quantiles fonctionne bien lorsque l'ensemble de données n'est pas conforme à une distribution connue. Prenons cet ensemble de données, par exemple:
Intuitivement, deux exemples sont plus similaires si seuls quelques exemples se situent entre quelles que soient leurs valeurs, et sont plus différentes si elles comportent de nombreux exemples. se situent entre eux. La visualisation ci-dessus ne permet pas de voir le total entre le rouge et le jaune, ou entre le rouge et le bleu.
Vous pouvez obtenir cette compréhension de la similarité en divisant l'ensemble de données en quantiles, ou intervalles contenant chacun un nombre égal d'exemples, et en attribuant l'indice de quantile à chaque exemple. Voir binning en quantile pour revoir les étapes.
Voici la distribution précédente divisée en quantiles, qui montre que le rouge est à un quantile à partir du jaune et à trois autres du bleu:
Vous pouvez choisir autant \(n\) de quantiles que vous le souhaitez. Cependant, pour que les quantiles de manière significative les données sous-jacentes, votre jeu de données doit avoir au moins \(10n\) exemples. Si les données ne sont pas suffisantes, normalisez-les.
Testez vos connaissances
Pour les questions suivantes, supposons que vous disposez de suffisamment de données pour créer des quantiles.
Question 1
- La distribution des données est gaussienne.
- Vous avez une idée de ce que les données représentent dans le monde réel qui suggère que les données ne doivent pas être transformées de manière non linéaire.
Question 2
Données manquantes
Si votre jeu de données contient des exemples avec des valeurs manquantes pour une certaine caractéristique, mais ces exemples apparaissent rarement, vous pouvez les supprimer. Si ces exemples fréquemment, vous pouvez soit supprimer la caractéristique ou vous pouvez prédire les valeurs manquantes à partir d'autres exemples en utilisant de machine learning. Par exemple, vous pouvez imputer les données numériques manquantes à l'aide d'un entraîné sur des données de caractéristiques existantes.