Préparation des données

Cette section passe en revue les étapes de préparation des données les plus pertinentes pour le clustering à partir de Utiliser des données numériques du cours d'initiation au machine learning.

Dans le clustering, vous calculez la similarité entre deux exemples en combinant toutes les données de caractéristiques de ces exemples en une valeur numérique. Pour ce faire, d'avoir la même échelle. Vous pouvez normaliser ou la création de quantiles. Si vous souhaitez transformer vos données sans inspecter leur distribution, vous pouvez utiliser par défaut les quantiles.

Normalisation des données

Vous pouvez transformer les données de plusieurs caractéristiques à la même échelle en normalisant les données.

Scores Z

Chaque fois que vous voyez un jeu de données à peu près en forme Distribution gaussienne, vous devez calculer la note z. pour les données. Les scores z sont le nombre d'écarts types d'une valeur moyenne. Vous pouvez également utiliser des notes z lorsque le jeu de données n'est pas assez grand pour quantiles.

Voir Scaling du score Z pour revoir les étapes.

Voici une visualisation de deux caractéristiques d'un ensemble de données avant et après Mise à l'échelle de la note z:

Deux graphiques comparant les données de caractéristiques avant et après normalisation
Figure 1: Comparaison des données de caractéristiques avant et après la normalisation

Dans l'ensemble de données non normalisé de gauche, Caractéristique 1 et Caractéristique 2, représentées respectivement sur les axes x et y, n'ont pas la même échelle. Le à gauche, l'exemple en rouge est plus proche ou plus similaire du bleu que du jaune. Sur la droite, après la notation z, la caractéristique 1 et la caractéristique 2 ont la même échelle, et l'étiquette rouge est plus proche de l'exemple jaune. L'ensemble de données normalisé mesure plus précise la similarité entre les points.

Transformations de journaux

Lorsqu'un ensemble de données est parfaitement conforme à un distribution par loi du pouvoir, où les données est fortement agglomérée aux valeurs les plus basses, utilisez une transformation log. Voir Scaling logarithmique pour revoir les étapes.

Voici une visualisation d'un ensemble de données de lois du pouvoir avant et après une transformation logarithmique:

Graphique à barres avec la majorité des données dans la partie inférieure
Figure 2: Distribution d'une loi de pouvoir
Graphique illustrant une distribution normale (gaussienne)
Figure 3: Transformation du journal de la figure 2

Avant la mise à l'échelle logarithmique (figure 2), l'exemple rouge ressemble davantage au jaune. Après la mise à l'échelle logarithmique (figure 3), le rouge ressemble plus au bleu.

Quantiles

Le binning des données en quantiles fonctionne bien lorsque l'ensemble de données n'est pas conforme à une distribution connue. Prenons cet ensemble de données, par exemple:

Graphique illustrant la distribution des données avant tout prétraitement
Figure 4: Distribution non catégorisée avant tout prétraitement

Intuitivement, deux exemples sont plus similaires si seuls quelques exemples se situent entre quelles que soient leurs valeurs, et sont plus différentes si elles comportent de nombreux exemples. se situent entre eux. La visualisation ci-dessus ne permet pas de voir le total entre le rouge et le jaune, ou entre le rouge et le bleu.

Vous pouvez obtenir cette compréhension de la similarité en divisant l'ensemble de données en quantiles, ou intervalles contenant chacun un nombre égal d'exemples, et en attribuant l'indice de quantile à chaque exemple. Voir binning en quantile pour revoir les étapes.

Voici la distribution précédente divisée en quantiles, qui montre que le rouge est à un quantile à partir du jaune et à trois autres du bleu:

Graphique affichant les données après la conversion
  en quantiles. La ligne représente 20 intervalles.]
Figure 5: distribution de la figure 4 après conversion en 20 quantiles

Vous pouvez choisir autant \(n\) de quantiles que vous le souhaitez. Cependant, pour que les quantiles de manière significative les données sous-jacentes, votre jeu de données doit avoir au moins \(10n\) exemples. Si les données ne sont pas suffisantes, normalisez-les.

Testez vos connaissances

Pour les questions suivantes, supposons que vous disposez de suffisamment de données pour créer des quantiles.

Question 1

Graphique représentant trois distributions de données
Comment devez-vous traiter la distribution des données indiquée graphique ?
Créer des quantiles
Bonne réponse. Comme la distribution ne correspond pas distribution standard des données, vous devez utiliser pour créer des quantiles.
Normaliser.
Vous normalisez généralement les données dans les cas suivants:
  • La distribution des données est gaussienne.
  • Vous avez une idée de ce que les données représentent dans le monde réel qui suggère que les données ne doivent pas être transformées de manière non linéaire.
Aucun de ces deux cas de figure ne s'applique ici. La distribution des données n'est pas gaussienne, car elle n'est pas symétrique. Et vous ne savez pas à quoi correspondent ces valeurs représentent dans le monde réel.
Transformation de journal.
Cette distribution n'étant pas parfaite, n'utilisez pas une transformation.

Question 2

Graphique représentant trois distributions de données
Comment traiteriez-vous cette distribution de données ?
Normaliser.
Bonne réponse. Il s'agit d'une distribution gaussienne.
Créer des quantiles
Pas tout à fait. Puisqu'il s'agit d'une distribution gaussienne, est la normalisation.
Transformation de journal.
Pas tout à fait. N'applique une transformation de journal qu'aux distributions basées sur la loi de puissance.

Données manquantes

Si votre jeu de données contient des exemples avec des valeurs manquantes pour une certaine caractéristique, mais ces exemples apparaissent rarement, vous pouvez les supprimer. Si ces exemples fréquemment, vous pouvez soit supprimer la caractéristique ou vous pouvez prédire les valeurs manquantes à partir d'autres exemples en utilisant de machine learning. Par exemple, vous pouvez imputer les données numériques manquantes à l'aide d'un entraîné sur des données de caractéristiques existantes.