Comme indiqué précédemment, k-moyennes attribue les points à leur centroïde le plus proche. Mais qu'est-ce que "le plus proche" signifie ?
Pour appliquer la méthode k-moyennes aux données d'éléments géographiques, vous devez définir une mesure de similarité qui combine toutes les données d'éléments géographiques en une seule valeur numérique, appelée mesure de similarité manuelle.
Prenons l'exemple d'un ensemble de données sur les chaussures. Si cet ensemble de données ne comporte que la taille de chaussure comme caractéristique, vous pouvez définir la similarité de deux chaussures en fonction de la différence entre leurs tailles. Plus la différence numérique entre les tailles est faible, plus la similitude entre les chaussures est grande.
Si cet ensemble de données sur les chaussures comporte deux caractéristiques numériques, la taille et le prix, vous pouvez les combiner en un seul nombre représentant la similarité. Commencez par mettre à l'échelle les données afin que les deux caractéristiques soient comparables:
- Taille : la taille de chaussure forme probablement une distribution gaussienne. Confirmez-le. Normalisez ensuite les données.
- Prix (p): les données correspondent probablement à une distribution de Poisson. Confirmez-le. Si vous disposez de suffisamment de données, convertissez-les en quantiles et mettez-les à l'échelle de .
Ensuite, combinez les deux caractéristiques en calculant la racine carrée de l'erreur quadratique moyenne (RMSE). Cette mesure approximative de la similarité est donnée par.
Pour un exemple simple, calculons la similarité entre deux chaussures de pointures 8 et 11, et de prix 120 et 150. Comme nous ne disposons pas de suffisamment de données pour comprendre la distribution, nous allons mettre à l'échelle les données sans les normaliser ni utiliser de quantiles.
Action | Méthode |
---|---|
Étalonnez la taille. | Supposons que la taille de chaussure maximale possible soit 20. Divisez 8 et 11 par la taille maximale de 20 pour obtenir 0,4 et 0,55. |
Étalonnez le prix. | Divisez 120 et 150 par le prix maximal de 150 pour obtenir 0,8 et 1. |
Trouvez la différence de taille. | |
Trouvez la différence de prix. | |
Calculez la RMSE. |
Intuitif, votre mesure de similarité devrait augmenter lorsque les données des éléments sont plus similaires. Au lieu de cela, votre mesure de similarité (RMSE) diminue. Faites en sorte que votre mesure de similarité suive votre intuition en la soustrayant de 1.
En général, vous pouvez préparer les données numériques comme décrit dans la section Préparer les données, puis les combiner à l'aide de la distance euclidienne.
Que se passe-t-il si cet ensemble de données inclut à la fois la taille et la couleur des chaussures ? La couleur est une données catégorielles, abordée dans le cours d'initiation au machine learning dans la section Utiliser des données catégorielles. Les données catégorielles sont plus difficiles à combiner avec les données numériques sur la taille. Il peut s'agir de:
- À valeur unique (univalente), comme la couleur d'une voiture ("blanc" ou "bleu", mais jamais les deux)
- À valeurs multiples (multivalentes), comme le genre d'un film (un film peut être à la fois "action" et "comédie", ou uniquement "action")
Si les données univalentes correspondent, par exemple dans le cas de deux paires de chaussures bleues, la similarité entre les exemples est de 1. Sinon, la similarité est de 0.
Les données multivalentes, comme les genres de films, sont plus difficiles à utiliser. Si un ensemble fixe de genres de films est défini, la similitude peut être calculée à l'aide du ratio des valeurs communes, appelé similitude de Jaccard. Exemples de calculs de similarité de Jaccard:
- ["comedy","action"] et ["comedy","action"] = 1
- ["comedy","action"] et ["action"] = ½
- ["comedy","action"] and ["action", "drama"] = ⅓
- ["comedy","action"] et ["non-fiction","biographical"] = 0
La similarité de Jaccard n'est pas la seule mesure manuelle de similarité possible pour les données catégorielles. Voici deux autres exemples:
- Les codes postaux peuvent être convertis en latitude et en longitude avant de calculer la distance euclidienne entre eux.
- La couleur peut être convertie en valeurs RVB numériques, les différences de valeurs étant combinées en distance euclidienne.
Pour en savoir plus, consultez Utiliser des données catégorielles.
En général, une mesure de similarité manuelle doit correspondre directement à la similarité réelle. Si ce n'est pas le cas, cela signifie qu'elle n'encode pas les informations que vous souhaitez qu'elle encode.
Prétraitez soigneusement vos données avant de calculer une mesure de similarité. Les exemples de cette page sont simplifiés. La plupart des ensembles de données réels sont volumineux et complexes. Comme indiqué précédemment, les quantiles sont un bon choix par défaut pour le traitement des données numériques.
À mesure que la complexité des données augmente, il devient plus difficile de créer une mesure de similarité manuelle. Dans ce cas, passez à une mesure de similarité supervisée, où un modèle de machine learning supervisé calcule la similarité. Nous y reviendrons plus en détail plus tard.