Évaluer les résultats

Le clustering n'étant pas supervisé, la vérité terrain est disponible pour vérifier résultats. L'absence de vérité complique l'évaluation de la qualité. De plus, les ensembles de données du monde réel ne fournissent généralement pas de groupes d'exemples évidents, comme dans illustré à la figure 1.

Graphique montrant trois groupes clairs de points de données
Figure 1: Graphique de données idéal. Les données réelles ressemblent rarement à ceci.

Au lieu de cela, les données réelles ressemblent souvent davantage à la figure 2, ce qui rend difficile la pour évaluer visuellement la qualité du clustering.

Graphique avec des points de données aléatoires
Figure 2: Tracé de données plus réaliste

Cependant, il existe des méthodes heuristiques et des bonnes pratiques que vous pouvez appliquer de manière itérative. pour améliorer la qualité de votre clustering. L'organigramme suivant donne une de l'évaluation des résultats de clustering. Nous approfondirons chaque étape.

Organigramme du processus de vérification
Cliquez ici pour afficher une version agrandie de ce graphique.

Étape 1: Évaluer la qualité du clustering

Vérifiez tout d'abord que les clusters se présentent comme prévu et que les exemples que vous d'être semblables les uns aux autres apparaissent dans le même cluster.

Vérifiez ensuite ces métriques couramment utilisées (liste non exhaustive):

  • Cardinalité du cluster
  • Amplitude du cluster
  • Performances en aval

Cardinalité du cluster

La cardinalité du cluster correspond au nombre d'exemples par cluster. Tracez le graphique la cardinalité de tous les clusters et examiner ceux qui sont des anomalies majeures. Dans la figure 2, il s'agit du cluster 5.

Graphique à barres montrant la cardinalité
de plusieurs clusters. Le cluster 5 est plus petit que le reste.
Figure 2: Cardinalité de plusieurs clusters

Amplitude du cluster

La magnitude du cluster est la somme des distances par rapport à tous les exemples d'un cluster. au centroïde du cluster. Tracer la magnitude des clusters pour tous les clusters et analyser les anomalies. Dans la figure 3, le cluster 0 est une anomalie.

Envisagez également d'examiner la distance maximale ou moyenne des exemples à partir de centroïdes, par cluster, pour identifier les anomalies.

Graphique à barres montrant l'amplitude de
          plusieurs clusters. Le cluster 0 est beaucoup plus grand que les autres.
Figure 3: Magnitude de plusieurs clusters

Magnitude et cardinalité

Vous avez peut-être remarqué qu'une cardinalité de cluster plus élevée correspond la magnitude du cluster, ce qui est logique, puisque plus il y a de points dans un cluster (cardinalité), plus la somme probable des distances de ces points du centroïde (magnitude). Vous pouvez aussi identifier les clusters anormaux en recherchant ceux où cette relation entre cardinalité et magnitude est très différent de celui des autres clusters. Dans la figure 4, l'ajustement d'une ligne le graphique de cardinalité et de magnitude suggère que le groupe 0 est anormal. (Le cluster 5 est également loin de la ligne, mais si le cluster 0 a été omis, le nouveau la ligne ajustée serait beaucoup plus proche du cluster 5.)

Graphique en nuage de points montrant
          la cardinalité en magnitude pour plusieurs clusters. Un
          est une valeur aberrante.
Figure 4: Cardinalité et magnitude pour les clusters précédemment affichés

Performances en aval

Les résultats du clustering étant souvent utilisés dans les systèmes de ML en aval, Les performances du modèle en aval s'améliorent lorsque votre processus de clustering change. Cela offre une évaluation réelle de la qualité des résultats de votre clustering bien qu'il puisse être complexe et coûteux de réaliser ce type de test.

Étape 2: Réévaluez votre mesure de similarité

La qualité de votre algorithme de clustering dépend de votre mesure de similarité. Assurez-vous que votre mesure de similarité renvoie des résultats réalistes. Une vérification rapide consiste à identifier des paires d’exemples connus pour être plus ou moins similaires. Calculer la de similarité pour chaque paire d'exemples, et comparez vos résultats aux vos connaissances: les paires d'exemples similaires devraient avoir une plus grande similarité mesure que des paires d'exemples différents.

Les exemples que vous utilisez pour vérifier ponctuellement votre mesure de similarité doivent être représentatif de l'ensemble de données, ce qui vous permet d'être sûr que votre similarité mesurez les obligations de conservation de tous vos exemples. Les performances de votre la mesure de similarité, qu'elle soit manuelle ou supervisée, doit être cohérente d'un bout à l'autre ensemble de données. Si votre mesure de similarité est incohérente pour certains exemples, exemples ne seront pas regroupés avec des exemples similaires.

Si vous trouvez des exemples avec des scores de similarité inexacts, votre similarité ne capture probablement pas complètement les données de caractéristiques qui distinguent ces exemples. Testez votre mesure de similarité jusqu'à ce qu'elle renvoie plus des résultats précis et cohérents.

Étape 3: Trouvez le nombre optimal de clusters

En k-moyennes, vous devez déterminer \(k\) au préalable le nombre de clusters. Comment à déterminer la \(k\)optimale ? Essayez d'exécuter l'algorithme avec les valeurs croissantes de \(k\) et notez la somme de toutes les magnitudes du cluster. En tant que \(k\) augmente, les clusters deviennent plus petits et la distance totale des points des centroïdes diminue. Nous pouvons considérer cette distance totale comme une perte. Représentez cette distance par rapport au nombre de clusters.

Comme le montre la figure 5, au-dessus d'un \(k\)donné, la réduction de la perte devient marginal avec une augmentation \(k\). Pensez à utiliser l' \(k\) la pente change de façon radicale. On parle méthode du coude. Pour le indiqué, la valeur optimale \(k\) est d'environ 11. Si vous préférez un contrôle plus précis clusters, vous pouvez choisir un \(k\)plus élevé en consultant ce tracé.

Graphique illustrant la perte
et les clusters utilisés. La perte diminue à mesure que le nombre de clusters augmente,
le niveau d'une dizaine de clusters
Figure 5: Perte par rapport au nombre de clusters

Questions de dépannage

Si vous découvrez des problèmes au cours de votre évaluation, réévaluez vos données les étapes de préparation et la mesure de similarité choisie. Question :

  • Vos données sont-elles adaptées ?
  • Votre mesure de similarité est-elle correcte ?
  • Votre algorithme effectue-t-il des opérations sémantiquement pertinentes sur les données ?
  • Les hypothèses de votre algorithme correspondent-elles aux données ?