Workflow de clustering

Pour mettre en cluster vos données, procédez comme suit:

  1. Vous allez ensuite préparer les données.
  2. Créer une métrique de similarité.
  3. Exécutez l'algorithme de clustering.
  4. Interpréter les résultats et ajuster votre clustering

Cette page présente brièvement les étapes à suivre. Nous approfondirons ce sujet dans .

Préparer les données

Comme pour tout problème de ML, vous devez normaliser, mettre à l'échelle et transformer les données de caractéristiques. avant d'entraîner ou d'affiner un modèle sur ces données. De plus, avant le clustering, vérifiez que les données préparées vous permettent de calculer avec précision la similarité entre les exemples.

Créer une métrique de similarité

Avant qu'un algorithme de clustering puisse regrouper des données, il doit savoir à quel point deux exemples. Vous pouvez quantifier la similarité entre les exemples pour créer une métrique de similarité, ce qui nécessite de bien comprendre données.

Exécuter l'algorithme de clustering

Un algorithme de clustering utilise la métrique de similarité pour mettre en cluster les données. Ce cours utilise les k-moyennes.

Interpréter les résultats et ajuster

Parce que le clustering ne produit ni n'inclut de "vérité" terrain par rapport à laquelle vous vous pouvez vérifier le résultat, il est important de le comparer à votre des attentes au niveau du cluster et de l'exemple. Si le résultat semble étrange ou de mauvaise qualité, effectuez des tests avec les trois étapes précédentes. Continuer jusqu'à ce que la qualité du résultat réponde à vos besoins.