Workflow de clustering

Pour regrouper vos données, procédez comme suit:

  1. Vous allez ensuite préparer les données.
  2. Créez une métrique de similarité.
  3. Exécutez l'algorithme de clustering.
  4. Interprétez les résultats et ajustez votre clustering.

Cette page présente brièvement les étapes. Nous y reviendrons plus en détail dans les sections suivantes.

Préparer les données

Comme pour tout problème de ML, vous devez normaliser, mettre à l'échelle et transformer les données de fonctionnalités avant d'entraîner ou d'ajuster un modèle sur ces données. En outre, avant le clustering, vérifiez que les données préparées vous permettent de calculer précisément la similarité entre les exemples.

Créer une métrique de similarité

Avant qu'un algorithme de clustering puisse regrouper des données, il doit savoir dans quelle mesure les paires d'exemples sont similaires. Vous pouvez quantifier la similarité entre les exemples en créant une métrique de similarité, ce qui nécessite une compréhension approfondie de vos données.

Exécuter l'algorithme de clustering

Un algorithme de clustering utilise la métrique de similarité pour regrouper les données. Ce cours utilise k-moyennes.

Interpréter les résultats et les ajuster

Étant donné que le clustering ne produit ni n'inclut de "vérité" de référence contre laquelle vous pouvez vérifier la sortie, il est important de comparer le résultat à vos attentes au niveau du cluster et de l'exemple. Si le résultat semble étrange ou de mauvaise qualité, testez les trois étapes précédentes. Continuez à itérer jusqu'à ce que la qualité de la sortie réponde à vos besoins.