Qu'est-ce que le clustering ?

Supposons que vous travaillez avec un jeu de données qui inclut les informations sur les patients provenant d'un du système de santé. L'ensemble de données est complexe et inclut des données catégorielles les caractéristiques numériques. Vous souhaitez trouver des modèles et des similitudes dans l'ensemble de données. Comment pourriez-vous aborder cette tâche ?

Le clustering est une méthode non supervisée de machine learning conçue pour regrouper exemples sans étiquette en fonction de leurs similitudes les uns avec les autres. (Si les exemples sont étiquetés, type de regroupement s'appelle classification.) Considérer un patient fictif conçue pour évaluer un nouveau protocole de traitement. Au cours de l'étude, les patients indiquent combien de fois par semaine ils présentent des symptômes et la gravité des les symptômes. Les chercheurs peuvent utiliser l'analyse par regroupement pour regrouper les patients présentant des sous forme de groupes. La figure 1 illustre un regroupement possible de données simulées en trois clusters.

À gauche, un graphique comparant la gravité des symptômes et leur nombre
   affichant des points de données
suggérant trois clusters.
   À droite, le même graphique, mais avec chacun des trois groupes colorés.
Figure 1: Exemples sans étiquette regroupés en trois clusters (données simulées).

En regardant les données non étiquetées à gauche de la figure 1, vous pouvez deviner que les données forment trois clusters, même sans définition formelle de la similarité entre les points de données. Toutefois, dans les applications réelles, vous devez explicitement définissez une mesure de similarité (ou la métrique utilisée pour comparer les échantillons) des caractéristiques de l'ensemble de données. Lorsque les exemples n'ont que quelques caractéristiques, la visualisation et la mesure de la similarité sont simples. Mais comme le nombre de augmente, la combinaison et la comparaison des caractéristiques deviennent moins intuitives. et plus complexes. Différentes mesures de similarité peuvent être plus ou moins appropriées pour différents scénarios de clustering. Ce cours aborde le choix d'un mesure de similarité appropriée dans les sections suivantes: Mesures de similarité manuelles et Mesure de la similarité à partir des représentations vectorielles continues

Après le clustering, chaque groupe se voit attribuer une étiquette unique appelée ID de cluster. Le clustering est efficace, car il peut simplifier des ensembles de données volumineux et complexes avec de nombreuses fonctionnalités à un seul ID de cluster.

Cas d'utilisation du clustering

Le clustering est utile dans de nombreux secteurs. Quelques applications courantes pour le clustering:

  • Segmentation du marché
  • Analyse des réseaux sociaux
  • Regroupement des résultats de recherche
  • Imagerie médicale
  • Segmentation d'image
  • Détection d'anomalies

Voici quelques exemples spécifiques de clustering:

  • Le diagramme de Hertzsprung-Russell montre les amas d'étoiles lorsqu'ils sont représentés par la luminosité et la température.
  • Séquençage génétique présentant des similitudes génétiques jusqu'alors inconnues les différences entre les espèces ont entraîné une révision des taxonomies auparavant basé sur les apparences.
  • Les Big 5 des caractéristiques de personnalité a été développée en regroupant les mots décrivent la personnalité en 5 groupes. La HEXACO utilise six clusters au lieu de cinq.

Imputation

Lorsqu'il manque des données de caractéristiques dans certains exemples de cluster, vous pouvez en déduire le des données manquantes d'autres exemples dans le cluster. C'est ce qu'on appelle imputation. Par exemple, les vidéos les moins populaires peuvent être regroupées avec les vidéos les plus populaires. pour améliorer les recommandations de vidéos.

Compression des données

Comme nous l'avons vu, l'ID de cluster approprié peut remplacer d'autres fonctionnalités pour toutes dans ce cluster. Cette substitution réduit le nombre de caractéristiques et réduit aussi les ressources nécessaires pour stocker, traiter et entraîner des modèles sur ces données. Pour les très grands ensembles de données, ces économies deviennent importantes.

Par exemple, une vidéo YouTube peut contenir les données de caractéristiques suivantes:

  • la zone géographique, l'heure et les données démographiques du spectateur ;
  • Code temporel, texte et ID utilisateur des commentaires
  • tags vidéo

En regroupant les vidéos YouTube, cet ensemble de fonctionnalités est remplacé par un identifiant de cluster unique, ce qui compresse les données.

Préservation de la confidentialité

Vous pouvez préserver la confidentialité des données en regroupant les utilisateurs et en associant les données utilisateur avec des ID de cluster plutôt que des ID utilisateur. Pour donner un exemple possible, disons que vous voulez pour entraîner un modèle sur l'audience l'historique des vidéos regardées. Au lieu de transmettre des ID utilisateur au modèle, vous pouvez mettre en cluster les utilisateurs et ne transmettre que l'ID du cluster. Ce permet d'éviter que l'historique des vidéos regardées ne soit associé à un utilisateur individuel. Remarque que le cluster doit contenir un nombre d'utilisateurs suffisamment élevé préserver la confidentialité.