Glossaire du machine learning: Clustering

Cette page contient les termes du glossaire de clustering. Pour consulter tous les termes du glossaire, cliquez ici.

A

clustering agglomératif

#clustering

Voir clustering hiérarchique.

C

centroid

#clustering

Centre d'un cluster, déterminé par un algorithme de k-moyennes ou de k-médiane. Par exemple, si k est égal à 3, l'algorithme k-moyennes ou k-médiane trouve 3 centroïdes.

clustering basé sur centroïde

#clustering

Catégorie d'algorithmes de clustering qui organise les données en clusters non hiérarchiques. k-moyennes est l'algorithme de clustering à base de centroïdes le plus utilisé.

À comparer aux algorithmes de clustering hiérarchique.

clustering

#clustering

Regroupement d'exemples associés, en particulier lors d'un apprentissage non supervisé. Une fois tous les exemples regroupés, un humain peut éventuellement attribuer un sens à chaque cluster.

Il existe de nombreux algorithmes de clustering. Par exemple, l'algorithme k-moyennes regroupe les exemples d'algorithmes en fonction de leur proximité avec un centroïde, comme dans le schéma suivant:

Graphique bidimensionnel dans lequel l'axe des abscisses est étiqueté "largeur de l'arbre" et l'axe y est étiqueté "hauteur de l'arbre". Le graphique contient deux centroïdes et plusieurs dizaines de points de données. Les points de données sont classés en fonction de leur proximité. Autrement dit, les points de données les plus proches d'un centroïde sont classés dans la catégorie "cluster 1", tandis que ceux les plus proches de l'autre centroïde sont classés dans la catégorie "cluster 2".

Un chercheur peut examiner les clusters et, par exemple, étiqueter le cluster 1 en tant qu'"arbres nains" et le cluster 2 en tant qu'"arbres de taille réelle".

Prenons l'exemple d'un algorithme de clustering basé sur la distance d'un exemple par rapport à un point central, illustré comme suit:

Des dizaines de points de données sont disposés en cercles concentriques, presque comme des trous au centre d'un jeu de fléchettes. L'anneau interne des points de données est classé comme "cluster 1", l'anneau central est classé comme "cluster 2", et l'anneau extérieur comme "cluster 3".

D.

clustering divisif

#clustering

Voir clustering hiérarchique.

H

clustering hiérarchique

#clustering

Catégorie d'algorithmes de clustering qui créent une arborescence de clusters. Le clustering hiérarchique est adapté aux données hiérarchiques, telles que les taxonomies botaniques. Il existe deux types d'algorithmes de clustering hiérarchique:

  • Le clustering agrégatif commence par attribuer chaque exemple à son propre cluster, puis fusionne de manière itérative les clusters les plus proches pour créer un arbre hiérarchique.
  • Le clustering divisif regroupe d'abord tous les exemples en un cluster, puis divise le cluster de manière itérative en un arborescence hiérarchique.

À comparer au clustering basé sur centroïde.

K

k-moyennes

#clustering

Algorithme de clustering populaire qui regroupe des exemples dans l'apprentissage non supervisé. L'algorithme k-moyennes effectue les opérations suivantes:

  • Détermine de manière itérative les meilleurs k points centraux (appelés centroïdes).
  • Attribue chaque exemple au centroïde le plus proche. Les exemples les plus proches du même centroïde appartiennent au même groupe.

L'algorithme k-moyennes choisit l'emplacement des centroïdes de façon à minimiser le carré cumulé des distances entre chaque exemple et son centroïde le plus proche.

Prenons l'exemple du graphique suivant, qui représente la hauteur du chien selon sa largeur:

Un graphique cartésien avec plusieurs dizaines de points de données

Si k=3, l'algorithme k-moyennes détermine trois centroïdes. Chaque exemple est attribué au centroïde le plus proche, ce qui génère trois groupes:

Le même graphique cartésien que dans l'illustration précédente, à l'exception de trois centroïdes ajoutés.
          Les points de données précédents sont regroupés en trois groupes distincts, chacun représentant les points de données les plus proches d'un centroïde spécifique.

Imaginons qu'un fabricant souhaite déterminer les tailles idéales pour les pulls pour chiens de petite, moyenne et grande taille. Les trois centroïdes identifient la hauteur et la largeur moyennes de chaque chien de ce cluster. Le fabricant devrait donc baser la taille des pulls sur ces trois centroïdes. Notez que le centroïde d'un cluster n'est généralement pas un exemple du cluster.

Les illustrations précédentes montrent les k-moyennes pour les exemples comportant seulement deux caractéristiques (hauteur et largeur). Notez que k-moyennes peut regrouper des exemples sur de nombreuses caractéristiques.

k-médiane

#clustering

Algorithme de clustering étroitement lié à k-moyennes. La différence pratique entre les deux est la suivante:

  • En k-moyennes, les centroïdes sont déterminés en minimisant la somme des carrés de la distance entre un centroïde candidat et chacun de ses exemples.
  • Dans l'algorithme k-médiane, les centroïdes sont déterminés en minimisant la somme de la distance entre un centroïde candidat et chacun de ses exemples.

Notez que la définition de la distance est également différente:

  • La valeur k-moyenne s'appuie sur la distance euclidienne du centroïde jusqu'à l'exemple. (En deux dimensions, la distance euclidienne consiste à utiliser le théorème de Pythagore pour calculer l'hypoténuse.) Par exemple, la distance k-moyennes entre (2,2) et (5,-2) est:
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • k-médiane repose sur la distance de Manhattan entre le centroïde et un exemple. Cette distance correspond à la somme des deltas absolus dans chaque dimension. Par exemple, la distance k-médiane entre (2,2) et (5,-2) est:
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

S

mesure de similarité

#clustering

Dans les algorithmes de clustering, cette métrique permet de déterminer le degré de similitude entre deux exemples.

croquis

#clustering

Dans le machine learning non supervisé, une catégorie d'algorithmes qui effectuent une analyse de similarité préliminaire sur des exemples. Les algorithmes de dessin utilisent une fonction de hachage sensible à la localité pour identifier les points potentiellement similaires, puis les regroupent dans des buckets.

Celui-ci diminue les calculs requis pour les calculs de similarité sur de grands ensembles de données. Au lieu de calculer la similarité pour chaque paire d'exemples dans l'ensemble de données, nous ne calculons la similarité que pour chaque paire de points dans chaque bucket.

M

analyse de séries temporelles

#clustering

Sous-domaine du machine learning et des statistiques qui analyse les données temporelles. De nombreux types de problèmes de machine learning nécessitent une analyse de séries temporelles, y compris la classification, le clustering, les prévisions et la détection d'anomalies. Par exemple, vous pouvez utiliser l'analyse de séries temporelles pour prévoir les ventes futures de manteaux d'hiver par mois, en fonction des données historiques des ventes.

U

machine learning non supervisé

#clustering
#fundamentals

Entraînement d'un modèle pour détecter des schémas dans un ensemble de données, généralement un ensemble de données sans étiquette.

Le machine learning non supervisé est le plus souvent utilisé pour clusters des données en groupes d'exemples similaires. Par exemple, un algorithme de machine learning non supervisé peut regrouper des titres en fonction de diverses propriétés de la musique. Les clusters obtenus peuvent servir d'entrée à d'autres algorithmes de machine learning (par exemple, à un service de recommandation musicale). Le clustering peut être utile lorsque les étiquettes utiles sont peu nombreuses ou absentes. Par exemple, dans des domaines tels que la lutte contre les utilisations abusives et la fraude, les clusters peuvent aider les utilisateurs à mieux comprendre les données.

À comparer au machine learning supervisé.