Glossaire du machine learning: clustering

Cette page contient les termes du glossaire sur le clustering. Pour connaître tous les termes du glossaire, cliquez ici.

A

clustering agglomératif

#clustering

Consultez la section Clustering hiérarchique.

C

centroid

#clustering

Centre d'un cluster déterminé par un algorithme k-moyennes ou k-médiane. Par exemple, si k est égal à 3, alors l'algorithme k-moyennes ou k-médiane trouve 3 centroïdes.

Pour en savoir plus, consultez la section Algorithmes de clustering du cours sur le clustering.

clustering basé sur centroïde (centroid-based clustering)

#clustering

Catégorie d'algorithmes de clustering qui organise les données en clusters non hiérarchiques. k-moyennes est l'algorithme de clustering basé sur le centroïde le plus utilisé.

À comparer aux algorithmes de classification hiérarchique.

Pour en savoir plus, consultez la section Algorithmes de clustering du cours sur le clustering.

clustering

#clustering

Regroupement des exemples associés, en particulier lors de l'apprentissage non supervisé. Une fois tous les exemples groupés, une personne peut éventuellement attribuer un sens à chaque cluster.

Il existe de nombreux algorithmes de clustering. Par exemple, l'algorithme k-moyennes regroupe les exemples en fonction de leur proximité avec un centroïde, comme dans le diagramme suivant:

Graphique à deux dimensions dans lequel l'axe des X est intitulé "Largeur de l'arbre" et l'axe des Y "Hauteur de l'arbre". Le graphique contient deux centroids et plusieurs dizaines de points de données. Les points de données sont classés en fonction de leur proximité. Autrement dit, les points de données les plus proches d'un centroïde sont classés dans le cluster 1, tandis que ceux les plus proches de l'autre centroïde sont classés dans le cluster 2.

Un chercheur pourrait alors examiner les clusters et, par exemple, étiqueter le cluster 1 en tant qu'"arbres nains" et le cluster 2 en tant qu'"arbres de taille normale".

Autre exemple, celui d'un algorithme de clustering basé sur la distance entre un exemple et un point central, illustré comme suit:

Des dizaines de points de données sont disposés en cercles concentriques, presque comme des trous autour du centre d'un jeu de fléchettes. L'anneau le plus intérieur des points de données est classé comme cluster 1, l'anneau du milieu comme cluster 2 et l'anneau le plus extérieur comme cluster 3.

Pour en savoir plus, consultez le cours sur le clustering.

D

clustering divisif

#clustering

Consultez la section Clustering hiérarchique.

H

clustering hiérarchique

#clustering

Catégorie d'algorithmes de clustering qui créent un arbre de clusters. Le clustering hiérarchique est parfaitement adapté aux données hiérarchiques, telles que les catégories botaniques. Il existe deux types d'algorithmes de clustering hiérarchique:

  • Le clustering agglomératif assigne d'abord chaque exemple à son propre cluster, puis fusionne de manière itérative les clusters les plus proches pour créer un arbre hiérarchique.
  • Le clustering divisif regroupe d'abord tous les exemples en un cluster, puis divise le cluster de manière itérative en un arbre hiérarchique.

À comparer au clustering basé sur centroïde.

Pour en savoir plus, consultez la section Algorithmes de clustering dans le cours sur le clustering.

K

k-moyennes

#clustering

Algorithme de clustering populaire qui regroupe des exemples dans l'apprentissage non supervisé. L'algorithme k-moyennes effectue les opérations suivantes:

  • Détermine de manière itérative les meilleurs k points centraux (appelés centroïdes).
  • Assignation de chaque exemple au centroïde le plus proche. Les exemples les plus proches du même centroïde font partie du même groupe.

L'algorithme k-moyennes choisit l'emplacement des centroïdes de manière à minimiser le carré cumulatif des distances entre chaque exemple et son centroïde le plus proche.

Supposons le graphe suivant représentant la taille de chiens en fonction de leur largeur:

Graphique cartésien avec plusieurs dizaines de points de données.

Si k=3, l'algorithme k-moyennes déterminera trois centroïdes. Chaque exemple est assigné à son centroïde le plus proche, ce qui donne trois groupes:

Même graphique cartésien que dans l'illustration précédente, mais avec trois centroïdes ajoutés.
          Les points de données précédents sont regroupés en trois groupes distincts, chacun représentant les points de données les plus proches d'un centroïde particulier.

Imaginez qu'un fabricant souhaite déterminer les tailles idéales pour les pulls de petite, moyenne et grande taille pour les chiens. Les trois centroïdes identifient la hauteur et la largeur moyennes de chaque chien de ce cluster. Le fabricant devrait donc probablement baser les tailles de pulls sur ces trois centroïdes. Notez que le centroïde d'un cluster n'est généralement pas un exemple du cluster.

Les illustrations précédentes montrent le k-means pour des exemples n'ayant que deux caractéristiques (hauteur et largeur). Notez que k-means peut regrouper des exemples sur de nombreuses caractéristiques.

k-médiane

#clustering

Algorithme de clustering étroitement lié à k-moyennes. La différence pratique entre les deux est la suivante:

  • Dans l'algorithme k-moyennes, les centroïdes sont déterminés en minimisant la somme des carrés de la distance entre un centroïde potentiel et chacun de ses exemples.
  • Dans l'algorithme k-médiane, les centroïdes sont déterminés en minimisant la somme de la distance entre un centroïde potentiel et chacun de ses exemples.

Notez que la définition du terme "distance" est également différente:

  • Dans l'algorithme k-moyenne, la notion de distance utilisée est la distance euclidienne entre un centroïde et un exemple. Dans un espace à deux dimensions, la distance euclidienne revient à utiliser le théorème de Pythagore pour calculer l'hypoténuse. Par exemple, la distance k-moyennes entre (2,2) et (5,-2) est:
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • Dans l'algorithme k-médiane, la notion de distance utilisée est la distance de Manhattan entre le centroïde et un exemple. Cette distance est la somme des deltas absolus dans chaque dimension. Par exemple, la distance k-médiane entre (2,2) et (5,-2) est:
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

S

mesure de similarité

#clustering

Dans les algorithmes de clustering, la métrique permettant de déterminer le degré de similarité entre deux exemples.

croquis

#clustering

Dans le machine learning non supervisé, une catégorie d'algorithmes qui effectuent une analyse de similarité préliminaire sur les exemples. Les algorithmes de similarité approximative utilisent une fonction de hachage sensible à la localité pour identifier les points potentiellement similaires, puis les regroupent dans des ensembles.

La similarité approximative diminue la quantité de calcul requise pour les calculs de similarité sur les grands ensembles de données. Au lieu de calculer la similarité pour chaque paire d'exemples dans l'ensemble de données, nous la calculons uniquement pour chaque paire de points de chaque ensemble.

T

analyse de séries temporelles

#clustering

Sous-domaine du machine learning et de la statistique qui analyse les données temporelles. De nombreux types de problèmes de machine learning nécessitent une analyse de séries temporelles, y compris la classification, le clustering, la prévision et la détection d'anomalies. Vous pouvez par exemple utiliser l'analyse de séries temporelles pour prédire les ventes mensuelles de manteaux d'hiver à partir des données de vente historiques.

U

machine learning non supervisé

#clustering
#fundamentals

Entraînement d'un modèle pour détecter des schémas dans un ensemble de données, généralement sans étiquette.

Le machine learning non supervisé est surtout utilisé pour regrouper les données dans des clusters d'exemples similaires. Par exemple, un algorithme d'apprentissage automatique non supervisé peut regrouper des titres en fonction de diverses propriétés de la musique. Les clusters qui en résultent peuvent devenir une entrée pour d'autres algorithmes de machine learning (par exemple, pour un service de recommandation musicale). Le clustering peut être utile lorsque les libellés utiles sont rares ou absents. Par exemple, dans les domaines tels que la lutte contre les abus et la fraude, les clusters peuvent aider à mieux comprendre les données.

À comparer au machine learning supervisé.