Glossaire du machine learning: clustering

Cette page contient les termes du glossaire sur le clustering. Pour consulter tous les termes du glossaire, cliquez ici.

A

clustering agglomératif

#clustering

Voir clustering hiérarchique.

C

centroid

#clustering

Centre d'un cluster déterminé par un algorithme k-moyennes ou k-médiane. Par exemple, si k est égal à 3, alors l'algorithme k-moyennes ou k-médiane trouve 3 centroïdes.

clustering basé sur centroïde

#clustering

Catégorie d'algorithmes de clustering qui organisent les données en clusters non hiérarchiques. k-moyennes est l'algorithme de clustering basé sur centroïde le plus utilisé.

À comparer aux algorithmes de clustering hiérarchique.

clustering

#clustering

Regrouper des exemples connexes, en particulier lors de l'apprentissage non supervisé Une fois tous les exemples regroupés, un humain peut éventuellement donner un sens à chaque cluster.

Il existe de nombreux algorithmes de clustering. Par exemple, l'algorithme k-moyennes regroupe des exemples en fonction de leur proximité avec un centroïde, comme illustré dans le schéma suivant:

Graphique bidimensionnel dans lequel l'axe des x est intitulé "largeur de l'arbre" et l'axe des ordonnées la hauteur de l'arbre. Le graphique contient deux centroïdes et plusieurs dizaines de points de données. Les points de données sont classés en fonction de leur proximité. Autrement dit, les points de données les plus proches d'un centroïde sont classés dans le cluster 1, tandis que ceux les plus proches de l'autre centroïde sont classés dans le cluster 2.

Un chercheur humain pourrait ensuite examiner les groupes et, par exemple, étiqueter le groupe 1 comme "arbres nains" et le cluster 2 comme "arbres de taille réelle".

Prenons un autre exemple avec un algorithme de clustering basé sur la distance entre un exemple et un point central, illustré comme suit:

Des dizaines de points de données sont disposés en cercles concentriques, presque
          comme des trous autour du centre d'une cible de fléchettes. L'anneau le plus interne de points de données est dans le cluster 1, l'anneau central dans le cluster 2 et l'anneau le plus externe dans le cluster 3.

D

clustering divisif

#clustering

Voir clustering hiérarchique.

H

clustering hiérarchique

#clustering

Catégorie d'algorithmes de clustering qui créent un arbre de clusters. Le clustering hiérarchique est bien adapté aux données hiérarchiques, telles que les taxonomies botaniques. Il existe deux types d'algorithmes de clustering hiérarchique:

  • Le clustering agglomératif attribue d'abord chaque exemple à son propre cluster, puis fusionne de manière itérative les clusters les plus proches pour créer un arbre hiérarchique.
  • Le clustering divisif regroupe d'abord tous les exemples dans un cluster, puis le divise de manière itérative en un arbre hiérarchique.

À comparer au clustering basé sur centroïde.

K

k-moyennes

#clustering

Algorithme de clustering populaire qui regroupe des exemples dans l'apprentissage non supervisé. L'algorithme de k-moyennes effectue les opérations suivantes:

  • Détermination de manière itérative des meilleurs k points centraux (appelés centroïdes).
  • Affecte chaque exemple au centroïde le plus proche. Les exemples les plus proches du même centroïde appartiennent au même groupe.

L'algorithme k-moyennes choisit l'emplacement des centroïdes afin de minimiser le carré cumulatif des distances entre chaque exemple et son centroïde le plus proche.

Prenons l'exemple du tracé suivant comparant la hauteur d'un chien à sa largeur:

Un graphique cartésien avec plusieurs dizaines de points de données.

Si k=3, l'algorithme k-moyennes déterminera trois centroïdes. Chaque exemple est attribué à son centroïde le plus proche, ce qui donne trois groupes:

Le même tracé cartésien que dans l'illustration précédente, sauf avec trois centroïdes ajoutés.
          Les points de données précédents sont regroupés en trois groupes distincts, chaque groupe représentant les points de données les plus proches d'un centroïde particulier.

Imaginez qu'un fabricant veuille déterminer les tailles idéales de pulls pour chiens de petite, moyenne et grande taille. Les trois centroïdes identifient la hauteur et la largeur moyennes de chaque chien de ce groupe. Ainsi, le fabricant devrait probablement baser les tailles de pull sur ces trois centroïdes. Notez que le centroïde d'un cluster n'est généralement pas un exemple du cluster.

Les illustrations précédentes montrent des k-moyennes pour des exemples avec seulement deux caractéristiques (hauteur et largeur). Les k-moyennes peuvent regrouper des exemples pour de nombreuses caractéristiques.

k-médiane

#clustering

Algorithme de clustering étroitement lié à k-moyennes. La différence pratique entre les deux est la suivante:

  • Dans l'algorithme k-moyennes, les centroïdes sont déterminés en minimisant la somme des carrés de la distance entre un centroïde potentiel et chacun de ses exemples.
  • Dans l'algorithme k-médiane, les centroïdes sont déterminés en minimisant la somme de la distance entre un centroïde potentiel et chacun de ses exemples.

Notez que les définitions de la distance sont également différentes:

  • Dans l'algorithme k-moyenne, il s'appuie sur la distance euclidienne entre le centroïde et un exemple. (En deux dimensions, la distance euclidienne consiste à utiliser le théorème de Pythagore pour calculer l'hypoténuse.) Par exemple, la distance k-moyennes entre (2,2) et (5,-2) est:
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • Dans l'algorithme k-médiane, la notion de distance utilisée est la distance de Manhattan entre le centroïde et un exemple. Cette distance est la somme des deltas absolus dans chaque dimension. Par exemple, la distance k-médiane entre (2,2) et (5,-2) est:
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

S

mesure de similarité

#clustering

Dans les algorithmes de clustering, la métrique permettant de déterminer le degré de similarité entre deux exemples.

croquis

#clustering

Dans le machine learning non supervisé, une catégorie d'algorithmes qui effectuent une analyse de similarité préliminaire sur les exemples. Les algorithmes de similarité approximative utilisent une fonction de hachage sensible à la localité pour identifier les points susceptibles d'être similaires, puis les regroupent dans des buckets.

L'esquisse réduit la quantité de calcul requise pour les calculs de similarité sur les grands ensembles de données. Au lieu de calculer la similarité pour chaque paire d'exemples dans l'ensemble de données, nous la calculons uniquement pour chaque paire de points dans chaque bucket.

T

analyse de séries temporelles

#clustering

Sous-domaine du machine learning et des statistiques qui analyse les données temporelles. De nombreux types de problèmes liés au machine learning nécessitent une analyse de séries temporelles, y compris la classification, le clustering, la prévision et la détection d'anomalies. Par exemple, vous pouvez utiliser l'analyse de séries temporelles pour prévoir les futures ventes de manteaux d'hiver par mois en fonction des données de ventes historiques.

U

machine learning non supervisé

#clustering
#fundamentals

Entraînement d'un model pour détecter des schémas dans un ensemble de données, généralement sans étiquette.

L'utilisation la plus courante du machine learning non supervisé consiste à grouper les données en groupes d'exemples similaires. Par exemple, un algorithme de machine learning non supervisé peut regrouper des chansons en fonction de diverses propriétés de celles-ci. Les clusters obtenus peuvent devenir une entrée d'autres algorithmes de machine learning (par exemple, un service de recommandation de musique). Le clustering peut être utile lorsque les étiquettes utiles sont rares ou absentes. Par exemple, dans des domaines tels que la lutte contre les abus et la fraude, les clusters peuvent aider les humains à mieux comprendre les données.

À comparer au machine learning supervisé.