Cette page contient les termes du glossaire sur le clustering. Pour consulter tous les termes du glossaire, cliquez ici.
A
clustering agglomératif
Voir clustering hiérarchique.
C
centroid
Centre d'un cluster déterminé par un algorithme k-moyennes ou k-médiane. Par exemple, si k est égal à 3, alors l'algorithme k-moyennes ou k-médiane trouve 3 centroïdes.
clustering basé sur centroïde
Catégorie d'algorithmes de clustering qui organisent les données en clusters non hiérarchiques. k-moyennes est l'algorithme de clustering basé sur centroïde le plus utilisé.
À comparer aux algorithmes de clustering hiérarchique.
clustering
Regrouper des exemples connexes, en particulier lors de l'apprentissage non supervisé Une fois tous les exemples regroupés, un humain peut éventuellement donner un sens à chaque cluster.
Il existe de nombreux algorithmes de clustering. Par exemple, l'algorithme k-moyennes regroupe des exemples en fonction de leur proximité avec un centroïde, comme illustré dans le schéma suivant:
Un chercheur humain pourrait ensuite examiner les groupes et, par exemple, étiqueter le groupe 1 comme "arbres nains" et le cluster 2 comme "arbres de taille réelle".
Prenons un autre exemple avec un algorithme de clustering basé sur la distance entre un exemple et un point central, illustré comme suit:
D
clustering divisif
Voir clustering hiérarchique.
H
clustering hiérarchique
Catégorie d'algorithmes de clustering qui créent un arbre de clusters. Le clustering hiérarchique est bien adapté aux données hiérarchiques, telles que les taxonomies botaniques. Il existe deux types d'algorithmes de clustering hiérarchique:
- Le clustering agglomératif attribue d'abord chaque exemple à son propre cluster, puis fusionne de manière itérative les clusters les plus proches pour créer un arbre hiérarchique.
- Le clustering divisif regroupe d'abord tous les exemples dans un cluster, puis le divise de manière itérative en un arbre hiérarchique.
À comparer au clustering basé sur centroïde.
K
k-moyennes
Algorithme de clustering populaire qui regroupe des exemples dans l'apprentissage non supervisé. L'algorithme de k-moyennes effectue les opérations suivantes:
- Détermination de manière itérative des meilleurs k points centraux (appelés centroïdes).
- Affecte chaque exemple au centroïde le plus proche. Les exemples les plus proches du même centroïde appartiennent au même groupe.
L'algorithme k-moyennes choisit l'emplacement des centroïdes afin de minimiser le carré cumulatif des distances entre chaque exemple et son centroïde le plus proche.
Prenons l'exemple du tracé suivant comparant la hauteur d'un chien à sa largeur:
Si k=3, l'algorithme k-moyennes déterminera trois centroïdes. Chaque exemple est attribué à son centroïde le plus proche, ce qui donne trois groupes:
Imaginez qu'un fabricant veuille déterminer les tailles idéales de pulls pour chiens de petite, moyenne et grande taille. Les trois centroïdes identifient la hauteur et la largeur moyennes de chaque chien de ce groupe. Ainsi, le fabricant devrait probablement baser les tailles de pull sur ces trois centroïdes. Notez que le centroïde d'un cluster n'est généralement pas un exemple du cluster.
Les illustrations précédentes montrent des k-moyennes pour des exemples avec seulement deux caractéristiques (hauteur et largeur). Les k-moyennes peuvent regrouper des exemples pour de nombreuses caractéristiques.
k-médiane
Algorithme de clustering étroitement lié à k-moyennes. La différence pratique entre les deux est la suivante:
- Dans l'algorithme k-moyennes, les centroïdes sont déterminés en minimisant la somme des carrés de la distance entre un centroïde potentiel et chacun de ses exemples.
- Dans l'algorithme k-médiane, les centroïdes sont déterminés en minimisant la somme de la distance entre un centroïde potentiel et chacun de ses exemples.
Notez que les définitions de la distance sont également différentes:
- Dans l'algorithme k-moyenne, il s'appuie sur la distance euclidienne entre le centroïde et un exemple. (En deux dimensions, la distance euclidienne consiste à utiliser le théorème de Pythagore pour calculer l'hypoténuse.) Par exemple, la distance k-moyennes entre (2,2) et (5,-2) est:
- Dans l'algorithme k-médiane, la notion de distance utilisée est la distance de Manhattan entre le centroïde et un exemple. Cette distance est la somme des deltas absolus dans chaque dimension. Par exemple, la distance k-médiane entre (2,2) et (5,-2) est:
S
mesure de similarité
Dans les algorithmes de clustering, la métrique permettant de déterminer le degré de similarité entre deux exemples.
croquis
Dans le machine learning non supervisé, une catégorie d'algorithmes qui effectuent une analyse de similarité préliminaire sur les exemples. Les algorithmes de similarité approximative utilisent une fonction de hachage sensible à la localité pour identifier les points susceptibles d'être similaires, puis les regroupent dans des buckets.
L'esquisse réduit la quantité de calcul requise pour les calculs de similarité sur les grands ensembles de données. Au lieu de calculer la similarité pour chaque paire d'exemples dans l'ensemble de données, nous la calculons uniquement pour chaque paire de points dans chaque bucket.
T
analyse de séries temporelles
Sous-domaine du machine learning et des statistiques qui analyse les données temporelles. De nombreux types de problèmes liés au machine learning nécessitent une analyse de séries temporelles, y compris la classification, le clustering, la prévision et la détection d'anomalies. Par exemple, vous pouvez utiliser l'analyse de séries temporelles pour prévoir les futures ventes de manteaux d'hiver par mois en fonction des données de ventes historiques.
U
machine learning non supervisé
Entraînement d'un model pour détecter des schémas dans un ensemble de données, généralement sans étiquette.
L'utilisation la plus courante du machine learning non supervisé consiste à grouper les données en groupes d'exemples similaires. Par exemple, un algorithme de machine learning non supervisé peut regrouper des chansons en fonction de diverses propriétés de celles-ci. Les clusters obtenus peuvent devenir une entrée d'autres algorithmes de machine learning (par exemple, un service de recommandation de musique). Le clustering peut être utile lorsque les étiquettes utiles sont rares ou absentes. Par exemple, dans des domaines tels que la lutte contre les abus et la fraude, les clusters peuvent aider les humains à mieux comprendre les données.
À comparer au machine learning supervisé.