En esta página, se incluyen los términos del glosario de agrupamiento en clústeres. Para ver todos los términos del glosario, haz clic aquí.
A
agrupamiento aglomerado
Consulta agrupamiento en clústeres jerárquico.
C
centroid
El centro de un clúster, según lo determinado por un algoritmo k-means o k-median. Por ejemplo, si k es 3, entonces el algoritmo k-means o k-mediana encuentra 3 centroides.
agrupamiento en clústeres basado en centroides
Es una categoría de algoritmos de agrupamiento en clústeres que organiza datos en clústeres no jerárquicos. k-means es el algoritmo de agrupamiento en clústeres basado en centroides más utilizado.
Compara esto con algoritmos de agrupamiento en clústeres jerárquico.
agrupamiento en clústeres
Agrupar ejemplos relacionados, en particular durante aprendizaje no supervisado Una vez que todos los ejemplos están agrupados, una persona puede, de manera opcional, proporcionar un significado a cada clúster.
Existen muchos algoritmos de agrupamiento en clústeres. Por ejemplo, los ejemplos de clústeres de algoritmo k-means en función de su proximidad a un centroide, como en el siguiente diagrama:
Un investigador humano podría luego revisar los clústeres y, por ejemplo, etiquetar el grupo 1 como “árboles enanos” y el grupo 2 como “árboles de tamaño completo”.
Como otro ejemplo, considera un algoritmo de agrupamiento en clústeres basado en la distancia del ejemplo desde un punto central, como se ilustra a continuación:
D
agrupamiento en clústeres divisivo
Consulta agrupamiento en clústeres jerárquico.
H
agrupamiento en clústeres jerárquico
Es una categoría de algoritmos de agrupamiento en clústeres que crean un árbol de clústeres. El agrupamiento en clústeres jerárquico es adecuado para datos jerárquicos, como taxonomías botánicas. Existen dos tipos de algoritmos de agrupamiento jerárquico:
- El agrupamiento aglomerado asigna primero cada ejemplo a su propio clúster y, de manera iterativa, combina los clústeres más cercanos para crear un árbol de jerarquías.
- El agrupamiento en clústeres divisivo agrupa primero todos los ejemplos en un clúster y, luego, divide el clúster de forma iterativa en un árbol jerárquico.
Compara esto con el agrupamiento en clústeres basado en centroides.
K
k-medios
Algoritmo de agrupamiento en clústeres popular que agrupa ejemplos en el aprendizaje no supervisado. El algoritmo k-means hace básicamente lo siguiente:
- Determina de forma iterativa los mejores puntos centrales k (conocidos como centroides).
- Asigna cada ejemplo al centroide más cercano. Los ejemplos más cercanos al mismo centroide pertenecen al mismo grupo.
El algoritmo k-means selecciona las ubicaciones del centroide para minimizar el cuadrado acumulativo de las distancias desde cada ejemplo hasta su centroide más cercano.
Por ejemplo, considera el siguiente diagrama de altura y ancho de perro:
Si k=3, el algoritmo k-means determinará tres centroides. Cada ejemplo se asigna a su centroide más cercano, lo que produce tres grupos:
Imagina que un fabricante quiere determinar los tamaños ideales de suéteres pequeños, medianos y grandes para perros. Los tres centroides identifican la altura media y el ancho medio de cada perro en ese grupo. Por lo tanto, el fabricante debería basar los tamaños de suéter en esos tres centroides. Ten en cuenta que el centroide de un clúster no suele ser un ejemplo del clúster.
En las ilustraciones anteriores, se muestra k-medios para ejemplos con solo dos atributos (altura y ancho). Ten en cuenta que k-means puede agrupar ejemplos en muchos atributos.
k-mediana
Un algoritmo de agrupamiento en clústeres estrechamente relacionado con k-means. La diferencia práctica entre ambos es la siguiente:
- En k-medios, los centroides se determinan minimizando la suma de los cuadrados de la distancia entre un centroide candidato y cada uno de sus ejemplos.
- En k-mediana, los centroides se determinan minimizando la suma de la distancia entre un centroide candidato y cada uno de sus ejemplos.
Ten en cuenta que las definiciones de distancia también son diferentes:
- k-medios se basa en la distancia euclidiana del centroide a un ejemplo. (En dos dimensiones, la distancia euclidiana significa usar el teorema de Pitágoras para calcular la hipotenusa). Por ejemplo, la distancia de k-means entre (2,2) y (5,-2) sería:
- k-median se basa en la distancia Manhattan del centroide a un ejemplo. Esta distancia es la suma de los deltas absolutos en cada dimensión. Por ejemplo, la distancia k-mediana entre (2,2) y (5,-2) sería:
S
medida de similitud
En los algoritmos de agrupamiento en clústeres, métrica que se usa para determinar qué tan similares son (qué tan similares) son dos ejemplos cualquiera.
bocetos
En el aprendizaje automático no supervisado, categoría de algoritmos que realizan un análisis preliminar de similitud de los ejemplos. Los algoritmos de esbozo usan una función de hash sensible a la localidad para identificar puntos que pueden ser similares y, luego, agruparlos en buckets.
Los esbozos disminuyen el cálculo requerido para los cálculos de similitud en conjuntos de datos grandes. En lugar de calcular la similitud para cada par de ejemplos del conjunto de datos, calculamos la similitud solo para cada par de puntos dentro de cada bucket.
T
análisis de series temporales
Subcampo del aprendizaje automático y la estadística que analiza datos temporales. Muchos tipos de problemas de aprendizaje automático requieren un análisis de series temporales que incluye la clasificación, el agrupamiento en clústeres, la previsión y la detección de anomalías. Por ejemplo, podrías usar análisis de series temporales para prever las ventas futuras de abrigos de invierno por mes en función de los datos de ventas históricos.
U
aprendizaje automático no supervisado
Entrenar un model para encontrar patrones en un conjunto de datos, generalmente sin etiqueta
El uso más común del aprendizaje automático no supervisado es agrupar en clústeres los datos en grupos de ejemplos similares. Por ejemplo, un algoritmo de aprendizaje automático no supervisado puede agrupar canciones en función de varias propiedades de la música. Los clústeres resultantes pueden convertirse en una entrada para otros algoritmos de aprendizaje automático (por ejemplo, para un servicio de recomendaciones de música). El agrupamiento en clústeres puede ayudar cuando las etiquetas útiles son escasas o ausentes. Por ejemplo, en dominios como la protección contra el abuso y el fraude, los clústeres pueden ayudar a las personas a comprender mejor los datos.
Compara esto con el aprendizaje automático supervisado.