Esta página contiene los términos del glosario de agrupamiento en clústeres. Para ver todos los términos del glosario, haz clic aquí.
A
agrupamiento aglomerado
Consulta agrupamiento en clústeres jerárquico.
C
centroid
El centro de un clúster según lo determine un algoritmo k-means o k-median. Por ejemplo, si k es 3, entonces el algoritmo k-means o k-median encuentra 3 centroides.
Consulta Algoritmos de agrupamiento en el curso de Agrupamiento para obtener más información.
agrupamiento en clústeres basado en centroides
Es una categoría de algoritmos de agrupamiento que organiza los datos en clústeres no jerárquicos. K-means es el algoritmo de agrupamiento en clústeres basado en centroides más utilizado.
Compara esto con algoritmos de agrupamiento en clústeres jerárquico.
Consulta Algoritmos de agrupamiento en el curso de Agrupamiento para obtener más información.
agrupamiento
Agrupar ejemplos relacionados, en particular durante el aprendizaje no supervisado Una vez que todos los ejemplos están agrupados, una persona puede, de forma opcional, asignar un significado a cada clúster.
Existen muchos algoritmos de agrupamiento en clústeres. Por ejemplo, el algoritmo k-means agrupa ejemplos en función de su proximidad a un centroide, como en el siguiente diagrama:
Un investigador humano podría luego revisar los clústeres y, por ejemplo, etiquetar el grupo 1 como "árboles enanos" y el grupo 2 como "árboles de tamaño completo".
Otro ejemplo podría ser un algoritmo de agrupamiento basado en la distancia del ejemplo desde un punto central, como se ilustra a continuación:
Consulta el curso de clústeres para obtener más información.
D
agrupamiento en clústeres divisivo
Consulta agrupamiento en clústeres jerárquico.
H
agrupamiento en clústeres jerárquico
Categoría de algoritmos de agrupamiento que crean un árbol de clústeres. El agrupamiento jerárquico es muy adecuado para datos jerárquicos, como por ej., taxonomías botánicas. Existen dos tipos de algoritmos de agrupamiento jerárquico:
- El agrupamiento aglomerado asigna primero cada ejemplo a su propio clúster, luego une los clústeres más cercanos para crear un árbol de jerarquías.
- El agrupamiento en clústeres divisivo agrupa primero todos los ejemplos en un clúster y divide varias veces el clúster en un árbol jerárquico.
Compara esto con el agrupamiento en clústeres basado en centroides.
Consulta Algoritmos de agrupamiento en el curso de Agrupamiento para obtener más información.
K
k-means
Algoritmo de agrupamiento en clústeres popular que agrupa ejemplos en el aprendizaje no supervisado. El algoritmo k-means hace básicamente lo siguiente:
- Determina de forma iterativa los mejores puntos centrales k (conocidos como centroides).
- Asigna cada ejemplo al centroide más cercano. Los ejemplos más cercanos al mismo centroide pertenecen al mismo grupo.
El algoritmo k-means selecciona las ubicaciones del centroide para minimizar el cuadrado acumulativo de las distancias desde cada ejemplo hasta su centroide más cercano.
Por ejemplo, considera la siguiente representación de altura y anchura de perro:
Si k=3, el algoritmo k-means determinará tres centroides. Cada ejemplo se asigna a su centroide más cercano, lo que genera tres grupos:
Imagina que un fabricante quiere determinar los tamaños ideales para suéteres pequeños, medianos y grandes para perros. Los tres centroides identifican la altura promedio y el ancho promedio de cada perro en ese clúster. Por lo tanto, el fabricante debería basar los tamaños de los suéteres en esos tres centroides. Ten en cuenta que el centroide de un clúster, por lo general, no es un ejemplo en el clúster.
En las ilustraciones anteriores, se muestra el método k-means para ejemplos con solo dos atributos (altura y ancho). Ten en cuenta que k-means puede agrupar ejemplos entre muchos atributos.
k-median
Es un algoritmo de agrupamiento estrechamente relacionado con k-means. La diferencia práctica entre los dos es la siguiente:
- En k-means, los centroides se determinan minimizando la suma de los cuadrados de la distancia entre un centroide candidato y cada uno de sus ejemplos.
- En k-median, los centroides se determinan minimizando la suma de la distancia entre un centroide candidato y cada uno de sus ejemplos.
Ten en cuenta que las definiciones de distancia también son diferentes:
- k-means se basa en la distancia euclidiana del centroide a un ejemplo. (En dos dimensiones, la distancia euclidiana significa usar el teorema de Pitágoras para calcular la hipotenusa). Por ejemplo, la distancia de k-means entre (2,2) y (5,-2) sería:
- k-median se basa en la distancia Manhattan del centroide a un ejemplo. Esta distancia es la suma de los deltas absolutos en cada dimensión. Por ejemplo, la distancia k-mediana entre (2,2) y (5,-2) sería:
S
medida de similitud
En los algoritmos de agrupamiento en clústeres, la métrica que se usa para determinar qué tan parecidos (cuán similares) son dos ejemplos cualquiera.
esbozo
En el aprendizaje automático no supervisado, una categoría de algoritmos que ejecutan un análisis preliminar de similitud de los ejemplos. Los algoritmos de esbozo usan una función de hash sensible a la localidad para identificar puntos que probablemente sean similares y luego juntarlos en agrupamientos.
El esbozo reduce el cómputo requerido para los cálculos de similitud en conjuntos de datos extensos. En lugar de calcular la similitud para cada par de ejemplos del conjunto de datos, se calcula la similitud solo para cada par de puntos dentro de cada bucket.
T
análisis de series temporales
Subcampo del aprendizaje automático y la estadística que analiza datos temporales. Muchos tipos de problemas de aprendizaje automático requieren el análisis de series temporales, incluida la clasificación, el agrupamiento, la previsión y la detección de anomalías. Por ejemplo, puedes usar el análisis de series temporales para predecir las ventas futuras de abrigos de invierno por mes en función de los datos de ventas históricos.
U
aprendizaje automático no supervisado
Entrenamiento de un modelo para encontrar patrones en un conjunto de datos, generalmente sin etiqueta.
El uso más común del aprendizaje automático no supervisado es la agrupación de datos en grupos de ejemplos similares. Por ejemplo, un algoritmo de aprendizaje automático no supervisado puede agrupar canciones según varias propiedades de la música. Los clústeres resultantes pueden convertirse en una entrada para otros algoritmos de aprendizaje automático (por ejemplo, para un servicio de recomendación de música). El agrupamiento puede ser útil cuando las etiquetas útiles son escasas o no existen. Por ejemplo, en dominios como la protección contra el abuso y el fraude, los clústeres pueden ayudar a los humanos a comprender mejor los datos.
Compara esto con el aprendizaje automático supervisado.