Glosario de aprendizaje automático: Agrupamiento en clústeres

Esta página contiene los términos del glosario de agrupamiento en clústeres. Para ver todos los términos del glosario, haz clic aquí.

A

agrupamiento aglomerado

#clustering

Consulta agrupamiento en clústeres jerárquico.

C

centroid

#clustering

El centro de un clúster según lo determine un algoritmo k-means o k-median. Por ejemplo, si k es 3, entonces el algoritmo k-means o k-median encuentra 3 centroides.

Consulta Algoritmos de agrupamiento en el curso de Agrupamiento para obtener más información.

agrupamiento en clústeres basado en centroides

#clustering

Es una categoría de algoritmos de agrupamiento que organiza los datos en clústeres no jerárquicos. K-means es el algoritmo de agrupamiento en clústeres basado en centroides más utilizado.

Compara esto con algoritmos de agrupamiento en clústeres jerárquico.

Consulta Algoritmos de agrupamiento en el curso de Agrupamiento para obtener más información.

agrupamiento

#clustering

Agrupar ejemplos relacionados, en particular durante el aprendizaje no supervisado Una vez que todos los ejemplos están agrupados, una persona puede, de forma opcional, asignar un significado a cada clúster.

Existen muchos algoritmos de agrupamiento en clústeres. Por ejemplo, el algoritmo k-means agrupa ejemplos en función de su proximidad a un centroide, como en el siguiente diagrama:

Un gráfico de dos dimensiones en el que el eje x está etiquetado como ancho del árbol y el eje y está etiquetado como altura del árbol. El gráfico contiene dos puntos medios y varias docenas de datos. Los datos se categorizan según su proximidad. Es decir, los datos más cercanos a un centroide se clasifican como clúster 1, mientras que los más cercanos al otro centroide se clasifican como clúster 2.

Un investigador humano podría luego revisar los clústeres y, por ejemplo, etiquetar el grupo 1 como "árboles enanos" y el grupo 2 como "árboles de tamaño completo".

Otro ejemplo podría ser un algoritmo de agrupamiento basado en la distancia del ejemplo desde un punto central, como se ilustra a continuación:

Decenas de datos se organizan en círculos concéntricos, casi

          como agujeros alrededor del centro de una tabla de dardos. El anillo más interno de los datos se clasifica como clúster 1, el anillo del medio se clasifica como clúster 2 y el anillo más externo como clúster 3.

Consulta el curso de clústeres para obtener más información.

D

agrupamiento en clústeres divisivo

#clustering

Consulta agrupamiento en clústeres jerárquico.

H

agrupamiento en clústeres jerárquico

#clustering

Categoría de algoritmos de agrupamiento que crean un árbol de clústeres. El agrupamiento jerárquico es muy adecuado para datos jerárquicos, como por ej., taxonomías botánicas. Existen dos tipos de algoritmos de agrupamiento jerárquico:

  • El agrupamiento aglomerado asigna primero cada ejemplo a su propio clúster, luego une los clústeres más cercanos para crear un árbol de jerarquías.
  • El agrupamiento en clústeres divisivo agrupa primero todos los ejemplos en un clúster y divide varias veces el clúster en un árbol jerárquico.

Compara esto con el agrupamiento en clústeres basado en centroides.

Consulta Algoritmos de agrupamiento en el curso de Agrupamiento para obtener más información.

K

k-means

#clustering

Algoritmo de agrupamiento en clústeres popular que agrupa ejemplos en el aprendizaje no supervisado. El algoritmo k-means hace básicamente lo siguiente:

  • Determina de forma iterativa los mejores puntos centrales k (conocidos como centroides).
  • Asigna cada ejemplo al centroide más cercano. Los ejemplos más cercanos al mismo centroide pertenecen al mismo grupo.

El algoritmo k-means selecciona las ubicaciones del centroide para minimizar el cuadrado acumulativo de las distancias desde cada ejemplo hasta su centroide más cercano.

Por ejemplo, considera la siguiente representación de altura y anchura de perro:

Una representación cartesiana con varias decenas de puntos de datos.

Si k=3, el algoritmo k-means determinará tres centroides. Cada ejemplo se asigna a su centroide más cercano, lo que genera tres grupos:

El mismo gráfico cartesiano que en la ilustración anterior, excepto que se agregaron tres centroides.
          Los datos anteriores se agrupan en tres grupos distintos, cada uno de los cuales representa los datos más cercanos a un centroide en particular.

Imagina que un fabricante quiere determinar los tamaños ideales para suéteres pequeños, medianos y grandes para perros. Los tres centroides identifican la altura promedio y el ancho promedio de cada perro en ese clúster. Por lo tanto, el fabricante debería basar los tamaños de los suéteres en esos tres centroides. Ten en cuenta que el centroide de un clúster, por lo general, no es un ejemplo en el clúster.

En las ilustraciones anteriores, se muestra el método k-means para ejemplos con solo dos atributos (altura y ancho). Ten en cuenta que k-means puede agrupar ejemplos entre muchos atributos.

k-median

#clustering

Es un algoritmo de agrupamiento estrechamente relacionado con k-means. La diferencia práctica entre los dos es la siguiente:

  • En k-means, los centroides se determinan minimizando la suma de los cuadrados de la distancia entre un centroide candidato y cada uno de sus ejemplos.
  • En k-median, los centroides se determinan minimizando la suma de la distancia entre un centroide candidato y cada uno de sus ejemplos.

Ten en cuenta que las definiciones de distancia también son diferentes:

  • k-means se basa en la distancia euclidiana del centroide a un ejemplo. (En dos dimensiones, la distancia euclidiana significa usar el teorema de Pitágoras para calcular la hipotenusa). Por ejemplo, la distancia de k-means entre (2,2) y (5,-2) sería:
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • k-median se basa en la distancia Manhattan del centroide a un ejemplo. Esta distancia es la suma de los deltas absolutos en cada dimensión. Por ejemplo, la distancia k-mediana entre (2,2) y (5,-2) sería:
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

S

medida de similitud

#clustering

En los algoritmos de agrupamiento en clústeres, la métrica que se usa para determinar qué tan parecidos (cuán similares) son dos ejemplos cualquiera.

esbozo

#clustering

En el aprendizaje automático no supervisado, una categoría de algoritmos que ejecutan un análisis preliminar de similitud de los ejemplos. Los algoritmos de esbozo usan una función de hash sensible a la localidad para identificar puntos que probablemente sean similares y luego juntarlos en agrupamientos.

El esbozo reduce el cómputo requerido para los cálculos de similitud en conjuntos de datos extensos. En lugar de calcular la similitud para cada par de ejemplos del conjunto de datos, se calcula la similitud solo para cada par de puntos dentro de cada bucket.

T

análisis de series temporales

#clustering

Subcampo del aprendizaje automático y la estadística que analiza datos temporales. Muchos tipos de problemas de aprendizaje automático requieren el análisis de series temporales, incluida la clasificación, el agrupamiento, la previsión y la detección de anomalías. Por ejemplo, puedes usar el análisis de series temporales para predecir las ventas futuras de abrigos de invierno por mes en función de los datos de ventas históricos.

U

aprendizaje automático no supervisado

#clustering
#fundamentals

Entrenamiento de un modelo para encontrar patrones en un conjunto de datos, generalmente sin etiqueta.

El uso más común del aprendizaje automático no supervisado es la agrupación de datos en grupos de ejemplos similares. Por ejemplo, un algoritmo de aprendizaje automático no supervisado puede agrupar canciones según varias propiedades de la música. Los clústeres resultantes pueden convertirse en una entrada para otros algoritmos de aprendizaje automático (por ejemplo, para un servicio de recomendación de música). El agrupamiento puede ser útil cuando las etiquetas útiles son escasas o no existen. Por ejemplo, en dominios como la protección contra el abuso y el fraude, los clústeres pueden ayudar a los humanos a comprender mejor los datos.

Compara esto con el aprendizaje automático supervisado.