¿Qué es el agrupamiento en clústeres?

Supongamos que estás trabajando con un conjunto de datos que incluye información de los pacientes de un en el sistema de salud. El conjunto de datos es complejo y comprende tanto categóricos como atributos numéricos. Debes encontrar patrones y similitudes en el conjunto de datos. ¿Cómo abordarías esta tarea?

El agrupamiento en clústeres es una solución no de aprendizaje automático diseñada para agrupar ejemplos sin etiqueta en función de su similitud entre sí. (Si los ejemplos están etiquetados, esta tipo de agrupación se denomina clasificación). Considera un paciente hipotético para evaluar un nuevo protocolo de tratamiento. Durante el estudio, los pacientes informar cuántas veces a la semana experimenta síntomas y la gravedad de síntomas. Los investigadores pueden utilizar el análisis de agrupamiento en clústeres para agrupar pacientes con de tratamiento en grupos. En la Figura 1, se muestra una posible agrupación de datos simulados en tres clústeres.

A la izquierda, un gráfico de gravedad de síntomas en comparación con el recuento de síntomas
   mostrando puntos de datos que sugieren tres grupos.
   A la derecha, se muestra el mismo gráfico, pero con cada uno de los tres grupos de color.
Figura 1: Ejemplos sin etiqueta agrupados en tres clústeres (datos simulados).

Si observas los datos sin etiquetar a la izquierda de la Figura 1, podrías deducir que los datos forman tres grupos, incluso sin una definición formal de similitud entre los puntos de datos. Sin embargo, en las aplicaciones del mundo real, debes especificar explícitamente definir una medida de similitud, o la métrica utilizada para comparar muestras, en de los atributos del conjunto de datos. Cuando los ejemplos tienen solo un par de atributos, visualizar y medir la similitud es sencillo. Pero como el número de aumenta las funciones, la combinación y comparación de funciones se vuelve menos intuitiva y más compleja. Las diferentes medidas de similitud pueden ser más o menos adecuadas para diferentes situaciones de agrupamiento. En este curso, abordaremos la elección de un medida de similitud adecuada en secciones posteriores: Medidas de similitud manuales y Medida de similitud de las incorporaciones.

Después del agrupamiento en clústeres, a cada grupo se le asigna una etiqueta única llamada ID de clúster. El agrupamiento en clústeres es potente porque puede simplificar conjuntos de datos grandes y complejos con muchas funciones a un solo ID de clúster.

Casos de uso de agrupamiento en clústeres

El agrupamiento en clústeres es útil en una variedad de industrias. Algunas aplicaciones comunes para el agrupamiento en clústeres:

  • Segmentación del mercado
  • Análisis de redes sociales
  • Agrupación de resultados de la búsqueda
  • Imágenes médicas
  • Segmentación de imágenes
  • Detección de anomalías

Estos son algunos ejemplos específicos de agrupamiento en clústeres:

  • El diagrama Hertzsprung-Russell muestra clústeres de estrellas cuando están representadas por luminosidad y temperatura.
  • que muestra similitudes genéticas desconocidas y las diferencias entre las especies han llevado a la revisión de taxonomías anteriormente basadas en las apariencias.
  • Los 5 grandes modelo de rasgos de personalidad se desarrolló agrupando en clústeres palabras que describen la personalidad en 5 grupos. El HEXACO usa 6 clústeres en lugar de 5.

Asignación

Cuando a algunos ejemplos de un clúster les faltan datos de atributos, puedes inferir datos faltantes de otros ejemplos en el clúster. Esto se denomina asignación. Por ejemplo, los videos menos populares se pueden agrupar con otros más populares. para mejorar las recomendaciones de videos.

Compresión de datos

Como mencionamos, el ID de clúster relevante puede reemplazar otras funciones para todos ejemplos en ese clúster. Esta sustitución reduce la cantidad de atributos y lo que también reduce los recursos necesarios para almacenar, procesar y entrenar modelos con esos datos. Para conjuntos de datos muy grandes, este ahorro se vuelve significativo.

Por ejemplo, un video de YouTube puede tener datos de funciones como los siguientes:

  • ubicación, hora y datos demográficos del usuario
  • marcas de tiempo de comentarios, ID de usuario y texto
  • etiquetas del video

La agrupación de videos de YouTube reemplaza este conjunto de funciones con una con un único ID de clúster y, así, se comprimen los datos.

Conservación de la privacidad

Puedes preservar en cierta medida la privacidad agrupando en clústeres a los usuarios y asociando sus datos con IDs de clúster en lugar de IDs de usuario. Para dar un ejemplo posible, digamos que quieres para entrenar un modelo en las capas el historial de reproducciones. En lugar de pasar IDs de usuario puedes agrupar usuarios en clústeres y pasar solo el ID del clúster. Esta impide que los historiales de reproducción individuales se adjunten a usuarios individuales. Nota que el clúster debe contener una cantidad suficiente de usuarios para preservar la privacidad.