Flujo de trabajo del agrupamiento en clústeres

Para agrupar tus datos en clústeres, sigue estos pasos:

  1. Preparar los datos.
  2. Crea una métrica de similitud.
  3. Ejecuta el algoritmo de agrupamiento en clústeres.
  4. Interpreta los resultados y ajusta la agrupación en clústeres.

En esta página, se presentan los pasos brevemente. Profundizaremos en las secciones posteriores.

Los cuatro pasos del flujo de trabajo de agrupamiento en clústeres

Preparar los datos

Al igual que con cualquier problema de AA, debes normalizar, escalar y transformar los datos de atributos. Sin embargo, durante el agrupamiento en clústeres, debes asegurarte de que los datos preparados te permitan calcular con exactitud la similitud entre los ejemplos. En las siguientes secciones, se analiza esta consideración.

Crear métrica de similitud

Antes de que un algoritmo de agrupamiento en clústeres pueda agrupar datos, necesita saber qué tan similares son los ejemplos de ejemplos. Para cuantificar la similitud entre los ejemplos, crea una métrica de similitud. Para crear una métrica de similitud, debes comprender con cuidado tus datos y cómo derivar la similitud de tus atributos.

Ejecutar el algoritmo de agrupamiento en clústeres

Un algoritmo de agrupamiento en clústeres usa la métrica de similitud para agrupar datos. Este curso se enfoca en los k-means.

Interpreta los resultados y ajústalos

Verificar la calidad del resultado del agrupamiento en clústeres es iterativo y exploratorio porque el agrupamiento en clústeres carece de “verdad” que pueda verificar el resultado. Debes verificar el resultado con las expectativas a nivel de clúster y de ejemplo. Mejorar el resultado requiere experimentar de forma iterativa con los pasos anteriores para ver cómo afectan el agrupamiento en clústeres.