Para agrupar tus datos en clústeres, sigue estos pasos:
- Preparar los datos.
- Crea una métrica de similitud.
- Ejecuta el algoritmo de agrupamiento en clústeres.
- Interpreta los resultados y ajusta la agrupación en clústeres.
En esta página, se presentan los pasos brevemente. Profundizaremos en las secciones posteriores.
Preparar los datos
Al igual que con cualquier problema de AA, debes normalizar, escalar y transformar los datos de atributos. Sin embargo, durante el agrupamiento en clústeres, debes asegurarte de que los datos preparados te permitan calcular con exactitud la similitud entre los ejemplos. En las siguientes secciones, se analiza esta consideración.
Crear métrica de similitud
Antes de que un algoritmo de agrupamiento en clústeres pueda agrupar datos, necesita saber qué tan similares son los ejemplos de ejemplos. Para cuantificar la similitud entre los ejemplos, crea una métrica de similitud. Para crear una métrica de similitud, debes comprender con cuidado tus datos y cómo derivar la similitud de tus atributos.
Ejecutar el algoritmo de agrupamiento en clústeres
Un algoritmo de agrupamiento en clústeres usa la métrica de similitud para agrupar datos. Este curso se enfoca en los k-means.
Interpreta los resultados y ajústalos
Verificar la calidad del resultado del agrupamiento en clústeres es iterativo y exploratorio porque el agrupamiento en clústeres carece de “verdad” que pueda verificar el resultado. Debes verificar el resultado con las expectativas a nivel de clúster y de ejemplo. Mejorar el resultado requiere experimentar de forma iterativa con los pasos anteriores para ver cómo afectan el agrupamiento en clústeres.