Interpreta los resultados y ajusta el agrupamiento en clústeres

Debido a que el agrupamiento en clústeres no está supervisado, no hay "verdad" disponible para verificar los resultados. La ausencia de información complica la evaluación de la calidad. Además, los conjuntos de datos del mundo real no suelen incluirse en clústeres obvios de ejemplos, como el conjunto de datos que se muestra en la Figura 1.

Un gráfico que muestra tres grupos claros de datos
Figura 1: Gráfico de datos ideal. Los datos en el mundo real rara vez tienen este aspecto.

Lamentablemente, los datos reales se parecen más a la Figura 2, lo que dificulta la evaluación visual de la calidad del agrupamiento en clústeres.

Un gráfico con datos aleatorios
Figura 2: Representación de datos realista

En el siguiente diagrama de flujo, se resume cómo verificar la calidad de tu agrupamiento en clústeres. Ampliaremos el resumen en las siguientes secciones.

Diagrama de flujo del proceso de verificación
Haz clic aquí para ver una versión más grande de este gráfico.

Paso uno: Calidad del agrupamiento en clústeres

Verificar la calidad del agrupamiento en clústeres no es un proceso riguroso porque la agrupación carece de “verdad”. Estos son lineamientos que puedes aplicar de forma iterativa para mejorar la calidad de tu agrupamiento en clústeres.

Primero, realiza una verificación visual de que los clústeres se vean como se espera y que los ejemplos que consideres similares aparezcan en el mismo clúster. Luego, verifica estas métricas de uso común como se describe en las siguientes secciones:

  • Cardinalidad del clúster
  • Magnitud del clúster
  • Rendimiento del sistema descendente
Un gráfico de barras que muestra la cardinalidad de varios clústeres. Algunos de los clústeres tienen grandes diferencias.
Figura 2: Cardinalidad de varios clústeres.

Cardinalidad de clúster

La cardinalidad de clúster es la cantidad de ejemplos por clúster. Traza la cardinalidad del clúster para todos los clústeres y, luego, investiga los clústeres que tienen valores atípicos importantes. Por ejemplo, en la Figura 2, investiga el clúster número 5.

Un gráfico de barras que muestra la magnitud de varios clústeres. Un clúster tiene una magnitud significativamente mayor que los otros clústeres.
Figura 3: Magnitud de varios clústeres.

Magnitud del clúster

La magnitud del clúster es la suma de las distancias desde todos los ejemplos hasta el centroide del clúster. Al igual que la cardinalidad, verifica cómo varía la magnitud en los clústeres y, luego, investiga las anomalías. Por ejemplo, en la Figura 3, investiga el número de clúster 0.

Un diagrama de dispersión que muestra la cardinalidad frente a la magnitud de varios clústeres. Un clúster es un valor atípico en el gráfico.
Figura 4: Cardinalidad frente a Magnitud de varios clústeres.

Magnitud frente a cardinalidad

Ten en cuenta que una cardinalidad de clúster más alta tiende a generar una mayor magnitud de clúster, lo que tiene sentido de forma intuitiva. Los clústeres son anómalos cuando la cardinalidad no se correlaciona con la magnitud relativa a los otros clústeres. Encontrar clústeres anómalos mediante la representación de la magnitud en comparación con la cardinalidad Por ejemplo, en la Figura 4, el ajuste de una línea a las métricas del clúster muestra que el número de clúster 0 es anómalo.

Rendimiento del sistema descendente

Dado que el resultado del agrupamiento en clústeres suele usarse en sistemas de AA descendentes, verifica si el rendimiento del sistema descendente mejora cuando cambia el proceso de agrupamiento en clústeres. El impacto en el rendimiento posterior proporciona una prueba real de la calidad del agrupamiento en clústeres. La desventaja es que esta verificación es compleja.

Preguntas para investigar si se encuentran problemas

Si encuentras problemas, verifica la preparación de datos y la medida de similitud. Para ello, hazte las siguientes preguntas:

  • ¿Tus datos se ajustan?
  • ¿La medida de similitud es correcta?
  • ¿Tu algoritmo realiza operaciones semánticamente significativas en los datos?
  • ¿Las suposiciones de tu algoritmo coinciden con los datos?

Paso dos: Rendimiento de la medida de similitud

Su algoritmo de agrupamiento en clústeres es tan bueno como su medida de similitud. Asegúrate de que tu medida de similitud muestre resultados razonables. La verificación más simple es identificar pares de ejemplos que se conocen por ser más o menos similares que otros pares. Luego, calcula la medida de similitud para cada par de ejemplos. Asegúrate de que la medida de similitud para ejemplos similares sea mayor que la medida de similitud para ejemplos menos similares.

Los ejemplos que usas para verificar tu medida de similitud deben representar el conjunto de datos. Asegúrate de que la medida de similitud se aplique a todos los ejemplos. La verificación cuidadosa garantiza que la medida de similitud, ya sea manual o supervisada, sea coherente en todo el conjunto de datos. Si tu medida de similitud es incoherente para algunos ejemplos, esos ejemplos no se agruparán en clústeres con ejemplos similares.

Si encuentras ejemplos con similitudes imprecisas, es probable que tu medida de similitud no capture los datos de atributos que los distinguen. Experimenta con tu medida de similitud y determina si obtienes similitudes más precisas.

Paso tres: cantidad óptima de clústeres

k-means requiere que decidas la cantidad de clústeres \(k\) de antemano. ¿Cómo se determina el valor óptimo de \(k\)? Intenta ejecutar el algoritmo para aumentar \(k\) y anota la suma de las magnitudes del clúster. A medida que \(k\)aumenta, los clústeres se vuelven más pequeños y la distancia total disminuye. Traza esta distancia con la cantidad de clústeres.

Como se muestra en la Figura 4, en un determinado \(k\), la reducción en la pérdida se vuelve marginal y aumenta \(k\). Desde el punto de vista matemático, ese es aproximadamente el \(k\)en el que la pendiente cruza por encima de -1 (\(\theta > 135^{\circ}\)). Este lineamiento no señala un valor exacto para un valor óptimo \(k\) , sino solo un valor aproximado. Para la representación que se muestra, el valor óptimo \(k\) es aproximadamente 11. Si prefieres clústeres más detallados, puedes elegir una \(k\) superior con este gráfico como guía.

Un grafo que muestra la pérdida
en comparación con los clústeres usados. La pérdida disminuye a medida que la cantidad de clústeres aumenta hasta nivelar alrededor de 10 clústeres
Figura 4: Pérdida frente a cantidad de clústeres