Evaluación de resultados

Debido a que el agrupamiento en clústeres es no supervisado, verdad fundamental está disponible para su verificación. resultados. La ausencia de verdad complica las evaluaciones de calidad. Además, los conjuntos de datos del mundo real no suelen ofrecer clústeres de ejemplos obvios como en el de muestra de la Figura 1.

Gráfico que muestra tres grupos claros de puntos de datos
Figura 1: Un diagrama de datos ideal. Los datos del mundo real rara vez se ven así.

En cambio, los datos del mundo real suelen parecerse más a la Figura 2, lo que dificulta evaluar visualmente la calidad del agrupamiento en clústeres.

Gráfico con datos aleatorios
Figura 2: Un diagrama de datos más realista

Sin embargo, hay heurísticas y prácticas recomendadas que puedes aplicar de forma iterativa. para mejorar la calidad de tu agrupamiento en clústeres. El siguiente diagrama de flujo ofrece Descripción general de cómo evaluar los resultados del agrupamiento en clústeres. Ampliaremos cada paso.

Diagrama de flujo del proceso de verificación
Haz clic aquí para ver una versión más grande de este gráfico.

Paso 1: Evalúa la calidad del agrupamiento en clústeres

Primero, comprueba que los clústeres se vean como esperas y que los ejemplos que que son similares entre sí aparecen en el mismo clúster.

Luego, revisa estas métricas de uso general (que no es una lista exhaustiva):

  • Cardinalidad del clúster
  • Magnitud del clúster
  • Rendimiento posterior

Cardinalidad del clúster

La cardinalidad del clúster es la cantidad de ejemplos por clúster. Trazar el para la cardinalidad de todos los clústeres y, luego, investigar los clústeres son valores atípicos importantes. En la Figura 2, sería el clúster 5.

Un gráfico de barras que muestra la cardinalidad
de varios clústeres. El clúster 5 es más pequeño que el resto.
Figura 2: Cardinalidad de varios clústeres.

Magnitud del clúster

La magnitud del clúster es la suma de las distancias de todos los ejemplos de un clúster. al centroide del clúster. Traza la magnitud del clúster para todos los clústeres y investigar los valores atípicos. En la Figura 3, el grupo 0 es un valor atípico.

También considera la distancia máxima o promedio de los ejemplos. desde centroides, por clúster, para encontrar valores atípicos.

Un gráfico de barras que muestra la magnitud del
          en varios clústeres. El clúster 0 es mucho más grande que los demás.
Figura 3: Magnitud de varios clústeres.

Magnitud frente a cardinalidad

Quizás hayas notado que una mayor cardinalidad del clúster corresponde a una mayor la magnitud del clúster, lo que tiene sentido intuitivo, ya que cuantos más puntos en una (cardinalidad), mayor será la suma probable de las distancias de esas puntos desde el centroide (magnitud). También puedes identificar clústeres anómalos al buscar aquellos en los que esta relación entre cardinalidad y magnitud es muy diferente a otros clústeres. En la Figura 4, cuando se ajusta una línea a el diagrama de cardinalidad y magnitud sugiere que el grupo 0 es anómalo. (el clúster 5 también está lejos de la línea, pero si se omitiera el clúster 0, el nuevo línea ajustada estaría mucho más cerca del clúster 5).

Un diagrama de dispersión que muestra
          la cardinalidad frente a la magnitud
de varios grupos. Uno
          clúster es un valor atípico en el diagrama.
Figura 4: Cardinalidad frente a magnitud para los clústeres que se mostraron con anterioridad.

Rendimiento posterior

Dado que los resultados del agrupamiento en clústeres se suelen usar en sistemas de AA descendentes, comprueba si el rendimiento del modelo downstream mejora cuando cambia el proceso de agrupamiento en clústeres. Esto ofrece una evaluación real de la calidad de los resultados del agrupamiento en clústeres, aunque realizar este tipo de pruebas puede ser complejo y costoso.

Paso 2: Vuelve a evaluar tu medida de similitud

La calidad de tu algoritmo de agrupamiento en clústeres depende de tu medida de similitud. Asegúrate de que tu medida de similitud devuelve resultados sensatos. Una verificación rápida identificar pares de ejemplos conocidos por ser más o menos similares. Calcula el valor medida de similitud para cada par de ejemplos y compara tus resultados con tus conocimientos: los pares de ejemplos similares deberían tener una mayor similitud que los pares de ejemplos diferentes.

Los ejemplos que usas para verificar de forma puntual la medida de similitud deben ser representativo del conjunto de datos, para que puedas estar seguro de que tu similitud para medir las conservaciones de todos tus ejemplos. El rendimiento de sus de similitud, ya sea manual o supervisada, debe ser coherente en toda tu de tu conjunto de datos. Si tu medida de similitud es incoherente para algunos ejemplos, esas los ejemplos no se agruparán con ejemplos similares.

Si encuentras ejemplos con puntuaciones de similitud inexactas, entonces tu similitud no captura por completo los datos de atributos que los distinguen ejemplos. Experimentar con tu medida de similitud hasta que devuelva más resultados exactos y coherentes.

Paso 3: Encuentra la cantidad óptima de clústeres

k-means requiere que decidas la cantidad de clústeres \(k\) con anticipación. ¿Cómo para determinar un \(k\)óptimo? Intenta ejecutar el algoritmo con valores crecientes de \(k\) y observa la suma de todas las magnitudes del clúster. Como aumenta\(k\) , los clústeres se hacen más pequeños y la distancia total de los puntos de centroides disminuye. Podemos tratar esta distancia total como una pérdida. Traza esta distancia en relación con la cantidad de clústeres.

Como se muestra en la Figura 5, por encima de un cierto \(k\), la reducción de la pérdida se vuelve marginal con un aumento \(k\). Considera usar \(k\) donde la pendiente primero tiene un cambio drástico, lo que se denomina método de elbow: Para el gráfico mostrado, el óptimo \(k\) es aproximadamente 11. Si prefieres un acceso más detallado puedes elegir un \(k\)más alto consultando este diagrama.

Un gráfico que muestra la pérdida
frente a los clústeres usados. La pérdida disminuye a medida que aumenta la cantidad de clústeres hasta
se nivela en torno a 10 clústeres
Figura 5: Pérdida versus cantidad de clústeres
.

Preguntas para solucionar problemas

Si descubres problemas en el transcurso de tu evaluación, vuelve a evaluar tus datos pasos de preparación y la medida de similitud elegida. Pregunta:

  • ¿Tus datos están escalados adecuadamente?
  • ¿Es correcta tu medida de similitud?
  • ¿Tu algoritmo realiza operaciones semánticas significativas en los datos?
  • ¿Las suposiciones de tu algoritmo coinciden con los datos?