Debido a que el agrupamiento en clústeres es no supervisado, verdad fundamental está disponible para su verificación. resultados. La ausencia de verdad complica las evaluaciones de calidad. Además, los conjuntos de datos del mundo real no suelen ofrecer clústeres de ejemplos obvios como en el de muestra de la Figura 1.
En cambio, los datos del mundo real suelen parecerse más a la Figura 2, lo que dificulta evaluar visualmente la calidad del agrupamiento en clústeres.
Sin embargo, hay heurísticas y prácticas recomendadas que puedes aplicar de forma iterativa. para mejorar la calidad de tu agrupamiento en clústeres. El siguiente diagrama de flujo ofrece Descripción general de cómo evaluar los resultados del agrupamiento en clústeres. Ampliaremos cada paso.
Paso 1: Evalúa la calidad del agrupamiento en clústeres
Primero, comprueba que los clústeres se vean como esperas y que los ejemplos que que son similares entre sí aparecen en el mismo clúster.
Luego, revisa estas métricas de uso general (que no es una lista exhaustiva):
- Cardinalidad del clúster
- Magnitud del clúster
- Rendimiento posterior
Cardinalidad del clúster
La cardinalidad del clúster es la cantidad de ejemplos por clúster. Trazar el para la cardinalidad de todos los clústeres y, luego, investigar los clústeres son valores atípicos importantes. En la Figura 2, sería el clúster 5.
Magnitud del clúster
La magnitud del clúster es la suma de las distancias de todos los ejemplos de un clúster. al centroide del clúster. Traza la magnitud del clúster para todos los clústeres y investigar los valores atípicos. En la Figura 3, el grupo 0 es un valor atípico.
También considera la distancia máxima o promedio de los ejemplos. desde centroides, por clúster, para encontrar valores atípicos.
Magnitud frente a cardinalidad
Quizás hayas notado que una mayor cardinalidad del clúster corresponde a una mayor la magnitud del clúster, lo que tiene sentido intuitivo, ya que cuantos más puntos en una (cardinalidad), mayor será la suma probable de las distancias de esas puntos desde el centroide (magnitud). También puedes identificar clústeres anómalos al buscar aquellos en los que esta relación entre cardinalidad y magnitud es muy diferente a otros clústeres. En la Figura 4, cuando se ajusta una línea a el diagrama de cardinalidad y magnitud sugiere que el grupo 0 es anómalo. (el clúster 5 también está lejos de la línea, pero si se omitiera el clúster 0, el nuevo línea ajustada estaría mucho más cerca del clúster 5).
Rendimiento posterior
Dado que los resultados del agrupamiento en clústeres se suelen usar en sistemas de AA descendentes, comprueba si el rendimiento del modelo downstream mejora cuando cambia el proceso de agrupamiento en clústeres. Esto ofrece una evaluación real de la calidad de los resultados del agrupamiento en clústeres, aunque realizar este tipo de pruebas puede ser complejo y costoso.
Paso 2: Vuelve a evaluar tu medida de similitud
La calidad de tu algoritmo de agrupamiento en clústeres depende de tu medida de similitud. Asegúrate de que tu medida de similitud devuelve resultados sensatos. Una verificación rápida identificar pares de ejemplos conocidos por ser más o menos similares. Calcula el valor medida de similitud para cada par de ejemplos y compara tus resultados con tus conocimientos: los pares de ejemplos similares deberían tener una mayor similitud que los pares de ejemplos diferentes.
Los ejemplos que usas para verificar de forma puntual la medida de similitud deben ser representativo del conjunto de datos, para que puedas estar seguro de que tu similitud para medir las conservaciones de todos tus ejemplos. El rendimiento de sus de similitud, ya sea manual o supervisada, debe ser coherente en toda tu de tu conjunto de datos. Si tu medida de similitud es incoherente para algunos ejemplos, esas los ejemplos no se agruparán con ejemplos similares.
Si encuentras ejemplos con puntuaciones de similitud inexactas, entonces tu similitud no captura por completo los datos de atributos que los distinguen ejemplos. Experimentar con tu medida de similitud hasta que devuelva más resultados exactos y coherentes.
Paso 3: Encuentra la cantidad óptima de clústeres
k-means requiere que decidas la cantidad de clústeres \(k\) con anticipación. ¿Cómo para determinar un \(k\)óptimo? Intenta ejecutar el algoritmo con valores crecientes de \(k\) y observa la suma de todas las magnitudes del clúster. Como aumenta\(k\) , los clústeres se hacen más pequeños y la distancia total de los puntos de centroides disminuye. Podemos tratar esta distancia total como una pérdida. Traza esta distancia en relación con la cantidad de clústeres.
Como se muestra en la Figura 5, por encima de un cierto \(k\), la reducción de la pérdida se vuelve marginal con un aumento \(k\). Considera usar \(k\) donde la pendiente primero tiene un cambio drástico, lo que se denomina método de elbow: Para el gráfico mostrado, el óptimo \(k\) es aproximadamente 11. Si prefieres un acceso más detallado puedes elegir un \(k\)más alto consultando este diagrama.
Preguntas para solucionar problemas
Si descubres problemas en el transcurso de tu evaluación, vuelve a evaluar tus datos pasos de preparación y la medida de similitud elegida. Pregunta:
- ¿Tus datos están escalados adecuadamente?
- ¿Es correcta tu medida de similitud?
- ¿Tu algoritmo realiza operaciones semánticas significativas en los datos?
- ¿Las suposiciones de tu algoritmo coinciden con los datos?