Para agrupar seus dados, siga estas etapas:
- Preparar dados.
- Criar uma métrica de similaridade.
- Executar o algoritmo de clustering.
- Interpretar os resultados e ajustar o clustering.
Esta página apresenta brevemente as etapas. Vamos nos aprofundar nas próximas em outras seções.
Preparar dados
Como em qualquer problema de ML, é preciso normalizar, escalonar e transformar os dados de atributos antes de treinar ou ajustar um modelo com esses dados. Além disso, antes de clustering, verifique se os dados preparados permitem calcular com precisão semelhança entre os exemplos.
Criar métrica de similaridade
Para que um algoritmo de clustering possa agrupar dados, ele precisa saber os pares de exemplos. Você pode quantificar a semelhança entre os exemplos criar uma métrica de similaridade, o que requer uma compreensão criteriosa de seu dados.
Executar algoritmo de clustering
Um algoritmo de clustering usa a métrica de semelhança para agrupar os dados. Este curso usa k-means.
Interpretar resultados e ajustar
Porque o clustering não produz ou inclui uma "verdade" empírica contra a qual você possa verificar o resultado, é importante comparar o resultado de exemplo no nível do cluster e do exemplo. Se o resultado pareça estranha ou de baixa qualidade, teste as três etapas anteriores. Continuar iterar até que a qualidade da saída atenda às suas necessidades.