Fluxo de trabalho de clustering

Para agrupar seus dados, siga estas etapas:

  1. Preparar dados.
  2. Crie uma métrica de similaridade.
  3. Executar o algoritmo de agrupamento.
  4. Interprete os resultados e ajuste o agrupamento.

Esta página apresenta brevemente as etapas. Vamos nos aprofundar nas seções seguintes.

Preparar dados

Como em qualquer problema de ML, é necessário normalizar, dimensionar e transformar os dados de atributos antes de treinar ou ajustar um modelo com esses dados. Além disso, antes de fazer a clusterização, verifique se os dados preparados permitem calcular com precisão a semelhança entre os exemplos.

Criar métrica de similaridade

Antes que um algoritmo de agrupamento possa agrupar dados, ele precisa saber o quão semelhantes são os pares de exemplos. É possível quantificar a semelhança entre exemplos criando uma métrica de semelhança, o que exige uma compreensão cuidadosa dos dados.

Executar algoritmo de agrupamento

Um algoritmo de agrupamento usa a métrica de similaridade para agrupar dados. Este curso usa k-means.

Interpretar os resultados e fazer ajustes

Como a agregação não produz nem inclui uma "verdade" que possa ser verificada, é importante verificar o resultado com base nas suas expectativas no nível do cluster e do exemplo. Se o resultado parecer estranho ou de baixa qualidade, tente as três etapas anteriores. Continue iterando até que a qualidade da saída atenda às suas necessidades.