Flusso di lavoro di clustering

Per raggruppare i dati, segui questi passaggi:

  1. Prepara i dati.
  2. Crea la metrica di somiglianza.
  3. Esegui l'algoritmo di clustering.
  4. Interpreta i risultati e modifica il clustering.

Questa pagina illustra brevemente i passaggi. Ne parleremo più approfonditamente nelle sezioni successive.

Preparazione dei dati

Come per qualsiasi problema di ML, devi normalizzare, scalare e trasformare i dati delle funzionalità prima di addestrare o perfezionare un modello su questi dati. Inoltre, prima di eseguire il clustering, verifica che i dati preparati ti consentano di calcolare con precisione la somiglianza tra gli esempi.

Creare una metrica di somiglianza

Prima che un algoritmo di clustering possa raggruppare i dati, deve sapere quanto sono simili le coppie di esempi. Puoi quantificare la somiglianza tra gli esempi creando una metrica di somiglianza, che richiede un'attenta comprensione dei dati.

Esegui l'algoritmo di clustering

Un algoritmo di clustering utilizza la metrica di somiglianza per raggruppare i dati. Questo corso utilizza K-means.

Interpreta i risultati e apporta le modifiche necessarie

Poiché il clustering non produce o include dati empirici reali in base ai quali verificare l'output, è importante verificare il risultato in base alle tue aspettative sia a livello di cluster che di esempio. Se il risultato sembra strano o di bassa qualità, prova i tre passaggi precedenti. Continua a eseguire l'iterazione finché la qualità dell'output non soddisfa le tue esigenze.