Flusso di lavoro di clustering

Per eseguire il clustering dei dati:

  1. Prepara i dati.
  2. Crea una metrica di somiglianza.
  3. Esegui l'algoritmo di clustering.
  4. Interpreta i risultati e regola il clustering.

Questa pagina introduce brevemente i passaggi. Approfondiremo l'argomento sezioni.

Preparazione dei dati

Come per qualsiasi problema di ML, devi normalizzare, scalare e trasformare i dati delle caratteristiche prima di addestrare o perfezionare un modello sulla base di questi dati. Inoltre, prima clustering, controlla che i dati preparati ti consentano di calcolare con precisione la somiglianza tra gli esempi.

Crea metrica di somiglianza

Prima che un algoritmo di clustering possa raggruppare i dati, deve sapere coppie di esempi. Puoi quantificare la somiglianza tra gli esempi in base a creando una metrica di somiglianza, che richiede un'attenta comprensione dei tuoi e i dati di Google Cloud.

Esegui algoritmo di clustering

Un algoritmo di clustering utilizza la metrica di somiglianza per raggruppare i dati. Questo corso utilizza K-means.

Interpreta i risultati e correggi

Perché il clustering non produce né include una "verità" empirica rispetto al quale verificare l'output, è importante confrontare il risultato con le aspettative sia a livello di cluster che a livello di esempio. Se il risultato sembra strano o di bassa qualità, prova i tre passaggi precedenti. Continua varie volte finché la qualità dell'output non soddisfa le tue esigenze.