Per eseguire il clustering dei dati:
- Prepara i dati.
- Crea una metrica di somiglianza.
- Esegui l'algoritmo di clustering.
- Interpreta i risultati e regola il clustering.
Questa pagina introduce brevemente i passaggi. Approfondiremo l'argomento sezioni.
Preparazione dei dati
Come per qualsiasi problema di ML, devi normalizzare, scalare e trasformare i dati delle caratteristiche prima di addestrare o perfezionare un modello sulla base di questi dati. Inoltre, prima clustering, controlla che i dati preparati ti consentano di calcolare con precisione la somiglianza tra gli esempi.
Crea metrica di somiglianza
Prima che un algoritmo di clustering possa raggruppare i dati, deve sapere coppie di esempi. Puoi quantificare la somiglianza tra gli esempi in base a creando una metrica di somiglianza, che richiede un'attenta comprensione dei tuoi e i dati di Google Cloud.
Esegui algoritmo di clustering
Un algoritmo di clustering utilizza la metrica di somiglianza per raggruppare i dati. Questo corso utilizza K-means.
Interpreta i risultati e correggi
Perché il clustering non produce né include una "verità" empirica rispetto al quale verificare l'output, è importante confrontare il risultato con le aspettative sia a livello di cluster che a livello di esempio. Se il risultato sembra strano o di bassa qualità, prova i tre passaggi precedenti. Continua varie volte finché la qualità dell'output non soddisfa le tue esigenze.