Le seguenti domande ti aiutano a consolidare la tua comprensione dei concetti di base dell'apprendimento automatico.
Efficacia predittiva
I modelli ML supervisionati vengono addestrati utilizzando set di dati con esempi etichettati. Il modello
impara a prevedere l'etichetta dalle caratteristiche. Tuttavia, non tutte le funzionalità di un set di dati hanno un potere predittivo. In alcuni casi, solo alcune funzionalità fungono da predittori dell'etichetta. Nel set di dati riportato di seguito, utilizza il prezzo come etichetta
e le colonne rimanenti come caratteristiche.
Quali tre caratteristiche ritieni siano probabilmente i migliori indicatori del prezzo di un'auto?
Make_model, year, miles.
La marca/il modello, l'anno e i chilometri di un'auto sono probabilmente tra i fattori di previsione più importanti per il suo prezzo.
Colore, altezza, marca_modello.
L'altezza e il colore di un'auto non sono fattori di previsione molto affidabili per il prezzo.
Miles, gearbox, make_model.
La trasmissione non è un fattore di previsione principale del prezzo.
Misure_pneumatici, passo, anno.
La misura degli pneumatici e il passo non sono fattori di previsione molto affidabili per il prezzo di un'auto.
Apprendimento supervisionato e non supervisionato
A seconda del problema, utilizzerai un approccio supervisionato o non supervisionato.
Ad esempio, se conosci in anticipo il valore o la categoria che vuoi prevedere,
utilizzerai l'apprendimento supervisionato. Tuttavia, se vuoi sapere se il tuo set di dati contiene segmentazioni o raggruppamenti di esempi correlati, devi utilizzare l'apprendimento non supervisionato.
Supponiamo di avere un set di dati di utenti per un sito web di shopping online contenente le seguenti colonne:
Se volessi comprendere i tipi di utenti che visitano il sito, utilizzeresti l'apprendimento supervisionato o non supervisionato?
Apprendimento non supervisionato.
Poiché vogliamo che il modello raggruppi gruppi di clienti correlati,
utilizzeremo l'apprendimento non supervisionato. Dopo che il modello ha raggruppato gli utenti,
abbiamo creato i nostri nomi per ogni cluster, ad esempio,
"cercatori di sconti", "cacciatori di offerte", "surfer", "clienti fedeli"
e "vagabondi".
Apprendimento supervisionato perché sto cercando di prevedere a quale classe appartiene un utente.
Nell'apprendimento supervisionato, il set di dati deve contenere l'etichetta che stai
cercando di prevedere. Nel set di dati non è presente un'etichetta che si riferisca a una
categoria di utenti.
Supponiamo di avere un set di dati sul consumo energetico delle case con le seguenti colonne:
Quale tipo di ML useresti per prevedere i kilowattora utilizzati ogni
anno per una casa di nuova costruzione?
Apprendimento supervisionato.
L'apprendimento supervisionato viene addestrato su esempi etichettati. In questo set di dati,
"kilowattora utilizzati all'anno" è l'etichetta perché è il
valore che vuoi che il modello preveda. Le caratteristiche saranno
"superficie in metri quadrati", "posizione" e "anno di costruzione".
Apprendimento non supervisionato.
L'apprendimento non supervisionato utilizza esempi non etichettati. In questo esempio,
"kilowattora utilizzati all'anno" è l'etichetta perché è il
valore che vuoi che il modello preveda.
Supponiamo di avere un set di dati sui voli con le seguenti colonne:
Se volessi prevedere il costo di un biglietto dell'autobus, useresti la regressione o la classificazione?
Regressione
L'output di un modello di regressione è un valore numerico.
Classificazione
L'output di un modello di classificazione è un valore discreto, solitamente una parola. In questo caso, il costo di un biglietto dell'autobus è un valore numerico.
In base al set di dati, puoi addestrare un modello di classificazione per classificare il costo di un biglietto dell'autobus come "alto", "medio" o "basso"?
Sì, ma dobbiamo prima convertire i valori numerici nella colonna
coach_ticket_cost
in valori categorici.
È possibile creare un modello di classificazione dal set di dati.
Dovresti eseguire una procedura simile alla seguente:
- Trova il costo medio di un biglietto dall'aeroporto di partenza all'aeroporto di destinazione.
- Determina le soglie che rappresentano "alto", "medio"
e "basso".
- Confronta il costo previsto con le soglie e visualizza la
categoria in cui rientra il valore.
No. Non è possibile creare un modello di classificazione. I valori
coach_ticket_cost
sono numerici e non categorici.
Con un po' di impegno, puoi creare un modello di classificazione.
No. I modelli di classificazione prevedono solo due categorie, ad esempio
spam
o not_spam
. Questo modello dovrebbe prevedere
tre categorie.
I modelli di classificazione possono prevedere più categorie. Sono chiamati modelli di classificazione multiclasse.
Addestramento e valutazione
Dopo aver addestrato un modello, lo valutiamo utilizzando un set di dati con esempi etichettati
e confrontiamo il valore previsto del modello con il valore effettivo dell'etichetta.
Seleziona le due risposte migliori per la domanda.
Se le previsioni del modello sono molto lontane dalla realtà, cosa puoi fare per migliorarle?
Addestra nuovamente il modello, ma utilizza solo le funzionalità che ritieni abbiano la maggiore capacità predittiva per l'etichetta.
L'addestramento nuovamente del modello con meno funzionalità, ma con una maggiore capacità predittiva, può produrre un modello che fa previsioni migliori.
Non puoi correggere un modello le cui previsioni sono molto lontane.
È possibile correggere un modello le cui previsioni non sono corrette. La maggior parte dei modelli richiede più cicli di addestramento prima di poter fare previsioni utili.
Addestra di nuovo il modello utilizzando un set di dati più grande e diversificato.
I modelli addestrati su set di dati con più esempi e una gamma più ampia di valori possono produrre previsioni migliori perché il modello ha una soluzione generalizzata migliore per la relazione tra le funzionalità e l'etichetta.
Prova un approccio di addestramento diverso. Ad esempio, se hai utilizzato un approccio supervisionato, prova un approccio non supervisionato.
Un approccio di addestramento diverso non produrrebbe previsioni migliori.
Ora puoi fare il passo successivo nel tuo percorso di ML:
People + AI Guidebook. Se stai cercando un insieme di metodi, best practice ed esempi presentati da Googler, esperti del settore e ricercatori accademici per l'utilizzo del machine learning.
Problem Framing. Se stai cercando un approccio testato sul campo per creare modelli ML ed evitare i problemi comuni lungo il percorso.
Machine Learning Crash Course. Se sei pronto per un approccio pratico e approfondito per scoprire di più sul machine learning.