Verifica le tue conoscenze

Le seguenti domande ti aiutano a consolidare la tua comprensione dei concetti fondamentali del machine learning.

Potenza predittiva

I modelli di ML supervisionato vengono addestrati utilizzando set di dati con esempi etichettati. Il modello impara a prevedere l'etichetta in base alle caratteristiche. Tuttavia, non tutte le caratteristiche di un set di dati hanno capacità predittive. In alcuni casi, solo alcune caratteristiche agiscono da predittori dell'etichetta. Nel set di dati seguente, usa price come etichetta e le restanti colonne come caratteristiche.

Un esempio etichettato di attributi automobilistici.

Quali sono le tre caratteristiche che pensi siano probabilmente i maggiori fattori di previsione del prezzo di un'auto?
Marca_modello, anno, chilometri.
La marca/il modello, l'anno e i chilometri di un'auto sono probabilmente tra i migliori indicatori del suo prezzo.
Colore, altezza, marca_modello.
L'altezza e il colore di un'auto non sono efficaci indicatori del prezzo.
Miglia, cambio, marca_modello.
Il cambio non è un indicatore principale per prevedere il prezzo.
Dimensioni pneumatici, passo, anno.
Le dimensioni degli pneumatici e il passo non sono efficaci indicatori del prezzo di un'auto.

Apprendimento supervisionato e non supervisionato

A seconda del problema, utilizzerai un approccio con o senza supervisione. Ad esempio, se conosci in anticipo il valore o la categoria che vuoi prevedere, devi usare l'apprendimento supervisionato. Tuttavia, per sapere se il tuo set di dati contiene segmentazioni o raggruppamenti di esempi correlati, utilizza l'apprendimento non supervisionato.

Supponi di avere un set di dati di utenti per un sito web di shopping online che contenga le seguenti colonne:

L'immagine di una riga di attributi dei clienti.

Se volessi capire le tipologie di utenti che visitano il sito, useresti l'apprendimento supervisionato o non supervisionato?
Apprendimento non supervisionato.
Poiché vogliamo che il modello raggruppa gruppi di clienti correlati, utilizzeremmo l'apprendimento non supervisionato. Dopo che il modello aveva raggruppato gli utenti, creavamo i nostri nomi per ogni cluster, ad esempio "ricercatori di sconti", "cacciatori di offerte", "repertorio", "fedele" e "vagabondo".
Apprendimento supervisionato perché sto cercando di prevedere a quale classe appartiene un utente.
Nell'apprendimento supervisionato, il set di dati deve contenere l'etichetta che stai cercando di prevedere. Nel set di dati non esiste un'etichetta che fa riferimento a una categoria di utenti.

Supponi di avere un set di dati sul consumo energetico per le case con le seguenti colonne:

Un'immagine di una riga di attributi della casa.

Che tipo di machine learning utilizzeresti per prevedere i kilowattora utilizzati all'anno per una casa di nuova costruzione?
Apprendimento supervisionato.
L'apprendimento supervisionato viene addestrato su esempi etichettati. In questo set di dati, l'etichetta è "kilowattora utilizzati all'anno", perché questo è il valore che il modello deve prevedere. Le caratteristiche potrebbero essere "metri quadrati", "posizione" e "anno di costruzione".
Apprendimento non supervisionato.
L'apprendimento non supervisionato utilizza esempi non etichettati. In questo esempio, l'etichetta è "kilowattora utilizzati all'anno", perché questo è il valore che il modello deve prevedere.

Supponi di avere un set di dati relativo ai voli con le seguenti colonne:

L'immagine di una riga di dati sui voli.

Se volessi prevedere il costo di un biglietto del pullman, useresti la regressione o la classificazione?
Regressione
L'output di un modello di regressione è un valore numerico.
Classificazione
L'output di un modello di classificazione è un valore discreto, solitamente una parola. In questo caso, il costo di un biglietto del pullman è un valore numerico.
In base al set di dati, potresti addestrare un modello di classificazione per classificare il costo di un biglietto del pullman in "alto", "medio" o "basso"?
Sì, ma dovremmo prima convertire i valori numerici nella colonna coach_ticket_cost in valori categorici.
È possibile creare un modello di classificazione dal set di dati. Ecco cosa dovresti fare:
  1. Trova il costo medio di un biglietto dall'aeroporto di partenza all'aeroporto di destinazione.
  2. Stabilisci le soglie che rientrerebbero in "alta", "media" e "bassa".
  3. Confronta il costo previsto con le soglie e restituisce la categoria in cui rientra il valore.
No. Non è possibile creare un modello di classificazione. I valori coach_ticket_cost sono numerici non categorici.
Con un po' di lavoro, potresti creare un modello di classificazione.
No. I modelli di classificazione prevedono solo due categorie, come spam o not_spam. Questo modello deve prevedere tre categorie.
I modelli di classificazione possono prevedere più categorie. Sono chiamati modelli di classificazione multiclasse.

Formazione e valutazione

Dopo aver addestrato un modello, lo valutiamo utilizzando un set di dati con esempi etichettati e confrontiamo il valore previsto del modello con il valore effettivo dell'etichetta.

Seleziona le due risposte migliori alla domanda.

Se le previsioni del modello sono lontane, cosa potresti fare per migliorarle?
Reimposta il modello, ma utilizza solo le caratteristiche che ritieni abbiano la maggiore capacità predittiva per l'etichetta.
Il readdestramento del modello con meno caratteristiche, ma con maggiore capacità predittiva, può produrre un modello che effettua previsioni migliori.
Non puoi correggere un modello le cui previsioni sono lontane.
È possibile correggere un modello le cui previsioni non sono attive. La maggior parte dei modelli richiede più cicli di addestramento fino a quando non ottengono previsioni utili.
Riaddestra il modello utilizzando un set di dati più ampio e diversificato.
I modelli addestrati su set di dati con più esempi e una gamma più ampia di valori possono produrre previsioni migliori perché il modello ha una soluzione generalizzata migliore per la relazione tra le caratteristiche e l'etichetta.
Prova un approccio diverso all'addestramento. Ad esempio, se hai utilizzato un approccio supervisionato, prova un approccio non supervisionato.
Un diverso approccio di addestramento non produrrebbe previsioni migliori.

Ora tutto è pronto per il prossimo passo nel tuo percorso con il machine learning:

  • Persone + IA Guidebook. Se sei alla ricerca di una serie di metodi, best practice ed esempi presentati da Googler, esperti del settore e ricerca accademica per l'utilizzo del ML,

  • Inquadratura dei problemi. Se sei alla ricerca di un approccio collaudato sul campo per creare modelli di ML ed evitare gli errori comuni lungo il percorso.

  • Corso accelerato sul machine learning. Se vuoi un approccio pratico e approfondito allo scopo di scoprire di più sul machine learning.