Inquadratura: terminologia chiave del machine learning

Che cos'è il machine learning (supervisionato)? In breve, sono le seguenti:

  • I sistemi di machine learning imparano a combinare l'input per produrre previsioni utili su dati mai visti prima.

Vediamo la terminologia di base del machine learning.

Etichette

Un'etichetta è l'elemento che prevediamo, la variabile y in semplice regressione lineare. Potrebbe essere il prezzo futuro del grano, il tipo di animale mostrato in un'immagine, il significato di un clip audio o praticamente qualsiasi cosa.

Funzionalità

Una funzionalità è una variabile di input, la variabile x in semplice regressione lineare. Un progetto di machine learning semplice potrebbe utilizzare una singola funzionalità, mentre un progetto di machine learning più sofisticato potrebbe utilizzare milioni di funzionalità, come specificato di seguito:

\[\\{x_1, x_2, ... x_N\\}\]

Nell'esempio di rilevatore di spam, le funzionalità potrebbero includere:

  • parole nel testo dell'email
  • indirizzo del mittente
  • ora del giorno in cui l'email è stata inviata
  • l'indirizzo email contiene la frase "uno strano trucco".

Esempi

Un esempio è una particolare istanza di dati, x. Mettiamo x in grassetto per indicare che si tratta di un Vettore. Gli esempi sono suddivisi in due categorie:

  • esempi etichettati
  • esempi senza etichetta

Un esempio con etichetta include sia le funzionalità sia l'etichetta. Ossia:

  labeled examples: {features, label}: (x, y)

Utilizza gli esempi etichettati per addestrare il modello. Nel nostro esempio di rilevatore di spam, gli esempi etichettati sono singole email che gli utenti hanno esplicitamente contrassegnato come "spam" o "non spam".

Ad esempio, la seguente tabella mostra 5 esempi etichettati da un set di dati contenente informazioni sui prezzi degli alloggi in California:

custodiaMedianAge
(funzionalità)
totalRooms
(funzionalità)
totalBedrooms
(funzionalità)
medianHouseValue
(etichetta)
15 5612 1283 66900
19 7650 1901 80100
17 720 174 85700
14 1501 337 73400
20 1454 326 65500

Un esempio senza etichetta contiene caratteristiche, ma non l'etichetta. Ossia:

  unlabeled examples: {features, ?}: (x, ?)

Ecco 3 esempi senza etichetta dello stesso set di dati delle case, che escludono medianHouseValue:

custodiaMedianAge
(funzionalità)
totalRooms
(funzionalità)
totalBedrooms
(funzionalità)
42 1686 361
34 1226 180
33 1077 271

Una volta che abbiamo addestrato il nostro modello con esempi etichettati, lo utilizziamo per prevedere l'etichetta in esempi senza etichetta. Nel rilevatore di spam, gli esempi senza etichetta sono nuove email che gli utenti non hanno ancora etichettato.

Modelli

Un modello definisce la relazione tra caratteristiche ed etichetta. Ad esempio, un modello di rilevamento di spam potrebbe associare fortemente alcune funzionalità a "spam". Mettiamo in evidenza due fasi della vita di un modello:

  • Per addestramento si intende la creazione o l'apprendimento del modello. In altre parole, mostri il modello etichettato con esempi e consenti al modello di apprendere gradualmente le relazioni tra le funzionalità e l'etichetta.

  • Inferenza significa applicare il modello addestrato a esempi senza etichetta. Ciò significa che utilizzi il modello addestrato per fare previsioni utili (y'). Ad esempio, durante l'inferenza puoi prevedere medianHouseValue per nuovi esempi senza etichetta.

Regressione e classificazione

Un modello di regressione prevede valori continui. Ad esempio, i modelli di regressione effettuano previsioni che rispondono a domande come le seguenti:

  • Qual è il valore di una casa in California?

  • Qual è la probabilità che un utente faccia clic su questo annuncio?

Un modello di classificazione prevede valori discreti. Ad esempio, i modelli di classificazione effettuano previsioni che rispondono a domande come le seguenti:

  • Un determinato messaggio email è spam o non spam?

  • È l'immagine di un cane, un gatto o un criceto?