Regressione lineare

Questo modulo introduce i concetti di regressione lineare.

La regressione lineare è una tecnica statistica utilizzata per trovare la relazione tra le variabili. In un contesto di ML, la regressione lineare trova la relazione tra caratteristiche e un'etichetta.

Ad esempio, supponiamo di voler prevedere il consumo di carburante di un'auto in km/l in base al suo peso e di avere il seguente set di dati:

Sterline in migliaia (funzionalità) Miglia per gallone (etichetta)
3,5 18
3,69 15
3,44 18
3,43 16
4,34 15
4,42 14
2,37 24

Se tracciamo questi punti, otteniamo il seguente grafico:

Figura 1. Punti dati che mostrano una tendenza in calo da sinistra a destra.

Figura 1. Peso dell'auto (in libbre) rispetto alla valutazione in miglia per gallone. Man mano che un'auto diventa più pesante, il suo consumo di carburante generalmente diminuisce.

Potremmo creare il nostro modello tracciando una linea di approssimazione migliore attraverso i punti:

Figura 2. Punti dati con una linea di approssimazione ottimale che li attraversa e li rappresenta.

Figura 2. Una retta di regressione tracciata attraverso i dati della figura precedente.

Equazione di regressione lineare

In termini algebrici, il modello viene definito come $ y = mx + b $, dove

  • $ y $ è il numero di miglia per gallone, il valore che vogliamo prevedere.
  • $ m $ è la pendenza della linea.
  • £ x £ sono sterline, il nostro valore di input.
  • $ b $ è l'intercetta sull'asse y.

In ML, scriviamo l'equazione di un modello di regressione lineare come segue:

$$ y' = b + w_1x_1 $$

dove:

  • $ y' $ è l'etichetta prevista, ovvero l'output.
  • $ b $ è il bias del modello. Il bias è lo stesso concetto dell'intercetta sull'asse y nell'equazione algebrica di una retta. Nell'apprendimento automatico, a volte il bias viene indicato come $ w_0 $. Il bias è un parametro del modello e viene calcolato durante l'addestramento.
  • $ w_1 $ è la ponderazione della caratteristica. Il peso è lo stesso concetto della pendenza $ m $ nell'equazione algebrica di una linea. Il peso è un parametro del modello e viene calcolato durante l'addestramento.
  • $ x_1 $ è una caratteristica, ovvero l'input.

Durante l'addestramento, il modello calcola il peso e il bias che producono il miglior modello.

Figura 3. L'equazione y' = b + w1x1, con ogni componente annotato con il relativo scopo.

Figura 3. Rappresentazione matematica di un modello lineare.

Nel nostro esempio, calcoleremo il peso e la bias dalla linea che abbiamo disegnato. Il bias è 30 (dove la linea interseca l'asse y) e il peso è -3,6 (la pendenza della linea). Il modello viene definito come $ y' = 30 + (-3, 6)(x_1) $ e possiamo usarlo per fare previsioni. Ad esempio, utilizzando questo modello, un'auto da 1800 kg avrebbe un consumo di carburante previsto di 15,6 km/l.

Figura 4. Lo stesso grafico della Figura 2, con il punto (4, 15,6) evidenziato.

Figura 4. Utilizzando il modello, un'auto di 1800 kg ha un consumo di carburante previsto di 15,6 l/100 km.

Modelli con più funzionalità

Sebbene l'esempio in questa sezione utilizzi una sola caratteristica, ovvero il peso dell'auto, un modello più sofisticato potrebbe basarsi su più caratteristiche, ognuna con un peso separato ($ w_1 $, $ w_2 $ e così via). Ad esempio, un modello basato su cinque funzionalità viene scritto come segue:

$ y' = b + w_1x_1 + w_2x_2 + w_3x_3 + w_4x_4 + w_5x_5 $

Ad esempio, un modello che prevede il consumo di carburante potrebbe utilizzare anche funzionalità come le seguenti:

  • Cilindrata
  • Accelerazione
  • Numero di cilindri
  • Cavallo vapore

Questo modello verrà scritto come segue:

Figura 5. Equazione di regressione lineare con cinque caratteristiche.

Figura 5. Un modello con cinque caratteristiche per prevedere il consumo di un'auto.

Se rappresentiamo alcune di queste funzionalità aggiuntive in un grafico, possiamo vedere che hanno anche una relazione lineare con l'etichetta, ovvero i litri per 100 km:

Immagine 6. Cilindrata in centimetri cubi rappresentata in grafico rispetto ai chilometri per litro che mostra una relazione lineare negativa.

Figura 6. La cilindrata di un'auto in centimetri cubi e la sua classificazione in miglia per gallone. Man mano che il motore di un'auto diventa più grande, il suo consumo di carburante generalmente diminuisce.

Immagine 7. L'accelerazione da 0 a 60 in secondi in un grafico rispetto ai litri per 100 km mostra una relazione lineare positiva.

Figura 7. L'accelerazione di un'auto e il suo consumo di carburante. Man mano che l'accelerazione di un'auto richiede più tempo, il valore in litri per 100 km aumenta in genere.

Immagine 8. La potenza indicata in un grafico rispetto ai chilometri per litro mostra una relazione lineare negativa.

Figura 8. La potenza di un'auto e il suo consumo di carburante. All'aumentare della potenza di un'auto, il consumo di carburante generalmente diminuisce.

Esercizio: verifica di aver compreso

Quali parti dell'equazione di regressione lineare vengono aggiornate durante l'addestramento?
Il bias e le ponderazioni
Durante l'addestramento, il modello aggiorna il bias e le ponderazioni.
La previsione
Le previsioni non vengono aggiornate durante l'addestramento.
I valori delle caratteristiche
I valori delle funzionalità fanno parte del set di dati, pertanto non vengono aggiornati durante l'addestramento.