Regressione lineare

Questo modulo introduce i concetti di regressione lineare.

La regressione lineare è una tecnica statistica utilizzata per trovare la relazione tra le variabili. In un contesto di ML, la regressione lineare trova la relazione tra le caratteristiche e un'etichetta.

Ad esempio, supponiamo di voler prevedere il consumo di carburante di un'auto in miglia per gallone in base al peso dell'auto e disponiamo del seguente set di dati:

Libbre in migliaia (funzionalità)	Miglia per gallone (etichetta)
3,5	18
3,69	15
3,44	18
3,43	16
4.34	15
4,42	14
2,37	24

Se tracciassimo questi punti, otterremmo il seguente grafico:

Figura 1. Punti dati che mostrano una tendenza in discesa da sinistra a destra.

Figura 1. Peso dell'auto (in libbre) rispetto al consumo di carburante (in miglia per gallone). Man mano che un'auto diventa più pesante, il suo consumo di carburante in chilometri per litro generalmente diminuisce.

Potremmo creare il nostro modello tracciando una retta di regressione che passi per i punti:

Figura 2. Punti dati con una retta di regressione che li attraversa e rappresenta il modello.

Figura 2. Una retta di regressione tracciata attraverso i dati della figura precedente.

Equazione di regressione lineare

In termini algebrici, il modello sarebbe definito come $ y = mx + b $, dove

$ y $ è il consumo di carburante in miglia per gallone, il valore che vogliamo prevedere.
$ m $ è il coefficiente angolare della retta.
$ x $ è la sterlina, il nostro valore di input.
$ b $ è l'intercetta sull'asse y.

Nel machine learning, l'equazione per un modello di regressione lineare viene scritta nel seguente modo:

$$ y' = b + w_1x_1 $$

dove:

$ y' $ è l'etichetta prevista, ovvero l'output.
$ b $ è il bias del modello. Il bias è lo stesso concetto dell'intercetta sull'asse y nell'equazione algebrica di una retta. Nell'ML, il bias viene a volte indicato come $ w_0 $. Il bias è un parametro del modello e viene calcolato durante l'addestramento.
$ w_1 $ è il peso della funzionalità. Il peso è lo stesso concetto della pendenza $ m $ nell'equazione algebrica di una retta. Il peso è un parametro del modello e viene calcolato durante l'addestramento.
$ x_1 $ è una caratteristica, ovvero l'input.

Durante l'addestramento, il modello calcola il peso e il bias che producono il modello migliore.

Figura 3. L'equazione y' = b + w1x1, con ogni componente annotato con il suo scopo.

Figura 3. Rappresentazione matematica di un modello lineare.

Nel nostro esempio, calcoleremo il peso e il bias dalla linea che abbiamo tracciato. Il bias è 34 (dove la retta interseca l'asse y) e il peso è -4,6 (la pendenza della retta). Il modello verrebbe definito come $ y' = 34 + (-4.6)(x_1) $ e potremmo utilizzarlo per fare previsioni. Ad esempio, utilizzando questo modello, un'auto da 1800 kg avrebbe un'efficienza del carburante prevista di 6,6 km/litro.

Figura 4. Lo stesso grafico della Figura 2, con il punto (4, 15,6) evidenziato.

Figura 4. Utilizzando il modello, un'auto di 1800 kg ha un'efficienza del carburante prevista di 6,6 km/l.

Modelli con più funzionalità

Sebbene l'esempio in questa sezione utilizzi una sola funzionalità, ovvero il peso dell'auto, un modello più sofisticato potrebbe basarsi su più funzionalità, ciascuna con un peso separato ($ w_1 $, $ w_2 $, ecc.). Ad esempio, un modello che si basa su cinque caratteristiche verrebbe scritto nel seguente modo:

$ y' = b + w_1x_1 + w_2x_2 + w_3x_3 + w_4x_4 + w_5x_5 $

Ad esempio, un modello che prevede il consumo di carburante potrebbe utilizzare anche funzionalità come le seguenti:

Cilindrata
Accelerazione
Numero di cilindri
Cavallo vapore

Questo modello verrebbe scritto come segue:

Figura 5. Equazione di regressione lineare con cinque caratteristiche.

Figura 5. Un modello con cinque caratteristiche per prevedere il consumo di carburante di un'auto.

Se rappresentiamo graficamente alcune di queste funzionalità aggiuntive, possiamo notare che anche queste hanno una relazione lineare con l'etichetta, ovvero i chilometri per litro:

Figura 6. Cilindrata in centimetri cubi rappresentata graficamente in funzione dei chilometri per litro, che mostra una relazione lineare negativa.

Figura 6. La cilindrata di un'auto in centimetri cubi e il suo consumo di carburante in chilometri per litro. Man mano che il motore di un'auto diventa più grande, il suo consumo di carburante in chilometri per litro generalmente diminuisce.

Figura 7. Accelerazione da 0 a 100 km/h in secondi rappresentata graficamente rispetto ai chilometri per litro, mostrando una relazione lineare positiva.

Figura 7. L'accelerazione di un'auto e il suo consumo di carburante. Man mano che l'accelerazione di un'auto richiede più tempo, il consumo di carburante in chilometri per litro generalmente aumenta.

Esercizio: verifica la tua comprensione

Quali parti dell'equazione di regressione lineare vengono aggiornate durante l'addestramento?

Il bias e i pesi

Durante l'addestramento, il modello aggiorna il bias e i pesi.

La previsione

Le previsioni non vengono aggiornate durante l'allenamento.

I valori delle caratteristiche

I valori delle caratteristiche fanno parte del set di dati, quindi non vengono aggiornati durante l'addestramento.