Questo modulo introduce i concetti di regressione lineare.
La regressione lineare è una tecnica statistica utilizzata per trovare la relazione tra le variabili. In un contesto di ML, la regressione lineare trova la relazione tra caratteristiche e un'etichetta.
Ad esempio, supponiamo di voler prevedere il consumo di carburante di un'auto in km/l in base al suo peso e di avere il seguente set di dati:
Sterline in migliaia (funzionalità) | Miglia per gallone (etichetta) |
---|---|
3,5 | 18 |
3,69 | 15 |
3,44 | 18 |
3,43 | 16 |
4,34 | 15 |
4,42 | 14 |
2,37 | 24 |
Se tracciamo questi punti, otteniamo il seguente grafico:
Figura 1. Peso dell'auto (in libbre) rispetto alla valutazione in miglia per gallone. Man mano che un'auto diventa più pesante, il suo consumo di carburante generalmente diminuisce.
Potremmo creare il nostro modello tracciando una linea di approssimazione migliore attraverso i punti:
Figura 2. Una retta di regressione tracciata attraverso i dati della figura precedente.
Equazione di regressione lineare
In termini algebrici, il modello viene definito come $ y = mx + b $, dove
- $ y $ è il numero di miglia per gallone, il valore che vogliamo prevedere.
- $ m $ è la pendenza della linea.
- £ x £ sono sterline, il nostro valore di input.
- $ b $ è l'intercetta sull'asse y.
In ML, scriviamo l'equazione di un modello di regressione lineare come segue:
dove:
- $ y' $ è l'etichetta prevista, ovvero l'output.
- $ b $ è il bias del modello. Il bias è lo stesso concetto dell'intercetta sull'asse y nell'equazione algebrica di una retta. Nell'apprendimento automatico, a volte il bias viene indicato come $ w_0 $. Il bias è un parametro del modello e viene calcolato durante l'addestramento.
- $ w_1 $ è la ponderazione della caratteristica. Il peso è lo stesso concetto della pendenza $ m $ nell'equazione algebrica di una linea. Il peso è un parametro del modello e viene calcolato durante l'addestramento.
- $ x_1 $ è una caratteristica, ovvero l'input.
Durante l'addestramento, il modello calcola il peso e il bias che producono il miglior modello.
Figura 3. Rappresentazione matematica di un modello lineare.
Nel nostro esempio, calcoleremo il peso e la bias dalla linea che abbiamo disegnato. Il bias è 30 (dove la linea interseca l'asse y) e il peso è -3,6 (la pendenza della linea). Il modello viene definito come $ y' = 30 + (-3, 6)(x_1) $ e possiamo usarlo per fare previsioni. Ad esempio, utilizzando questo modello, un'auto da 1800 kg avrebbe un consumo di carburante previsto di 15,6 km/l.
Figura 4. Utilizzando il modello, un'auto di 1800 kg ha un consumo di carburante previsto di 15,6 l/100 km.
Modelli con più funzionalità
Sebbene l'esempio in questa sezione utilizzi una sola caratteristica, ovvero il peso dell'auto, un modello più sofisticato potrebbe basarsi su più caratteristiche, ognuna con un peso separato ($ w_1 $, $ w_2 $ e così via). Ad esempio, un modello basato su cinque funzionalità viene scritto come segue:
$ y' = b + w_1x_1 + w_2x_2 + w_3x_3 + w_4x_4 + w_5x_5 $
Ad esempio, un modello che prevede il consumo di carburante potrebbe utilizzare anche funzionalità come le seguenti:
- Cilindrata
- Accelerazione
- Numero di cilindri
- Cavallo vapore
Questo modello verrà scritto come segue:
Figura 5. Un modello con cinque caratteristiche per prevedere il consumo di un'auto.
Se rappresentiamo alcune di queste funzionalità aggiuntive in un grafico, possiamo vedere che hanno anche una relazione lineare con l'etichetta, ovvero i litri per 100 km:
Figura 6. La cilindrata di un'auto in centimetri cubi e la sua classificazione in miglia per gallone. Man mano che il motore di un'auto diventa più grande, il suo consumo di carburante generalmente diminuisce.
Figura 7. L'accelerazione di un'auto e il suo consumo di carburante. Man mano che l'accelerazione di un'auto richiede più tempo, il valore in litri per 100 km aumenta in genere.
Figura 8. La potenza di un'auto e il suo consumo di carburante. All'aumentare della potenza di un'auto, il consumo di carburante generalmente diminuisce.