Regressione lineare: perdita

La perdita è una metrica numerica che descrive quanto siano sbagliate le previsioni di un modello. La perdita misura la distanza tra le previsioni del modello e le etichette effettive. L'obiettivo dell'addestramento di un modello è minimizzare la perdita, riducendola al valore minimo possibile.

Nell'immagine seguente, puoi visualizzare la perdita sotto forma di frecce che partono dai dati e indicano il modello. Le frecce mostrano quanto sono lontane le previsioni del modello dai valori effettivi.

Figura 9. Le linee di perdita collegano i punti dati al

modello.

Figura 9. La perdita viene misurata dal valore effettivo al valore previsto.

Distanza di perdita

Nella statistica e nel machine learning, la perdita misura la differenza tra i valori previsti e quelli effettivi. La perdita si concentra sulla distanza tra i valori, non sulla direzione. Ad esempio, se un modello prevede 2, ma il valore effettivo è 5, non ci interessa che la perdita sia negativa (-3 $) (2 $ - 5 $=-3 $). Ci interessa invece che la distanza tra i valori sia di 3 $. Pertanto, tutti i metodi per il calcolo della perdita rimuovono il segno.

I due metodi più comuni per rimuovere l'indicatore sono i seguenti:

  • Prendi il valore assoluto della differenza tra il valore effettivo e la previsione.
  • Eleva al quadrato la differenza tra il valore effettivo e la previsione.

Tipi di perdita

Nella regressione lineare esistono quattro tipi principali di perdita, descritti nella tabella seguente.

Tipo di perdita Definizione Equazione
Perdita L1 La somma dei valori assoluti della differenza tra i valori previsti e i valori effettivi. $ ∑ | valore\ effettivo - valore\ previsto | $
Errore assoluto medio (MAE) La media delle perdite L1 in un insieme di esempi. $ \frac{1}{N} Σ | valore\ effettivo - valore\ previsto | $
L2perdita La somma del quadrato della differenza tra i valori previsti e quelli effettivi. $ ∑(valore\ effettivo - valore\ previsto)^2 $
Errore quadratico medio (MSE) La media delle perdite L2 in un insieme di esempi. $ \frac{1}{N} Σ (valore\ effettivo - valore\previsto)^2 $

La differenza funzionale tra la perdita L1 e la perdita L2 (o tra MAE e MSE) è al quadrato. Quando la differenza tra la previsione e l'etichetta è grande, il quadrato rende la perdita ancora maggiore. Quando la differenza è piccola (inferiore a 1), la perdita è ancora più ridotta.

Quando elabori più esempi contemporaneamente, ti consigliamo di calcolare la media delle perdite su tutti gli esempi, indipendentemente dall'utilizzo di MAE o MSE.

Esempio di calcolo della perdita

Utilizzando la retta di migliore approssimazione precedente, calcoleremo la perdita L2 per un singolo esempio. Dalla linea di migliore adattamento abbiamo ottenuto i seguenti valori per peso e bias:

  • $ \small{Peso: -3.6} $
  • $ \small{Bias: 30} $

Se il modello prevede che un'auto da 1070 kg abbia un consumo di 11,5 litri per 100 km, ma in realtà ne consuma 10,8, calcoleremo la perdita L2 come segue:

Valore Equazione Risultato
Previsione

$\small{bias + (weight * feature\ value)}$

$\small{30 + (-3.6*2.37)}$

$\small{21,5}$
Valore effettivo $ \small{ label } $ $ \small{ 24 } $
Perdita L2

$ \small{ (previsione - valore\ effettivo)^2} $

$\small{ (21,5 - 24)^2 }$

$\small{6,25}$

In questo esempio, la perdita L2 per quel singolo punto dati è 6,25.

Scegliere una perdita

La decisione di utilizzare MAE o MSE può dipendere dal set di dati e dal modo in cui vuoi gestire determinate previsioni. In genere, la maggior parte dei valori delle caratteristiche in un insieme di dati rientra in un intervallo distinto. Ad esempio, le auto hanno normalmente un peso compreso tra 900 e 2200 kg e un consumo compreso tra 12 e 80 km/l. Un'auto da 3200 kg o un'auto che percorre 160 miglia per gallone non rientra nell'intervallo tipico e verrebbe considerata un outlier.

Un outlier può anche fare riferimento alla distanza delle previsioni di un modello dai valori reali. Ad esempio, un'auto di 1360 kg o un'auto che percorre 9,7 km/l rientrano negli intervalli tipici. Tuttavia, un'auto di 1360 kg che percorre 88,5 km/l sarebbe un outlier in termini di previsione del modello,perché il modello prevede che un'auto di 1360 kg percorra tra 30 e 32 km/l.

Quando scegli la funzione di perdita migliore, considera come vuoi che il modello tratti gli outlier. Ad esempio, l'MSE sposta il modello più verso gli outlier, mentre l'MAE no. La perdita L2 comporta una penalità molto più elevata per un outlier rispetto alla perdita L1. Le immagini riportate di seguito mostrano, ad esempio, un modello addestrato mediante MAE e un modello addestrato utilizzando MSE. La linea rossa rappresenta un modello completamente addestrato che verrà utilizzato per fare previsioni. Gli outlier sono più vicini al modello addestrato con MSE rispetto al modello addestrato con MAE.

Figura 10. Il modello è più inclinato verso gli outlier.

Figura 10. Un modello addestrato con MSE si avvicina agli outlier.

Figura 11. Il modello è più lontano dagli outlier.

Figura 11. Un modello addestrato con MAE è più lontano dagli outlier.

Osserva la relazione tra il modello e i dati:

  • MSE. Il modello è più vicino agli outlier, ma più lontano dalla maggior parte degli altri punti dati.

  • MAE. Il modello è più lontano dagli outlier, ma più vicino alla maggior parte degli altri punti dati.

Verifica di aver compreso

Considera i due seguenti diagrammi:

Un diagramma di 10 punti.
      Una linea passa attraverso 6 punti. 2 punti sono 1 unità sopra la linea; altri 2 punti sono 1 unità sotto la linea. Un diagramma di 10 punti. Una linea attraversa
      otto dei punti. 1 punto è 2 unità sopra la linea; un altro punto è 2 unità sotto la linea.
Quale dei due set di dati mostrati nei grafici precedenti ha l'errore quadratico medio (MSE) più elevato?
Il set di dati a sinistra.
I sei esempi sulla riga presentano una perdita totale pari a 0. I quattro esempi non sulla linea non sono molto lontani dalla linea, quindi anche squartando il loro offset si ottiene comunque un valore basso: $MSE = \frac{0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 0^2} {10} = 0.4$
Il set di dati a destra.
Gli otto esempi nella riga comportano una perdita totale di 0. Tuttavia, anche se solo due punti si trovano al di fuori della linea, entrambi sono due volte più lontani dalla linea rispetto ai punti anomali nella figura a sinistra. La perdita al quadrato amplifica queste differenze, quindi un offset di due comporta una perdita quattro volte superiore a un offset di uno: $MSE = \frac{0^2 + 0^2 + 0^2 + 2^2 + 0^2 + 0^2 + 0^2 + 2^2 + 0^2 + 0^2} {10} = 0.8$