Regressione lineare: perdita

Perdita è una metrica numerica che descrive sull'errore nelle previsioni di un modello . La perdita misura la distanza tra le previsioni del modello e quelle effettive etichette. L'obiettivo dell'addestramento di un modello è minimizzare la perdita, riducendolo il valore più basso possibile.

Nell'immagine seguente, puoi visualizzare la perdita sotto forma di frecce estratte dai dati al modello. Le frecce mostrano la distanza dalle previsioni del modello i valori effettivi.

Figura 9. Le linee di perdita collegano i punti dati
un modello di machine learning.

Figura 9. La perdita viene misurata dal valore effettivo a quello previsto.

Distanza di perdita

Nella statistica e nel machine learning, la perdita misura la differenza tra i valori previsti e quelli effettivi. La perdita si concentra sulla distanza tra i valori, non è la direzione giusta. Ad esempio, se un modello prevede 2, ma il valore effettivo è 5, non ci interessa che la perdita sia negativa $ -3 $ ($ 2-5=-3 $). Ci interessa, invece, che la distanza tra i valori sia 3 $. Di conseguenza, i metodi per calcolare la perdita, rimuovere il segno.

I due metodi più comuni per rimuovere il segnale sono i seguenti:

  • Prendi il valore assoluto della differenza tra il valore effettivo e la previsione.
  • Eleva al quadrato la differenza tra il valore effettivo e la previsione.

Tipi di perdita

Nella regressione lineare, ci sono quattro tipi principali di perdita, descritti in la tabella seguente.

Tipo di perdita Definizione Equazione
L1 perdita La somma dei valori assoluti della differenza tra i valori previsti e i valori effettivi. $ Σ | valore effettivo\ - valore previsto\ | €
Errore medio assoluto (MAE) La media delle perdite L1 in un insieme di esempi. $ \frac{1}{N} ∑ | valore effettivo\ - valore previsto\ | €
L2perdita La somma della differenza al quadrato tra i valori previsti e i valori effettivi. $ Σ(valore\ effettivo - valore\ previsto)^2 $
Errore quadratico medio (MSE) La media delle perdite L2 in un insieme di esempi. $ \frac{1}{N} Σ (valore\ effettivo - valore\previsto)^2 $

La differenza funzionale tra la perdita L1 e la perdita L2 (o tra MAE e MSE) al quadrato. Quando la differenza tra previsione ed etichetta è grande, l'elevazione al quadrato rende la perdita ancora maggiore. Quando differenza è piccola (meno di 1), il quadrato rende la perdita ancora più piccola.

Quando si elaborano più esempi contemporaneamente, è consigliabile calcolare la media delle perdite in tutti gli esempi, utilizzando MAE o MSE.

Esempio di calcolo di perdita

Utilizzando la precedente riga Best Fit, calcoleremo la perdita L2 per un singolo esempio. Da best fit, abbiamo i seguenti valori per ponderazione e bias:

  • $ \small{Peso: -3,6} $
  • $ \small{Bias: 30} $

Se il modello prevede che un'auto da 890 kg ottiene 35 km per gallone, ma ottiene in realtà 24 miglia per gallone, calcoleremo la perdita L2 come che segue:

Valore Equazione Risultato
Previsione

$\small{bias + (weight * feature\ value)}$

$\small{30 + (-3,6*2,37)}$

$\small{21,5}$
Valore effettivo $ \small{ label } $ $ \small{ 24 } $
Perdita L2

$ \small{ (previsione - valore\ effettivo)^2} $

$\small{ (21,5 - 24)^2 }$

$\small{6,25}$

In questo esempio, la perdita L2 per quel singolo punto dati è 6,25.

Scelta della perdita

Decidere se utilizzare MAE o MSE può dipendere dal set di dati e dal modo in cui per gestire determinate previsioni. La maggior parte dei valori delle caratteristiche in un set di dati in genere rientrano in un intervallo distinto. Ad esempio, le auto di solito sono comprese tra 2000 e 5000 libbre e ottenere tra 8 e 50 miglia per gallone. Un'auto da 3400 kg o un'auto che percorre 160 km per gallone, non rientra nell'intervallo tipico e essere considerata un outlier.

Un outlier può anche indicare quanto sono lontane le previsioni di un modello da quelle reali e i relativi valori. Ad esempio, un'auto che pesa 1000 kg o che percorre 64 chilometri a gallone rientrano negli intervalli tipici. Tuttavia, un'auto da 1400 kg che 40 miglia per gallone sarebbe un outlier in termini di previsione del modello perché il modello prevede che un'auto di 1400 kg otterrebbe tra i 18 e 20 miglia per gallone.

Quando si sceglie la funzione di perdita migliore, considera come deve essere trattato il modello i valori anomali. Ad esempio, MSE sposta il modello maggiormente verso gli outlier, mentre MAE non lo fa. La perdita L2 comporta una penalità molto più elevata per un outlier rispetto a L1 perdita. Ad esempio, le seguenti immagini mostrano un modello addestrato mediante il MAE e un modello addestrato mediante MSE. La linea rossa rappresenta addestrato e poi utilizzato per fare previsioni. I valori anomali sono più prossimi rispetto al modello addestrato con MAE.

Figura 10. Il modello è più inclinato verso i valori anomali.

Figura 10. Un modello addestrato con MSE lo avvicina ai valori anomali.

Figura 11. Il modello è più inclinato rispetto agli outlier.

Figura 11. Un modello addestrato con il MAE è più lontano dai valori anomali.

Osserva la relazione tra il modello e i dati:

  • MSE. Il modello è più vicino agli outlier, ma più lontano dalla maggior parte dei gli altri punti dati.

  • MAE. Il modello è più lontano dagli outlier, ma più vicino alla maggior parte dei gli altri punti dati.

Verifica le tue conoscenze

Considera i due seguenti diagrammi:

Un diagramma di 10 punti.
      Una linea passa attraverso 6 punti. 2 punti sono 1 unità
      al di sopra della riga; Altri 2 punti sono 1 unità sotto la linea. Un diagramma di 10 punti. Viene eseguita una linea
      tramite 8 punti. 1 punto è pari a 2 unità
      al di sopra della riga; 1 altro punto è 2 unità sotto la linea.
Quale dei due set di dati mostrati nei grafici precedenti ha l'errore quadratico medio (MSE) più elevato?
Il set di dati a sinistra.
I sei esempi sulla riga presentano una perdita totale pari a 0. I quattro esempi non in linea non sono molto lontani, quindi anche al quadrato l'offset produce comunque un valore basso: $MSE = \frac{0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 0^2} {10} = 0,4$
Il set di dati a destra.
Gli otto esempi sulla riga presentano una perdita totale pari a 0. Tuttavia, anche se solo due punti fuoriescono dalla linea, entrambi i punti sono due volte più lontani dalla linea rispetto ai punti anomali nella figura a sinistra. La perdita quadratica amplifica queste differenze, quindi una compensazione di due comporta una perdita quattro volte maggiore di una compensazione di uno: $MSE = \frac{0^2 + 0^2 + 0^2 + 2^2 + 0^2 + 0^2 + 0^2 + 2^2 + 0^2 + 0^2} {10} = 0,8$