La perdita è una metrica numerica che descrive quanto siano sbagliate le previsioni di un modello. La perdita misura la distanza tra le previsioni del modello e le etichette effettive. L'obiettivo dell'addestramento di un modello è minimizzare la perdita, riducendola al valore minimo possibile.
Nell'immagine seguente, puoi visualizzare la perdita sotto forma di frecce che partono dai dati e indicano il modello. Le frecce mostrano quanto sono lontane le previsioni del modello dai valori effettivi.
Figura 9. La perdita viene misurata dal valore effettivo al valore previsto.
Distanza di perdita
Nella statistica e nel machine learning, la perdita misura la differenza tra i valori previsti e quelli effettivi. La perdita si concentra sulla distanza tra i valori, non sulla direzione. Ad esempio, se un modello prevede 2, ma il valore effettivo è 5, non ci interessa che la perdita sia negativa (-3 $) (2 $ - 5 $=-3 $). Ci interessa invece che la distanza tra i valori sia di 3 $. Pertanto, tutti i metodi per il calcolo della perdita rimuovono il segno.
I due metodi più comuni per rimuovere l'indicatore sono i seguenti:
- Prendi il valore assoluto della differenza tra il valore effettivo e la previsione.
- Eleva al quadrato la differenza tra il valore effettivo e la previsione.
Tipi di perdita
Nella regressione lineare esistono quattro tipi principali di perdita, descritti nella tabella seguente.
Tipo di perdita | Definizione | Equazione |
---|---|---|
Perdita L1 | La somma dei valori assoluti della differenza tra i valori previsti e i valori effettivi. | $ ∑ | valore\ effettivo - valore\ previsto | $ |
Errore assoluto medio (MAE) | La media delle perdite L1 in un insieme di esempi. | $ \frac{1}{N} Σ | valore\ effettivo - valore\ previsto | $ |
L2perdita | La somma del quadrato della differenza tra i valori previsti e quelli effettivi. | $ ∑(valore\ effettivo - valore\ previsto)^2 $ |
Errore quadratico medio (MSE) | La media delle perdite L2 in un insieme di esempi. | $ \frac{1}{N} Σ (valore\ effettivo - valore\previsto)^2 $ |
La differenza funzionale tra la perdita L1 e la perdita L2 (o tra MAE e MSE) è al quadrato. Quando la differenza tra la previsione e l'etichetta è grande, il quadrato rende la perdita ancora maggiore. Quando la differenza è piccola (inferiore a 1), la perdita è ancora più ridotta.
Quando elabori più esempi contemporaneamente, ti consigliamo di calcolare la media delle perdite su tutti gli esempi, indipendentemente dall'utilizzo di MAE o MSE.
Esempio di calcolo della perdita
Utilizzando la retta di migliore approssimazione precedente, calcoleremo la perdita L2 per un singolo esempio. Dalla linea di migliore adattamento abbiamo ottenuto i seguenti valori per peso e bias:
- $ \small{Peso: -3.6} $
- $ \small{Bias: 30} $
Se il modello prevede che un'auto da 1070 kg abbia un consumo di 11,5 litri per 100 km, ma in realtà ne consuma 10,8, calcoleremo la perdita L2 come segue:
Valore | Equazione | Risultato |
---|---|---|
Previsione | $\small{bias + (weight * feature\ value)}$ $\small{30 + (-3.6*2.37)}$ |
$\small{21,5}$ |
Valore effettivo | $ \small{ label } $ | $ \small{ 24 } $ |
Perdita L2 | $ \small{ (previsione - valore\ effettivo)^2} $ $\small{ (21,5 - 24)^2 }$ |
$\small{6,25}$ |
In questo esempio, la perdita L2 per quel singolo punto dati è 6,25.
Scegliere una perdita
La decisione di utilizzare MAE o MSE può dipendere dal set di dati e dal modo in cui vuoi gestire determinate previsioni. In genere, la maggior parte dei valori delle caratteristiche in un insieme di dati rientra in un intervallo distinto. Ad esempio, le auto hanno normalmente un peso compreso tra 900 e 2200 kg e un consumo compreso tra 12 e 80 km/l. Un'auto da 3200 kg o un'auto che percorre 160 miglia per gallone non rientra nell'intervallo tipico e verrebbe considerata un outlier.
Un outlier può anche fare riferimento alla distanza delle previsioni di un modello dai valori reali. Ad esempio, un'auto di 1360 kg o un'auto che percorre 9,7 km/l rientrano negli intervalli tipici. Tuttavia, un'auto di 1360 kg che percorre 88,5 km/l sarebbe un outlier in termini di previsione del modello,perché il modello prevede che un'auto di 1360 kg percorra tra 30 e 32 km/l.
Quando scegli la funzione di perdita migliore, considera come vuoi che il modello tratti gli outlier. Ad esempio, l'MSE sposta il modello più verso gli outlier, mentre l'MAE no. La perdita L2 comporta una penalità molto più elevata per un outlier rispetto alla perdita L1. Le immagini riportate di seguito mostrano, ad esempio, un modello addestrato mediante MAE e un modello addestrato utilizzando MSE. La linea rossa rappresenta un modello completamente addestrato che verrà utilizzato per fare previsioni. Gli outlier sono più vicini al modello addestrato con MSE rispetto al modello addestrato con MAE.
Figura 10. Un modello addestrato con MSE si avvicina agli outlier.
Figura 11. Un modello addestrato con MAE è più lontano dagli outlier.
Osserva la relazione tra il modello e i dati:
MSE. Il modello è più vicino agli outlier, ma più lontano dalla maggior parte degli altri punti dati.
MAE. Il modello è più lontano dagli outlier, ma più vicino alla maggior parte degli altri punti dati.
Verifica di aver compreso
Considera i due seguenti diagrammi: