La perdita è una metrica numerica che descrive quanto siano sbagliate le previsioni di un modello. La perdita misura la distanza tra le previsioni del modello e le etichette effettive. L'obiettivo dell'addestramento di un modello è minimizzare la perdita, riducendola al valore minimo possibile.
Nell'immagine seguente, puoi visualizzare la perdita sotto forma di frecce che partono dai punti dati e indicano il modello. Le frecce mostrano la distanza delle previsioni del modello dai valori effettivi.
Figura 9. La perdita viene misurata dal valore effettivo al valore previsto.
Distanza di perdita
In statistica e machine learning, la perdita misura la differenza tra i valori previsti e quelli effettivi. La perdita si concentra sulla distanza tra i valori, non sulla direzione. Ad esempio, se un modello prevede 2, ma il valore effettivo è 5, non ci interessa che la perdita sia negativa (-3 $) (2 $ - 5 $=-3 $). Ci interessa invece che la distanza tra i valori sia di 3 $. Pertanto, tutti i metodi per il calcolo della perdita rimuovono il segno.
I due metodi più comuni per rimuovere l'indicatore sono i seguenti:
- Prendi il valore assoluto della differenza tra il valore effettivo e la previsione.
- Quadra la differenza tra il valore effettivo e la previsione.
Tipi di perdita
Nella regressione lineare esistono quattro tipi principali di perdita, descritti nella tabella seguente.
Tipo di perdita | Definizione | Equazione |
---|---|---|
Perdita L1 | La somma dei valori assoluti della differenza tra i valori previsti e quelli effettivi. | $ ∑ | valore\ effettivo - valore\ previsto | $ |
Errore assoluto medio (MAE) | La media delle perdite L1 in un insieme di esempi. | $ \frac{1}{N} ∑ | valore\ effettivo - valore\ previsto | $ |
Perdita L2 | La somma del quadrato della differenza tra i valori previsti e quelli effettivi. | $ ∑(valore\ effettivo - valore\ previsto)^2 $ |
Errore quadratico medio (MSE) | La media delle perdite L2 in un insieme di esempi. | $ \frac{1}{N} ∑ (valore\ effettivo - valore\ previsto)^2 $ |
La differenza funzionale tra la perdita L1 e la perdita L2 (o tra MAE e MSE) è la quadratura. Quando la differenza tra la previsione e l'etichetta è elevata, la perdita aumenta ulteriormente. Quando la differenza è piccola (inferiore a 1), la perdita è ancora più ridotta.
Quando elabori più esempi contemporaneamente, ti consigliamo di calcolare la media delle perdite su tutti gli esempi, indipendentemente dall'utilizzo di MAE o MSE.
Esempio di calcolo della perdita
Utilizzando la retta di migliore approssimazione precedente, calcoleremo la perdita L2 per un singolo esempio. Dalla linea di migliore adattamento abbiamo ottenuto i seguenti valori per peso e bias:
- $ \small{Peso: -3.6} $
- $ \small{Bias: 30} $
Se il modello prevede che un'auto da 1000 kg abbia un consumo di 11,5 litri per 100 km, ma in realtà ne consuma 10,8, calcoleremo la perdita L2 come segue:
Valore | Equazione | Risultato |
---|---|---|
Previsione | $\small{bias + (weight * feature\ value)}$ $\small{30 + (-3.6*2.37)}$ |
$\small{21,5}$ |
Valore effettivo | $ \small{ label } $ | $ \small{ 24 } $ |
Perdita L2 | $ \small{ (previsione - valore\ effettivo)^2} $ $\small{ (21,5 - 24)^2 }$ |
$\small{6,25}$ |
In questo esempio, la perdita L2 per il singolo punto dati è pari a 6,25.
Scegliere una perdita
La decisione di utilizzare MAE o MSE può dipendere dal set di dati e dal modo in cui vuoi gestire determinate previsioni. La maggior parte dei valori delle caratteristiche in un insieme di dati rientra in genere in un intervallo distinto. Ad esempio, le auto hanno normalmente un peso compreso tra 900 e 2200 kg e un consumo compreso tra 12 e 80 km/l. Un'auto di 3600 kg o un'auto che percorre 160 km con un litro di benzina non rientra nell'intervallo tipico e viene considerata un'anomalia.
Un outlier può anche fare riferimento alla distanza delle previsioni di un modello dai valori reali. Ad esempio, 3000 libbre rientrano nell'intervallo di peso tipico di un'auto e 40 miglia per gallone rientrano nell'intervallo di efficienza del carburante tipico. Tuttavia, un'auto da 1360 kg che percorre 58,3 km/l sarebbe un outlier in termini di previsione del modello,in quanto il modello prevede che un'auto da 1360 kg percorrerà tra 29 e 32 km/l.
Quando scegli la funzione di perdita migliore, considera come vuoi che il modello tratti gli outlier. Ad esempio, l'MSE sposta il modello più verso gli outlier, mentre il MAE non lo fa. La perdita L2 comporta una penalità molto più elevata per un outlier rispetto alla perdita L1. Ad esempio, le seguenti immagini mostrano un modello addestrato utilizzando l'errore medio assoluto e un modello addestrato utilizzando l'errore medio quadratico. La linea rossa rappresenta un modello completamente addestrato che verrà utilizzato per fare previsioni. Gli outlier sono più vicini al modello addestrato con MSE rispetto al modello addestrato con MAE.
Figura 10. Un modello addestrato con MSE si avvicina agli outlier.
Figura 11. Un modello addestrato con MAE è più lontano dagli outlier.
Tieni presente la relazione tra il modello e i dati:
MSE. Il modello è più vicino agli outlier, ma più lontano dalla maggior parte degli altri punti dati.
MAE. Il modello è più lontano dagli outlier, ma più vicino alla maggior parte degli altri punti dati.
Verifica di aver compreso
Considera i seguenti due grafici: