Régression linéaire: perte

La perte est une métrique numérique qui décrit l'écart entre les prédictions d'un modèle et la réalité. La perte mesure la distance entre les prédictions du modèle et les étiquettes réelles. L'objectif de l'entraînement d'un modèle est de minimiser la perte, en la réduisant à sa valeur la plus basse possible.

Dans l'image suivante, vous pouvez visualiser la perte sous la forme de flèches partant des points de données et pointant vers le modèle. Les flèches indiquent l'écart entre les prédictions du modèle et les valeurs réelles.

Figure 9. Les lignes de perte relient les points de données au modèle.

Figure 9. La perte est mesurée entre la valeur réelle et la valeur prédite.

Distance de perte

En statistiques et en apprentissage automatique, la perte mesure la différence entre les valeurs prédites et réelles. La perte se concentre sur la distance entre les valeurs, et non sur la direction. Par exemple, si un modèle prédit 2, mais que la valeur réelle est 5, nous ne nous soucions pas du fait que la perte soit négative (-3 $, car 2-5=-3 $). Nous nous soucions plutôt de la distance entre les valeurs, qui est de 3 $. Par conséquent, toutes les méthodes de calcul de la perte suppriment le signe.

Voici les deux méthodes les plus courantes pour supprimer le signe:

  • Prenez la valeur absolue de la différence entre la valeur réelle et la prédiction.
  • Carré la différence entre la valeur réelle et la prédiction.

Types de pertes

Dans la régression linéaire, il existe quatre principaux types de pertes, qui sont décrits dans le tableau suivant.

Type de perte Définition Équation
Perte L1 Somme des valeurs absolues de la différence entre les valeurs prédites et les valeurs réelles. $ ∑ | valeur\ réelle - valeur\ prédite | $
Erreur absolue moyenne (EAM) Moyenne des pertes L1 sur un ensemble d'exemples. $ \frac{1}{N} ∑ | valeur\ réelle - valeur\ prédite | $
Perte L2 Somme de la différence au carré entre les valeurs prédites et les valeurs réelles. $ ∑(valeur\ réelle - valeur\ prédite)^2 $
Erreur quadratique moyenne (MSE) Moyenne des pertes L2 sur un ensemble d'exemples. $ \frac{1}{N} ∑ (valeur\ réelle - valeur\ prédite)^2 $

La différence fonctionnelle entre la perte L1 et la perte L2 (ou entre l'EAM et l'MSE) est la mise au carré. Lorsque la différence entre la prédiction et le libellé est importante, le calcul au carré rend la perte encore plus importante. Lorsque la différence est faible (inférieure à 1), la mise au carré réduit encore la perte.

Lorsque vous traitez plusieurs exemples à la fois, nous vous recommandons de calculer la moyenne des pertes pour tous les exemples, que vous utilisiez la MAE ou la MSE.

Exemple de calcul de la perte

À l'aide de la ligne de meilleure approximation précédente, nous allons calculer la perte L2 pour un seul exemple. À partir de la ligne d'ajustement optimal, nous avons obtenu les valeurs suivantes pour le poids et le biais:

  • $ \small{Weight: -3.6} $
  • $ \small{Biais: 30} $

Si le modèle prédit qu'une voiture de 1 080 kg consomme 11,5 miles par gallon, mais qu'elle consomme en réalité 14,4 miles par gallon, nous calculons la perte L2 comme suit:

Valeur Équation Résultat
Prédiction

$\small{biais + (poids * valeur de l'attribut)}$

$\small{30 + (-3.6*2.37)}$

$\small{21,5}$
Valeur réelle $ \small{ label } $ $ \small{ 24 } $
Perte L2

$ \small{ (prédiction - valeur réelle)^2} $

$\small{ (21.5 - 24)^2 }$

$\small{6,25}$

Dans cet exemple, la perte L2 pour ce seul point de données est de 6,25.

Choisir une perte

La décision d'utiliser la MAE ou la MSE peut dépendre de l'ensemble de données et de la manière dont vous souhaitez gérer certaines prédictions. La plupart des valeurs d'éléments d'un ensemble de données se situent généralement dans une plage distincte. Par exemple, les voitures pèsent généralement entre 2 000 et 5 000 livres et consomment entre 8 et 50 miles par gallon. Une voiture de 8 000 livres ou une voiture qui consomme 100 miles par gallon se situe en dehors de la plage typique et serait considérée comme un valeur aberrante.

Un écart peut également faire référence à l'écart entre les prédictions d'un modèle et les valeurs réelles. Par exemple, 3 000 livres correspond à la plage de poids typique d'une voiture, et 40 miles par gallon correspond à la plage d'efficacité énergétique typique. Toutefois, une voiture de 1 360 kg consommant 40 miles par gallon serait un cas atypique par rapport à la prédiction du modèle, car le modèle prédirait qu'une voiture de 1 360 kg consommerait entre 18 et 20 miles par gallon.

Lorsque vous choisissez la meilleure fonction de perte, réfléchissez à la façon dont vous souhaitez que le modèle traite les valeurs aberrantes. Par exemple, la MSE déplace le modèle davantage vers les valeurs aberrantes, contrairement à la MAE. La perte L2 entraîne une pénalité beaucoup plus élevée pour une valeur aberrante que la perte L1. Par exemple, les images suivantes montrent un modèle entraîné à l'aide de la MAE et un modèle entraîné à l'aide de la MSE. La ligne rouge représente un modèle entièrement entraîné qui sera utilisé pour effectuer des prédictions. Les valeurs aberrantes sont plus proches du modèle entraîné avec la MSE que du modèle entraîné avec l'EAM.

Figure 10 : Le modèle est davantage orienté vers les valeurs aberrantes.

Figure 10 : Un modèle entraîné avec la MSE le rapproche des valeurs aberrantes.

Figure 11. Le modèle est incliné plus loin des valeurs aberrantes.

Figure 11 : Un modèle entraîné avec l'EAM est plus éloigné des valeurs aberrantes.

Notez la relation entre le modèle et les données:

  • MSE Le modèle est plus proche des valeurs aberrantes, mais plus éloigné de la plupart des autres points de données.

  • EAM. Le modèle est plus éloigné des valeurs aberrantes, mais plus proche de la plupart des autres points de données.

Testez vos connaissances

Considérons les deux graphiques suivants:

Un graphique de 10 points.
      Une ligne traverse six des points. Deux points sont situés à une unité au-dessus de la ligne, et deux autres à une unité en dessous. Un graphique de 10 points. Une ligne passe par huit des points. Un point se trouve à deux unités au-dessus de la ligne, et un autre à deux unités en dessous.
Lequel des deux ensembles de données présentés dans les graphiques précédents a l'erreur quadratique moyenne (MSE) la plus élevée ?
Ensemble de données sur la gauche.
Les six exemples sur la droite subissent une perte de 0. Les quatre exemples qui ne se trouvent pas sur la ligne ne sont pas très éloignés de celle-ci. Par conséquent, même en élevant leur décalage au carré, la valeur obtenue est faible: $MSE = \frac{0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 0^2} {10} = 0.4$
Ensemble de données à droite.
Les huit exemples sur la droite subissent une perte totale de 0. Cependant, bien que seulement deux points se trouvent hors de la droite, ces deux points sont deux fois plus éloignés de la droite que les points des anomalies sur la figure de gauche. La perte quadratique amplifie ces différences. C'est pourquoi un décalage de deux subit une perte quatre fois plus grande qu'un décalage de un: $MSE = \frac{0^2 + 0^2 + 0^2 + 2^2 + 0^2 + 0^2 + 0^2 + 2^2 + 0^2 + 0^2} {10} = 0.8$