Régression linéaire: perte

La perte est une métrique numérique qui décrit le degré d'erreur dans les prédictions d'un modèle ; sont les mêmes. La perte mesure la distance entre les prédictions du modèle et les valeurs réelles étiquettes. L'objectif de l'entraînement d'un modèle est de minimiser la perte pour la réduire la plus faible valeur possible.

Dans l'image suivante, vous pouvez visualiser la perte sous forme de flèches dessinées à partir des données. qui pointe vers le modèle. Les flèches indiquent l'écart entre les prédictions du modèle les valeurs réelles.

Figure 9. Les lignes de perte connectent les points de données
du modèle de ML.

Figure 9. La perte est mesurée entre la valeur réelle et la valeur prédite.

Distance de perte

Dans le domaine des statistiques et du machine learning, la perte mesure la différence entre les valeurs prédites et réelles. La perte se concentre sur la distance entre les valeurs. et non la direction. Par exemple, si un modèle prédit 2, mais que la valeur réelle est 5, peu importe que la perte soit négative $ -3 $ ($ 2-5=-3 $). Au lieu de cela, nous voulons que la distance entre les valeurs soit de 3 $ $. Ainsi, toutes les les méthodes de calcul de la perte suppriment le signe.

Les deux méthodes les plus courantes pour supprimer le signe sont les suivantes:

  • Prenez la valeur absolue de la différence entre la valeur réelle et le la prédiction.
  • Élevez la différence entre la valeur réelle et la prédiction au carré.

Types de pertes

Dans la régression linéaire, il existe quatre principaux types de perte, décrits dans dans le tableau suivant.

Type de perte Définition Équation
perte L1 La somme des valeurs absolues de la différence entre les valeurs prédites et réelles. $ Ψ | valeur\ réelle - valeur\ prédite | €
Erreur absolue moyenne (EAM) Moyenne des pertes L1 sur un ensemble d'exemples. $ \frac{1}{N} ∑ | valeur\ réelle - valeur\ prédite | €
Perte L2 La somme des carrés de la différence entre les valeurs prédites et réelles. $ Ψ(valeur\ réelle - valeur\ prédite)^2 $
Erreur quadratique moyenne (MSE) Moyenne des pertes L2 sur un ensemble d'exemples. $ \frac{1}{N} Σ (valeur\ réelle - valeur\ prédite)^2 $

Différence fonctionnelle entre la perte L1 et la perte L2 (ou entre EAM et MSE) est la mise au carré. Lorsque la différence entre les la prédiction et l'étiquette sont grandes. La mise au carré augmente la perte. Lorsque la différence est faible (inférieure à 1), la mise au carré réduit encore la perte.

Lorsque vous traitez plusieurs exemples à la fois, nous vous recommandons d'établir la moyenne des pertes. dans tous les exemples, qu'ils utilisent l'EAM ou la MSE.

Exemple de calcul de la perte

À l'aide de la ligne optimale précédente, nous calculerons la perte L2 pour un seul exemple. Depuis l' ligne la plus adaptée, nous avions les valeurs suivantes pour les pondérations et les biais:

  • $ \small{Poids: -3,6} $
  • $ \small{Biais: 30} $

Si le modèle prédit qu'une voiture de 1 000 kg parviendra à 34,5 km par gallon, pour 24 miles par gallon, nous calculerions la perte L2 comme suit : ce qui suit:

Valeur Équation Résultat
Prédiction

$\small{biais + (poids * caractéristique\ valeur)}$

$\small{30 + (-3,6*2,37)}$

$\small{21.5}$
Valeur réelle $ \small{ label } $ $ \small{ 24 } $
perte L2

$ \small{ (prédiction - valeur\ réelle)^2} $

$\small{ (21,5 - 24)^2 }$

$\small{6.25}$

Dans cet exemple, la perte L2 pour ce point de données unique est de 6,25.

Choisir une perte

La décision d'utiliser l'EAM ou l'EAM peut dépendre de l'ensemble de données et de la façon dont vous pour traiter certaines prédictions. La plupart des valeurs de caractéristiques d'un ensemble de données appartiennent à une plage distincte. Par exemple, les voitures sont normalement entre 2 000 et de 2 000 kg et de peser entre 12 et 80 km/l. Une voiture de 3 600 kg ou une voiture dont la puissance est de 160 km/l, est en dehors de la plage habituelle sont considérées comme des valeurs aberrantes.

Une anomalie peut également indiquer l'écart entre les prédictions d'un modèle et les données réelles valeurs. Par exemple, une voiture de 1 200 kg ou une voiture dont la puissance est de 65 km par gallon se situent dans les limites habituelles. Cependant, une voiture de 1 400 kg 65 km par gallon serait une anomalie par rapport à la prédiction du modèle. car le modèle prédit qu'une voiture de 1 400 kg obtiendra entre 18 et 30 km/l.

Lorsque vous choisissez la meilleure fonction de perte, réfléchissez à la manière dont vous voulez que le modèle traite les valeurs aberrantes. Par exemple, la MSE oriente davantage le modèle vers les valeurs aberrantes, tandis que l'EAM ne fonctionne pas. La perte L2 entraîne une pénalité bien plus élevée pour les anomalies perte L1. Par exemple, les images suivantes montrent un modèle entraîné à l'aide de l'EAM et d'un modèle entraîné à l'aide de MSE. La ligne rouge représente entraîné qui servira à réaliser des prédictions. Les valeurs aberrantes sont plus proches de entre le modèle entraîné avec la MSE et le modèle entraîné avec l'EAM.

Figure 10 : Le modèle est davantage incliné vers les valeurs aberrantes.

Figure 10 : Un modèle entraîné à l'aide de la MSE le rapproche des anomalies.

Figure 11 : Le modèle est davantage incliné vers les valeurs aberrantes.

Figure 11 : Un modèle entraîné avec l'EAM est plus éloigné des valeurs aberrantes.

Notez la relation entre le modèle et les données:

  • MSE : Le modèle est plus proche des anomalies, mais plus éloigné de la plupart des les autres points de données.

  • MAE. Le modèle est plus éloigné des valeurs aberrantes, mais plus proche de la plupart des les autres points de données.

Testez vos connaissances

Considérez les deux tracés suivants:

Un graphique de 10 points.
      Une ligne passe par six points. 2 points valent 1 unité
      au-dessus de la ligne ; 2 autres points représentent 1 unité en dessous de la ligne. Un graphique de 10 points. Une ligne court
      à 8 des points. 1 point équivaut à 2 unités
      au-dessus de la ligne ; 1 autre point se situe 2 unités en dessous de la ligne.
Lequel des deux jeux de données montrés dans les tracés précédents présente l'erreur quadratique moyenne (MSE) la plus élevée ?
Le jeu de données de gauche.
Les six exemples sur la droite subissent une perte totale de 0. Les quatre les exemples qui ne sont pas en ligne ne sont pas très éloignés. la mise au carré de son décalage donne toujours une valeur faible: $MSE = \frac{0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 0^2} {10} = 0,4 €
Le jeu de données de droite.
Les huit exemples sur la droite subissent une perte totale de 0. Toutefois, bien que seuls deux points se trouvent sur la ligne, sont deux fois plus éloignés de la ligne que les valeurs aberrantes. sur la figure de gauche. La perte quadratique amplifie ces différences, Ainsi, un décalage de 2 entraîne une perte quatre fois plus grande qu'un décalage sur un: $MSE = \frac{0^2 + 0^2 + 0^2 + 2^2 + 0^2 + 0^2 + 0^2 + 2^2 + 0^2 + 0^2} {10} = 0,8 €