Régression linéaire

Ce module présente les concepts de régression linéaire.

La régression linéaire est une technique statistique utilisée pour déterminer la relation entre les variables. Dans un contexte de ML, la régression linéaire permet de trouver la relation entre les caractéristiques et une étiquette.

Par exemple, supposons que nous souhaitions prédire l'efficacité énergétique d'une voiture en miles par gallon en fonction de son poids, et que nous disposions de l'ensemble de données suivant:

Livres par milliers (fonctionnalité) Miles par gallon (libellé)
3.5 18
3,69 15
3.44 18
3,43 16
4,34 15
4,42 14
2,37 24

Si nous traçons ces points, nous obtenons le graphique suivant:

Figure 1. Points de données montrant une tendance à la baisse de gauche à droite.

Figure 1 : Poids de la voiture (en livres) par rapport à la consommation de carburant en miles par gallon Plus une voiture est lourde, moins elle consomme de carburant.

Nous pourrions créer notre propre modèle en traçant une ligne d'ajustement par rapport aux points:

Figure 2. Points de données avec une ligne de meilleure adéquation tracée à travers eux représentant le modèle.

Figure 2 : Ligne de meilleure approximation tracée sur les données de la figure précédente.

Équation de régression linéaire

En termes algébriques, le modèle serait défini comme $ y = mx + b $, où

  • $ y $ correspond aux miles par gallon, la valeur que nous voulons prédire.
  • $ m $ est la pente de la droite.
  • $ x $ correspond à la valeur d'entrée (livres sterling).
  • $ b $ correspond à l'ordonnée à l'origine.

En ML, nous écrivons l'équation d'un modèle de régression linéaire comme suit:

$$ y' = b + w_1x_1 $$

où :

  • $ y' $ est l'étiquette prédite, c'est-à-dire la sortie.
  • $ b $ est le biais du modèle. Le biais est le même concept que l'ordonnée à l'origine dans l'équation algébrique d'une ligne. Dans le ML, le biais est parfois appelé $ w_0 $. Il s'agit d'un paramètre du modèle, qui est calculé pendant l'entraînement.
  • $ w_1 $ est le facteur de pondération de l'élément géographique. La pondération est un concept identique à celui de la pente $ m $ dans l'équation algébrique d'une ligne. La pondération est un paramètre du modèle et est calculée pendant l'entraînement.
  • $ x_1 $ est une fonctionnalité, c'est-à-dire l'entrée.

Lors de l'entraînement, le modèle calcule le poids et le biais qui produisent le meilleur modèle.

Figure 3. Équation y' = b + w1x1, avec l'annotation de la finalité de chaque composant.

Figure 3. Représentation mathématique d'un modèle linéaire.

Dans notre exemple, nous calculons le poids et le biais à partir de la ligne que nous avons tracée. Le biais est de 30 (point d'intersection de la ligne avec l'axe Y), et le poids est de -3,6 (pente de la ligne). Le modèle serait défini comme $ y' = 30 + (-3,6)(x_1) $, et nous pourrions l'utiliser pour effectuer des prédictions. Par exemple, avec ce modèle, une voiture de 4 000 livres aurait une consommation de carburant estimée à 15,6 miles par gallon.

Figure 4. Même graphique que la figure 2, avec le point (4, 15,6) mis en surbrillance.

Figure 4. D'après le modèle, une voiture de 4 000 livres a une consommation de carburant estimée à 15,6 miles par gallon.

Modèles avec plusieurs fonctionnalités

Bien que l'exemple de cette section n'utilise qu'une seule caractéristique (la lourdeur de la voiture), un modèle plus sophistiqué peut s'appuyer sur plusieurs caractéristiques, chacune ayant un poids distinct ($ w_1 $, $ w_2 $, etc.). Par exemple, un modèle qui repose sur cinq caractéristiques s'écrit comme suit:

$ y' = b + w_1x_1 + w_2x_2 + w_3x_3 + w_4x_4 + w_5x_5 $

Par exemple, un modèle qui prédit la consommation de carburant peut également utiliser des fonctionnalités telles que les suivantes:

  • Cylindrée
  • Accélération
  • Nombre de cylindres
  • Cheval-vapeur anglais

Ce modèle s'écrit comme suit:

Figure 5. Équation de régression linéaire avec cinq caractéristiques.

Figure 5. Modèle avec cinq caractéristiques pour prédire la consommation de carburant d'une voiture en miles par gallon.

En représentant graphiquement certaines de ces caractéristiques supplémentaires, nous pouvons voir qu'elles ont également une relation linéaire avec l'étiquette, miles par gallon:

Figure 6. Cylindrée en centimètres cubes représentée graphiquement par rapport aux miles par gallon, ce qui montre une relation linéaire négative.

Figure 6. Cylindrée d'une voiture en centimètres cubes et consommation en miles par gallon À mesure que le moteur d'une voiture augmente, sa consommation en miles par gallon diminue généralement.

Figure 7. Accélération de zéro à 60 km/h en secondes représentée par rapport aux miles par gallon, ce qui montre une relation linéaire positive.

Figure 7 : L'accélération d'une voiture et sa consommation en miles par gallon Plus l'accélération d'une voiture prend du temps, plus la consommation moyenne en litres par 100 km augmente généralement.

Figure 8 : Graphique représentant la puissance en chevaux par rapport aux miles par gallon, montrant une relation linéaire négative.

Figure 8. La puissance en chevaux et la consommation en litres par 100 km d'une voiture À mesure que la puissance d'une voiture augmente, la consommation moyenne en litres par 100 km diminue généralement.

Exercice: Vérifiez votre compréhension

Quelles parties de l'équation de régression linéaire sont mises à jour pendant l'entraînement ?
Le biais et les pondérations
Pendant l'entraînement, le modèle met à jour le biais et les pondérations.
La prédiction
Les prédictions ne sont pas mises à jour pendant l'entraînement.
Les valeurs des caractéristiques
Les valeurs des caractéristiques font partie de l'ensemble de données. Elles ne sont donc pas mises à jour pendant l'entraînement.