Régression linéaire

Ce module présente les concepts de la régression linéaire.

La régression linéaire est un statistique utilisée pour trouver la relation entre les variables. Dans un modèle de ML contexte, la régression linéaire trouve la relation fonctionnalités et étiquette.

Par exemple, supposons que nous voulions prédire la consommation de carburant d'une voiture en miles par gallon en fonction du poids de la voiture, et nous avons le jeu de données suivant:

Livres en milliers (fonctionnalité) Miles par gallon (libellé)
3.5 18
3,69 15
3,44 18
3,43 16
4,34 15
4,42 14
2,37 24

Si nous traçions ces points, nous obtiendrions le graphique suivant:

Figure 1. Points de données montrant une tendance à la baisse de gauche à droite.

Figure 1 : Poids de la voiture (en livres) par rapport à la classification en miles par gallon. En tant que la voiture devient plus lourde, sa puissance en miles par gallon diminue généralement.

Nous pourrions créer notre propre modèle en traçant la ligne la mieux adaptée entre les points:

Figure 2. Points de données traversés par une ligne la mieux ajustée et représentant le modèle.

Figure 2 : Une ligne d'ajustement optimale tracée à travers les données de la figure précédente.

Équation de régression linéaire

En termes algébriques, le modèle serait défini comme suit : $ y = mx + b $, où

  • $ y $ est "miles par gallon", c'est-à-dire la valeur que nous voulons prédire.
  • $ m $ est la pente de la droite.
  • $ x $ correspond à des livres, soit notre valeur d'entrée.
  • $ b $ est l'ordonnée à l'origine.

En ML, nous écrivons l'équation d'un modèle de régression linéaire comme suit:

$$ y' = b + w_1x_1 $$

où :

  • $ y' $ est l'étiquette prédite, c'est-à-dire la sortie.
  • $ b $ correspond au biais du modèle. Le biais est le même concept que l'ordonnée à l'origine en algébrique pour une droite. En ML, il est parfois appelé $ w_0 $. Biais est un paramètre du modèle. est calculé pendant l'entraînement.
  • $ w_1 $ est la pondération de la caractéristique. Dans l'algorithme algébrique, la pondération est le même concept que la pente $ m $ pour une droite. La pondération est un paramètre du modèle et est calculé pendant l'entraînement.
  • $ x_1 $ est une caractéristique : la saisie.

Pendant l'entraînement, le modèle calcule la pondération et le biais permettant d'obtenir du modèle de ML.

Figure 3. L'équation y' = b + w1x1, chaque composant étant annoté avec sa fonction.

Figure 3. Représentation mathématique d'un modèle linéaire.

Dans notre exemple, nous calculerions le poids et le biais à partir de la ligne que nous avons tracée. La est de 30 (la ligne croise l'axe des y) et la pondération est de -3,6 (la ligne la pente de la droite). Le modèle serait alors défini comme suit : $ y' = 30 + (-3, 6)(x_1) $ et nous pourrions l'utiliser pour faire des prédictions. Par exemple, en utilisant ce modèle, La voiture de 1 800 kilos aurait une consommation de carburant estimée de 25,3 km/s. gallon.

Figure 4. Même graphique que la figure 2, avec le point (4, 15,6) mis en évidence.

Figure 4. À partir de ce modèle, une voiture de 1 800 kg a une prédiction de carburant de 15,6 miles par gallon.

Modèles avec plusieurs caractéristiques

Bien que l'exemple de cette section n'utilise qu'une seule caractéristique : la lourdeur de la voiture. Un modèle plus sophistiqué peut reposer sur plusieurs caractéristiques, chacune ayant une pondération distincte ($ w_1 $, $ w_2 $, etc.). Par exemple, un modèle qui repose sur cinq caractéristiques serait écrit comme suit:

$ y' = b + w_1x_1 + w_2x_2 + w_3x_3 + w_4x_4 + w_5x_5 $

Par exemple, un modèle qui prédit la consommation de carburant peut aussi utiliser des caractéristiques par exemple:

  • Cylindrée
  • Accélération
  • Nombre de cylindres
  • Cheval-vapeur anglais

Ce modèle serait écrit comme suit:

Figure 5. Équation de régression linéaire à cinq caractéristiques.

Figure 5. Modèle avec cinq caractéristiques permettant de prédire les miles par gallon d'une voiture évaluation.

En créant un graphique pour certaines de ces caractéristiques supplémentaires, nous pouvons voir qu'elles ont également relation linéaire à l'étiquette (miles par gallon) :

Figure 6. Déplacement en centimètres cubes représenté par un mètre par gallon illustrant une relation linéaire négative.

Figure 6. Déplacement d'une voiture en centimètres cubes et en miles par gallon évaluation. À mesure que le moteur d'une voiture devient plus gros, sa capacité en miles par gallon diminue.

Figure 7. Accélération de zéro à soixante secondes représentée graphiquement par rapport aux kilomètres par gallon illustrant une relation linéaire positive.

Figure 7 : L'accélération d'une voiture et sa puissance en miles par gallon. Comme une voiture l'accélération prend plus de temps, la cote en miles par gallon augmente généralement.

Figure 8 : La puissance représentée sur un graphique correspond à la comparaison des kilomètres par gallon illustrant une relation linéaire négative.

Figure 8. La puissance en chevaux d'une voiture et sa puissance en miles par gallon Comme une voiture la puissance en chevaux augmente, la note en miles par gallon diminue généralement.

Exercice: tester vos connaissances

Quelles parties de l'équation de régression linéaire sont mises à jour pendant l'entraînement ?
Les biais et les pondérations
Pendant l'entraînement, le modèle met à jour en fonction de la perte.
La prédiction
Les prédictions ne sont pas mises à jour pendant l'entraînement.
Les valeurs des caractéristiques
Les valeurs des caractéristiques font partie de l'ensemble de données. Elles ne sont donc pas mises à jour. pendant l'entraînement.