Ce module présente les concepts de régression linéaire.
La régression linéaire est une technique statistique utilisée pour déterminer la relation entre les variables. Dans un contexte de ML, la régression linéaire permet de trouver la relation entre les caractéristiques et une étiquette.
Par exemple, supposons que nous souhaitions prédire l'efficacité énergétique d'une voiture en miles par gallon en fonction de son poids, et que nous disposions de l'ensemble de données suivant:
Livres par milliers (fonctionnalité) | Miles par gallon (libellé) |
---|---|
3.5 | 18 |
3,69 | 15 |
3.44 | 18 |
3,43 | 16 |
4,34 | 15 |
4,42 | 14 |
2,37 | 24 |
Si nous traçons ces points, nous obtenons le graphique suivant:
Figure 1 : Poids de la voiture (en livres) par rapport à la consommation de carburant en miles par gallon Plus une voiture est lourde, moins elle consomme de carburant.
Nous pourrions créer notre propre modèle en traçant une ligne d'ajustement par rapport aux points:
Figure 2 : Ligne de meilleure approximation tracée sur les données de la figure précédente.
Équation de régression linéaire
En termes algébriques, le modèle serait défini comme $ y = mx + b $, où
- $ y $ correspond aux miles par gallon, la valeur que nous voulons prédire.
- $ m $ est la pente de la droite.
- $ x $ correspond à la valeur d'entrée (livres sterling).
- $ b $ correspond à l'ordonnée à l'origine.
En ML, nous écrivons l'équation d'un modèle de régression linéaire comme suit:
où :
- $ y' $ est l'étiquette prédite, c'est-à-dire la sortie.
- $ b $ est le biais du modèle. Le biais est le même concept que l'ordonnée à l'origine dans l'équation algébrique d'une ligne. Dans le ML, le biais est parfois appelé $ w_0 $. Il s'agit d'un paramètre du modèle, qui est calculé pendant l'entraînement.
- $ w_1 $ est le facteur de pondération de l'élément géographique. La pondération est un concept identique à celui de la pente $ m $ dans l'équation algébrique d'une ligne. La pondération est un paramètre du modèle et est calculée pendant l'entraînement.
- $ x_1 $ est une fonctionnalité, c'est-à-dire l'entrée.
Lors de l'entraînement, le modèle calcule le poids et le biais qui produisent le meilleur modèle.
Figure 3. Représentation mathématique d'un modèle linéaire.
Dans notre exemple, nous calculons le poids et le biais à partir de la ligne que nous avons tracée. Le biais est de 30 (point d'intersection de la ligne avec l'axe Y), et le poids est de -3,6 (pente de la ligne). Le modèle serait défini comme $ y' = 30 + (-3,6)(x_1) $, et nous pourrions l'utiliser pour effectuer des prédictions. Par exemple, avec ce modèle, une voiture de 4 000 livres aurait une consommation de carburant estimée à 15,6 miles par gallon.
Figure 4. D'après le modèle, une voiture de 4 000 livres a une consommation de carburant estimée à 15,6 miles par gallon.
Modèles avec plusieurs fonctionnalités
Bien que l'exemple de cette section n'utilise qu'une seule caractéristique (la lourdeur de la voiture), un modèle plus sophistiqué peut s'appuyer sur plusieurs caractéristiques, chacune ayant un poids distinct ($ w_1 $, $ w_2 $, etc.). Par exemple, un modèle qui repose sur cinq caractéristiques s'écrit comme suit:
$ y' = b + w_1x_1 + w_2x_2 + w_3x_3 + w_4x_4 + w_5x_5 $
Par exemple, un modèle qui prédit la consommation de carburant peut également utiliser des fonctionnalités telles que les suivantes:
- Cylindrée
- Accélération
- Nombre de cylindres
- Cheval-vapeur anglais
Ce modèle s'écrit comme suit:
Figure 5. Modèle avec cinq caractéristiques pour prédire la consommation de carburant d'une voiture en miles par gallon.
En représentant graphiquement certaines de ces caractéristiques supplémentaires, nous pouvons voir qu'elles ont également une relation linéaire avec l'étiquette, miles par gallon:
Figure 6. Cylindrée d'une voiture en centimètres cubes et consommation en miles par gallon À mesure que le moteur d'une voiture augmente, sa consommation en miles par gallon diminue généralement.
Figure 7 : L'accélération d'une voiture et sa consommation en miles par gallon Plus l'accélération d'une voiture prend du temps, plus la consommation moyenne en litres par 100 km augmente généralement.
Figure 8. La puissance en chevaux et la consommation en litres par 100 km d'une voiture À mesure que la puissance d'une voiture augmente, la consommation moyenne en litres par 100 km diminue généralement.