Les tâches de l'apprentissage supervisé sont bien définies et peuvent être appliquées à une multitude de scénarios, tels que l'identification du spam ou la prédiction des précipitations.
Concepts fondamentaux de l'apprentissage supervisé
Le machine learning supervisé repose sur les concepts fondamentaux suivants:
- Données
- Modèle
- Formation
- Évaluation
- Inférence
Données
Les données sont le moteur du ML. Les données se présentent sous la forme de mots et de nombres stockés dans des tables, ou de valeurs de pixels et de formes d'ondes capturées dans des fichiers image et audio. Nous stockons les données associées dans des jeux de données. Par exemple, nous pouvons avoir un ensemble de données des éléments suivants:
- Images de chats
- Prix des logements
- Informations météo
Les ensembles de données sont constitués d'exemples individuels contenant des caractéristiques et une étiquette. Vous pouvez considérer un exemple comme analogue à une seule ligne d’une feuille de calcul. Les caractéristiques sont les valeurs qu'un modèle supervisé utilise pour prédire l'étiquette. L'étiquette est la "réponse" ou la valeur que le modèle doit prédire. Dans un modèle météo qui prédit des précipitations, les caractéristiques peuvent être la latitude, la longitude, la température, l'humidité, la couverture cloud, la direction du vent et la pression atmosphérique. L'étiquette est rainfall amount (montant des chutes de pluie).
Les exemples qui contiennent à la fois des caractéristiques et une étiquette sont appelés exemples étiquetés.
Deux exemples étiquetés
En revanche, les exemples sans étiquette contiennent des caractéristiques, mais pas d'étiquette. Une fois que vous avez créé un modèle, celui-ci prédit l'étiquette à partir des caractéristiques.
Deux exemples sans étiquette
Caractéristiques de l'ensemble de données
Un ensemble de données est caractérisé par sa taille et sa diversité. La taille indique le nombre d'exemples. La diversité indique la plage couverte par ces exemples. Les bons jeux de données sont à la fois volumineux et très variés.
Certains jeux de données sont à la fois vastes et variés. Cependant, certains ensembles de données sont volumineux mais présentent une faible diversité, tandis que d'autres sont petits, mais extrêmement variés. En d'autres termes, un ensemble de données volumineux ne garantit pas une diversité suffisante, et un ensemble de données très diversifié ne garantit pas un nombre suffisant d'exemples.
Par exemple, un ensemble de données peut contenir 100 ans de données, mais uniquement pour le mois de juillet. L'utilisation de cet ensemble de données pour prévoir les précipitations de janvier donnerait des prédictions médiocres. À l'inverse, un ensemble de données peut ne couvrir que quelques années, mais contenir une fois par mois. Cet ensemble de données peut produire des prédictions médiocres, car il ne contient pas suffisamment d'années pour tenir compte de la variabilité.
Testez vos connaissances
Un ensemble de données peut également être caractérisé par le nombre de ses caractéristiques. Par exemple, certains ensembles de données météorologiques peuvent contenir des centaines de caractéristiques, allant de l'imagerie satellitaire aux valeurs de couverture nuageuse. D'autres peuvent ne contenir que trois ou quatre caractéristiques, comme l'humidité, la pression atmosphérique et la température. Des ensembles de données comportant plus de caractéristiques peuvent aider un modèle à découvrir des modèles supplémentaires et à faire de meilleures prédictions. Toutefois, les ensembles de données comportant plus de caractéristiques ne produisent pas toujours de modèles permettant d'obtenir de meilleures prédictions, car certaines caractéristiques peuvent n'avoir aucune relation de cause à effet avec l'étiquette.
Modèle
Dans l'apprentissage supervisé, un modèle est une collection complexe de nombres qui définissent la relation mathématique entre des modèles de caractéristiques d'entrée spécifiques et des valeurs d'étiquettes de sortie spécifiques. Le modèle les découvre au cours de l'entraînement.
Formation
Avant de pouvoir réaliser des prédictions, un modèle supervisé doit être entraîné. Pour entraîner un modèle, nous lui fournissons un ensemble de données avec des exemples étiquetés. L'objectif du modèle est de trouver la meilleure solution pour prédire les étiquettes à partir des caractéristiques. Le modèle trouve la meilleure solution en comparant sa valeur prédite à la valeur réelle de l'étiquette. En fonction de la différence entre les valeurs prédites et réelles (définie comme la perte), le modèle met progressivement à jour sa solution. En d'autres termes, le modèle apprend la relation mathématique entre les caractéristiques et l'étiquette afin d'obtenir les meilleures prédictions sur des données inconnues.
Par exemple, si le modèle a prédit une valeur 1.15 inches
de pluie, mais que la valeur réelle était .75 inches
, le modèle modifie sa solution afin que sa prédiction soit plus proche de .75 inches
. Une fois que le modèle a examiné chaque exemple de l'ensemble de données (dans certains cas, plusieurs fois), il arrive à une solution permettant d'obtenir, en moyenne, les meilleures prédictions pour chacun des exemples.
Voici un exemple d'entraînement d'un modèle:
Le modèle prend un seul exemple étiqueté et fournit une prédiction.
Figure 1 : Modèle de ML effectuant une prédiction à partir d'un exemple étiqueté.
Le modèle compare sa valeur prédite à la valeur réelle et met à jour sa solution.
Figure 2 : Un modèle de ML met à jour sa valeur prédite.
Le modèle répète ce processus pour chaque exemple étiqueté de l'ensemble de données.
Image 3. Un modèle de ML mettant à jour ses prédictions pour chaque exemple étiqueté de l'ensemble de données d'entraînement.
De cette manière, le modèle apprend progressivement la relation correcte entre les caractéristiques et l'étiquette. Cette compréhension progressive explique aussi pourquoi des ensembles de données volumineux et diversifiés produisent un meilleur modèle. Le modèle a détecté davantage de données avec une gamme de valeurs plus large et a affiné sa compréhension de la relation entre les caractéristiques et l'étiquette.
Pendant l'entraînement, les professionnels du ML peuvent apporter de subtils ajustements aux configurations et aux fonctionnalités que le modèle utilise pour effectuer des prédictions. Par exemple, certaines caractéristiques ont plus de performances prédictives que d'autres. Par conséquent, les professionnels du ML peuvent sélectionner les caractéristiques que le modèle utilise pendant l'entraînement. Par exemple, supposons qu'un ensemble de données météorologiques contient time_of_day
comme caractéristique. Dans ce cas, un utilisateur du ML peut ajouter ou supprimer time_of_day
pendant l'entraînement pour voir si le modèle effectue de meilleures prédictions avec ou sans cet élément.
Évaluation
Nous évaluons un modèle entraîné pour déterminer la qualité de son apprentissage. Lorsque nous évaluons un modèle, nous utilisons un ensemble de données étiqueté, mais nous ne lui donnons que les caractéristiques de l'ensemble de données. Nous comparons ensuite les prédictions du modèle aux valeurs réelles de l'étiquette.
Figure 4. Évaluer un modèle de ML en comparant ses prédictions aux valeurs réelles
En fonction des prédictions du modèle, nous pouvons procéder à davantage d'entraînement et d'évaluation avant de déployer le modèle dans une application réelle.
Testez vos connaissances
Inférence
Une fois que nous sommes satisfaits des résultats de l'évaluation du modèle, nous pouvons l'utiliser pour effectuer des prédictions, appelées inférences, sur des exemples sans étiquette. Dans l'exemple d'une application météo, nous donnerions au modèle les conditions météorologiques actuelles (telles que la température, la pression atmosphérique et l'humidité relative) pour prédire la quantité de précipitations.