Qu'est-ce que le machine learning (supervisé) ? Pour résumer, voici ce qu'il faut retenir:
- Les systèmes de ML apprennent à combiner les entrées pour produire des prédictions utiles sur des données encore inconnues.
Découvrons la terminologie de base du machine learning.
Libellés
Une étiquette est l'élément que nous prédisons, la variable y
dans une régression linéaire simple. L'étiquette peut indiquer le prix futur du blé, le genre d'animal représenté dans une image, la signification d'un extrait audio ou tout ce qui concerne à peu près tout.
Fonctionnalités
Une caractéristique est une variable d'entrée ; la variable x
dans une régression linéaire simple. Un projet de machine learning simple peut utiliser une seule fonctionnalité, tandis qu'un projet de machine learning plus sophistiqué peut utiliser des millions de fonctionnalités, spécifiées comme suit:
\[\\{x_1, x_2, ... x_N\\}\]
Dans l'exemple du détecteur de spam, les caractéristiques pourraient être les suivantes:
- mots dans le texte de l'e-mail
- adresse de l'expéditeur
- Heure de l'envoi de l'e-mail
- e-mail contient l'expression "un truc bizarre"."
Exemples
Un exemple est une instance de données particulière, x. (Nous mettons x en gras pour indiquer qu'il s'agit d'un vecteur.) Nous pouvons diviser les exemples en deux catégories:
- exemples étiquetés
- exemples sans étiquette
Un exemple avec étiquette comprend à la fois les caractéristiques et l'étiquette. Par exemple :
labeled examples: {features, label}: (x, y)
Utilisez des exemples étiquetés pour entraîner le modèle. Dans notre exemple de détecteur de spam, les exemples étiquetés seraient des e-mails individuels marqués explicitement comme "spam" par les utilisateurs ou comme "non spam".
Par exemple, le tableau suivant présente cinq exemples étiquetés d'un ensemble de données contenant des informations sur les prix des logements en Californie:
homeMedianAge (caractéristique) |
nombre total de salles (fonctionnalité) |
total des chambres (caractéristique) |
medianHouseValue (libellé) |
---|---|---|---|
15 | 5612 | 1283 | 66900 |
19 | 7650 | 1901 | 80100 |
17 | 720 | 174 | 85700 |
14 | 1501 | 337 | 73400 |
20 | 1454 | 326 | 65500 |
Un exemple sans étiquette contient des caractéristiques, mais pas d'étiquette. Par exemple :
unlabeled examples: {features, ?}: (x, ?)
Voici trois exemples sans étiquette issus du même ensemble de données sur l'immobilier,
qui excluent medianHouseValue
:
homeMedianAge (caractéristique) |
nombre total de salles (fonctionnalité) |
total des chambres (caractéristique) |
---|---|---|
42 | 1686 | 361 |
34 | 1226 | 180 |
33 | 1077 | 271 |
Une fois notre modèle entraîné avec des exemples étiquetés, nous l'utilisons pour prédire l'étiquette sur des exemples non étiquetés. Dans le détecteur de spam, les exemples sans libellé sont de nouveaux e-mails que les humains n'ont pas encore libellés.
Models
Un modèle définit la relation entre les caractéristiques et l'étiquette. Par exemple, un modèle de détection de spam peut associer étroitement certaines caractéristiques au spam. Mettons en évidence deux phases d'un modèle:
L'entraînement consiste à créer ou à entraîner le modèle. Autrement dit, vous montrez au modèle des exemples étiquetés et lui permettez d'apprendre progressivement les relations entre les caractéristiques et l'étiquette.
L'inférence consiste à appliquer le modèle entraîné à des exemples sans étiquette. Autrement dit, vous utilisez le modèle entraîné pour effectuer des prédictions utiles (
y'
). Par exemple, pendant l'inférence, vous pouvez prédiremedianHouseValue
pour de nouveaux exemples sans étiquette.
Régression ou classification
Un modèle de régression prédit les valeurs continues. Par exemple, les modèles de régression effectuent des prédictions qui répondent aux questions suivantes:
Quelle est la valeur d'une maison en Californie ?
Quelle est la probabilité qu'un utilisateur clique sur cette annonce ?
Un modèle de classification prédit des valeurs discrètes. Par exemple, les modèles de classification effectuent des prédictions qui répondent aux questions suivantes:
Un e-mail donné est-il considéré comme du spam ou non ?
S'agit-il d'une image de chien, de chat ou de hamster ?