Encadrement: Terminologie clé du ML

Qu'est-ce que le machine learning (supervisé) ? Pour résumer, voici ce qu'il faut retenir:

  • Les systèmes de ML apprennent à combiner les entrées pour produire des prédictions utiles sur des données encore inconnues.

Découvrons la terminologie de base du machine learning.

Libellés

Une étiquette est l'élément que nous prédisons, la variable y dans une régression linéaire simple. L'étiquette peut indiquer le prix futur du blé, le genre d'animal représenté dans une image, la signification d'un extrait audio ou tout ce qui concerne à peu près tout.

Fonctionnalités

Une caractéristique est une variable d'entrée ; la variable x dans une régression linéaire simple. Un projet de machine learning simple peut utiliser une seule fonctionnalité, tandis qu'un projet de machine learning plus sophistiqué peut utiliser des millions de fonctionnalités, spécifiées comme suit:

\[\\{x_1, x_2, ... x_N\\}\]

Dans l'exemple du détecteur de spam, les caractéristiques pourraient être les suivantes:

  • mots dans le texte de l'e-mail
  • adresse de l'expéditeur
  • Heure de l'envoi de l'e-mail
  • e-mail contient l'expression "un truc bizarre"."

Exemples

Un exemple est une instance de données particulière, x. (Nous mettons x en gras pour indiquer qu'il s'agit d'un vecteur.) Nous pouvons diviser les exemples en deux catégories:

  • exemples étiquetés
  • exemples sans étiquette

Un exemple avec étiquette comprend à la fois les caractéristiques et l'étiquette. Par exemple :

  labeled examples: {features, label}: (x, y)

Utilisez des exemples étiquetés pour entraîner le modèle. Dans notre exemple de détecteur de spam, les exemples étiquetés seraient des e-mails individuels marqués explicitement comme "spam" par les utilisateurs ou comme "non spam".

Par exemple, le tableau suivant présente cinq exemples étiquetés d'un ensemble de données contenant des informations sur les prix des logements en Californie:

homeMedianAge
(caractéristique)
nombre total de salles
(fonctionnalité)
total des chambres
(caractéristique)
medianHouseValue
(libellé)
15 5612 1283 66900
19 7650 1901 80100
17 720 174 85700
14 1501 337 73400
20 1454 326 65500

Un exemple sans étiquette contient des caractéristiques, mais pas d'étiquette. Par exemple :

  unlabeled examples: {features, ?}: (x, ?)

Voici trois exemples sans étiquette issus du même ensemble de données sur l'immobilier, qui excluent medianHouseValue:

homeMedianAge
(caractéristique)
nombre total de salles
(fonctionnalité)
total des chambres
(caractéristique)
42 1686 361
34 1226 180
33 1077 271

Une fois notre modèle entraîné avec des exemples étiquetés, nous l'utilisons pour prédire l'étiquette sur des exemples non étiquetés. Dans le détecteur de spam, les exemples sans libellé sont de nouveaux e-mails que les humains n'ont pas encore libellés.

Models

Un modèle définit la relation entre les caractéristiques et l'étiquette. Par exemple, un modèle de détection de spam peut associer étroitement certaines caractéristiques au spam. Mettons en évidence deux phases d'un modèle:

  • L'entraînement consiste à créer ou à entraîner le modèle. Autrement dit, vous montrez au modèle des exemples étiquetés et lui permettez d'apprendre progressivement les relations entre les caractéristiques et l'étiquette.

  • L'inférence consiste à appliquer le modèle entraîné à des exemples sans étiquette. Autrement dit, vous utilisez le modèle entraîné pour effectuer des prédictions utiles (y'). Par exemple, pendant l'inférence, vous pouvez prédire medianHouseValue pour de nouveaux exemples sans étiquette.

Régression ou classification

Un modèle de régression prédit les valeurs continues. Par exemple, les modèles de régression effectuent des prédictions qui répondent aux questions suivantes:

  • Quelle est la valeur d'une maison en Californie ?

  • Quelle est la probabilité qu'un utilisateur clique sur cette annonce ?

Un modèle de classification prédit des valeurs discrètes. Par exemple, les modèles de classification effectuent des prédictions qui répondent aux questions suivantes:

  • Un e-mail donné est-il considéré comme du spam ou non ?

  • S'agit-il d'une image de chien, de chat ou de hamster ?