Glossaire du machine learning: Bases du ML

Cette page contient les termes du glossaire du cours "Principes fondamentaux du ML". Pour connaître tous les termes du glossaire, cliquez ici.

A

accuracy

#fundamentals

Nombre de prédictions de classification correctes divisé par le nombre total de prédictions. Par exemple :

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Par exemple, un modèle qui a effectué 40 prédictions correctes et 10 prédictions incorrectes aurait une précision de:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

La classification binaire fournit des noms spécifiques aux différentes catégories de prédictions correctes et de prédictions incorrectes. La formule de précision pour la classification binaire est donc la suivante:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

où :

  • Le TP correspond au nombre de vrais positifs (prédictions correctes).
  • TN correspond au nombre de vrais négatifs (prédictions correctes).
  • Le FP correspond au nombre de faux positifs (prédictions incorrectes).
  • FN correspond au nombre de faux négatifs (prédictions incorrectes).

Comparez la justesse à la précision et au rappel.

Pour en savoir plus, consultez Classification: précision, rappel, précision et métriques associées dans le cours d'initiation au machine learning.

fonction d'activation

#fundamentals

Fonction qui permet aux réseaux de neurones d'apprendre des relations non linéaires (complexes) entre les caractéristiques et l'étiquette.

Voici quelques fonctions d'activation courantes:

Les tracés des fonctions d'activation ne sont jamais des lignes droites. Par exemple, le tracé de la fonction d'activation ReLU se compose de deux lignes droites:

Graphique cartésien de deux lignes. La première ligne a une valeur y constante de 0, qui s'étend le long de l'axe X de -infini,0 à 0,-0.
          La deuxième ligne commence à 0,0. Cette ligne a une pente de +1. Elle s'étend donc de 0,0 à +infini,+infini.

Un graphique de la fonction d'activation sigmoïde se présente comme suit:

Graphique courbe à deux dimensions dont les valeurs x couvrent la plage allant de l'infini négatif à l'infini positif, tandis que les valeurs y couvrent la plage allant presque de 0 à 1. Lorsque x est égal à 0, y est égal à 0,5. La pente de la courbe est toujours positive, avec la pente la plus élevée à 0,0,5 et des pentes diminuant progressivement à mesure que la valeur absolue de x augmente.

Pour en savoir plus, consultez la section Réseaux de neurones: fonctions d'activation du cours d'initiation au machine learning.

intelligence artificielle

#fundamentals

Programme ou modèle non humain capable de résoudre des tâches complexes. Par exemple, un programme ou un modèle qui traduit du texte ou un programme ou un modèle qui identifie des maladies à partir d'images radiologiques présentent tous deux de l'intelligence artificielle.

Formellement, le machine learning est un sous-domaine de l'intelligence artificielle. Toutefois, ces dernières années, certaines entreprises ont commencé à utiliser les termes intelligence artificielle et machine learning de manière interchangeable.

AUC (aire sous la courbe ROC)

#fundamentals

Valeur comprise entre 0,0 et 1,0 représentant la capacité d'un modèle de classification binaire à séparer les classes positives des classes négatives. Plus l'AUC est proche de 1, plus le modèle est capable de séparer les classes les unes des autres.

Par exemple, l'illustration suivante montre un modèle de classificateur qui sépare parfaitement les classes positives (ovales verts) des classes négatives (rectangles violets). Ce modèle irréalistement parfait a une AUC de 1,0:

Une ligne numérique avec huit exemples positifs d'un côté et neuf exemples négatifs de l'autre.

À l'inverse, l'illustration suivante montre les résultats d'un modèle de classificateur qui a généré des résultats aléatoires. Ce modèle a une AUC de 0,5:

Une ligne numérique avec six exemples positifs et six exemples négatifs.
          La séquence d'exemples est positive, négative, positive, négative, positive, négative, positive, négative, positive, négative, positive, négative.

Oui, le modèle précédent a une AUC de 0,5, et non de 0,0.

La plupart des modèles se situent entre les deux extrêmes. Par exemple, le modèle suivant sépare quelque peu les éléments positifs des éléments négatifs. Il a donc une AUC comprise entre 0,5 et 1,0:

Une ligne numérique avec six exemples positifs et six exemples négatifs.
          La séquence d'exemples est négative, négative, négative, négative, positive, négative, positive, positive, négative, positive, positive, positive.

L'AUC ignore toute valeur que vous définissez pour le seuil de classification. À la place, l'AUC tient compte de tous les seuils de classification possibles.

Pour en savoir plus, consultez la section Classification: ROC et AUC du cours d'initiation au machine learning.

B

rétropropagation

#fundamentals

Algorithme qui implémente la descente de gradient dans les réseaux de neurones.

L'entraînement d'un réseau de neurones implique de nombreuses iterations du cycle en deux étapes suivant:

  1. Lors de la passée avant, le système traite un lot d'exemples pour générer une ou plusieurs prédictions. Le système compare chaque prédiction à chaque valeur de libellé. La différence entre la prédiction et la valeur de l'étiquette correspond à la perte pour cet exemple. Le système regroupe les pertes de tous les exemples pour calculer la perte totale du lot en cours.
  2. Lors de la passée arrière (backpropagation), le système réduit la perte en ajustant les poids de tous les neurones de toutes les couches cachées.

Les réseaux de neurones contiennent souvent de nombreux neurones sur de nombreuses couches cachées. Chacun de ces neurones contribue à la perte globale de différentes manières. La rétropropagation détermine si les pondérations appliquées à des neurones spécifiques doivent être augmentées ou diminuées.

Le taux d'apprentissage est un multiplicateur qui contrôle le degré auquel chaque passe arrière augmente ou diminue chaque poids. Un taux d'apprentissage élevé augmente ou diminue chaque poids plus qu'un taux d'apprentissage faible.

En termes de calcul, la rétropropagation implémente la règle de la chaîne. Autrement dit, la rétropropagation calcule la dérivée partielle de l'erreur par rapport à chaque paramètre.

Il y a quelques années, les professionnels du ML devaient écrire du code pour implémenter la rétropropagation. Les API de ML modernes comme Keras implémentent désormais la rétropropagation pour vous. Ouf !

Pour en savoir plus, consultez la section Réseaux de neurones du cours d'initiation au machine learning.

lot

#fundamentals

Ensemble d'exemples utilisés dans une itération d'entraînement. La taille de lot détermine le nombre d'exemples dans un lot.

Consultez la section epoch pour comprendre comment un lot se rapporte à une époque.

Pour en savoir plus, consultez la section Régression linéaire : hyperparamètres du cours d'initiation au machine learning.

taille du lot

#fundamentals

Nombre d'exemples dans un lot. Par exemple, si la taille de lot est de 100, le modèle traite 100 exemples par itération.

Voici quelques stratégies de taille de lot populaires:

  • Descente de gradient stochastique (SGD), dans laquelle la taille de lot est de 1.
  • Lot complet, dans lequel la taille de lot correspond au nombre d'exemples de l'ensemble d'entraînement complet. Par exemple, si l'ensemble d'entraînement contient un million d'exemples, la taille de lot sera de un million d'exemples. Le traitement par lot complet est généralement une stratégie inefficace.
  • mini-lot, dont la taille est généralement comprise entre 10 et 1 000. La stratégie de mini-lot est généralement la plus efficace.

Pour en savoir plus, lisez les informations ci-après.

biais (éthique/équité) (bias (ethics/fairness))

#fairness
#fundamentals

1. Stéréotypes, préjugés ou favoritisme envers certains groupes, choses ou personnes par rapport à d'autres. Ces biais peuvent avoir une incidence sur la collecte et l'interprétation des données, ainsi que sur la conception d'un système et la manière dont les utilisateurs interagissent avec celui-ci. Les formes de ce type de biais comprennent les éléments suivants:

2. Erreur systématique introduite par une procédure d'échantillonnage ou de rapport. Les formes de ce type de biais comprennent les éléments suivants:

À ne pas confondre avec le biais des modèles de machine learning ou le biais de prédiction.

Pour en savoir plus, consultez la section Équité: types de biais du cours d'initiation au machine learning.

biais (mathématiques) ou terme de biais

#fundamentals

Ordonnée à l'origine ou décalage par rapport à une origine. Le biais est un paramètre des modèles de machine learning, symbolisé par l'un des éléments suivants:

  • b
  • w0

Par exemple, b représente le biais dans la formule suivante:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Dans une ligne bidimensionnelle simple, le biais correspond simplement à l'ordonnée à l'origine. Par exemple, le biais de la ligne de l'illustration suivante est de 2.

Graphique d'une ligne avec une pente de 0,5 et un biais (interception y) de 2.

Un biais existe, car tous les modèles ne partent pas de l'origine (0,0). Par exemple, supposons qu'un parc d'attractions coûte 2 euros à l'entrée et 0,5 euro supplémentaire par heure de présence d'un client. Par conséquent, un modèle mappant le coût total présente un biais de 2, car le coût le plus bas est de 2 euros.

Le biais ne doit pas être confondu avec le biais en matière d'éthique et d'équité ou le biais de prédiction.

Pour en savoir plus, consultez la section Régression linéaire du cours d'initiation au machine learning.

classification binaire

#fundamentals

Type de tâche de classification qui prédit l'une des deux classes mutuellement exclusives:

Par exemple, les deux modèles de machine learning suivants effectuent chacun une classification binaire:

  • Modèle qui détermine si les e-mails sont du spam (classe positive) ou non (classe négative).
  • Modèle qui évalue les symptômes médicaux pour déterminer si une personne est atteinte d'une maladie particulière (classe positive) ou non (classe négative).

À comparer à la classification multiclasse.

Consultez également les articles sur la régression logistique et le seuil de classification.

Pour en savoir plus, consultez la section Classification du cours d'initiation au machine learning.

le binning

#fundamentals

Conversion d'une seule fonctionnalité en plusieurs fonctionnalités binaires appelées ensembles ou classes, généralement en fonction d'une plage de valeurs. La caractéristique hachée est généralement une caractéristique continue.

Par exemple, au lieu de représenter la température comme une seule caractéristique à virgule flottante continue, vous pouvez diviser les plages de températures en buckets distincts, par exemple:

  • <= 10 degrés Celsius correspond au bac "froid".
  • La plage de température de 11 à 24 degrés Celsius correspond à la catégorie "tempéré".
  • >= 25 degrés Celsius correspond à la catégorie "chaud".

Le modèle traitera toutes les valeurs du même bucket de la même manière. Par exemple, les valeurs 13 et 22 se trouvent toutes deux dans le bucket tempéré. Le modèle traite donc les deux valeurs de manière identique.

Pour en savoir plus, consultez la section Données numériques : binning du cours d'initiation au machine learning.

C

données catégorielles

#fundamentals

Caractéristiques avec un ensemble spécifique de valeurs possibles. Par exemple, imaginons une caractéristique catégorique nommée traffic-light-state, qui ne peut avoir qu'une des trois valeurs possibles suivantes:

  • red
  • yellow
  • green

En représentant traffic-light-state comme une caractéristique catégorielle, un modèle peut apprendre les différents impacts de red, green et yellow sur le comportement des conducteurs.

Les caractéristiques catégoriques sont parfois appelées caractéristiques discrètes.

À comparer aux données numériques.

Pour en savoir plus, consultez la section Utiliser des données catégorielles dans le cours d'initiation au machine learning.

classe

#fundamentals

Catégorie à laquelle un libellé peut appartenir. Exemple :

Un modèle de classification prédit une classe. À l'inverse, un modèle de régression prédit un nombre plutôt qu'une classe.

Pour en savoir plus, consultez la section Classification du cours d'initiation au machine learning.

modèle de classification

#fundamentals

Modèle dont la prédiction est une classe. Par exemple, les modèles suivants sont tous des modèles de classification:

  • Modèle qui prédit la langue d'une phrase d'entrée (français ? Espagnol ? Italien ?).
  • Un modèle qui prédit les espèces d'arbres (érable ? Chêne ? Baobab ?).
  • Modèle qui prédit la classe positive ou négative pour une affection médicale particulière.

En revanche, les modèles de régression prédisent des nombres plutôt que des classes.

Voici deux types de modèles de classification courants:

seuil de classification

#fundamentals

Dans une classification binaire, nombre compris entre 0 et 1 qui convertit la sortie brute d'un modèle de régression logistique en prédiction de la classe positive ou de la classe négative. Notez que le seuil de classification est une valeur choisie par un humain, et non par l'entraînement du modèle.

Un modèle de régression logistique génère une valeur brute comprise entre 0 et 1. Ensuite :

  • Si cette valeur brute est supérieure au seuil de classification, la classe positive est prédite.
  • Si cette valeur brute est inférieure au seuil de classification, la classe négative est prédite.

Par exemple, supposons que le seuil de classification soit de 0,8. Si la valeur brute est de 0,9, le modèle prédit la classe positive. Si la valeur brute est de 0,7, le modèle prédit la classe négative.

Le choix du seuil de classification a une forte influence sur le nombre de faux positifs et de faux négatifs.

Pour en savoir plus, consultez la section Seuils et matrice de confusion du cours d'initiation au machine learning.

ensemble de données avec déséquilibre des classes

#fundamentals

Ensemble de données pour un problème de classification dans lequel le nombre total d'étiquettes de chaque classe diffère considérablement. Prenons l'exemple d'un ensemble de données de classification binaire dont les deux étiquettes sont réparties comme suit:

  • 1 000 000 de libellés négatifs
  • 10 libellés positifs

Le ratio entre les étiquettes négatives et positives est de 100 000 à 1. Il s'agit donc d'un ensemble de données déséquilibré.

En revanche, l'ensemble de données suivant n'est pas déséquilibré par classe, car le ratio entre les libellés négatifs et les libellés positifs est relativement proche de 1:

  • 517 libellés négatifs
  • 483 libellés positifs

Les ensembles de données multiclasses peuvent également présenter un déséquilibre des classes. Par exemple, l'ensemble de données de classification multiclasse suivant est également déséquilibré, car une étiquette contient beaucoup plus d'exemples que les deux autres:

  • 1 000 000 libellés de la classe "vert"
  • 200 étiquettes de la classe "purple"
  • 350 libellés de la classe "orange"

Voir également entropie, classe majoritaire et classe minoritaire.

coupure

#fundamentals

Technique de gestion des anomalies en effectuant l'une des opérations suivantes ou les deux:

  • Abaisser les valeurs de caractéristiques qui sont supérieures à un seuil maximal à ce seuil maximal.
  • Élever les valeurs de caractéristiques qui sont inférieures à un seuil minimal à ce seuil minimal.

Par exemple, supposons que moins de 0,5% des valeurs d'une caractéristique particulière ne sont pas comprises entre 40 et 60. Dans ce cas, vous pouvez procéder comme suit:

  • Borner toutes les valeurs supérieures à 60 (seuil maximal) pour obtenir exactement 60.
  • Borner toutes les valeurs inférieures à 40 (seuil minimal) pour obtenir exactement 40.

Les valeurs aberrantes peuvent endommager les modèles, ce qui entraîne parfois un débordement des pondérations lors de l'entraînement. Certains points aberrants peuvent également considérablement fausser des métriques telles que la précision. Le recadrage est une technique courante pour limiter les dommages.

Le clipping du gradient force les valeurs de gradient dans une plage désignée pendant l'entraînement.

Pour en savoir plus, consultez la section Données numériques : normalisation du cours d'initiation au machine learning.

matrice de confusion

#fundamentals

Tableau NxN qui résume le nombre de prédictions correctes et incorrectes effectuées par un modèle de classification. Prenons l'exemple de la matrice de confusion suivante pour un modèle de classification binaire:

Tumeur (prédite) Non-tumeur (prédiction)
Tumeur (vérité terrain) 18 (VP) 1 (FN)
Non-tumeur (vérité terrain) 6 (FP) 452 (TN)

La matrice de confusion précédente montre les éléments suivants:

  • Sur les 19 prédictions pour lesquelles la vérité terrain était "Tumeur", le modèle en a correctement classé 18 et en a mal classé 1.
  • Sur les 458 prédictions pour lesquelles la vérité terrain était "Non-tumeur", le modèle en a correctement classé 452 et 6 de manière incorrecte.

La matrice de confusion d'un problème de classification multiclasse peut vous aider à identifier des tendances d'erreurs. Prenons l'exemple de la matrice de confusion suivante pour un modèle de classification multiclasse à trois classes qui catégorise trois types d'iris différents (Virginica, Versicolor et Setosa). Lorsque la vérité terrain était Virginica, la matrice de confusion montre que le modèle était beaucoup plus susceptible de prédire par erreur Versicolor que Setosa:

  Setosa (prévision) Versicolor (prévision) Virginica (prévision)
Setosa (vérité terrain) 88 12 0
Versicolor (vérité terrain) 6 141 7
Virginica (vérité terrain) 2 27 109

Par exemple, une matrice de confusion peut révéler qu'un modèle entraîné à reconnaître les chiffres écrits à la main tend à prédire de façon erronée 9 à la place de 4, ou 1 au lieu de 7.

Les matrices de confusion contiennent suffisamment d'informations pour calculer diverses métriques de performances, y compris la précision et le rappel.

caractéristique continue

#fundamentals

Caractéristique à virgule flottante avec une plage infinie de valeurs possibles, telles que la température ou le poids.

À comparer à la caractéristique discrète.

convergence

#fundamentals

État atteint lorsque les valeurs de perte varient peu ou pas du tout à chaque itération. Par exemple, la courbe de perte suivante suggère une convergence vers 700 itérations:

Graphique cartésien. L&#39;axe X correspond à la perte. L&#39;axe Y correspond au nombre d&#39;itérations d&#39;entraînement. La perte est très élevée lors des premières itérations, mais diminue fortement. Après environ 100 itérations, la perte continue de diminuer, mais beaucoup plus progressivement. Après environ 700 itérations, la perte reste stable.

Un modèle converge lorsque l'entraînement supplémentaire ne l'améliore pas.

Dans le deep learning, les valeurs de perte restent parfois constantes ou presque pendant de nombreuses itérations avant de finalement diminuer. Pendant une longue période de valeurs de perte constantes, vous pouvez ressentir temporairement un faux sentiment de convergence.

Voir également arrêt prématuré.

Pour en savoir plus, consultez la section Convergence du modèle et courbes de perte dans le cours d'initiation au machine learning.

D

DataFrame

#fundamentals

Type de données pandas populaire utilisé pour représenter des ensembles de données en mémoire.

Un DataFrame est analogue à un tableau ou à une feuille de calcul. Chaque colonne d'un DataFrame porte un nom (un en-tête) et chaque ligne est identifiée par un numéro unique.

Chaque colonne d'un DataFrame est structurée comme un tableau 2D, à l'exception du fait que chaque colonne peut être associée à son propre type de données.

Consultez également la page de référence officielle de pandas.DataFrame.

ensemble de données (data set ou dataset)

#fundamentals

Ensemble de données brutes, généralement (mais pas exclusivement) organisées dans l'un des formats suivants:

  • une feuille de calcul
  • un fichier au format CSV (valeurs séparées par une virgule)

modèle deep learning

#fundamentals

Réseau de neurones contenant plusieurs couches cachées.

Un modèle profond est également appelé réseau de neurones profond.

À comparer au modèle large.

caractéristique dense

#fundamentals

Fonctionnalité dans laquelle la plupart ou toutes les valeurs sont non nulles, généralement un Tensor de valeurs à virgule flottante. Par exemple, le tenseur à 10 éléments suivant est dense, car neuf de ses valeurs sont non nulles:

8 3 7 5 2 4 0 4 9 6

À comparer à la caractéristique creuse.

profondeur

#fundamentals

Somme des éléments suivants dans un réseau de neurones:

Par exemple, un réseau de neurones avec cinq couches cachées et une couche de sortie a une profondeur de 6.

Notez que la couche d'entrée n'a aucune incidence sur la profondeur.

caractéristique discrète

#fundamentals

Caractéristique avec un ensemble fini de valeurs possibles. Par exemple, une caractéristique dont les valeurs ne peuvent être que animal, légume ou minéral est une caractéristique discrète (ou catégorielle).

À comparer à la caractéristique continue.

dynamic

#fundamentals

Activité effectuée fréquemment ou en continu. Les termes dynamique et en ligne sont synonymes en machine learning. Voici des utilisations courantes de l'apprentissage dynamique et de l'apprentissage en ligne dans l'apprentissage automatique:

  • Un modèle dynamique (ou modèle en ligne) est un modèle qui est réentraîné fréquemment ou en continu.
  • L'entraînement dynamique (ou entraînement en ligne) consiste à s'entraîner fréquemment ou en continu.
  • L'inférence dynamique (ou inférence en ligne) consiste à générer des prédictions à la demande.

modèle dynamique

#fundamentals

Modèle fréquemment (voire continuellement) ré-entraîné. Un modèle dynamique est un "apprenant à vie" qui s'adapte constamment aux données en constante évolution. Un modèle dynamique est également appelé modèle en ligne.

À comparer au modèle statique.

E

arrêt prématuré

#fundamentals

Méthode de régularisation qui consiste à arrêter l'entraînement avant que la perte d'entraînement ne finisse de diminuer. Avec l'arrêt prématuré, vous arrêtez intentionnellement l'entraînement du modèle lorsque la perte d'un ensemble de données de validation commence à augmenter, c'est-à-dire lorsque les performances de généralisation se dégradent.

couche d'embedding

#language
#fundamentals

Couche cachée spéciale qui s'entraîne sur une caractéristique catégorique à haute dimension pour apprendre progressivement un vecteur d'embedding de dimension inférieure. Une couche d'intégration permet à un réseau de neurones de s'entraîner beaucoup plus efficacement que de s'entraîner uniquement sur la caractéristique catégorielle haute dimensionnelle.

Par exemple, la Terre compte actuellement environ 73 000 espèces d'arbres. Supposons que les espèces d'arbres soient une fonctionnalité dans votre modèle. La couche d'entrée de votre modèle inclut donc un vecteur one-hot de 73 000 éléments. Par exemple, baobab pourrait être représenté comme suit:

Tableau de 73 000 éléments. Les 6 232 premiers éléments contiennent la valeur 0. L&#39;élément suivant contient la valeur 1. Les 66 767 derniers éléments contiennent la valeur 0.

Un tableau de 73 000 éléments est très long. Si vous n'ajoutez pas de couche d'encapsulation au modèle, l'entraînement sera très long,car vous devrez multiplier 72 999 zéros. Vous pouvez choisir que la couche d'embedding se compose de 12 dimensions. Par conséquent, la couche d'embedding apprendra progressivement un nouveau vecteur d'embedding pour chaque espèce d'arbre.

Dans certains cas, le hachage constitue une alternative raisonnable à une couche d'encapsulation.

Pour en savoir plus, consultez la section Embeddings dans le cours d'initiation au machine learning.

epoch

#fundamentals

Cycle d'entraînement complet sur l'ensemble de l'ensemble d'entraînement, de manière à ce que chaque exemple ait été traité une fois.

Une époque représente N/taille de lot itérations d'entraînement, où N correspond au nombre total d'exemples.

Par exemple, supposons les éléments suivants:

  • L'ensemble de données se compose de 1 000 exemples.
  • La taille de lot est de 50 exemples.

Par conséquent, une seule époque nécessite 20 itérations:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

Pour en savoir plus, consultez la section Régression linéaire : hyperparamètres du cours d'initiation au machine learning.

exemple

#fundamentals

Valeurs d'une ligne de éléments géographiques et éventuellement d'un libellé. Les exemples d'apprentissage supervisé se divisent en deux catégories générales:

  • Un exemple étiqueté se compose d'une ou plusieurs caractéristiques et d'un libellé. Des exemples étiquetés sont utilisés pendant l'entraînement.
  • Un exemple non étiqueté se compose d'une ou de plusieurs caractéristiques, mais ne comporte pas d'étiquette. Les exemples sans étiquette sont utilisés lors de l'inférence.

Par exemple, supposons que vous entraîniez un modèle pour déterminer l'influence des conditions météorologiques sur les résultats des élèves aux tests. Voici trois exemples avec des libellés:

Fonctionnalités Libellé
Température Humidité Pression Note du test
15 47 998 Bonne
19 34 1020 Excellente
18 92 1012 Médiocre

Voici trois exemples sans libellé:

Température Humidité Pression  
12 62 1014  
21 47 1017  
19 41 1021  

La ligne d'un ensemble de données est généralement la source brute d'un exemple. Autrement dit, un exemple se compose généralement d'un sous-ensemble des colonnes de l'ensemble de données. De plus, les éléments d'un exemple peuvent également inclure des éléments synthétiques, tels que des croisements d'éléments.

Pour en savoir plus, consultez la section Apprentissage supervisé du cours "Introduction au machine learning".

F

faux négatif (FN)

#fundamentals

Exemple dans lequel le modèle prédit à tort la classe négative. Par exemple, le modèle prédit qu'un e-mail particulier n'est pas du spam (classe négative), alors qu'en réalité il l'est.

faux positif (FP)

#fundamentals

Exemple dans lequel le modèle prédit à tort la classe positive. Par exemple, le modèle prédit qu'un e-mail particulier est du spam (classe positive), alors qu'en réalité ce n'est pas un courrier indésirable.

Pour en savoir plus, consultez la section Seuils et matrice de confusion du cours d'initiation au machine learning.

taux de faux positifs (TFP) (false positive rate (FPR))

#fundamentals

Proportion d'exemples négatifs réels pour lesquels le modèle a prédit à tort la classe positive. La formule suivante calcule le taux de faux positifs:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

Le taux de faux positifs correspond à l'abscisse d'une courbe ROC.

Pour en savoir plus, consultez la section Classification: ROC et AUC du cours d'initiation au machine learning.

fonctionnalité

#fundamentals

Variable d'entrée d'un modèle de machine learning. Un exemple se compose d'une ou de plusieurs entités. Par exemple, supposons que vous entraîniez un modèle pour déterminer l'influence des conditions météorologiques sur les résultats des élèves aux tests. Le tableau suivant présente trois exemples, chacun contenant trois caractéristiques et un libellé:

Fonctionnalités Libellé
Température Humidité Pression Note du test
15 47 998 92
19 34 1020 84
18 92 1012 87

À comparer au libellé.

Pour en savoir plus, consultez la section Apprentissage supervisé du cours "Introduction au machine learning".

croisement de caractéristiques

#fundamentals

Caractéristique synthétique résultant du "croisement" de caractéristiques catégorielles ou binées.

Prenons l'exemple d'un modèle de "prédiction de l'humeur" qui représente la température dans l'un des quatre buckets suivants:

  • freezing
  • chilly
  • temperate
  • warm

Il représente la vitesse du vent dans l'un des trois buckets suivants:

  • still
  • light
  • windy

Sans croisement de caractéristiques, le modèle linéaire s'entraîne indépendamment sur chacun des sept buckets précédents. Ainsi, le modèle s'entraîne sur, par exemple, freezing indépendamment de l'entraînement sur, par exemple, windy.

Vous pouvez également créer un croisement de caractéristiques pour la température et la vitesse du vent. Cette fonctionnalité synthétique aurait les 12 valeurs possibles suivantes:

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

Grâce aux croisements de caractéristiques, le modèle peut apprendre les différences d'humeur entre un jour freezing-windy et un jour freezing-still.

Si vous créez une caractéristique synthétique à partir de deux caractéristiques qui comportent chacune de nombreux buckets différents, le croisement de caractéristiques qui en résultera aura un nombre énorme de combinaisons possibles. Par exemple, si une caractéristique comporte 1 000 buckets et l'autre 2 000 buckets, la croisement de caractéristiques qui en résulte comporte 2 000 000 buckets.

Formellement, un croisement est un produit cartésien.

Les croisements de fonctionnalités sont principalement utilisés avec des modèles linéaires et sont rarement utilisés avec des réseaux de neurones.

Pour en savoir plus, consultez la section Données catégorielles: croisements de fonctionnalités dans le cours d'initiation au machine learning.

l'ingénierie des caractéristiques.

#fundamentals
#TensorFlow

Ce processus comprend les étapes suivantes:

  1. Déterminer les caractéristiques susceptibles d'être utiles pour entraîner un modèle.
  2. Convertir les données brutes de l'ensemble de données en versions efficaces de ces fonctionnalités.

Par exemple, vous pouvez déterminer que temperature peut être une fonctionnalité utile. Vous pouvez ensuite tester le groupement pour optimiser ce que le modèle peut apprendre à partir de différentes plages temperature.

L'ingénierie des caractéristiques est parfois appelée extraction de caractéristiques ou featurisation.

Pour en savoir plus, consultez la section Données numériques: comment un modèle ingère des données à l'aide de vecteurs de caractéristiques dans le cours d'initiation au machine learning.

ensemble de fonctionnalités

#fundamentals

Groupe des caractéristiques utilisées pour l'entraînement de votre modèle de machine learning. Par exemple, le code postal, la taille et l'état de la propriété peuvent constituer un ensemble d'éléments simple pour un modèle qui prédit les prix des logements.

vecteur de caractéristiques

#fundamentals

Tableau des valeurs de feature constituant un exemple. Le vecteur de caractéristiques est saisi pendant l'entraînement et l'inférence. Par exemple, le vecteur de caractéristiques d'un modèle avec deux caractéristiques discrètes peut être le suivant:

[0.92, 0.56]

Quatre couches: une couche d&#39;entrée, deux couches cachées et une couche de sortie.
          La couche d&#39;entrée contient deux nœuds, l&#39;un contenant la valeur 0,92 et l&#39;autre la valeur 0,56.

Chaque exemple fournit des valeurs différentes pour le vecteur de caractéristiques. Le vecteur de caractéristiques de l'exemple suivant pourrait donc être le suivant:

[0.73, 0.49]

L'ingénierie des caractéristiques détermine comment représenter les caractéristiques dans le vecteur de caractéristiques. Par exemple, une caractéristique catégorielle binaire avec cinq valeurs possibles peut être représentée par un encodage one-hot. Dans ce cas, la partie du vecteur de caractéristiques d'un exemple particulier se compose de quatre zéros et d'un seul 1,0 à la troisième position, comme suit:

[0.0, 0.0, 1.0, 0.0, 0.0]

Prenons un autre exemple. Supposons que votre modèle comporte trois caractéristiques:

  • une caractéristique catégorielle binaire avec cinq valeurs possibles représentées par un codage one-hot (par exemple: [0.0, 1.0, 0.0, 0.0, 0.0])
  • Une autre caractéristique catégorielle binaire avec trois valeurs possibles représentées par un encodage one-hot (par exemple: [0.0, 0.0, 1.0])
  • une fonctionnalité à virgule flottante (par exemple, 8.3).

Dans ce cas, le vecteur de caractéristiques de chaque exemple serait représenté par neuf valeurs. Compte tenu des exemples de valeurs de la liste précédente, le vecteur de caractéristiques serait le suivant:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

Pour en savoir plus, consultez la section Données numériques: comment un modèle ingère des données à l'aide de vecteurs de caractéristiques dans le cours d'initiation au machine learning.

boucle de rétroaction

#fundamentals

En machine learning, situation dans laquelle les prédictions d'un modèle influencent les données d'entraînement du même modèle ou d'un autre. Par exemple, un modèle qui recommande des films influence les films que les utilisateurs regardent, ce qui influence les modèles de recommandation de films ultérieurs.

Pour en savoir plus, consultez la section Systèmes de ML en production: questions à se poser dans le cours d'initiation au machine learning.

G

généralisation

#fundamentals

Capacité d'un modèle à effectuer des prédictions correctes pour des données nouvelles, qui n'ont encore jamais été vues. Un modèle capable de généraliser est l'opposé d'un modèle qui surapprend.

Pour en savoir plus, consultez la section Généralisation du cours d'initiation au machine learning.

courbe de généralisation

#fundamentals

Graphique de la perte d'entraînement et de la perte de validation en fonction du nombre d'itérations.

Une courbe de généralisation peut vous aider à détecter un éventuel surapprentissage. Par exemple, la courbe de généralisation suivante suggère un surapprentissage, car la perte de validation devient finalement beaucoup plus élevée que la perte d'entraînement.

Graphique cartésien dans lequel l&#39;axe des ordonnées est étiqueté &quot;perte&quot; et l&#39;axe des abscisses est étiqueté &quot;itérations&quot;. Deux graphiques s&#39;affichent. L&#39;un des graphiques montre la perte d&#39;entraînement et l&#39;autre la perte de validation.
          Les deux graphiques se ressemblent au début, mais la perte d&#39;entraînement finit par descendre beaucoup plus bas que la perte de validation.

Pour en savoir plus, consultez la section Généralisation du cours d'initiation au machine learning.

descente de gradient

#fundamentals

Technique mathématique visant à minimiser les pertes. La descente de gradient ajuste de manière itérative les pondérations et les biais, en trouvant progressivement la meilleure combinaison pour minimiser la perte.

La descente du gradient est beaucoup plus ancienne que le machine learning.

Pour en savoir plus, consultez la section Régression linéaire: descente du gradient du cours d'initiation au machine learning.

vérité terrain

#fundamentals

Réalité.

Ce qui s'est passé réellement

Prenons l'exemple d'un modèle de classification binaire qui prédit si un étudiant en première année d'université obtiendra son diplôme dans un délai de six ans. La vérité terrain de ce modèle est de savoir si cet étudiant a effectivement obtenu son diplôme dans les six ans.

H

couche cachée

#fundamentals

Couche d'un réseau de neurones située entre la couche d'entrée (les caractéristiques) et la couche de sortie (la prédiction). Chaque couche cachée comprend un ou plusieurs neurones. Par exemple, le réseau de neurones suivant contient deux couches cachées, la première avec trois neurones et la seconde avec deux neurones:

Quatre couches. La première couche est une couche d&#39;entrée contenant deux éléments géographiques. La deuxième couche est une couche cachée contenant trois neurones. La troisième couche est une couche cachée contenant deux neurones. La quatrième couche est une couche de sortie. Chaque caractéristique contient trois arêtes, chacune pointant vers un neurone différent de la deuxième couche. Chacun des neurones de la deuxième couche contient deux arêtes, chacune pointant vers un neurone différent de la troisième couche. Chacun des neurones de la troisième couche contient un seul bord, chacun pointant vers la couche de sortie.

Un réseau de neurones profond contient plus d'une couche cachée. Par exemple, l'illustration précédente est un réseau de neurones profond, car le modèle contient deux couches cachées.

Pour en savoir plus, consultez la section Réseaux de neurones: nœuds et couches cachées du cours d'initiation au machine learning.

hyperparamètre

#fundamentals

Variables que vous ou un service de réglage des hyperparamètresajustez lors des exécutions successives de l'entraînement d'un modèle. Par exemple, le taux d'apprentissage est un hyperparamètre. Vous pouvez définir le taux d'apprentissage sur 0,01 avant une session d'entraînement. Si vous déterminez que 0,01 est trop élevé, vous pouvez peut-être définir le taux d'apprentissage sur 0,003 pour la prochaine session d'entraînement.

À l'inverse, les paramètres sont les différents pondérations et biais que le modèle apprend pendant l'entraînement.

Pour en savoir plus, consultez la section Régression linéaire : hyperparamètres du cours d'initiation au machine learning.

I

variables indépendantes et identiquement distribuées (variables iid)

#fundamentals

Données extraites d'une distribution qui ne change pas et où chaque valeur extraite ne dépend pas des valeurs extraites précédemment. Une distribution i.i.d. est le gaz parfait du machine learning : c'est une construction mathématique utile qui ne se rencontre quasiment jamais à l'identique dans le monde réel. Par exemple, la distribution des visiteurs d'une page Web peut être une variable idd sur une courte période, c'est-à-dire que la distribution ne change pas pendant cette période et que la visite d'un internaute est généralement indépendante de la visite d'un autre. Toutefois, si vous élargissez cette période, des différences saisonnières peuvent apparaître dans les visiteurs de la page Web.

Voir également non-stationnarité.

inférence

#fundamentals

Dans le machine learning, processus consistant à effectuer des prédictions en appliquant un modèle entraîné à des exemples sans étiquette.

L'inférence a une signification quelque peu différente en statistiques. Pour en savoir plus, consultez l' article Wikipédia sur l'inférence statistique.

Consultez la section Apprentissage supervisé du cours "Introduction au ML" pour découvrir le rôle de l'inférence dans un système d'apprentissage supervisé.

couche d'entrée

#fundamentals

Couche d'un réseau de neurones qui contient le vecteur de caractéristiques. Autrement dit, la couche d'entrée fournit des exemples pour l'entraînement ou l'inférence. Par exemple, la couche d'entrée du réseau de neurones suivant se compose de deux caractéristiques:

Quatre couches: une couche d&#39;entrée, deux couches cachées et une couche de sortie.

interprétabilité

#fundamentals

Capacité à expliquer ou à présenter le raisonnement d'un modèle de ML à un humain en termes compréhensibles.

Par exemple, la plupart des modèles de régression linéaire sont très faciles à interpréter. (Il vous suffit d'examiner les pondérations entraînées pour chaque caractéristique.) Les forêts de décision sont également très interprétables. Toutefois, certains modèles nécessitent des visualisations complexes pour pouvoir être interprétés.

Vous pouvez utiliser Learning Interpretability Tool (LIT) pour interpréter des modèles de ML.

itération

#fundamentals

Mise à jour unique des paramètres d'un modèle (ses pondérations et ses biais) pendant l'entraînement. La taille de lot détermine le nombre d'exemples que le modèle traite en une seule itération. Par exemple, si la taille de lot est de 20, le modèle traite 20 exemples avant d'ajuster les paramètres.

Lors de l'entraînement d'un réseau de neurones, une seule itération implique les deux passes suivantes:

  1. Passage avant pour évaluer la perte sur un seul lot.
  2. Une passe arrière (backpropagation) pour ajuster les paramètres du modèle en fonction de la perte et du taux d'apprentissage.

L

Régularisation L0

#fundamentals

Type de régularisation qui pénalise le nombre total de pondérations non nulles dans un modèle. Par exemple, un modèle comportant 11 pondérations non nulles sera pénalisé plus qu'un modèle similaire comportant 10 pondérations non nulles.

La régularisation L0 est parfois appelée régularisation de la norme L0.

Perte L1

#fundamentals

Fonction de perte qui calcule la valeur absolue de la différence entre les valeurs réelles des étiquettes et les valeurs prédites par un modèle. Par exemple, voici le calcul de la perte L1 pour un lot de cinq exemples:

Valeur réelle de l'exemple Valeur prédite du modèle Valeur absolue de delta
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = perte L1

La perte L1 est moins sensible aux anomalies que la perte L2.

L'erreur absolue moyenne correspond à la perte L1 moyenne par exemple.

Régularisation L1

#fundamentals

Type de régularisation qui pénalise les pondérations proportionnellement à la somme de la valeur absolue des pondérations. La régularisation L1 aide à mettre à exactement 0 les pondérations des caractéristiques peu ou pas pertinentes. Une fonctionnalité avec un poids de 0 est effectivement supprimée du modèle.

À comparer à la régularisation L2.

Perte L2

#fundamentals

Fonction de perte qui calcule le carré de la différence entre les valeurs réelles des étiquettes et les valeurs prédites par un modèle. Par exemple, voici le calcul de la perte L2 pour un lot de cinq exemples:

Valeur réelle de l'exemple Valeur prédite du modèle Carré de delta
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = perte L2

En raison de la mise au carré, la perte L2 amplifie l'influence des valeurs aberrantes. En d'autres termes, la perte L2 réagit plus fortement aux mauvaises prédictions que la perte L1. Par exemple, la perte L1 pour le lot précédent serait de 8 au lieu de 16. Notez qu'un seul point aberrant représente neuf des 16.

Les modèles de régression utilisent généralement la perte L2 comme fonction de perte.

L'erreur quadratique moyenne correspond à la perte L2 moyenne par exemple. La perte quadratique est un autre nom de la perte L2.

Régularisation L2

#fundamentals

Type de régularisation qui pénalise les pondérations proportionnellement à la somme des carrés des pondérations. La régularisation L2 aide à rapprocher de zéro la pondération des anomalies (celles dont la valeur est très positive ou très négative), sans pour autant atteindre zéro. Les caractéristiques dont les valeurs sont très proches de 0 restent dans le modèle, mais n'ont pas beaucoup d'incidence sur ses prédictions.

La régularisation L2 améliore toujours la généralisation dans les modèles linéaires.

À comparer à la régularisation L1.

étiquette

#fundamentals

Dans l'apprentissage automatique supervisé, partie "réponse" ou "résultat" d'un exemple.

Chaque exemple étiqueté se compose d'une ou de plusieurs caractéristiques et d'un libellé. Par exemple, dans un ensemble de données de détection de spam, l'étiquette sera probablement "spam" ou "non spam". Dans un ensemble de données sur les précipitations, le libellé peut être la quantité de pluie tombée pendant une certaine période.

exemple étiqueté

#fundamentals

Exemple contenant une ou plusieurs caractéristiques et un libellé. Par exemple, le tableau suivant présente trois exemples avec étiquette issus d'un modèle d'évaluation de maison, chacun avec trois caractéristiques et un libellé:

Nombre de chambres Nombre de salles de bain Âge de la maison Prix de la maison (libellé)
3 2 15 345 000 $
2 1 72 179 000 $
4 2 34 392 000 $

Dans le machine learning supervisé, les modèles sont entraînés sur des exemples étiquetés et effectuent des prédictions sur des exemples non étiquetés.

Comparez un exemple étiqueté à des exemples non étiquetés.

lambda

#fundamentals

Synonyme de taux de régularisation.

Lambda est un terme surchargé. Ici, nous nous référons à sa définition dans le cadre de la régularisation.

cachée)

#fundamentals

Ensemble de neurones dans un réseau de neurones. Voici trois types de calques courants:

Par exemple, l'illustration suivante montre un réseau de neurones avec une couche d'entrée, deux couches cachées et une couche de sortie:

Un réseau de neurones avec une couche d&#39;entrée, deux couches cachées et une couche de sortie. La couche d&#39;entrée se compose de deux éléments. La première couche cachée se compose de trois neurones et la deuxième de deux neurones. La couche de sortie se compose d&#39;un seul nœud.

Dans TensorFlow, les couches sont également des fonctions Python qui prennent des Tensors et des options de configuration en entrée pour générer d'autres Tensors en sortie.

taux d'apprentissage

#fundamentals

Nombre à virgule flottante qui indique à l'algorithme de descente de gradient l'intensité avec laquelle ajuster les pondérations et les biais à chaque itération. Par exemple, un taux d'apprentissage de 0,3 ajusterait les poids et les biais trois fois plus efficacement qu'un taux d'apprentissage de 0,1.

Le taux d'apprentissage est un hyperparamètre clé. Si vous définissez le taux d'apprentissage trop bas, l'entraînement prendra trop de temps. Si vous définissez le taux d'apprentissage trop élevé, la descente de gradient a souvent du mal à atteindre la convergence.

linear

#fundamentals

Relation entre deux ou plusieurs variables pouvant être représentée uniquement par addition et multiplication.

Le tracé d'une relation linéaire est une ligne.

À comparer à la non-linéaire.

modèle linéaire

#fundamentals

Modèle qui attribue une pondération par caractéristique pour effectuer des prédictions. (Les modèles linéaires intègrent également un biais.) En revanche, la relation entre les caractéristiques et les prédictions dans les modèles profonds est généralement non linéaire.

Les modèles linéaires sont généralement plus faciles à entraîner et plus interprétables que les modèles profonds. Toutefois, les modèles profonds peuvent apprendre des relations complexes entre les caractéristiques.

La régression linéaire et la régression logistique sont deux types de modèles linéaires.

régression linéaire

#fundamentals

Type de modèle de machine learning dans lequel les deux conditions suivantes sont remplies:

  • Il s'agit d'un modèle linéaire.
  • La prédiction est une valeur à virgule flottante. (Il s'agit de la partie régression de la régression linéaire.)

Comparez la régression linéaire à la régression logistique. Comparez également la régression à la classification.

régression logistique

#fundamentals

Type de modèle de régression qui prédit une probabilité. Les modèles de régression logistique présentent les caractéristiques suivantes:

  • Le libellé est catégorique. Le terme "régression logistique" désigne généralement la régression logistique binaire, c'est-à-dire un modèle qui calcule les probabilités pour les étiquettes ayant deux valeurs possibles. Une variante moins courante, la régression logistique multinomiale, calcule les probabilités pour les étiquettes comportant plus de deux valeurs possibles.
  • La fonction de perte pendant l'entraînement est la perte logistique. (Plusieurs éléments Log Loss peuvent être placés en parallèle pour les libellés comportant plus de deux valeurs possibles.)
  • Le modèle présente une architecture linéaire, et non un réseau de neurones profond. Toutefois, le reste de cette définition s'applique également aux modèles profonds qui prédisent les probabilités pour les libellés catégoriels.

Prenons l'exemple d'un modèle de régression logistique qui calcule la probabilité qu'un e-mail soit du spam ou non. Lors de l'inférence, supposons que le modèle prédit 0,72. Par conséquent, le modèle estime:

  • 72% de chances que l'e-mail soit du spam.
  • 28% de chances que l'e-mail ne soit pas du spam

Un modèle de régression logistique utilise l'architecture en deux étapes suivante:

  1. Le modèle génère une prédiction brute (y') en appliquant une fonction linéaire des caractéristiques d'entrée.
  2. Le modèle utilise cette prédiction brute comme entrée pour une fonction sigmoïde, qui convertit la prédiction brute en une valeur comprise entre 0 et 1, exclusive.

Comme tout modèle de régression, un modèle de régression logistique prédit un nombre. Toutefois, ce nombre fait généralement partie d'un modèle de classification binaire comme suit:

  • Si le nombre prédit est supérieur au seuil de classification, le modèle de classification binaire prédit la classe positive.
  • Si le nombre prédit est inférieur au seuil de classification, le modèle de classification binaire prédit la classe négative.

Perte logistique

#fundamentals

Fonction de perte utilisée dans la régression logistique binaire.

logarithme de cote

#fundamentals

Logarithme des probabilités d'un événement.

perte

#fundamentals

Lors de l'entraînement d'un modèle supervisé, mesure de l'écart entre la prédiction d'un modèle et son étiquette.

Une fonction de perte calcule la perte.

courbe de fonction de perte

#fundamentals

Graphique de la perte en fonction du nombre d'itérations d'entraînement. Le graphique suivant montre une courbe de perte typique:

Graphique cartésien de la perte par rapport aux itérations d&#39;entraînement, montrant une baisse rapide de la perte pour les itérations initiales, suivie d&#39;une baisse progressive, puis d&#39;une pente plate lors des itérations finales.

Les courbes de perte peuvent vous aider à déterminer si votre modèle est en convergence ou en surapprentissage.

Les courbes de perte peuvent représenter tous les types de pertes suivants:

Voir également la courbe de généralisation.

fonction de perte

#fundamentals

Lors de l'entraînement ou des tests, fonction mathématique qui calcule la perte sur un lot d'exemples. Une fonction de perte renvoie une perte plus faible pour les modèles qui effectuent de bonnes prédictions que pour ceux qui effectuent de mauvaises prédictions.

L'objectif de l'entraînement est généralement de minimiser la perte renvoyée par une fonction de perte.

Il existe de nombreux types de fonctions de perte. Choisissez la fonction de perte appropriée pour le type de modèle que vous créez. Exemple :

M

machine learning

#fundamentals

Programme ou système qui entraîne un modèle à partir de données d'entrée. Le modèle entraîné peut faire des prédictions utiles à partir de données inédites issues de la même distribution que celle utilisée pour entraîner le modèle.

Le machine learning (ou apprentissage automatique) désigne également la discipline qui traite de ces programmes ou systèmes.

classe majoritaire

#fundamentals

Étiquette la plus courante dans un ensemble de données avec déséquilibre des classes. Par exemple, pour un ensemble de données contenant 99% d'étiquettes négatives et 1% d'étiquettes positives, les étiquettes négatives constituent la classe majoritaire.

À comparer à la classe minoritaire.

mini-lot

#fundamentals

Petit sous-ensemble, sélectionné aléatoirement, d'un lot traité en une seule itération. La taille de lot d'un mini-lot est généralement comprise entre 10 et 1 000 exemples.

Par exemple, supposons que l'ensemble d'entraînement complet (le lot complet) se compose de 1 000 exemples. Supposons également que vous définissiez la taille de lot de chaque mini-lot sur 20. Par conséquent, chaque itération détermine la perte sur 20 exemples aléatoires parmi les 1 000 exemples,puis ajuste les poids et les biais en conséquence.

Il est beaucoup plus efficace de calculer la perte pour un mini-lot que pour l'ensemble entier des exemples du lot complet.

classe minoritaire

#fundamentals

Étiquette la moins commune dans un ensemble de données avec déséquilibre des classes. Par exemple, pour un ensemble de données contenant 99% d'étiquettes négatives et 1% d'étiquettes positives, les étiquettes positives constituent la classe minoritaire.

À comparer à la classe majoritaire.

modèle

#fundamentals

En général, toute construction mathématique qui traite les données d'entrée et renvoie une sortie. Autrement dit, un modèle est l'ensemble de paramètres et de structures nécessaires pour qu'un système puisse effectuer des prédictions. Dans le machine learning supervisé, un modèle prend un exemple en entrée et déduit une prédiction en sortie. Dans le machine learning supervisé, les modèles diffèrent quelque peu. Exemple :

  • Un modèle de régression linéaire se compose d'un ensemble de pondérations et d'un biais.
  • Un modèle de réseau de neurones se compose des éléments suivants :
    • Ensemble de couches cachées, chacune contenant un ou plusieurs neurones.
    • Les pondérations et les biais associés à chaque neurone.
  • Un modèle d'arbre de décision se compose des éléments suivants :
    • Forme de l'arborescence, c'est-à-dire le schéma dans lequel les conditions et les feuilles sont connectées.
    • Les conditions et les feuilles.

Vous pouvez enregistrer, restaurer ou créer des copies d'un modèle.

Le machine learning non supervisé génère également des modèles, généralement une fonction pouvant mapper un exemple d'entrée sur le cluster le plus approprié.

classification à classes multiples

#fundamentals

Dans l'apprentissage supervisé, problème de classification dans lequel l'ensemble de données contient plus de deux classes d'étiquettes. Par exemple, les libellés de l'ensemble de données Iris doivent appartenir à l'une des trois classes suivantes:

  • Iris setosa
  • Iris virginica
  • Iris versicolor

Un modèle entraîné sur l'ensemble de données Iris qui prédit le type d'iris sur de nouveaux exemples effectue une classification à classes multiples.

À l'inverse, les problèmes de classification qui distinguent exactement deux classes sont des modèles de classification binaires. Par exemple, un modèle d'e-mail qui prédit spam ou non spam est un modèle de classification binaire.

Dans les problèmes de clustering, la classification multiclasse fait référence à plus de deux clusters.

N

classe négative

#fundamentals

Dans la classification binaire, une classe est dite positive et l'autre négative. La classe positive est l'élément ou l'événement que le modèle teste, et la classe négative est l'autre possibilité. Exemple :

  • La classe négative d'un test médical pourrait être "pas une tumeur".
  • La classe négative d'un classificateur d'e-mails peut être "non-spam".

À comparer à la classe positive.

neurones feedforward

#fundamentals

Un modèle contenant au moins une couche cachée. Un réseau de neurones profond est un type de réseau de neurones contenant plusieurs couches cachées. Par exemple, le diagramme suivant montre un réseau de neurones profond contenant deux couches cachées.

Un réseau de neurones avec une couche d&#39;entrée, deux couches cachées et une couche de sortie.

Chaque neurone d'un réseau de neurones se connecte à tous les nœuds de la couche suivante. Par exemple, dans le diagramme précédent, notez que chacun des trois neurones de la première couche cachée se connecte séparément aux deux neurones de la deuxième couche cachée.

Les réseaux de neurones implémentés sur des ordinateurs sont parfois appelés réseaux de neurones artificiels pour les différencier des réseaux de neurones présents dans les cerveaux et autres systèmes nerveux.

Certains réseaux de neurones peuvent imiter des relations non linéaires extrêmement complexes entre différentes caractéristiques et le libellé.

Consultez également les articles Réseau de neurones convolutif et Réseau de neurones récurrent.

neurone

#fundamentals

En machine learning, unité distincte d'une couche cachée d'un réseau de neurones. Chaque neurone effectue l'action en deux étapes suivante:

  1. Calcule la somme pondérée des valeurs d'entrée multipliées par leurs pondérations correspondantes.
  2. Transmet la somme pondérée en entrée à une fonction d'activation.

Un neurone de la première couche cachée accepte les entrées des valeurs des caractéristiques dans la couche d'entrée. Un neurone de toute couche cachée au-delà de la première accepte les entrées des neurones de la couche cachée précédente. Par exemple, un neurone de la deuxième couche cachée accepte les entrées des neurones de la première couche cachée.

L'illustration suivante met en évidence deux neurones et leurs entrées.

Un réseau de neurones avec une couche d&#39;entrée, deux couches cachées et une couche de sortie. Deux neurones sont mis en évidence: l&#39;un dans la première couche cachée et l&#39;autre dans la deuxième couche cachée. Le neurone mis en surbrillance de la première couche cachée reçoit les entrées des deux caractéristiques de la couche d&#39;entrée. Le neurone mis en surbrillance de la deuxième couche cachée reçoit les entrées de chacun des trois neurones de la première couche cachée.

Un neurone dans un réseau de neurones imite le comportement des neurones dans le cerveau et d'autres parties des systèmes nerveux.

nœud (réseau de neurones) (node (neural network))

#fundamentals

Neurone dans une couche cachée.

non linéaire

#fundamentals

Relation entre deux ou plusieurs variables qui ne peut pas être représentée uniquement par addition et multiplication. Une relation linéaire peut être représentée par une ligne, tandis qu'une relation non linéaire ne peut pas l'être. Prenons l'exemple de deux modèles qui associent chacun une seule caractéristique à un seul libellé. Le modèle de gauche est linéaire et celui de droite est non linéaire:

Deux graphiques L&#39;un des tracés est une ligne. Il s&#39;agit donc d&#39;une relation linéaire.
          L&#39;autre graphique est une courbe. Il s&#39;agit donc d&#39;une relation non linéaire.

non-stationnarité

#fundamentals

Élément dont les valeurs varient selon une ou plusieurs dimensions, généralement le temps. Prenons l'exemple suivant de non-stationnarité:

  • Le nombre de maillots de bain vendus dans un magasin donné varie en fonction de la saison.
  • La quantité d'un fruit particulier récolté dans une région donnée est nulle pendant une grande partie de l'année, mais importante pendant une courte période.
  • En raison du changement climatique, les températures moyennes annuelles évoluent.

À comparer à la stationnarité.

normalisation

#fundamentals

De manière générale, il s'agit du processus de conversion de la plage de valeurs réelle d'une variable en une plage de valeurs standard, par exemple:

  • -1 à +1
  • Entre 0 et 1
  • Scores Z (environ -3 à +3)

Par exemple, supposons que la plage de valeurs réelle d'une caractéristique donnée soit comprise entre 800 et 2 400. Dans le cadre de l'ingénierie des caractéristiques, vous pouvez normaliser les valeurs réelles dans une plage standard, par exemple de -1 à +1.

La normalisation est une tâche courante dans la création de caractéristiques. Les modèles sont généralement entraînés plus rapidement (et produisent de meilleures prédictions) lorsque chaque caractéristique numérique du vecteur de caractéristiques a à peu près la même plage.

Pour en savoir plus, consultez le module sur l'utilisation des données numériques du cours d'initiation au machine learning. Consultez également Normalisation par score Z.

données numériques

#fundamentals

Caractéristiques représentées par des nombres entiers ou réels. Par exemple, un modèle d'évaluation de la valeur d'une maison représenterait probablement la taille d'une maison (en pieds carrés ou en mètres carrés) sous forme de données numériques. Représenter une caractéristique sous forme de données numériques indique que les valeurs de la caractéristique ont une relation mathématique avec le libellé. Autrement dit, le nombre de mètres carrés d'une maison a probablement une relation mathématique avec la valeur de la maison.

Toutes les données entières ne doivent pas être représentées sous forme de données numériques. Par exemple, dans certaines régions du monde, les codes postaux sont des entiers. Toutefois, ils ne doivent pas être représentés en tant que données numériques dans les modèles. En effet, un code postal 20000 n'est pas deux fois (ou moitié) plus efficace qu'un code postal 10000. De plus, même si les codes postaux différents correspondent à des valeurs immobilières différentes, nous ne pouvons pas supposer que les valeurs immobilières au code postal 20 000 sont deux fois plus élevées que celles au code postal 10 000. Les codes postaux doivent être représentés par des données catégorielles.

Les caractéristiques numériques sont parfois appelées caractéristiques continues.

O

Hors connexion

#fundamentals

Synonyme de statique.

inférence hors connexion

#fundamentals

Processus par lequel un modèle génère un lot de prédictions, puis met en cache (enregistre) ces prédictions. Les applications peuvent ensuite accéder à la prédiction inférée à partir du cache plutôt que de réexécuter le modèle.

Prenons l'exemple d'un modèle qui génère des prévisions météo locales (prédictions) toutes les quatre heures. Après chaque exécution du modèle, le système met en cache toutes les prévisions météorologiques locales. Les applications météo récupèrent les prévisions à partir du cache.

L'inférence hors connexion est également appelée inférence statique.

À comparer à l'inférence en ligne.

Encodage one-hot

#fundamentals

Représentation des données catégorielles sous forme de vecteur dans lequel:

  • Un élément est défini sur 1.
  • Tous les autres éléments sont définis sur 0.

L'encodage one-hot est couramment utilisé pour représenter des chaînes ou des identifiants qui ont un ensemble fini de valeurs possibles. Par exemple, supposons qu'une caractéristique catégorique nommée Scandinavia ait cinq valeurs possibles:

  • "Danemark"
  • "Suède"
  • "Norvège"
  • "Finlande"
  • "Islande"

L'encodage en valeurs uniques peut représenter chacune des cinq valeurs comme suit:

country Vecteur
"Danemark" 1 0 0 0 0
"Suède" 0 1 0 0 0
"Norvège" 0 0 1 0 0
"Finlande" 0 0 0 1 0
"Islande" 0 0 0 0 1

Grâce à l'encodage one-hot, un modèle peut apprendre différentes connexions en fonction de chacun des cinq pays.

Représenter une caractéristique sous la forme de données numériques est une alternative à l'encodage one-hot. Malheureusement, représenter les pays scandinaves de manière numérique n'est pas un bon choix. Prenons l'exemple de la représentation numérique suivante:

  • "Danemark" est 0
  • "Suède" est 1
  • "Norvège" est 2
  • "Finlande" est 3
  • "Islande" est 4

Avec l'encodage numérique, un modèle interpréterait les nombres bruts de manière mathématique et essaierait de s'entraîner sur ces nombres. Toutefois, l'Islande n'est pas deux fois plus (ou moitié moins) qu'un autre pays comme la Norvège. Le modèle aboutirait donc à des conclusions étranges.

un contre tous

#fundamentals

Face à un problème de classification avec N classes, une solution consiste en N classificateurs binaires distincts : un classificateur binaire pour chaque résultat possible. Soit, par exemple, un modèle qui classe les exemples en animal, végétal ou minéral. Une solution un contre tous fournirait les trois classificateurs binaires distincts suivants:

  • animal ou non
  • légume par rapport à non-légume
  • minéral ou non

En ligne

#fundamentals

Synonyme de dynamique.

inférence en ligne

#fundamentals

Génération de prédictions à la demande. Par exemple, supposons qu'une application transmette une entrée à un modèle et émette une requête de prédiction. Un système utilisant l'inférence en ligne répond à la requête en exécutant le modèle (et en renvoyant la prédiction à l'application).

À comparer à l'inférence hors connexion.

couche de sortie

#fundamentals

Couche "finale" d'un réseau de neurones. La couche de sortie contient la prédiction.

L'illustration suivante montre un petit réseau de neurones profond avec une couche d'entrée, deux couches cachées et une couche de sortie:

Un réseau de neurones avec une couche d&#39;entrée, deux couches cachées et une couche de sortie. La couche d&#39;entrée se compose de deux éléments. La première couche cachée se compose de trois neurones et la deuxième de deux neurones. La couche de sortie se compose d&#39;un seul nœud.

surapprentissage

#fundamentals

Création d'un modèle correspondant si étroitement aux données d'entraînement qu'il ne parvient pas à effectuer des prédictions correctes avec de nouvelles données.

La régularisation peut réduire le surapprentissage. L'entraînement sur un ensemble d'entraînement volumineux et diversifié peut également réduire le surapprentissage.

P

pandas

#fundamentals

API d'analyse de données orientée colonnes basée sur numpy. De nombreux frameworks de machine learning, y compris TensorFlow, acceptent les structures de données pandas comme entrées. Pour en savoir plus, consultez la documentation de pandas.

paramètre

#fundamentals

Les pondérations et les biais qu'un modèle apprend lors de l'entraînement. Par exemple, dans un modèle de régression linéaire, les paramètres consistent en le biais (b) et toutes les pondérations (w1, w2, etc.) dans la formule suivante:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

À l'inverse, les hyperparamètres sont les valeurs que vous (ou un service de réglage d'hyperparamètres) fournissez au modèle. Par exemple, le taux d'apprentissage est un hyperparamètre.

classe positive

#fundamentals

Classe pour laquelle vous effectuez le test.

Par exemple, la classe positive d'un modèle de cancer pourrait être "tumeur". La classe positive d'un classificateur d'e-mail pourrait être "spam".

À comparer à la classe négative.

post-traitement

#fairness
#fundamentals

Ajustement de la sortie d'un modèle après son exécution. Le post-traitement peut être utilisé pour appliquer des contraintes d'équité sans modifier les modèles eux-mêmes.

Par exemple, vous pouvez appliquer un post-traitement à un classificateur binaire en définissant un seuil de classification de sorte que l'égalité des chances soit maintenue pour un attribut en vérifiant que le taux de vrai positif est le même pour toutes les valeurs de cet attribut.

prédiction

#fundamentals

Résultat d'un modèle. Exemple :

  • La prédiction d'un modèle de classification binaire correspond à la classe positive ou à la classe négative.
  • La prédiction d'un modèle de classification multiclasse est une classe.
  • La prédiction d'un modèle de régression linéaire est un nombre.

étiquettes de substitution

#fundamentals

Données utilisées pour réaliser une approximation des étiquettes qui ne sont pas directement disponibles dans un ensemble de données.

Par exemple, supposons que vous deviez entraîner un modèle pour prédire le niveau de stress des employés. Votre ensemble de données contient de nombreuses fonctionnalités prédictives, mais ne contient pas d'étiquette nommée niveau de stress. Vous choisissez "Accidents du travail" comme étiquette de proxy pour le niveau de stress. Après tout, les employés soumis à un stress élevé sont plus sujets aux accidents que les employés calmes. Ou est-ce que ce n'est pas le cas ? Il est possible que les accidents du travail augmentent et diminuent pour plusieurs raisons.

Prenons un deuxième exemple. Supposons que vous souhaitiez que est-ce qu'il pleut ? soit un libellé booléen pour votre ensemble de données, mais que celui-ci ne contienne pas de données sur la pluie. Si des photos sont disponibles, vous pouvez créer des photos de personnes portant des parapluies comme étiquette de substitution pour la phrase is it raining? S'agit-il d'un bon libellé de proxy ? C'est possible, mais les personnes de certaines cultures peuvent être plus susceptibles de porter un parapluie pour se protéger du soleil que de la pluie.

Les libellés de proxy sont souvent imparfaits. Dans la mesure du possible, privilégiez les libellés réels aux libellés proxy. Toutefois, lorsqu'une étiquette réelle est absente, choisissez l'étiquette de proxy très attentivement, en sélectionnant la candidate la moins horrible.

R

RAG

#fundamentals

Abréviation de génération augmentée par récupération.

évaluateur

#fundamentals

Personne qui fournit des libellés pour des exemples. "Annotateur" est un autre nom pour "évaluateur".

Unité de rectification linéaire (ReLU)

#fundamentals

Fonction d'activation dont le comportement est le suivant:

  • Si l'entrée est négative ou nulle, la sortie est 0.
  • Si l'entrée est positive, la sortie est égale à l'entrée.

Exemple :

  • Si l'entrée est -3, le résultat est 0.
  • Si l'entrée est +3, le résultat est 3,0.

Voici un graphique de la fonction ReLU:

Graphique cartésien de deux lignes. La première ligne a une valeur y constante de 0, qui s&#39;étend le long de l&#39;axe X de -infini,0 à 0,-0.
          La deuxième ligne commence à 0,0. Cette ligne a une pente de +1. Elle s&#39;étend donc de 0,0 à +infini,+infini.

ReLU est une fonction d'activation très populaire. Malgré son comportement simple, ReLU permet toujours à un réseau de neurones d'apprendre des relations non linéaires entre les caractéristiques et l'étiquette.

modèle de régression

#fundamentals

De manière informelle, modèle qui génère une prédiction numérique. (À l'inverse, un modèle de classification génère une prédiction de classe.) Par exemple, les modèles de régression suivants:

  • Un modèle qui prédit la valeur d'une maison en euros, par exemple 423 000.
  • Modèle qui prédit l'espérance de vie d'un arbre en années, par exemple 23,2.
  • Modèle qui prédit la quantité de pluie en pouces qui tombera dans une certaine ville au cours des six prochaines heures, par exemple 0,18.

Voici deux types de modèles de régression courants:

  • Régression linéaire, qui trouve la ligne qui s'adapte le mieux aux valeurs de libellé aux éléments géographiques.
  • Régression logistique, qui génère une probabilité comprise entre 0,0 et 1,0 qu'un système mappe généralement à une prédiction de classe.

Tous les modèles qui génèrent des prédictions numériques ne sont pas des modèles de régression. Dans certains cas, une prédiction numérique n'est en réalité qu'un modèle de classification qui se trouve avoir des noms de classe numériques. Par exemple, un modèle qui prédit un code postal numérique est un modèle de classification, et non un modèle de régression.

régularisation

#fundamentals

Tout mécanisme qui réduit le surapprentissage. Voici quelques-uns des types de régularisation les plus courants:

La régularisation peut également être définie comme la pénalité appliquée à la complexité d'un modèle.

taux de régularisation

#fundamentals

Nombre qui spécifie l'importance relative de la régularisation lors de l'entraînement. Augmenter le taux de régularisation réduit le surapprentissage, mais peut réduire la puissance prédictive du modèle. À l'inverse, réduire ou omettre le taux de régularisation augmente le surapprentissage.

ReLU

#fundamentals

Abréviation de unité de rectification linéaire.

génération augmentée par récupération (RAG)

#fundamentals

Technique permettant d'améliorer la qualité de la sortie d'un grand modèle de langage (LLM) en l'ancrant à des sources de connaissances récupérées après l'entraînement du modèle. Le RAG améliore la précision des réponses du LLM en lui donnant accès aux informations récupérées à partir de bases de connaissances ou de documents fiables.

Voici quelques motivations courantes à utiliser la génération augmentée par récupération:

  • Améliorer la justesse factuelle des réponses générées par un modèle
  • Donner au modèle accès à des connaissances sur lesquelles il n'a pas été entraîné
  • Modifier les connaissances utilisées par le modèle
  • Activer la citation des sources par le modèle

Par exemple, supposons qu'une application de chimie utilise l'API PALM pour générer des résumés liés aux requêtes des utilisateurs. Lorsque le backend de l'application reçoit une requête, il:

  1. Recherche (ou "récupère") des données pertinentes par rapport à la requête de l'utilisateur.
  2. Ajoute (ou "augmente") les données chimiques pertinentes à la requête de l'utilisateur.
  3. Indique au LLM de créer un résumé basé sur les données ajoutées.

courbe ROC (receiver operating characteristic) (courbe ROC (receiver operating characteristic))

#fundamentals

Graphique du taux de vrais positifs par rapport au taux de faux positifs pour différents seuils de classification dans la classification binaire.

La forme d'une courbe ROC suggère la capacité d'un modèle de classification binaire à séparer les classes positives des classes négatives. Supposons, par exemple, qu'un modèle de classification binaire sépare parfaitement toutes les classes négatives de toutes les classes positives:

Une ligne de nombres avec huit exemples positifs à droite et sept exemples négatifs à gauche.

La courbe ROC du modèle précédent se présente comme suit:

Courbe ROC. L&#39;axe X correspond au taux de faux positifs et l&#39;axe Y au taux de vrais positifs. La courbe a la forme d&#39;un L inversé. La courbe commence à (0,0,0) et monte directement jusqu&#39;à (0,0,1). La courbe passe ensuite de (0,0,1,0) à (1,0,1,0).

À l'inverse, l'illustration suivante représente graphiquement les valeurs de régression logistique brutes d'un modèle terrible qui ne peut pas du tout séparer les classes négatives des classes positives:

Une ligne numérique avec des exemples positifs et des classes négatives complètement mélangées.

La courbe ROC de ce modèle se présente comme suit:

Une courbe ROC, qui est en réalité une ligne droite allant de (0,0) à (1,0).

En attendant, dans le monde réel, la plupart des modèles de classification binaire séparent les classes positives et négatives dans une certaine mesure, mais généralement pas de manière parfaite. Ainsi, une courbe ROC typique se situe quelque part entre les deux extrêmes:

Courbe ROC. L&#39;axe X correspond au taux de faux positifs et l&#39;axe Y au taux de vrais positifs. La courbe ROC est proche d&#39;un arc irrégulier qui traverse les points cardinaux de l&#39;ouest au nord.

Le point d'une courbe ROC le plus proche de (0,0,1,0) identifie théoriquement le seuil de classification idéal. Cependant, plusieurs autres problèmes concrets influencent la sélection du seuil de classification idéal. Par exemple, les faux négatifs sont peut-être beaucoup plus pénibles que les faux positifs.

Une métrique numérique appelée AUC résume la courbe ROC en une seule valeur à virgule flottante.

la racine carrée de l'erreur quadratique moyenne (RMSE, Root Mean Squared Error)

#fundamentals

Racine carrée de l'erreur quadratique moyenne.

S

fonction sigmoïde

#fundamentals

Fonction mathématique qui "écrase" une valeur d'entrée dans une plage contrainte, généralement de 0 à 1 ou de -1 à +1. Autrement dit, vous pouvez transmettre n'importe quel nombre (deux, un million, un milliard négatif, etc.) à une fonction sigmoïde, et la sortie restera dans la plage contrainte. Un graphique de la fonction d'activation sigmoïde se présente comme suit:

Graphique courbe à deux dimensions dont les valeurs x couvrent la plage allant de l&#39;infini négatif à l&#39;infini positif, tandis que les valeurs y couvrent la plage allant presque de 0 à 1. Lorsque x est égal à 0, y est égal à 0,5. La pente de la courbe est toujours positive, avec la pente la plus élevée à 0,0,5 et des pentes diminuant progressivement à mesure que la valeur absolue de x augmente.

La fonction sigmoïde a plusieurs utilisations dans le machine learning, par exemple:

softmax

#fundamentals

Fonction qui détermine les probabilités pour chaque classe possible dans un modèle de classification à classes multiples. La somme des probabilités est exactement égale à 1,0. Par exemple, le tableau suivant montre comment la fonction softmax distribue différentes probabilités:

L'image est un... Probabilité
chien 0,85
cat .13
cheval 0,02

La fonction softmax est également appelée softmax complet.

À comparer à l'échantillonnage de candidats.

caractéristique creuse

#language
#fundamentals

Élément géographique dont les valeurs sont pour la plupart nulles ou vides. Par exemple, une fonctionnalité contenant une seule valeur 1 et un million de valeurs 0 est sporadique. À l'inverse, une entité dense a des valeurs qui ne sont pas principalement nulles ou vides.

En machine learning, un nombre surprenant de caractéristiques sont des caractéristiques peu denses. Les caractéristiques catégorielles sont généralement des caractéristiques peu denses. Par exemple, parmi les 300 espèces d'arbres possibles dans une forêt, un seul exemple peut n'identifier qu'un érable. Par exemple, parmi les millions de vidéos possibles dans une bibliothèque vidéo, un seul exemple peut identifier "Casablanca".

Dans un modèle, vous représentez généralement des caractéristiques creuses avec un encodage one-hot. Si l'encodage one-hot est volumineux, vous pouvez placer une couche d'encapsulation au-dessus de l'encodage one-hot pour plus d'efficacité.

représentation creuse

#language
#fundamentals

Stocker uniquement la ou les positions des éléments non nuls dans une fonctionnalité sporadique.

Par exemple, supposons qu'une caractéristique catégorielle nommée species identifie les 36 espèces d'arbres d'une forêt donnée. Supposons également que chaque exemple n'identifie qu'une seule espèce.

Vous pouvez utiliser un vecteur à valeurs uniques pour représenter les espèces d'arbres dans chaque exemple. Un vecteur one-hot contiendrait un seul 1 (pour représenter l'espèce d'arbre particulière dans cet exemple) et 35 0 (pour représenter les 35 espèces d'arbres non dans cet exemple). Ainsi, la représentation one-hot de maple peut ressembler à ceci:

Vecteur dans lequel les positions 0 à 23 contiennent la valeur 0, la position 24 la valeur 1 et les positions 25 à 35 la valeur 0.

En revanche, une représentation sporadique identifie simplement la position de l'espèce en question. Si maple se trouve à la position 24, la représentation creuse de maple est simplement la suivante:

24

Notez que la représentation sparse est beaucoup plus compacte que la représentation one-hot.

vecteur creux

#fundamentals

Vecteur dont les valeurs sont principalement nulles. Voir également caractéristique creuse et parcimonie.

perte quadratique

#fundamentals

Synonyme de perte L2.

static

#fundamentals

Action effectuée une seule fois plutôt que de manière continue. Les termes statique et hors connexion sont synonymes. Voici des utilisations courantes de l'apprentissage automatique statique et hors connexion:

  • Un modèle statique (ou modèle hors connexion) est un modèle entraîné une fois, puis utilisé pendant un certain temps.
  • L'entraînement statique (ou entraînement hors connexion) consiste à entraîner un modèle statique.
  • L'inférence statique (ou inférence hors connexion) est un processus au cours duquel un modèle génère un lot de prédictions à la fois.

À comparer au dynamique.

inférence statique

#fundamentals

Synonyme de inférence hors connexion.

stationnarité

#fundamentals

Élément dont les valeurs ne changent pas pour une ou plusieurs dimensions, généralement le temps. Par exemple, une caractéristique dont les valeurs sont à peu près identiques en 2021 et en 2023 présente une stationnarité.

Dans la réalité, très peu de caractéristiques présentent une stationnarité. Même les caractéristiques synonymes de stabilité (comme le niveau de la mer) changent au fil du temps.

À comparer à la non-stationnarité.

descente de gradient stochastique (SGD)

#fundamentals

Algorithme de descente de gradient dans lequel la taille de lot est égale à un. Autrement dit, la descente de gradient stochastique s'entraîne sur un seul exemple choisi uniformément, de manière aléatoire, dans un ensemble d'entraînement.

machine learning supervisé

#fundamentals

Entraînement d'un modèle à partir de caractéristiques et de leurs libellés correspondants. Le machine learning supervisé est comparable à l'apprentissage d'un sujet en étudiant une série de questions et les réponses correspondantes. Une fois qu'un élève a maîtrisé la mise en correspondance des questions et des réponses, il peut fournir des réponses à de nouvelles questions (jamais vues auparavant) sur le même sujet.

À comparer au machine learning non supervisé.

caractéristique synthétique

#fundamentals

Élément absent des éléments d'entrée, mais assemblé à partir d'un ou de plusieurs d'entre eux. Les méthodes de création de fonctionnalités synthétiques incluent les suivantes:

  • Binning d'une caractéristique continue dans des paquets de plage
  • Créer un croisement de caractéristiques
  • Multiplication (ou division) d'une caractéristique par d'autres caractéristiques ou par elle-même Par exemple, si a et b sont des éléments d'entrée, voici des exemples de caractéristiques synthétiques :
    • ab
    • a2
  • Application d'une fonction transcendantale à une valeur d'élément géographique. Par exemple, si c est une fonctionnalité d'entrée, voici des exemples de fonctionnalités synthétiques :
    • sin(c)
    • ln(c)

Les caractéristiques créées par normalisation ou mise à l'échelle seules ne sont pas considérées comme des caractéristiques synthétiques.

T

perte de test

#fundamentals

Métrique représentant la perte d'un modèle par rapport à l'ensemble de test. Lorsque vous créez un modèle, vous essayez généralement de minimiser la perte de test. En effet, une faible perte de test est un signal de qualité plus fort qu'une faible perte d'entraînement ou une faible perte de validation.

Un écart important entre la perte de test et la perte d'entraînement ou de validation suggère parfois que vous devez augmenter le taux de régularisation.

entraînement

#fundamentals

Processus consistant à déterminer les paramètres idéaux (pondérations et biais) d'un modèle. Pendant l'entraînement, un système lit des exemples et ajuste progressivement les paramètres. L'entraînement utilise chaque exemple de quelques fois à des milliards de fois.

perte d'entraînement

#fundamentals

Métrique représentant la perte d'un modèle lors d'une itération d'entraînement spécifique. Par exemple, supposons que la fonction de perte soit l'erreur quadratique moyenne. La perte d'entraînement (l'erreur quadratique moyenne) pour la 10e itération est peut-être de 2,2, et la perte d'entraînement pour la 100e itération est de 1,9.

Une courbe de perte représente la perte d'entraînement en fonction du nombre d'itérations. Une courbe de perte fournit les indications suivantes sur l'entraînement:

  • Une pente descendante implique que le modèle s'améliore.
  • Une pente ascendante implique que le modèle se dégrade.
  • Une pente plate implique que le modèle a atteint la convergence.

Par exemple, la courbe de perte suivante, quelque peu idéalisée, montre:

  • Une pente descendante abrupte lors des itérations initiales, ce qui implique une amélioration rapide du modèle.
  • Une pente progressivement aplatie (mais toujours à la baisse) jusqu'à la fin de l'entraînement, ce qui implique une amélioration continue du modèle à un rythme un peu plus lent que lors des itérations initiales.
  • Une pente plate vers la fin de l'entraînement, ce qui suggère une convergence.

Graphique de la perte d&#39;entraînement par rapport aux itérations. Cette courbe de perte commence par une pente descendante abrupte. La pente s&#39;aplatit progressivement jusqu&#39;à ce qu&#39;elle devienne nulle.

Bien que la perte d'entraînement soit importante, consultez également la généralisation.

Décalage entraînement/mise en service

#fundamentals

Différence entre les performances d'un modèle lors de l'entraînement et celles de ce même modèle lors de la diffusion.

ensemble d'entraînement

#fundamentals

Sous-ensemble de l'ensemble de données utilisé pour entraîner un modèle.

Traditionnellement, les exemples de l'ensemble de données sont divisés en trois sous-ensembles distincts:

Idéalement, chaque exemple de l'ensemble de données ne doit appartenir qu'à l'un des sous-ensembles précédents. Par exemple, un seul exemple ne doit pas appartenir à la fois à l'ensemble d'entraînement et à l'ensemble de validation.

vrai négatif (VN)

#fundamentals

Exemple dans lequel le modèle prédit correctement la classe négative. Par exemple, le modèle déduit qu'un e-mail particulier n'est pas du spam, et qu'il n'est pas du spam.

vrai positif (VP)

#fundamentals

Exemple dans lequel le modèle prédit correctement la classe positive. Par exemple, le modèle déduit qu'un e-mail particulier est du spam, ce qui était bien le cas.

taux de vrais positifs (TVP) (true positive rate (TPR))

#fundamentals

Synonyme de rappel. Par exemple :

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

Le taux de vrais positifs correspond à l'ordonnée d'une courbe ROC.

U

sous-apprentissage

#fundamentals

Produire un modèle dont la capacité de prédiction est faible, car il n'a pas entièrement saisi la complexité des données d'entraînement. De nombreux problèmes peuvent causer un sous-apprentissage, y compris:

exemple sans étiquette

#fundamentals

Exemple contenant des éléments géographiques, mais aucune étiquette. Par exemple, le tableau suivant présente trois exemples non libellés d'un modèle d'évaluation de maison, chacun avec trois caractéristiques, mais sans valeur de la maison:

Nombre de chambres Nombre de salles de bain Âge de la maison
3 2 15
2 1 72
4 2 34

Dans le machine learning supervisé, les modèles sont entraînés sur des exemples étiquetés et effectuent des prédictions sur des exemples non étiquetés.

Dans l'apprentissage semi-supervisé et non supervisé, des exemples sans étiquette sont utilisés pendant l'entraînement.

Comparez l'exemple sans étiquette à l'exemple étiqueté.

machine learning non supervisé

#clustering
#fundamentals

Entraînement d'un modèle pour détecter des schémas dans un ensemble de données, généralement sans étiquette.

Le machine learning non supervisé est surtout utilisé pour regrouper les données dans des clusters d'exemples similaires. Par exemple, un algorithme d'apprentissage automatique non supervisé peut regrouper des titres en fonction de diverses propriétés de la musique. Les clusters qui en résultent peuvent devenir une entrée pour d'autres algorithmes de machine learning (par exemple, pour un service de recommandation musicale). Le clustering peut être utile lorsque les libellés utiles sont rares ou absents. Par exemple, dans les domaines tels que la lutte contre les abus et la fraude, les clusters peuvent aider à mieux comprendre les données.

À comparer au machine learning supervisé.

V

validation

#fundamentals

Évaluation initiale de la qualité d'un modèle. La validation vérifie la qualité des prédictions d'un modèle par rapport à l'ensemble de validation.

Étant donné que l'ensemble de validation diffère de l'ensemble d'entraînement, la validation permet d'éviter le surapprentissage.

Vous pouvez considérer l'évaluation du modèle avec l'ensemble de validation comme la première série de tests et l'évaluation du modèle avec l'ensemble de test comme la deuxième série de tests.

perte de validation

#fundamentals

Métrique représentant la perte d'un modèle sur l'ensemble de validation lors d'une itération d'entraînement spécifique.

Voir également la courbe de généralisation.

ensemble de validation

#fundamentals

Sous-ensemble de l'ensemble de données qui effectue une évaluation initiale par rapport à un modèle entraîné. En règle générale, vous évaluez le modèle entraîné par rapport à l'ensemble de validation plusieurs fois avant de l'évaluer par rapport à l'ensemble de test.

Traditionnellement, vous divisez les exemples de l'ensemble de données en trois sous-ensembles distincts:

Idéalement, chaque exemple de l'ensemble de données ne doit appartenir qu'à l'un des sous-ensembles précédents. Par exemple, un seul exemple ne doit pas appartenir à la fois à l'ensemble d'entraînement et à l'ensemble de validation.

W

weight

#fundamentals

Valeur qu'un modèle multiplie par une autre valeur. L'entraînement consiste à déterminer les pondérations idéales d'un modèle. L'inférence consiste à utiliser ces pondérations apprises pour effectuer des prédictions.

Somme pondérée

#fundamentals

Somme de toutes les valeurs d'entrée pertinentes multipliées par leurs pondérations correspondantes. Par exemple, supposons que les entrées pertinentes soient les suivantes:

valeur d'entrée pondération d'entrée
2 -1,3
-1 0,6
3 0,4

La somme pondérée est donc:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Une somme pondérée est l'argument d'entrée d'une fonction d'activation.

Z

Normalisation de la cote Z

#fundamentals

Technique de mise à l'échelle qui remplace une valeur brute de composant par une valeur à virgule flottante représentant le nombre d'écarts-types par rapport à la moyenne de ce composant. Prenons l'exemple d'une caractéristique dont la moyenne est de 800 et l'écart-type de 100. Le tableau suivant montre comment la normalisation par score Z mappe la valeur brute sur son score Z:

Valeur brute Score Z
800 0
950 +1,5
575 -2,25

Le modèle de machine learning s'entraîne ensuite sur les scores Z de cette caractéristique plutôt que sur les valeurs brutes.