Glossaire du machine learning

Ce glossaire définit les termes du machine learning.

A

ablation

Technique permettant d'évaluer l'importance d'une fonctionnalité ou d'un composant en le supprimant temporairement d'un modèle. Vous réentraînez ensuite le modèle sans cette caractéristique ou ce composant. Si les performances du modèle réentraîné sont nettement moins bonnes, la caractéristique ou le composant supprimés étaient probablement importants.

Par exemple, supposons que vous entraîniez un modèle de classification sur 10 caractéristiques et que vous obteniez une précision de 88% sur l'ensemble de test. Pour vérifier l'importance de la première caractéristique, vous pouvez réentraîner le modèle en n'utilisant que les neuf autres caractéristiques. Si les performances du modèle réentraîné sont nettement moins bonnes (par exemple, une précision de 55 %), la caractéristique supprimée était probablement importante. À l'inverse, si le modèle réentraîné fonctionne tout aussi bien, cette caractéristique n'était probablement pas si importante.

L'ablation peut également aider à déterminer l'importance des éléments suivants:

  • Composants plus importants, tels qu'un sous-système entier d'un système de ML plus vaste
  • Processus ou techniques, comme une étape de prétraitement des données

Dans les deux cas, vous observerez comment les performances du système changent (ou ne changent pas) après avoir supprimé le composant.

Tests A/B

Méthode statistique permettant de comparer deux (ou plusieurs) techniques : A et B. En règle générale, A est une technique existante et B est une nouvelle technique. Les tests A/B permettent non seulement de déterminer quelle technique est la plus performante, mais aussi si la différence est statistiquement pertinente.

Les tests A/B comparent généralement une seule métrique pour deux techniques. Par exemple, comment se comparent la précision du modèle pour deux techniques ? Toutefois, les tests A/B peuvent également comparer un nombre fini de métriques.

chip d'accélération

#GoogleCloud

Catégorie de composants matériels spécialisés conçus pour effectuer les calculs clés nécessaires aux algorithmes de deep learning.

Les puces d'accélérateur (ou simplement accélérateurs, pour faire court) peuvent considérablement augmenter la vitesse et l'efficacité des tâches d'entraînement et d'inférence par rapport à un processeur à usage général. Ils sont idéaux pour l'entraînement de réseaux de neurones et des tâches similaires intensives en calcul.

Voici quelques exemples de puces d'accélération:

  • Les TPU (Tensor Processing Units) de Google avec du matériel dédié pour l'apprentissage profond.
  • Les GPU NVIDIA, bien que conçus initialement pour le traitement graphique, sont conçus pour permettre le traitement parallèle, ce qui peut considérablement augmenter la vitesse de traitement.

accuracy

#fundamentals

Nombre de prédictions de classification correctes divisé par le nombre total de prédictions. Par exemple :

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Par exemple, un modèle qui a effectué 40 prédictions correctes et 10 prédictions incorrectes aurait une précision de:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

La classification binaire fournit des noms spécifiques aux différentes catégories de prédictions correctes et de prédictions incorrectes. La formule de précision pour la classification binaire est donc la suivante:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

où :

  • Le TP correspond au nombre de vrais positifs (prédictions correctes).
  • TN correspond au nombre de vrais négatifs (prédictions correctes).
  • Le FP correspond au nombre de faux positifs (prédictions incorrectes).
  • FN correspond au nombre de faux négatifs (prédictions incorrectes).

Comparez la justesse à la précision et au rappel.

Pour en savoir plus, consultez Classification: précision, rappel, précision et métriques associées dans le cours d'initiation au machine learning.

action

#rl

Dans l'apprentissage par renforcement, mécanisme par lequel l'agent passe d'un état à un autre dans l'environnement. L'agent choisit l'action à l'aide d'une règle.

fonction d'activation

#fundamentals

Fonction qui permet aux réseaux de neurones d'apprendre des relations non linéaires (complexes) entre les caractéristiques et l'étiquette.

Voici quelques fonctions d'activation courantes:

Les tracés des fonctions d'activation ne sont jamais des lignes droites. Par exemple, le tracé de la fonction d'activation ReLU se compose de deux lignes droites:

Graphique cartésien de deux lignes. La première ligne a une valeur y constante de 0, qui s'étend le long de l'axe X de -infini,0 à 0,-0.
          La deuxième ligne commence à 0,0. Cette ligne a une pente de +1. Elle s'étend donc de 0,0 à +infini,+infini.

Un graphique de la fonction d'activation sigmoïde se présente comme suit:

Graphique courbe à deux dimensions dont les valeurs x couvrent la plage allant de l'infini négatif à l'infini positif, tandis que les valeurs y couvrent la plage allant presque de 0 à 1. Lorsque x est égal à 0, y est égal à 0,5. La pente de la courbe est toujours positive, avec la pente la plus élevée à 0,0,5 et des pentes diminuant progressivement à mesure que la valeur absolue de x augmente.

Pour en savoir plus, consultez la section Réseaux de neurones: fonctions d'activation du cours d'initiation au machine learning.

apprentissage actif

Méthode d'entraînement dans laquelle l'algorithme sélectionne une partie des données qui servent à son apprentissage. L'apprentissage actif est particulièrement utile lorsque les exemples étiquetés sont peu nombreux ou coûteux. Au lieu de rechercher sans distinction une gamme variée d'exemples étiquetés, un algorithme d'apprentissage actif recherche sélectivement la gamme spécifique des exemples qui serviront à son apprentissage.

AdaGrad

Algorithme complexe de descente de gradient qui redimensionne les gradients de chaque paramètre, en attribuant à chacun des paramètres un taux d'apprentissage indépendant. Pour une explication complète, consultez cet article sur AdaGrad.

agent

#rl

Dans le machine learning par renforcement, entité qui utilise une stratégie pour maximiser le rendement attendu obtenu en passant d'un état à un autre de l'environnement.

Plus généralement, un agent est un logiciel qui planifie et exécute de manière autonome une série d'actions en vue d'atteindre un objectif, avec la capacité de s'adapter aux changements de son environnement. Par exemple, un agent basé sur un LLM peut utiliser un LLM pour générer un plan, plutôt que d'appliquer une stratégie de renforcement.

clustering agglomératif

#clustering

Consultez la section Clustering hiérarchique.

détection d'anomalies

Processus permettant d'identifier les valeurs aberrantes. Par exemple, si la moyenne d'une certaine fonctionnalité est de 100 avec une déviation standard de 10, la détection des anomalies doit signaler une valeur de 200 comme suspecte.

AR

Abréviation de réalité augmentée.

aire sous la courbe PR

Consultez AUC PR (aire sous la courbe PR).

aire sous la courbe ROC

Consultez AUC (aire sous la courbe ROC).

intelligence artificielle générale

Mécanisme non humain qui démontre une large gamme de capacités de résolution de problèmes, de créativité et d'adaptabilité. Par exemple, un programme démontrant l'intelligence générale artificielle pourrait traduire du texte, composer des symphonies et exceller dans des jeux qui n'ont pas encore été inventés.

intelligence artificielle

#fundamentals

Programme ou modèle non humain capable de résoudre des tâches complexes. Par exemple, un programme ou un modèle qui traduit du texte ou un programme ou un modèle qui identifie des maladies à partir d'images radiologiques présentent tous deux de l'intelligence artificielle.

Formellement, le machine learning est un sous-domaine de l'intelligence artificielle. Toutefois, ces dernières années, certaines entreprises ont commencé à utiliser les termes intelligence artificielle et machine learning de manière interchangeable.

"Attention",

#language

Mécanisme utilisé dans un réseau de neurones qui indique l'importance d'un mot ou d'une partie de mot spécifique. L'attention compresse la quantité d'informations dont un modèle a besoin pour prédire le prochain jeton/mot. Un mécanisme d'attention typique peut consister en une somme pondérée sur un ensemble d'entrées, où le poids de chaque entrée est calculé par une autre partie du réseau de neurones.

Consultez également la auto-attention et l'auto-attention multitête, qui sont les éléments de base des Transformers.

Pour en savoir plus sur l'attention automatique, consultez LLM: qu'est-ce qu'un grand modèle de langage ? dans le cours d'initiation au machine learning.

attribut

#fairness

Synonyme de fonctionnalité.

Dans l'équité du machine learning, les attributs font souvent référence aux caractéristiques des individus.

Échantillonnage d'attributs

#df

Stratégie d'entraînement d'une forêt de décision dans laquelle chaque arbre de décision ne prend en compte qu'un sous-ensemble aléatoire des caractéristiques possibles lors de l'apprentissage de la condition. En général, un sous-ensemble différent de fonctionnalités est échantillonné pour chaque nœud. En revanche, lors de l'entraînement d'un arbre de décision sans échantillonnage d'attributs, toutes les caractéristiques possibles sont prises en compte pour chaque nœud.

AUC (aire sous la courbe ROC)

#fundamentals

Valeur comprise entre 0,0 et 1,0 représentant la capacité d'un modèle de classification binaire à séparer les classes positives des classes négatives. Plus l'AUC est proche de 1, plus le modèle est capable de séparer les classes les unes des autres.

Par exemple, l'illustration suivante montre un modèle de classificateur qui sépare parfaitement les classes positives (ovales verts) des classes négatives (rectangles violets). Ce modèle irréalistement parfait a une AUC de 1,0:

Une ligne numérique avec huit exemples positifs d'un côté et neuf exemples négatifs de l'autre.

À l'inverse, l'illustration suivante montre les résultats d'un modèle de classificateur qui a généré des résultats aléatoires. Ce modèle a une AUC de 0,5:

Une ligne numérique avec six exemples positifs et six exemples négatifs.
          La séquence d'exemples est positive, négative, positive, négative, positive, négative, positive, négative, positive, négative, positive, négative.

Oui, le modèle précédent a une AUC de 0,5, et non de 0,0.

La plupart des modèles se situent entre les deux extrêmes. Par exemple, le modèle suivant sépare quelque peu les éléments positifs des éléments négatifs. Il a donc une AUC comprise entre 0,5 et 1,0:

Une ligne numérique avec six exemples positifs et six exemples négatifs.
          La séquence d'exemples est négative, négative, négative, négative, positive, négative, positive, positive, négative, positive, positive, positive.

L'AUC ignore toute valeur que vous définissez pour le seuil de classification. À la place, l'AUC tient compte de tous les seuils de classification possibles.

Pour en savoir plus, consultez la section Classification: ROC et AUC du cours d'initiation au machine learning.

réalité augmentée

#image

Technologie qui superpose une image générée par ordinateur à la vue du monde réel de l'utilisateur, offrant ainsi une vue composite.

auto-encodeur

#language
#image

Système qui apprend à extraire les informations les plus importantes de l'entrée. Les autoencodeurs sont une combinaison d'un encodeur et d'un décodeur. Les autoencodeurs reposent sur le processus en deux étapes suivant:

  1. L'encodeur mappe l'entrée sur un format (intermédiaire) à faible dimension (généralement avec perte).
  2. Le décodeur crée une version avec perte de l'entrée d'origine en mappant le format à dimension inférieure sur le format d'entrée d'origine à dimension supérieure.

Les autoencodeurs sont entraînés de bout en bout en demandant au décodeur de tenter de reconstruire l'entrée d'origine à partir du format intermédiaire de l'encodeur le plus fidèlement possible. Étant donné que le format intermédiaire est plus petit (de dimension inférieure) que le format d'origine, l'autoencodeur est contraint d'apprendre quelles informations de l'entrée sont essentielles, et la sortie ne sera pas parfaitement identique à l'entrée.

Exemple :

  • Si les données d'entrée sont un graphique, la copie non exacte sera semblable au graphique d'origine, mais quelque peu modifiée. Il est possible que la copie non exacte supprime le bruit de l'image originale ou remplisse certains pixels manquants.
  • Si les données d'entrée sont du texte, un autoencodeur génère un nouveau texte qui imite (mais n'est pas identique) le texte d'origine.

Voir également les auto-encodeurs variationnels.

évaluation automatique

#language
#generativeAI

Utiliser un logiciel pour évaluer la qualité de la sortie d'un modèle

Lorsque la sortie du modèle est relativement simple, un script ou un programme peut comparer la sortie du modèle à une réponse d'or. Ce type d'évaluation automatique est parfois appelé évaluation programmatique. Les métriques telles que ROUGE ou BLEU sont souvent utiles pour l'évaluation programmatique.

Lorsque la sortie du modèle est complexe ou qu'il n'existe pas de bonne réponse unique, un programme de ML distinct appelé auto-évaluateur effectue parfois l'évaluation automatique.

À comparer à l'évaluation humaine.

biais d'automatisation

#fairness

Lorsqu'un décideur humain donne la priorité aux recommandations d'un système automatisé de prise de décision par rapport aux informations ne provenant pas d'un processus d'automatisation, même en cas d'erreur du système automatisé.

Pour en savoir plus, consultez la section Équité: types de biais dans le cours d'initiation au machine learning.

AutoML

Tout processus automatisé de création de modèles de machine learning . AutoML peut effectuer automatiquement des tâches telles que les suivantes:

AutoML est utile pour les data scientists, car il peut leur faire gagner du temps et des efforts dans le développement de pipelines de machine learning, et améliorer la précision des prédictions. Il est également utile aux non-experts, car il rend les tâches de machine learning complexes plus accessibles.

Pour en savoir plus, consultez la section Machine learning automatisé (AutoML) dans le cours d'initiation au machine learning.

évaluation de l'outil d'évaluation automatique

#language
#generativeAI
Mécanisme hybride permettant d'évaluer la qualité de la sortie d'un modèle d'IA générative, qui combine une évaluation humaine et une évaluation automatique. Un outil d'évaluation automatique est un modèle de ML entraîné sur des données créées par une évaluation humaine. Dans l'idéal, un outil d'évaluation automatique apprend à imiter un évaluateur humain.

Des outils d'automatisation prédéfinis sont disponibles, mais les meilleurs d'entre eux sont affinés spécifiquement pour la tâche que vous évaluez.

modèle autorégressif

#language
#image
#generativeAI

Modèle qui infère une prédiction en fonction de ses propres prédictions précédentes. Par exemple, les modèles de langage autorégressifs prédisent le prochain jeton en fonction des jetons précédemment prédits. Tous les grands modèles de langage basés sur Transformer sont autorégressifs.

En revanche, les modèles d'image basés sur des GAN ne sont généralement pas autorégressifs, car ils génèrent une image en une seule passe avant et non de manière itérée par étapes. Toutefois, certains modèles de génération d'images sont autorégressifs, car ils génèrent une image par étapes.

perte auxiliaire

Une fonction de perte, utilisée conjointement avec la fonction de perte principale du modèle de réseau de neurones, qui permet d'accélérer l'entraînement lors des premières itérations, lorsque les poids sont initialisés de manière aléatoire.

Les fonctions de perte auxiliaires transfèrent les gradients efficaces vers les couches précédentes. Cela facilite la convergence lors de l'entraînement en luttant contre le problème de gradient qui disparaît.

précision moyenne à k

#language

Métrique permettant de résumer les performances d'un modèle pour une seule invite qui génère des résultats classés, comme une liste numérotée de recommandations de livres. La précision moyenne à k correspond à la moyenne des valeurs de précision à k pour chaque résultat pertinent. La formule de la précision moyenne à k est donc la suivante:

\[{\text{average precision at k}} = \frac{1}{n} \sum_{i=1}^n {\text{precision at k for each relevant item} } \]

où :

  • \(n\) correspond au nombre d'éléments pertinents dans la liste.

À comparer au rappel à k.

condition alignée sur l'axe

#df

Dans un arbre de décision, condition ne concernant qu'une seule fonctionnalité. Par exemple, si area est une fonctionnalité, la condition suivante est une condition alignée sur l'axe:

area > 200

À comparer à la condition oblique.

B

rétropropagation

#fundamentals

Algorithme qui implémente la descente de gradient dans les réseaux de neurones.

L'entraînement d'un réseau de neurones implique de nombreuses iterations du cycle en deux étapes suivant:

  1. Lors de la passée avant, le système traite un lot d'exemples pour générer une ou plusieurs prédictions. Le système compare chaque prédiction à chaque valeur de libellé. La différence entre la prédiction et la valeur de l'étiquette correspond à la perte pour cet exemple. Le système regroupe les pertes de tous les exemples pour calculer la perte totale du lot en cours.
  2. Lors de la passée arrière (backpropagation), le système réduit la perte en ajustant les poids de tous les neurones de toutes les couches cachées.

Les réseaux de neurones contiennent souvent de nombreux neurones sur de nombreuses couches cachées. Chacun de ces neurones contribue à la perte globale de différentes manières. La rétropropagation détermine si les pondérations appliquées à des neurones spécifiques doivent être augmentées ou diminuées.

Le taux d'apprentissage est un multiplicateur qui contrôle le degré auquel chaque passe arrière augmente ou diminue chaque poids. Un taux d'apprentissage élevé augmente ou diminue chaque poids plus qu'un taux d'apprentissage faible.

En termes de calcul, la rétropropagation implémente la règle de la chaîne. Autrement dit, la rétropropagation calcule la dérivée partielle de l'erreur par rapport à chaque paramètre.

Il y a quelques années, les professionnels du ML devaient écrire du code pour implémenter la rétropropagation. Les API de ML modernes comme Keras implémentent désormais la rétropropagation pour vous. Ouf !

Pour en savoir plus, consultez la section Réseaux de neurones du cours d'initiation au machine learning.

bagging

#df

Méthode permettant d'entraîner un ensemble, où chaque modèle constituant s'entraîne sur un sous-ensemble aléatoire d'exemples d'entraînement échantillonnés avec remplacement. Par exemple, une forêt d'arbres décisionnels est une collection d'arbres de décision entraînés avec le bagging.

Le terme bagging est l'abréviation de bootstrap aggregating.

Pour en savoir plus, consultez la section Forêts d'arbres aléatoires du cours "Forêts d'arbres décisionnels".

sac de mots

#language

Représentation des mots d'une expression ou d'un extrait, quel que soit leur ordre. Par exemple, un sac de mots représente les trois phrases suivantes à l'identique:

  • the dog jumps
  • jumps the dog
  • dog jumps the

Chaque mot est mappé à un indice dans un vecteur sparse, où le vecteur a un indice pour chaque mot du vocabulaire. Par exemple, la phrase the dog jumps est mappée dans un vecteur de caractéristiques dont les trois indices correspondant aux mots the, dog et jumps auront des valeurs non nulles. La valeur non nulle peut être l'une des suivantes:

  • 1 pour indiquer la présence d'un mot.
  • Nombre d'apparitions d'un mot dans le sac. Par exemple, si l'expression est the maroon dog is a dog with maroon fur, les mots maroon et dog seront représentés par la valeur 2, tandis que les autres mots seront représentés par la valeur 1.
  • Une autre valeur, telle que le logarithme du nombre d'apparition d'un mot dans le sac.

Valeur de référence

Modèle utilisé comme point de référence pour comparer les performances d'un autre modèle (généralement plus complexe). Par exemple, un modèle de régression logistique peut servir de référence pour un modèle profond.

Pour un problème particulier, la référence aide les développeurs de modèles à quantifier les performances minimales attendues qu'un nouveau modèle doit atteindre pour être utile.

lot

#fundamentals

Ensemble d'exemples utilisés dans une itération d'entraînement. La taille de lot détermine le nombre d'exemples dans un lot.

Consultez la section epoch pour comprendre comment un lot se rapporte à une époque.

Pour en savoir plus, consultez la section Régression linéaire : hyperparamètres du cours d'initiation au machine learning.

inférence par lot

#TensorFlow
#GoogleCloud

Processus d'inférence de prédictions sur plusieurs exemples non annotés divisés en sous-ensembles plus petits ("lots").

L'inférence par lot peut exploiter les fonctionnalités de parallélisation des puces d'accélérateur. Autrement dit, plusieurs accélérateurs peuvent simultanément inférer des prédictions sur différents lots d'exemples non annotés, ce qui augmente considérablement le nombre d'inférences par seconde.

Pour en savoir plus, consultez la section Systèmes de ML en production: inférence statique ou dynamique dans le cours d'initiation au machine learning.

normalisation des lots

Normalisation de l'entrée ou de la sortie des fonctions d'activation dans une couche cachée. La normalisation des lots peut offrir les avantages suivants:

taille du lot

#fundamentals

Nombre d'exemples dans un lot. Par exemple, si la taille de lot est de 100, le modèle traite 100 exemples par itération.

Voici quelques stratégies de taille de lot populaires:

  • Descente de gradient stochastique (SGD), dans laquelle la taille de lot est de 1.
  • Lot complet, dans lequel la taille de lot correspond au nombre d'exemples de l'ensemble d'entraînement complet. Par exemple, si l'ensemble d'entraînement contient un million d'exemples, la taille de lot sera de un million d'exemples. Le traitement par lot complet est généralement une stratégie inefficace.
  • mini-lot, dont la taille est généralement comprise entre 10 et 1 000. La stratégie de mini-lot est généralement la plus efficace.

Pour en savoir plus, lisez les informations ci-après.

Réseau de neurones bayésien

Réseau de neurones probabiliste qui prend en compte les incertitudes liées aux pondérations et aux résultats. Un modèle de régression de réseau neuronal standard prédit généralement une valeur scalaire. Par exemple, un modèle standard prédit le prix d'une maison à 853 000. En revanche, un réseau de neurones bayésien prédit une distribution de valeurs. Par exemple, un modèle bayésien prédit le prix d'une maison à 853 000 avec un écart type de 67 200.

Un réseau de neurones bayésien s'appuie sur le théorème de Bayes pour calculer les incertitudes liées aux pondérations et aux prédictions. Un réseau de neurones bayésien peut être utile lorsqu'il est important de quantifier l'incertitude, comme dans les modèles liés aux produits pharmaceutiques. Les réseaux de neurones bayésiens peuvent également empêcher le surapprentissage.

Optimisation bayésienne

Technique de modèle de régression probabiliste permettant d'optimiser des fonctions objectives coûteuses en calcul en optimisant plutôt un substitut qui quantifie l'incertitude à l'aide d'une technique d'apprentissage bayésien. Étant donné que l'optimisation bayésienne est elle-même très coûteuse, elle est généralement utilisée pour optimiser des tâches coûteuses à évaluer qui comportent un petit nombre de paramètres, comme la sélection des hyperparamètres.

Équation de Bellman

#rl

Dans l'apprentissage par renforcement, l'identité suivante est satisfaite par la fonction Q optimale:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

Les algorithmes d'apprentissage par renforcement appliquent cette identité pour créer un apprentissage par renforcement Q via la règle de mise à jour suivante:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

Au-delà de l'apprentissage par renforcement, l'équation de Bellman s'applique à la programmation dynamique. Consultez l' article Wikipédia sur l'équation de Bellman.

BERT (Bidirectional Encoder Representations from Transformers)

#language

Architecture de modèle pour la représentation du texte. Un modèle BERT entraîné peut faire partie d'un modèle plus volumineux pour la classification de texte ou d'autres tâches de ML.

BERT présente les caractéristiques suivantes:

Voici quelques variantes de BERT:

Pour en savoir plus sur BERT, consultez Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing (BERT en Open source : pré-entraînement de pointe pour le traitement du langage naturel).

biais (éthique/équité) (bias (ethics/fairness))

#fairness
#fundamentals

1. Stéréotypes, préjugés ou favoritisme envers certains groupes, choses ou personnes par rapport à d'autres. Ces biais peuvent avoir une incidence sur la collecte et l'interprétation des données, ainsi que sur la conception d'un système et la manière dont les utilisateurs interagissent avec celui-ci. Les formes de ce type de biais comprennent les éléments suivants:

2. Erreur systématique introduite par une procédure d'échantillonnage ou de rapport. Les formes de ce type de biais comprennent les éléments suivants:

À ne pas confondre avec le biais des modèles de machine learning ou le biais de prédiction.

Pour en savoir plus, consultez la section Équité: types de biais du cours d'initiation au machine learning.

biais (mathématiques) ou terme de biais

#fundamentals

Ordonnée à l'origine ou décalage par rapport à une origine. Le biais est un paramètre des modèles de machine learning, symbolisé par l'un des éléments suivants:

  • b
  • w0

Par exemple, b représente le biais dans la formule suivante:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Dans une ligne bidimensionnelle simple, le biais correspond simplement à l'ordonnée à l'origine. Par exemple, le biais de la ligne de l'illustration suivante est de 2.

Graphique d'une ligne avec une pente de 0,5 et un biais (interception y) de 2.

Un biais existe, car tous les modèles ne partent pas de l'origine (0,0). Par exemple, supposons qu'un parc d'attractions coûte 2 euros à l'entrée et 0,5 euro supplémentaire par heure de présence d'un client. Par conséquent, un modèle mappant le coût total présente un biais de 2, car le coût le plus bas est de 2 euros.

Le biais ne doit pas être confondu avec le biais en matière d'éthique et d'équité ou le biais de prédiction.

Pour en savoir plus, consultez la section Régression linéaire du cours d'initiation au machine learning.

bidirectionnel

#language

Terme utilisé pour décrire un système qui évalue le texte qui précède et suit une section cible de texte. En revanche, un système unidirectionnel n'évalue que le texte qui précède une section cible de texte.

Prenons l'exemple d'un modèle de langage masqué qui doit déterminer les probabilités pour le ou les mots représentant le soulignement dans la question suivante:

Qu'est-ce qui ne va pas chez vous ?

Un modèle de langage unidirectionnel ne devrait baser ses probabilités que sur le contexte fourni par les mots "quoi", "est" et "le". À l'inverse, un modèle de langage bidirectionnel peut également obtenir du contexte à partir de "avec" et de "vous", ce qui peut l'aider à générer de meilleures prédictions.

modèle de langage bidirectionnel

#language

Modèle de langage qui détermine la probabilité qu'un jeton donné soit présent à un emplacement donné dans un extrait de texte en fonction du texte précédent et suivant.

bigramme

#seq
#language

Un N-gramme dans lequel N=2.

classification binaire

#fundamentals

Type de tâche de classification qui prédit l'une des deux classes mutuellement exclusives:

Par exemple, les deux modèles de machine learning suivants effectuent chacun une classification binaire:

  • Modèle qui détermine si les e-mails sont du spam (classe positive) ou non (classe négative).
  • Modèle qui évalue les symptômes médicaux pour déterminer si une personne est atteinte d'une maladie particulière (classe positive) ou non (classe négative).

À comparer à la classification multiclasse.

Consultez également les articles sur la régression logistique et le seuil de classification.

Pour en savoir plus, consultez la section Classification du cours d'initiation au machine learning.

condition binaire

#df

Dans un arbre de décision, condition qui n'a que deux résultats possibles, généralement oui ou non. Par exemple, la condition suivante est une condition binaire:

temperature >= 100

À comparer à la condition non binaire.

Pour en savoir plus, consultez la section Types de conditions du cours sur les forêts décisionnelles.

binning

Synonyme de binning.

BLEU (Bilingual Evaluation Understudy)

#language

Métrique comprise entre 0,0 et 1,0 pour évaluer les traductions automatiques, par exemple de l'espagnol vers le japonais.

Pour calculer un score, BLEU compare généralement la traduction d'un modèle de ML (texte généré) à celle d'un expert humain (texte de référence). Le degré de correspondance des n-grammes dans le texte généré et le texte de référence détermine le score BLEU.

L'article d'origine sur cette métrique est BLEU: a Method for Automatic Evaluation of Machine Translation (BLEU : une méthode d'évaluation automatique de la traduction automatique).

Voir également BLEURT.

BLEURT (Bilingual Evaluation Understudy from Transformers)

#language

Métrique permettant d'évaluer les traductions automatiques d'une langue à une autre, en particulier de l'anglais vers l'anglais et de l'anglais vers d'autres langues.

Pour les traductions vers et depuis l'anglais, BLEURT s'aligne plus étroitement sur les évaluations humaines que BLEU. Contrairement à BLEU, BLEURT met l'accent sur les similitudes sémantiques (de sens) et peut prendre en charge le paraphrasage.

BLEURT repose sur un grand modèle de langage pré-entraîné (BERT, pour être exact) qui est ensuite affiné sur le texte de traducteurs humains.

L'article d'origine sur cette métrique est BLEURT: Learning Robust Metrics for Text Generation.

boosting

Technique de machine learning qui combine de manière itérative un ensemble de classificateurs simples et peu précis (appelés classificateurs "faibles") en un classificateur très précis (classificateur "fort") en surpondérant les exemples que le modèle classifie actuellement de manière erronée.

Pour en savoir plus, consultez la section Arbres de décision avec boosting de gradient du cours "Forêts de décision".

cadre de délimitation

#image

Dans une image, les coordonnées (x, y) d'un rectangle autour d'une zone d'intérêt, comme le chien dans l'image ci-dessous.

Photographie d'un chien assis sur un canapé. Un cadre de délimitation vert avec les coordonnées en haut à gauche (275, 1271) et en bas à droite (2954, 2761) entoure le corps du chien.

diffusion

Développer la forme d'un opérande d'une opération mathématique matricielle à des dimensions compatibles pour cette opération. Par exemple, en algèbre linéaire, il est nécessaire que les deux opérandes d'une opération d'addition matricielle aient les mêmes dimensions. Par conséquent, vous ne pouvez pas ajouter une matrice de forme (m, n) à un vecteur de longueur n. Le broadcasting permet d'effectuer cette opération en développant virtuellement le vecteur de longueur n en une matrice de forme (m, n) en répliquant les mêmes valeurs dans chaque colonne.

Par exemple, avec les définitions suivantes, l'algèbre linéaire interdit A+B parce que A et B ont des dimensions différentes:

A = [[7, 10, 4],
     [13, 5, 9]]
B = [2]

Toutefois, le broadcasting permet d'effectuer l'opération A+B en développant virtuellement B en:

 [[2, 2, 2],
  [2, 2, 2]]

A+B est donc maintenant une opération valide:

[[7, 10, 4],  +  [[2, 2, 2],  =  [[ 9, 12, 6],
 [13, 5, 9]]      [2, 2, 2]]      [15, 7, 11]]

Pour en savoir plus, consultez la description suivante de la diffusion dans NumPy.

le binning

#fundamentals

Conversion d'une seule fonctionnalité en plusieurs fonctionnalités binaires appelées ensembles ou classes, généralement en fonction d'une plage de valeurs. La caractéristique hachée est généralement une caractéristique continue.

Par exemple, au lieu de représenter la température comme une seule caractéristique à virgule flottante continue, vous pouvez diviser les plages de températures en buckets distincts, par exemple:

  • <= 10 degrés Celsius correspond au bac "froid".
  • La plage de température de 11 à 24 degrés Celsius correspond à la catégorie "tempéré".
  • >= 25 degrés Celsius correspond à la catégorie "chaud".

Le modèle traitera toutes les valeurs du même bucket de la même manière. Par exemple, les valeurs 13 et 22 se trouvent toutes deux dans le bucket tempéré. Le modèle traite donc les deux valeurs de manière identique.

Pour en savoir plus, consultez la section Données numériques : binning du cours d'initiation au machine learning.

C

couche de calibrage

Ajustement réalisé après la prédiction, généralement pour prendre en compte le biais de prédiction. Les prédictions et les probabilités ajustées doivent correspondre à la distribution d'un ensemble observé d'étiquettes.

génération de candidats

#recsystems

Ensemble initial de recommandations sélectionné par un système de recommandation. Prenons l'exemple d'une librairie proposant 100 000 livres. La phase de génération de candidats crée une liste beaucoup plus restreinte de livres pertinents pour un utilisateur particulier, par exemple 500. Mais recommander 500 livres à un utilisateur reste beaucoup trop. Les phases ultérieures, plus coûteuses, d'un système de recommandation (telles que l'évaluation et le reclassement) réduisent ces 500 recommandations à un ensemble beaucoup plus petit et plus utile.

Pour en savoir plus, consultez la section Présentation de la génération de candidats dans le cours sur les systèmes de recommandation.

échantillonnage de candidats

Optimisation réalisée lors de l'entraînement, qui calcule une probabilité pour toutes les étiquettes positives, en utilisant par exemple softmax, mais seulement pour un échantillon aléatoire d'étiquettes négatives. Par exemple, si un exemple est étiqueté beagle et chien, l'échantillonnage de candidats calcule les probabilités prédites et les termes de pertes correspondants pour:

  • beagle
  • chien
  • un sous-ensemble aléatoire des classes négatives restantes (par exemple, chat, sucette, clôture).

L'idée est que les classes négatives peuvent apprendre à partir d'un renforcement négatif moins fréquent tant que les classes positives reçoivent toujours un renforcement positif approprié, ce qui est effectivement observé empiriquement.

L'échantillonnage des candidats est plus efficace en termes de calcul que les algorithmes d'entraînement qui calculent des prédictions pour toutes les classes négatives, en particulier lorsque le nombre de classes négatives est très élevé.

données catégorielles

#fundamentals

Caractéristiques avec un ensemble spécifique de valeurs possibles. Par exemple, imaginons une caractéristique catégorique nommée traffic-light-state, qui ne peut avoir qu'une des trois valeurs possibles suivantes:

  • red
  • yellow
  • green

En représentant traffic-light-state comme une caractéristique catégorielle, un modèle peut apprendre les différents impacts de red, green et yellow sur le comportement des conducteurs.

Les caractéristiques catégoriques sont parfois appelées caractéristiques discrètes.

À comparer aux données numériques.

Pour en savoir plus, consultez la section Utiliser des données catégorielles dans le cours d'initiation au machine learning.

modèle de langage causal

#language

Synonyme de modèle de langage unidirectionnel.

Consultez modèle de langage bidirectionnel pour comparer les différentes approches directionnelles dans le modèle de langage.

centroid

#clustering

Centre d'un cluster déterminé par un algorithme k-moyennes ou k-médiane. Par exemple, si k est égal à 3, alors l'algorithme k-moyennes ou k-médiane trouve 3 centroïdes.

Pour en savoir plus, consultez la section Algorithmes de clustering du cours sur le clustering.

clustering basé sur centroïde (centroid-based clustering)

#clustering

Catégorie d'algorithmes de clustering qui organise les données en clusters non hiérarchiques. k-moyennes est l'algorithme de clustering basé sur le centroïde le plus utilisé.

À comparer aux algorithmes de classification hiérarchique.

Pour en savoir plus, consultez la section Algorithmes de clustering du cours sur le clustering.

requêtes en chaîne de pensée

#language
#generativeAI

Technique d'ingénierie des requêtes qui encourage un grand modèle de langage (LLM) à expliquer son raisonnement, étape par étape. Prenons l'exemple de l'invite suivante, en accordant une attention particulière à la deuxième phrase:

Combien de g un conducteur ressentira-t-il dans une voiture qui passe de 0 à 96 km/h en 7 secondes ? Dans la réponse, indiquez tous les calculs pertinents.

La réponse du LLM est susceptible de:

  • Afficher une séquence de formules de physique, en insérant les valeurs 0, 60 et 7 aux endroits appropriés.
  • Expliquez pourquoi il a choisi ces formules et la signification des différentes variables.

Les requêtes en chaîne de pensée obligent le LLM à effectuer tous les calculs, ce qui peut conduire à une réponse plus correcte. De plus, les invites de la chaîne de pensée permettent à l'utilisateur d'examiner les étapes de la LLM pour déterminer si la réponse est logique ou non.

chat

#language
#generativeAI

Contenu d'un dialogue avec un système de ML, généralement un grand modèle de langage. L'interaction précédente dans une discussion (ce que vous avez saisi et la réponse du grand modèle de langage) devient le contexte des parties suivantes de la discussion.

Un chatbot est une application d'un grand modèle de langage.

point de contrôle

Données qui capturent l'état des paramètres d'un modèle pendant l'entraînement ou après sa fin. Par exemple, pendant l'entraînement, vous pouvez:

  1. Arrêtez l'entraînement, peut-être intentionnellement ou en raison de certaines erreurs.
  2. Capturez le point de contrôle.
  3. Plus tard, rechargez le point de contrôle, éventuellement sur un autre matériel.
  4. Redémarrez l'entraînement.

classe

#fundamentals

Catégorie à laquelle un libellé peut appartenir. Exemple :

Un modèle de classification prédit une classe. À l'inverse, un modèle de régression prédit un nombre plutôt qu'une classe.

Pour en savoir plus, consultez la section Classification du cours d'initiation au machine learning.

modèle de classification

#fundamentals

Modèle dont la prédiction est une classe. Par exemple, les modèles suivants sont tous des modèles de classification:

  • Modèle qui prédit la langue d'une phrase d'entrée (français ? Espagnol ? Italien ?).
  • Un modèle qui prédit les espèces d'arbres (érable ? Chêne ? Baobab ?).
  • Modèle qui prédit la classe positive ou négative pour une affection médicale particulière.

En revanche, les modèles de régression prédisent des nombres plutôt que des classes.

Voici deux types de modèles de classification courants:

seuil de classification

#fundamentals

Dans une classification binaire, nombre compris entre 0 et 1 qui convertit la sortie brute d'un modèle de régression logistique en prédiction de la classe positive ou de la classe négative. Notez que le seuil de classification est une valeur choisie par un humain, et non par l'entraînement du modèle.

Un modèle de régression logistique génère une valeur brute comprise entre 0 et 1. Ensuite :

  • Si cette valeur brute est supérieure au seuil de classification, la classe positive est prédite.
  • Si cette valeur brute est inférieure au seuil de classification, la classe négative est prédite.

Par exemple, supposons que le seuil de classification soit de 0,8. Si la valeur brute est de 0,9, le modèle prédit la classe positive. Si la valeur brute est de 0,7, le modèle prédit la classe négative.

Le choix du seuil de classification a une forte influence sur le nombre de faux positifs et de faux négatifs.

Pour en savoir plus, consultez la section Seuils et matrice de confusion du cours d'initiation au machine learning.

ensemble de données avec déséquilibre des classes

#fundamentals

Ensemble de données pour un problème de classification dans lequel le nombre total d'étiquettes de chaque classe diffère considérablement. Prenons l'exemple d'un ensemble de données de classification binaire dont les deux étiquettes sont réparties comme suit:

  • 1 000 000 de libellés négatifs
  • 10 libellés positifs

Le ratio entre les étiquettes négatives et positives est de 100 000 à 1. Il s'agit donc d'un ensemble de données déséquilibré.

En revanche, l'ensemble de données suivant n'est pas déséquilibré par classe, car le ratio entre les libellés négatifs et les libellés positifs est relativement proche de 1:

  • 517 libellés négatifs
  • 483 libellés positifs

Les ensembles de données multiclasses peuvent également présenter un déséquilibre des classes. Par exemple, l'ensemble de données de classification multiclasse suivant est également déséquilibré, car une étiquette contient beaucoup plus d'exemples que les deux autres:

  • 1 000 000 libellés de la classe "vert"
  • 200 étiquettes de la classe "purple"
  • 350 libellés de la classe "orange"

Voir également entropie, classe majoritaire et classe minoritaire.

coupure

#fundamentals

Technique de gestion des anomalies en effectuant l'une des opérations suivantes ou les deux:

  • Abaisser les valeurs de caractéristiques qui sont supérieures à un seuil maximal à ce seuil maximal.
  • Élever les valeurs de caractéristiques qui sont inférieures à un seuil minimal à ce seuil minimal.

Par exemple, supposons que moins de 0,5% des valeurs d'une caractéristique particulière ne sont pas comprises entre 40 et 60. Dans ce cas, vous pouvez procéder comme suit:

  • Borner toutes les valeurs supérieures à 60 (seuil maximal) pour obtenir exactement 60.
  • Borner toutes les valeurs inférieures à 40 (seuil minimal) pour obtenir exactement 40.

Les valeurs aberrantes peuvent endommager les modèles, ce qui entraîne parfois un débordement des pondérations lors de l'entraînement. Certains points aberrants peuvent également considérablement fausser des métriques telles que la précision. Le recadrage est une technique courante pour limiter les dommages.

Le clipping du gradient force les valeurs de gradient dans une plage désignée pendant l'entraînement.

Pour en savoir plus, consultez la section Données numériques : normalisation du cours d'initiation au machine learning.

Cloud TPU

#TensorFlow
#GoogleCloud

Accélérateur matériel spécialisé conçu pour accélérer les charges de travail de machine learning sur Google Cloud.

clustering

#clustering

Regroupement des exemples associés, en particulier lors de l'apprentissage non supervisé. Une fois tous les exemples groupés, une personne peut éventuellement attribuer un sens à chaque cluster.

Il existe de nombreux algorithmes de clustering. Par exemple, l'algorithme k-moyennes regroupe les exemples en fonction de leur proximité avec un centroïde, comme dans le diagramme suivant:

Graphique à deux dimensions dans lequel l&#39;axe des X est intitulé &quot;Largeur de l&#39;arbre&quot; et l&#39;axe des Y &quot;Hauteur de l&#39;arbre&quot;. Le graphique contient deux centroids et plusieurs dizaines de points de données. Les points de données sont classés en fonction de leur proximité. Autrement dit, les points de données les plus proches d&#39;un centroïde sont classés dans le cluster 1, tandis que ceux les plus proches de l&#39;autre centroïde sont classés dans le cluster 2.

Un chercheur pourrait alors examiner les clusters et, par exemple, étiqueter le cluster 1 en tant qu'"arbres nains" et le cluster 2 en tant qu'"arbres de taille normale".

Autre exemple, celui d'un algorithme de clustering basé sur la distance entre un exemple et un point central, illustré comme suit:

Des dizaines de points de données sont disposés en cercles concentriques, presque comme des trous autour du centre d&#39;un jeu de fléchettes. L&#39;anneau le plus intérieur des points de données est classé comme cluster 1, l&#39;anneau du milieu comme cluster 2 et l&#39;anneau le plus extérieur comme cluster 3.

Pour en savoir plus, consultez le cours sur le clustering.

coadaptation

Lorsque des neurones prédisent des schémas dans les données d'entraînement en s'appuyant presque exclusivement sur les sorties d'autres neurones spécifiques, au lieu de s'appuyer sur le comportement du réseau dans son ensemble. Lorsque les schémas à l'origine de la coadaptation ne sont pas présents dans les données de validation, la coadaptation entraîne alors un surapprentissage. La régularisation par abandon réduit l'occurrence de la coadaptation, car l'abandon empêche les neurones de ne s'appuyer que sur d'autres neurones spécifiques.

filtrage collaboratif

#recsystems

Prédictions sur les centres d'intérêt d'un utilisateur en fonction de ceux de nombreux autres utilisateurs. Le filtrage collaboratif est souvent utilisé dans les systèmes de recommandation.

Pour en savoir plus, consultez la section Filtrage collaboratif du cours sur les systèmes de recommandation.

dérive conceptuelle

Changement de la relation entre les caractéristiques et l'étiquette. Au fil du temps, la dérive conceptuelle réduit la qualité d'un modèle.

Pendant l'entraînement, le modèle apprend la relation entre les caractéristiques et leurs étiquettes dans l'ensemble d'entraînement. Si les étiquettes de l'ensemble d'entraînement sont de bons proxys du monde réel, le modèle devrait effectuer de bonnes prédictions dans le monde réel. Toutefois, en raison de la dérive conceptuelle, les prédictions du modèle ont tendance à se dégrader au fil du temps.

Prenons l'exemple d'un modèle de classification binaire qui prédit si un certain modèle de voiture est "économe en carburant" ou non. Les fonctionnalités peuvent être les suivantes:

  • poids du véhicule
  • compression du moteur
  • transmission type

tandis que le libellé est:

  • économe en carburant
  • peu économe en carburant

Cependant, le concept de "voiture économe en carburant" évolue constamment. Un modèle de voiture classé comme économique en carburant en 1994 serait presque certainement classé comme non économique en carburant en 2024. Un modèle souffrant d'une dérive conceptuelle tend à effectuer des prédictions de moins en moins utiles au fil du temps.

Comparez et contrastez avec la non-stationnarité.

état

#df

Dans un arbre de décision, tout nœud qui évalue une expression. Par exemple, la partie suivante d'un arbre de décision contient deux conditions:

Arbre de décision composé de deux conditions: (x > 0) et (y > 0).

Une condition est également appelée "split" ou "test".

Condition de contraste avec la feuille.

Voir également :

Pour en savoir plus, consultez la section Types de conditions du cours sur les forêts décisionnelles.

confabulation

#language

Synonyme de hallucination.

La confabulation est probablement un terme plus techniquement précis que l'hallucination. Cependant, l'hallucination est devenue populaire en premier.

configuration

Processus d'attribution des valeurs de propriété initiales utilisées pour entraîner un modèle, y compris:

Dans les projets de machine learning, la configuration peut être effectuée via un fichier de configuration spécial ou à l'aide de bibliothèques de configuration telles que les suivantes:

biais de confirmation

#fairness

Tendance à rechercher, interpréter, favoriser et rappeler des informations d'une manière qui confirme ses propres croyances ou hypothèses préexistantes. Les développeurs en machine learning peuvent collecter ou étiqueter par inadvertance des données d'une telle manière que cela influence la production d'un résultat confortant leurs croyances existantes. Le biais de confirmation est une forme de biais implicite.

L'effet expérimentateur est une forme de biais de confirmation dans lequel un expérimentateur continue d'entraîner des modèles jusqu'à confirmation d'une hypothèse préexistante.

matrice de confusion

#fundamentals

Tableau NxN qui résume le nombre de prédictions correctes et incorrectes effectuées par un modèle de classification. Prenons l'exemple de la matrice de confusion suivante pour un modèle de classification binaire:

Tumeur (prédite) Non-tumeur (prédiction)
Tumeur (vérité terrain) 18 (VP) 1 (FN)
Non-tumeur (vérité terrain) 6 (FP) 452 (TN)

La matrice de confusion précédente montre les éléments suivants:

  • Sur les 19 prédictions pour lesquelles la vérité terrain était "Tumeur", le modèle en a correctement classé 18 et en a mal classé 1.
  • Sur les 458 prédictions pour lesquelles la vérité terrain était "Non-tumeur", le modèle en a correctement classé 452 et 6 de manière incorrecte.

La matrice de confusion d'un problème de classification multiclasse peut vous aider à identifier des tendances d'erreurs. Prenons l'exemple de la matrice de confusion suivante pour un modèle de classification multiclasse à trois classes qui catégorise trois types d'iris différents (Virginica, Versicolor et Setosa). Lorsque la vérité terrain était Virginica, la matrice de confusion montre que le modèle était beaucoup plus susceptible de prédire par erreur Versicolor que Setosa:

  Setosa (prévision) Versicolor (prévision) Virginica (prévision)
Setosa (vérité terrain) 88 12 0
Versicolor (vérité terrain) 6 141 7
Virginica (vérité terrain) 2 27 109

Par exemple, une matrice de confusion peut révéler qu'un modèle entraîné à reconnaître les chiffres écrits à la main tend à prédire de façon erronée 9 à la place de 4, ou 1 au lieu de 7.

Les matrices de confusion contiennent suffisamment d'informations pour calculer diverses métriques de performances, y compris la précision et le rappel.

Analyse des circonscriptions

#language

Divisez une phrase en structures grammaticales plus petites ("constituants"). Une partie ultérieure du système de ML, comme un modèle de compréhension du langage naturel, peut analyser les constituants plus facilement que la phrase d'origine. Prenons l'exemple de la phrase suivante:

Mon ami a adopté deux chats.

Un analyseur de constituants peut diviser cette phrase en deux constituants:

  • Mon ami est une expression nominale.
  • a adopté deux chats est un groupe verbal.

Ces constituants peuvent être subdivisés en constituants plus petits. Par exemple, la locution verbale

a adopté deux chats ;

peut être subdivisé en:

  • adopté est un verbe.
  • deux chats est un autre syntagme nominal.

embeddings de langage contextualisés

#language
#generativeAI

Embedding qui se rapproche de la "compréhension" des mots et des expressions comme le font les locuteurs natifs. Les représentations vectorielles continues du langage contextualisées peuvent comprendre la syntaxe, la sémantique et le contexte complexes.

Prenons l'exemple des représentations vectorielles continues du mot anglais cow (vache). Les anciens représentations vectorielles continues, telles que word2vec, peuvent représenter des mots anglais de sorte que la distance dans l'espace d'embedding entre cow (vache) et bull (taureau) soit semblable à celle entre ewe (brebis) et ram (bélier) ou entre female (femelle) et male (mâle). Les représentations vectorielles continues de langage contextualisées peuvent aller plus loin en reconnaissant que les anglophones utilisent parfois le mot cow pour désigner une vache ou un taureau.

fenêtre de contexte

#language
#generativeAI

Nombre de jetons qu'un modèle peut traiter dans une invite donnée. Plus la fenêtre de contexte est grande, plus le modèle peut utiliser d'informations pour fournir des réponses cohérentes et cohérentes à la requête.

caractéristique continue

#fundamentals

Caractéristique à virgule flottante avec une plage infinie de valeurs possibles, telles que la température ou le poids.

À comparer à la caractéristique discrète.

échantillonnage de commodité

Utiliser un ensemble de données collecté de manière non scientifique pour réaliser des tests rapides. Par la suite, il est essentiel de passer à un ensemble de données collecté de manière scientifique.

convergence

#fundamentals

État atteint lorsque les valeurs de perte varient peu ou pas du tout à chaque itération. Par exemple, la courbe de perte suivante suggère une convergence vers 700 itérations:

Graphique cartésien. L&#39;axe X correspond à la perte. L&#39;axe Y correspond au nombre d&#39;itérations d&#39;entraînement. La perte est très élevée lors des premières itérations, mais diminue fortement. Après environ 100 itérations, la perte continue de diminuer, mais beaucoup plus progressivement. Après environ 700 itérations, la perte reste stable.

Un modèle converge lorsque l'entraînement supplémentaire ne l'améliore pas.

Dans le deep learning, les valeurs de perte restent parfois constantes ou presque pendant de nombreuses itérations avant de finalement diminuer. Pendant une longue période de valeurs de perte constantes, vous pouvez ressentir temporairement un faux sentiment de convergence.

Voir également arrêt prématuré.

Pour en savoir plus, consultez la section Convergence du modèle et courbes de perte dans le cours d'initiation au machine learning.

fonction convexe

Fonction dans laquelle la région au-dessus du graphique est un ensemble convexe. La fonction convexe prototypique a une forme semblable à la lettre U. Par exemple, les fonctions suivantes sont toutes des fonctions convexes:

Courbes en forme de U, chacune avec un seul point minimal.

À l'inverse, la fonction suivante n'est pas convexe. Notez que la région au-dessus du graphique diffère d'un ensemble convexe:

Courbe en forme de W avec deux points minimaux locaux différents.

Une fonction strictement convexe comporte exactement un point de minimum local, qui est également le point de minimum global. Les fonctions classiques en U sont des fonctions strictement convexes. Ce n'est pas le cas de certaines fonctions convexes, comme les droites.

Pour en savoir plus, consultez la section Convergence et fonctions convexes dans le cours d'initiation au machine learning.

optimisation convexe

Processus consistant à utiliser des techniques mathématiques telles que la descente de gradient pour trouver le minimum d'une fonction convexe. Dans le domaine du machine learning, de nombreuses études ont cherché à exprimer divers problèmes sous la forme de problèmes d'optimisation convexe pour les résoudre plus efficacement.

Pour des informations détaillées, voir le livre de Stephen Boyd et Lieven Vandenberghe, Convex Optimization (en anglais).

ensemble convexe

Sous-ensemble de l'espace euclidien tel qu'une ligne tracée entre deux points du sous-ensemble reste complètement dans le sous-ensemble. Par exemple, les deux formes suivantes sont des ensembles convexes:

Illustration d&#39;un rectangle. Autre illustration d&#39;un ovale.

À titre de comparaison, les deux formes suivantes ne sont pas des ensembles convexes:

Illustration d&#39;un graphique à secteurs avec un secteur manquant.
          Autre illustration d&#39;un polygone très irrégulier.

convolution

#image

En mathématiques, de manière informelle, mélange de deux fonctions. Dans le machine learning, une convolution mélange le filtre convolutif et la matrice d'entrée afin d'entraîner les pondérations.

Le terme "convolution" en machine learning est souvent un raccourci pour désigner une opération de convolution ou une couche de convolution.

Sans convolution, un algorithme de machine learning devrait apprendre une pondération différente pour chaque cellule d'un grand tensor. Par exemple, un algorithme de machine learning dont l'entraînement s'effectue sur des images de 2K x 2K serait forcé de trouver 4 millions de pondérations. Grâce aux convolutions, un algorithme de machine learning ne doit trouver des pondérations que pour chaque cellule du filtre convolutif, ce qui réduit considérablement la mémoire nécessaire à l'entraînement du modèle. Lorsque le filtre convolutif est appliqué, il est simplement répliqué dans les cellules de sorte que chacune d'elles soit multipliée par le filtre.

Pour en savoir plus, consultez la section Présentation des réseaux de neurones convolutifs du cours sur la classification d'images.

filtre convolutif

#image

L'un des deux acteurs d'une opération convolutive. (L'autre acteur est une tranche d'une matrice d'entrée.) Un filtre convolutif est une matrice de même rang que la matrice d'entrée, mais de forme plus petite. Par exemple, étant donné une matrice d'entrée 28 x 28, le filtre peut être n'importe quelle matrice 2D de taille inférieure à 28 x 28.

Dans la manipulation photographique, toutes les cellules d'un filtre convolutif sont généralement définies sur un motif constant d'uns et de zéros. En machine learning, les filtres convolutifs sont généralement amorcés avec des nombres aléatoires, puis le réseau s'entraîne avec les valeurs idéales.

Pour en savoir plus, consultez la section Convolution du cours sur la classification des images.

couche convolutive

#image

Couche d'un réseau de neurones profond dans laquelle un filtre convolutif transfère une matrice d'entrée. Soit, par exemple, le filtre convolutif 3 x 3 suivant:

Une matrice 3x3 avec les valeurs suivantes: [[0,1,0], [1,0,1], [0,1,0]]

L'animation suivante montre une couche convolutive composée de neuf opérations convolutives impliquant la matrice d'entrée 5 x 5. Notez que chaque opération convolutive fonctionne sur une tranche 3x3 différente de la matrice d'entrée. La matrice 3 x 3 résultante (à droite) est constituée des résultats des 9 opérations convolutives:

Animation montrant deux matrices. La première matrice est la matrice 5x5: [[128,97,53,201,198], [35,22,25,200,195], [37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]].
          La deuxième matrice est la matrice 3x3 :
          [[181,303,618], [115,338,605], [169,351,560]].
          La deuxième matrice est calculée en appliquant le filtre convolutif [[0, 1, 0], [1, 0, 1], [0, 1, 0]] sur différents sous-ensembles 3 x 3 de la matrice 5 x 5.

Pour en savoir plus, consultez la section Couches entièrement connectées du cours sur la classification des images.

réseau de neurones convolutif

#image

Réseau de neurones dans lequel au moins une couche est une couche convolutive. Un réseau de neurones convolutif typique consiste en une combinaison des couches suivantes:

Les réseaux de neurones convolutifs ont eu beaucoup de succès pour certains types de problèmes, notamment la reconnaissance d'images.

opération convolutive

#image

L'opération mathématique en deux étapes suivante:

  1. Multiplication élément par élément du filtre convolutif et d'une tranche d'une matrice d'entrée. La tranche de la matrice d'entrée est de même rang et de même taille que le filtre convolutif.
  2. Somme de toutes les valeurs de la matrice de produits résultante.

Prenons l'exemple de la matrice d'entrée 5 x 5 suivante:

Matrice 5x5: [[128,97,53,201,198], [35,22,25,200,195],
          [37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]].

Soit, à présent, le filtre convolutif 2 x 2 suivant:

Matrice 2x2: [[1, 0], [0, 1]]

Chaque opération de convolution implique une seule tranche 2x2 de la matrice d'entrée. Par exemple, supposons que nous utilisions la tranche 2 x 2 en haut à gauche de la matrice d'entrée. L'opération convolutive sur cette tranche est alors:

Application du filtre convolutif [[1, 0], [0, 1]] à la section 2 x 2 en haut à gauche de la matrice d&#39;entrée, qui est [[128,97], [35,22]].
          Le filtre convolutif laisse les valeurs 128 et 22 intactes, mais met à zéro les valeurs 97 et 35. Par conséquent, l&#39;opération de convolution renvoie la valeur 150 (128 + 22).

Une couche convolutive consiste en une série d'opérations convolutives, chacune agissant sur une tranche différente de la matrice d'entrée.

coût

Synonyme de perte.

co-apprentissage

Une approche d'apprentissage semi-supervisé est particulièrement utile lorsque toutes les conditions suivantes sont remplies:

La co-formation consiste essentiellement à amplifier des signaux indépendants pour obtenir un signal plus fort. Prenons l'exemple d'un modèle de classification qui classe les voitures d'occasion individuelles en Bonnes ou Mauvaises. Un ensemble de caractéristiques prédictives peut se concentrer sur des caractéristiques globales telles que l'année, la marque et le modèle de la voiture. Un autre ensemble de caractéristiques prédictives peut se concentrer sur l'historique de conduite du propriétaire précédent et l'historique d'entretien de la voiture.

L'article fondateur sur le co-entraînement est Combining Labeled and Unlabeled Data with Co-Training (Combiner des données étiquetées et non étiquetées avec le co-entraînement) de Blum et Mitchell.

équité contrefactuelle

#fairness

Métrique d'équité qui vérifie si un classificateur produit le même résultat pour un individu que pour un autre qui est identique au premier, sauf en ce qui concerne un ou plusieurs attributs sensibles. Évaluer un classificateur pour l'impartialité contrefactuelle est une méthode permettant de mettre en évidence les sources potentielles de biais dans un modèle.

Pour en savoir plus, consultez l'une des ressources suivantes:

biais de couverture

#fairness

Voir biais de sélection.

phrase équivoque

#language

Phrase ou expression au sens ambigu. Les phrases équivoques posent un problème majeur pour la compréhension du langage naturel. Par exemple, l'expression au pied de la lettre est une phrase équivoque, car un modèle NLU peut l'interpréter littéralement ou figurativement.

critique

#rl

Synonyme de Deep Q-Network.

entropie croisée

Généralisation de la perte de log aux problèmes de classification à classes multiples. L'entropie croisée quantifie la différence entre deux distributions de probabilité. Voir aussi la section Perplexité.

validation croisée

Mécanisme permettant d'estimer la capacité d'un modèle à être généralisé à de nouvelles données en le testant par rapport à un ou plusieurs sous-ensembles de données qui ne se chevauchent pas et sont retenus de l'ensemble d'entraînement.

fonction de distribution cumulative (CDF)

Fonction qui définit la fréquence des échantillons inférieurs ou égaux à une valeur cible. Prenons l'exemple d'une distribution normale de valeurs continues. Une fonction de distribution cumulative vous indique qu'environ 50% des échantillons doivent être inférieurs ou égaux à la moyenne et qu'environ 84% des échantillons doivent être inférieurs ou égaux à une déviation standard au-dessus de la moyenne.

D

analyse de données

Procédure visant à comprendre des données en en étudiant les échantillons, les mesures et les visualisations. L'analyse de données peut s'avérer particulièrement utile à la réception d'un ensemble de données, avant la création du premier modèle. Elle est également cruciale pour interpréter les expériences et déboguer les problèmes affectant le système.

augmentation des données

#image

Augmenter artificiellement l'éventail et le nombre d'exemples d'entraînement en transformant les exemples existants afin d'en créer de nouveaux. Supposons que votre ensemble de données contienne des exemples d'images, mais pas suffisamment pour que le modèle apprenne des associations utiles. Dans l'idéal, vous allez ajouter suffisamment d'images étiquetées à votre ensemble de données pour que votre modèle puisse s'entraîner correctement. Si ce n'est pas possible, l'augmentation des données peut faire pivoter, étirer et faire un reflet de chaque image afin de créer de nombreuses variantes de l'image originale, ce qui produira éventuellement suffisamment de données avec libellé pour un entraînement d'excellente qualité.

DataFrame

#fundamentals

Type de données pandas populaire utilisé pour représenter des ensembles de données en mémoire.

Un DataFrame est analogue à un tableau ou à une feuille de calcul. Chaque colonne d'un DataFrame porte un nom (un en-tête) et chaque ligne est identifiée par un numéro unique.

Chaque colonne d'un DataFrame est structurée comme un tableau 2D, à l'exception du fait que chaque colonne peut être associée à son propre type de données.

Consultez également la page de référence officielle de pandas.DataFrame.

parallélisme des données

Méthode permettant de mettre à l'échelle l'entraînement ou l'inférence qui réplique un modèle entier sur plusieurs appareils, puis transmet un sous-ensemble des données d'entrée à chaque appareil. Le parallélisme de données peut permettre l'entraînement et l'inférence sur de très grandes tailles de lot. Toutefois, le parallélisme de données nécessite que le modèle soit suffisamment petit pour tenir sur tous les appareils.

Le parallélisme des données accélère généralement l'entraînement et l'inférence.

Voir aussi le parallélisme des modèles.

API Dataset (tf.data)

#TensorFlow

API TensorFlow de haut niveau pour lire les données et les transformer en une forme requise par un algorithme de machine learning. Un objet tf.data.Dataset représente une séquence d'éléments, dans laquelle chaque élément contient un ou plusieurs Tensors. Un objet tf.data.Iterator permet d'accéder aux éléments d'un Dataset.

ensemble de données (data set ou dataset)

#fundamentals

Ensemble de données brutes, généralement (mais pas exclusivement) organisées dans l'un des formats suivants:

  • une feuille de calcul
  • un fichier au format CSV (valeurs séparées par une virgule)

frontière de décision

Séparateur entre les classes apprises par un modèle dans un problème de classification binaire ou à classes multiples. Par exemple, dans l'image suivante représentant un problème de classification binaire, la frontière de décision est la limite entre la classe orange et la classe bleue:

Limite bien définie entre deux classes.

forêt de décision

#df

Modèle créé à partir de plusieurs arbres de décision. Une forêt de décision effectue une prédiction en agrégation des prédictions de ses arbres de décision. Parmi les types de forêts d'arbres décisionnels populaires, citons les forêts aléatoires et les arbres de décision à boosting de gradient.

Pour en savoir plus, consultez la section Forêts de décision du cours sur les forêts de décision.

seuil de décision

Synonyme de seuil de classification.

arbre de décision

#df

Modèle d'apprentissage supervisé composé d'un ensemble de conditions et de feuilles organisées hiérarchiquement. Voici un exemple d'arbre de décision:

Arbre de décision composé de quatre conditions disposées hiérarchiquement, qui mènent à cinq feuilles.

décodeur

#language

En général, tout système de ML qui convertit une représentation traitée, dense ou interne en une représentation plus brute, sporadique ou externe.

Les décodeurs sont souvent un composant d'un modèle plus vaste, où ils sont souvent associés à un encodeur.

Dans les tâches de séquence à séquence, un décodeur commence par l'état interne généré par l'encodeur pour prédire la séquence suivante.

Consultez Transformer pour connaître la définition d'un décodeur dans l'architecture Transformer.

Pour en savoir plus, consultez la section Grands modèles de langage dans le cours d'initiation au machine learning.

modèle deep learning

#fundamentals

Réseau de neurones contenant plusieurs couches cachées.

Un modèle profond est également appelé réseau de neurones profond.

À comparer au modèle large.

de réseau de neurones profond

Synonyme de modèle profond.

Réseau Deep Q (DQN)

#rl

Dans l'apprentissage par renforcement, un réseau de neurones profond prédit des fonctions Q.

Critique est un synonyme de réseau Deep Q.

parité démographique

#fairness

Métrique d'équité qui est satisfaite si les résultats de la classification d'un modèle ne dépendent pas d'un attribut sensible donné.

Par exemple, si des Lilliputiens et des Brobdingnagiens postulent à l'université Glubbdubdrib, la parité démographique est atteinte si le pourcentage de Lilliputiens admis est le même que celui des Brobdingnagiens, que l'un des groupes soit en moyenne plus qualifié que l'autre ou non.

Contrairement aux probabilités égales et à l'égalité des chances, qui permettent aux résultats de classification agrégés de dépendre d'attributs sensibles, les résultats de classification pour certains libellés de vérité terrain spécifiés ne peuvent pas dépendre d'attributs sensibles. Consultez Lutter contre les discriminations grâce à un machine learning plus intelligent pour découvrir une visualisation des compromis à faire lorsque vous optimisez votre campagne pour la parité démographique.

Pour en savoir plus, consultez la section Équité: parité démographique du cours d'initiation au machine learning.

suppression du bruit

#language

Une approche courante de l'apprentissage autosupervisé:

  1. Du bruit est ajouté artificiellement à l'ensemble de données.
  2. Le modèle s'efforce de supprimer le bruit.

Le dénoyage permet d'apprendre à partir d'exemples sans étiquette. L'ensemble de données d'origine sert de cible ou de libellé, et les données bruyantes servent d'entrée.

Certains modèles de langage masqués utilisent le débruitage comme suit:

  1. Du bruit est ajouté artificiellement à une phrase non annotée en masquant certains des jetons.
  2. Le modèle tente de prédire les jetons d'origine.

caractéristique dense

#fundamentals

Fonctionnalité dans laquelle la plupart ou toutes les valeurs sont non nulles, généralement un Tensor de valeurs à virgule flottante. Par exemple, le tenseur à 10 éléments suivant est dense, car neuf de ses valeurs sont non nulles:

8 3 7 5 2 4 0 4 9 6

À comparer à la caractéristique creuse.

couche dense

Synonyme de couche entièrement connectée.

profondeur

#fundamentals

Somme des éléments suivants dans un réseau de neurones:

Par exemple, un réseau de neurones avec cinq couches cachées et une couche de sortie a une profondeur de 6.

Notez que la couche d'entrée n'a aucune incidence sur la profondeur.

Réseau de neurones convolutifs séparables en profondeur (sepCNN)

#image

Architecture de réseau de neurones convolutifs basée sur Inception, mais où les modules Inception sont remplacés par des convolutions séparables en profondeur. Également appelé Xception.

Une convolution séparable en profondeur (également abrégée en "convolution séparable") factorise une convolution 3D standard en deux opérations de convolution distinctes plus efficaces en termes de calcul: d'abord, une convolution en profondeur, avec une profondeur de 1 (n ✕ n ✕ 1), puis une convolution ponctuelle, avec une longueur et une largeur de 1 (1 ✕ 1 ✕ n).

Pour en savoir plus, consultez Xception : Deep Learning with Depthwise Separable Convolutions (Xception : Deep Learning with Depthwise Separable Convolutions).

libellé dérivé

Synonyme de étiquette de proxy.

appareil

#TensorFlow
#GoogleCloud

Terme complexe ayant deux définitions possibles:

  1. Catégorie de matériel pouvant exécuter une session TensorFlow, y compris les CPU, les GPU et les TPU.
  2. Lors de l'entraînement d'un modèle de ML sur des chips d'accélérateur (GPU ou TPU), partie du système qui manipule réellement les tensors et les embeddings. L'appareil fonctionne sur des puces d'accélération. En revanche, l'hôte s'exécute généralement sur un processeur.

confidentialité différentielle

Dans le machine learning, approche d'anonymisation visant à protéger les données sensibles (par exemple, les informations personnelles d'une personne) incluses dans l'ensemble d'entraînement d'un modèle contre toute exposition. Cette approche garantit que le modèle n'apprend ni ne se souvient pas beaucoup d'un individu spécifique. Pour ce faire, des échantillons sont prélevés et du bruit est ajouté pendant l'entraînement du modèle afin d'obscurcir les points de données individuels, ce qui réduit le risque d'exposer des données d'entraînement sensibles.

La confidentialité différentielle est également utilisée en dehors du machine learning. Par exemple, les data scientists utilisent parfois la confidentialité différentielle pour protéger la confidentialité individuelle lors du calcul des statistiques d'utilisation des produits pour différentes données démographiques.

réduction de la dimensionnalité

Diminution du nombre de dimensions utilisées pour représenter une caractéristique particulière dans un vecteur de caractéristiques, généralement par conversion en un vecteur d'encapsulation.

dimensions

Terme complexe qui a une des définitions suivantes:

  • Nombre de niveaux de coordonnées dans un Tensor. Exemple :

    • Un scalaire a zéro dimension, par exemple ["Hello"].
    • Un vecteur a une dimension : par exemple, [3, 5, 7, 11].
    • Une matrice a deux dimensions : par exemple, [[2, 4, 18], [5, 7, 14]]. Vous pouvez spécifier de manière unique une cellule particulière dans un vecteur à une dimension avec une coordonnée. Vous avez besoin de deux coordonnées pour spécifier de manière unique une cellule particulière dans une matrice à deux dimensions.
  • Nombre d'entrées dans un vecteur de caractéristiques.

  • Nombre d'éléments dans une couche d'encapsulation.

requête directe

#language
#generativeAI

Synonyme de requête zero-shot.

caractéristique discrète

#fundamentals

Caractéristique avec un ensemble fini de valeurs possibles. Par exemple, une caractéristique dont les valeurs ne peuvent être que animal, légume ou minéral est une caractéristique discrète (ou catégorielle).

À comparer à la caractéristique continue.

modèle discriminatif

Modèle qui prédit des libellés à partir d'un ensemble d'une ou plusieurs caractéristiques. Plus formellement, les modèles discriminatifs définissent la probabilité conditionnelle d'un résultat compte tenu des caractéristiques et des pondérations:

p(output | features, weights)

Par exemple, un modèle qui prédit si un e-mail est du spam à partir de caractéristiques et de pondérations est un modèle discriminatif.

La grande majorité des modèles d'apprentissage supervisé, y compris les modèles de classification et de régression, sont des modèles discriminatifs.

À comparer au modèle génératif.

discriminateur

Système qui détermine si les exemples sont réels ou factices.

Il peut également s'agir du sous-système d'un réseau génératif antagoniste qui détermine si les exemples créés par le générateur sont réels ou factices.

Pour en savoir plus, consultez la section Le discriminateur du cours sur les GAN.

impact différencié

#fairness

Prendre des décisions concernant des personnes qui ont un impact disproportionné sur différents sous-groupes de population Il s'agit généralement de situations où un processus de prise de décision algorithmique nuit ou profite davantage à certains sous-groupes qu'à d'autres.

Par exemple, supposons qu'un algorithme qui détermine l'éligibilité d'un Lilliputien à un prêt immobilier miniature soit plus susceptible de le classer comme "inéligible" si son adresse postale contient un certain code postal. Si les Lilliputiens big-endian sont plus susceptibles d'avoir des adresses postales avec ce code postal que les Lilliputiens little-endian, cet algorithme peut avoir un impact disparate.

À comparer au traitement différencié, qui se concentre sur les disparités qui résultent lorsque les caractéristiques des sous-groupes sont des entrées explicites dans un processus de prise de décision algorithmique.

traitement différentiel

#fairness

Prise en compte des attributs sensibles des sujets dans un processus de prise de décision algorithmique de sorte que différents sous-groupes de personnes soient traités différemment.

Prenons l'exemple d'un algorithme qui détermine l'éligibilité des Lilliputiens à un prêt immobilier miniature en fonction des données qu'ils fournissent dans leur demande de prêt. Si l'algorithme utilise l'affiliation d'un Lilliputien en tant que Big-Endian ou Little-Endian comme entrée, il applique un traitement disparate sur cette dimension.

Contrairement à l'impact différencié, qui se concentre sur les disparités dans les impacts sociétaux des décisions algorithmiques sur les sous-groupes, que ces sous-groupes soient des entrées du modèle ou non.

distillation

#generativeAI

Processus consistant à réduire la taille d'un modèle (appelé enseignant) en un modèle plus petit (appelé élève) qui émule les prédictions du modèle d'origine aussi fidèlement que possible. La distillation est utile, car le modèle plus petit présente deux avantages clés par rapport au modèle plus grand (l'enseignant):

  • Temps d'inférence plus rapide
  • Réduction de la consommation de mémoire et d'énergie

Toutefois, les prédictions de l'élève ne sont généralement pas aussi bonnes que celles de l'enseignant.

La distillation entraîne le modèle élève pour minimiser une fonction de perte en fonction de la différence entre les sorties des prédictions des modèles élève et enseignant.

Comparez la distillation aux termes suivants:

Pour en savoir plus, consultez la section LLM: réglage fin, distillation et ingénierie des requêtes dans le cours d'initiation au machine learning.

distribution

Fréquence et plage des différentes valeurs pour une fonctionnalité ou un libellé donnés. Une distribution indique la probabilité d'une valeur donnée.

L'image suivante présente des histogrammes de deux distributions différentes:

  • À gauche, distribution de la richesse en fonction de la loi de puissance par rapport au nombre de personnes qui la possèdent.
  • À droite, distribution normale de la taille par rapport au nombre de personnes ayant cette taille.

Deux histogrammes. Un histogramme montre une distribution de loi de puissance avec la richesse sur l&#39;axe X et le nombre de personnes ayant cette richesse sur l&#39;axe Y. La plupart des gens ont très peu de richesses, et quelques-uns en ont beaucoup. L&#39;autre histogramme montre une distribution normale avec la hauteur sur l&#39;axe X et le nombre de personnes ayant cette hauteur sur l&#39;axe Y. La plupart des individus se situent autour de la moyenne.

Comprendre la distribution de chaque caractéristique et de chaque étiquette peut vous aider à déterminer comment normaliser les valeurs et détecter les valeurs aberrantes.

L'expression hors distribution désigne une valeur qui n'apparaît pas dans l'ensemble de données ou qui est très rare. Par exemple, une image de la planète Saturne serait considérée comme hors distribution pour un ensemble de données composé d'images de chats.

clustering divisif

#clustering

Consultez la section Clustering hiérarchique.

sous-échantillonnage

#image

Terme complexe qui désigne l'un des deux concepts suivants, selon les cas:

  • Réduction de la quantité d'informations dans une fonctionnalité afin d'entraîner un modèle plus efficacement. Par exemple, avant d'entraîner un modèle de reconnaissance d'images, procéder au sous-échantillonnage d'images haute résolution dans un format de résolution inférieure.
  • Entraînement du modèle sur un pourcentage excessivement faible d'exemples de classe surreprésentés afin d'améliorer l'entraînement sur les classes sous-représentées. Par exemple, dans un ensemble de données déséquilibré par classe, les modèles ont tendance à apprendre beaucoup sur la classe majoritaire et pas assez sur la classe minoritaire. Le sous-échantillonnage permet d'équilibrer la durée d'entraînement sur les classes majoritaires et minoritaires.

Pour en savoir plus, consultez la section Ensembles de données: ensembles de données déséquilibrés dans le cours d'initiation au machine learning.

DQN

#rl

Abréviation de Deep Q-Network.

régularisation par abandon

Forme de régularisation utile pour entraîner des réseaux de neurones. La régularisation par abandon supprime de manière aléatoire un nombre fixe d'unités dans une couche du réseau pour un pas de gradient unique. Plus il y a d'abandons, plus la régularisation est poussée. Cette méthode est analogue à l'entraînement du modèle pour émuler un ensemble exponentiellement grand de réseaux plus petits. Pour en savoir plus, consultez l'article Dropout: A Simple Way to Prevent Neural Networks from Overfitting (en anglais).

dynamic

#fundamentals

Activité effectuée fréquemment ou en continu. Les termes dynamique et en ligne sont synonymes en machine learning. Voici des utilisations courantes de l'apprentissage dynamique et de l'apprentissage en ligne dans l'apprentissage automatique:

  • Un modèle dynamique (ou modèle en ligne) est un modèle qui est réentraîné fréquemment ou en continu.
  • L'entraînement dynamique (ou entraînement en ligne) consiste à s'entraîner fréquemment ou en continu.
  • L'inférence dynamique (ou inférence en ligne) consiste à générer des prédictions à la demande.

modèle dynamique

#fundamentals

Modèle fréquemment (voire continuellement) ré-entraîné. Un modèle dynamique est un "apprenant à vie" qui s'adapte constamment aux données en constante évolution. Un modèle dynamique est également appelé modèle en ligne.

À comparer au modèle statique.

E

exécution eager

#TensorFlow

Environnement de programmation TensorFlow dans lequel les opérations s'exécutent immédiatement. En revanche, les opérations appelées dans l'exécution de graphe ne sont exécutées que lorsqu'elles sont explicitement évaluées. L'exécution eager est une interface impérative, à l'instar du code de la plupart des langages de programmation. Les programmes d'exécution eager sont généralement bien plus faciles à déboguer que les programmes d'exécution de graphe.

arrêt prématuré

#fundamentals

Méthode de régularisation qui consiste à arrêter l'entraînement avant que la perte d'entraînement ne finisse de diminuer. Avec l'arrêt prématuré, vous arrêtez intentionnellement l'entraînement du modèle lorsque la perte d'un ensemble de données de validation commence à augmenter, c'est-à-dire lorsque les performances de généralisation se dégradent.

distance de l'opérateur de machine de terrassement (EMD)

Mesure de la similarité relative de deux distributions. Plus la distance du moteur de déplacement de la Terre est faible, plus les distributions sont similaires.

distance de modification

#language

Mesure du degré de similarité entre deux chaînes de texte. Dans le machine learning, la distance d'édition est utile pour les raisons suivantes:

  • La distance d'édition est facile à calculer.
  • La distance d'édition peut comparer deux chaînes connues pour être similaires.
  • La distance de modification peut déterminer dans quelle mesure différentes chaînes sont similaires à une chaîne donnée.

Il existe plusieurs définitions de la distance d'édition, chacune utilisant des opérations de chaîne différentes. Pour en savoir plus, consultez Distance de Levenshtein.

Notation Einsum

Une notation efficace pour décrire comment deux tensors doivent être combinés. Les tenseurs sont combinés en multipliant les éléments de l'un par les éléments de l'autre, puis en additionnant les produits. La notation Einsum utilise des symboles pour identifier les axes de chaque tenseur, et ces mêmes symboles sont réarrangés pour spécifier la forme du nouveau tenseur obtenu.

NumPy fournit une implémentation courante d'Einsum.

couche d'embedding

#language
#fundamentals

Couche cachée spéciale qui s'entraîne sur une caractéristique catégorique à haute dimension pour apprendre progressivement un vecteur d'embedding de dimension inférieure. Une couche d'intégration permet à un réseau de neurones de s'entraîner beaucoup plus efficacement que de s'entraîner uniquement sur la caractéristique catégorielle haute dimensionnelle.

Par exemple, la Terre compte actuellement environ 73 000 espèces d'arbres. Supposons que les espèces d'arbres soient une fonctionnalité dans votre modèle. La couche d'entrée de votre modèle inclut donc un vecteur one-hot de 73 000 éléments. Par exemple, baobab pourrait être représenté comme suit:

Tableau de 73 000 éléments. Les 6 232 premiers éléments contiennent la valeur 0. L&#39;élément suivant contient la valeur 1. Les 66 767 derniers éléments contiennent la valeur 0.

Un tableau de 73 000 éléments est très long. Si vous n'ajoutez pas de couche d'encapsulation au modèle, l'entraînement sera très long,car vous devrez multiplier 72 999 zéros. Vous pouvez choisir que la couche d'embedding se compose de 12 dimensions. Par conséquent, la couche d'embedding apprendra progressivement un nouveau vecteur d'embedding pour chaque espèce d'arbre.

Dans certains cas, le hachage constitue une alternative raisonnable à une couche d'encapsulation.

Pour en savoir plus, consultez la section Embeddings dans le cours d'initiation au machine learning.

espace d'embedding

#language

Les espaces vectoriels à d dimensions auxquelles les caractéristiques d'un espace vectoriel de plus grande dimension sont mappés. L'espace d'encapsulation est entraîné pour capturer la structure qui est pertinente pour l'application prévue.

Le produit scalaire de deux espaces de représentation vectorielle est une mesure de leur similarité.

vecteur d'embedding

#language

De manière générale, il s'agit d'un tableau de nombres à virgule flottante extrait de n'importe quelle couche cachée qui décrit les entrées de cette couche cachée. Souvent, un vecteur d'embedding est le tableau de nombres à virgule flottante entraîné dans une couche d'embedding. Par exemple, supposons qu'une couche d'encapsulation doit apprendre un vecteur d'encapsulation pour chacune des 73 000 espèces d'arbres sur Terre. Le tableau suivant est peut-être le vecteur d'embedding d'un arbre baobab:

Tableau de 12 éléments, chacun contenant un nombre à virgule flottante compris entre 0,0 et 1,0.

Un vecteur d'embedding n'est pas un ensemble de nombres aléatoires. Une couche d'embedding détermine ces valeurs via l'entraînement, de la même manière qu'un réseau de neurones apprend d'autres poids pendant l'entraînement. Chaque élément du tableau correspond à une note attribuée à une caractéristique d'une espèce d'arbre. Quel élément représente la caractéristique de quelle espèce d'arbre ? C'est très difficile à déterminer pour les humains.

La partie mathématiquement remarquable d'un vecteur d'embedding est que les éléments similaires ont des ensembles de nombres à virgule flottante similaires. Par exemple, les espèces d'arbres similaires ont un ensemble de nombres à virgule flottante plus semblable que les espèces d'arbres dissemblables. Les séquoias et les séquoias géants sont des espèces d'arbres apparentées. Ils auront donc un ensemble de nombres à virgule flottante plus similaire que les séquoias géants et les cocotiers. Les nombres du vecteur d'embedding changent à chaque fois que vous réentraînez le modèle, même si vous le réentraînez avec une entrée identique.

Fonction de distribution cumulative empirique (eCDF ou EDF)

Fonction de distribution cumulative basée sur des mesures empiriques d'un ensemble de données réel. La valeur de la fonction à n'importe quel point de l'axe X correspond à la fraction des observations de l'ensemble de données qui sont inférieures ou égales à la valeur spécifiée.

minimisation du risque empirique (ERM) (empirical risk minimization (ERM))

Sélection de la fonction qui minimise la perte pour l'ensemble d'entraînement. À comparer à la minimisation du risque structurel.

encodeur

#language

En général, tout système de ML qui convertit une représentation brute, clairsemée ou externe en une représentation plus traitée, plus dense ou plus interne.

Les encodeurs sont souvent un composant d'un modèle plus vaste, où ils sont souvent associés à un décodeur. Certains transformateurs associent des encodeurs à des décodeurs, tandis que d'autres n'utilisent que l'encodeur ou que le décodeur.

Certains systèmes utilisent la sortie de l'encodeur comme entrée d'un réseau de classification ou de régression.

Dans les tâches de séquence à séquence, un encodeur prend une séquence d'entrée et renvoie un état interne (un vecteur). Ensuite, le décodeur utilise cet état interne pour prédire la séquence suivante.

Consultez Transformer pour connaître la définition d'un encodeur dans l'architecture Transformer.

Pour en savoir plus, consultez LLM: qu'est-ce qu'un grand modèle de langage dans le cours d'initiation au machine learning.

ensemble

Ensemble de modèles entraînés indépendamment dont les prédictions sont agrégées ou moyennes. Dans de nombreux cas, un ensemble produit de meilleures prédictions qu'un seul modèle. Par exemple, une forêt d'arbres aléatoires est un ensemble construit à partir de plusieurs arbres de décision. Notez que toutes les forêts de décision ne sont pas des ensembles.

Pour en savoir plus, consultez la section Forêt aléatoire du cours d'initiation au machine learning.

entropie

#df

Dans la théorie de l'information, description de l'imprévisibilité d'une distribution de probabilité. L'entropie est également définie comme la quantité d'informations contenue dans chaque exemple. Une distribution a l'entropie la plus élevée possible lorsque toutes les valeurs d'une variable aléatoire sont également probables.

L'entropie d'un ensemble avec deux valeurs possibles, "0" et "1" (par exemple, les libellés dans un problème de classification binaire) se calcule comme suit:

  H = -p log p - q log q = -p log p - (1-p) * log (1-p)

où :

  • H est l'entropie.
  • p est la fraction des exemples "1".
  • q est la fraction des exemples "0". Notez que q = (1 - p).
  • log est généralement log2. Dans ce cas, l'unité d'entropie est un bit.

Par exemple, supposons les éléments suivants :

  • 100 exemples contiennent la valeur "1"
  • 300 exemples contiennent la valeur "0"

La valeur d'entropie est donc la suivante:

  • p = 0,25
  • q = 0,75
  • H = (-0,25)log2(0,25) - (0,75)log2(0,75) = 0,81 bit par exemple

Un ensemble parfaitement équilibré (par exemple, 200 "0" et 200 "1") aurait une entropie de 1,0 bit par exemple. À mesure qu'un ensemble devient plus déséquilibré, son entropie tend vers 0,0.

Dans les arbres de décision, l'entropie permet de formuler le gain d'information pour aider le séparateur à sélectionner les conditions au cours de la croissance d'un arbre de décision de classification.

Comparez l'entropie à:

L'entropie est souvent appelée entropie de Shannon.

Pour en savoir plus, consultez la section Diviseur exact pour la classification binaire avec des caractéristiques numériques dans le cours sur les forêts de décision.

de production

#rl

Dans le renforcement, monde qui contient l'agent et qui lui permet d'observer l'état de ce monde. Par exemple, le monde représenté peut être un jeu comme les échecs ou un monde physique comme un labyrinthe. Lorsque l'agent applique une action à l'environnement, celui-ci passe d'un état à un autre.

épisode

#rl

Dans l'apprentissage par renforcement, chacune des tentatives répétées de l'agent pour apprendre un environnement.

epoch

#fundamentals

Cycle d'entraînement complet sur l'ensemble de l'ensemble d'entraînement, de manière à ce que chaque exemple ait été traité une fois.

Une époque représente N/taille de lot itérations d'entraînement, où N correspond au nombre total d'exemples.

Par exemple, supposons les éléments suivants:

  • L'ensemble de données se compose de 1 000 exemples.
  • La taille de lot est de 50 exemples.

Par conséquent, une seule époque nécessite 20 itérations:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

Pour en savoir plus, consultez la section Régression linéaire : hyperparamètres du cours d'initiation au machine learning.

règle égoiste epsilon

#rl

En apprentissage par renforcement, stratégie qui suit une stratégie aléatoire avec une probabilité epsilon ou une stratégie avide dans le cas contraire. Par exemple, si epsilon est de 0,9, la règle suit une règle aléatoire 90% du temps et une règle avide 10% du temps.

Au cours d'épisodes successifs, l'algorithme réduit la valeur d'épsilon afin de passer d'une politique aléatoire à une politique avide. En modifiant la stratégie, l'agent explore d'abord l'environnement de manière aléatoire, puis exploite de manière gourmande les résultats de l'exploration aléatoire.

égalité des chances

#fairness

Une métrique d'impartialité pour évaluer si un modèle prédit le résultat souhaité aussi bien pour toutes les valeurs d'un attribut sensible. En d'autres termes, si le résultat souhaité pour un modèle est la classe positive, l'objectif est que le taux de vrais positifs soit le même pour tous les groupes.

L'égalité des chances est liée aux probabilités égales, ce qui nécessite que les deux taux de vrais positifs et les taux de faux positifs soient identiques pour tous les groupes.

Supposons que l'université Glubbdubdrib admette à un programme de mathématiques rigoureux des Lilliputiens et des Brobdingnagiens. Les établissements d'enseignement secondaire des Lilliputiens proposent un programme complet de cours de mathématiques, et la grande majorité des élèves sont qualifiés pour le programme universitaire. Les établissements d'enseignement secondaire des Brobdingnagiens n'offrent pas du tout de cours de mathématiques. Par conséquent, beaucoup moins de leurs élèves sont qualifiés. L'égalité des chances est respectée pour l'étiquette préférée "admissible" en fonction de la nationalité (Lilliputien ou Brobdingnagien) si les étudiants qualifiés ont autant de chances d'être admis, qu'ils soient Lilliputiens ou Brobdingnagiens.

Par exemple, supposons que 100 Lilliputiens et 100 Brobdingnagiens postulent à l'université Glubbdubdrib, et que les décisions d'admission soient prises comme suit:

Tableau 1. Candidats Lilliputiens (90% sont éligibles)

  Qualifié Non défini
Admis 45 3
Refusé 45 7
Total 90 10
Pourcentage d'étudiants qualifiés admis: 45/90 = 50%
Pourcentage d'étudiants non qualifiés refusés: 7/10 = 70%
Pourcentage total d'étudiants Lilliputiens admis: (45 + 3)/100 = 48%

 

Tableau 2. Candidats Brobdingnagiens (10% sont éligibles):

  Qualifié Non défini
Admis 5 9
Refusé 5 81
Total 10 90
Pourcentage d'étudiants qualifiés admis: 5/10 = 50%
Pourcentage d'étudiants non qualifiés refusés: 81/90 = 90%
Pourcentage total d'étudiants Brobdingnagiens admis: (5 + 9)/100 = 14%

Les exemples précédents respectent l'égalité des chances d'acceptation des étudiants qualifiés, car les Lilliputiens et les Brobdingnagiens qualifiés ont tous deux 50% de chances d'être admis.

Bien que l'égalité des chances soit respectée, les deux métriques d'équité suivantes ne le sont pas:

  • parité démographique : les Lilliputiens et les Brobdingnagiens sont admis à l'université à des taux différents : 48% des étudiants Lilliputiens sont admis, mais seulement 14% des étudiants Brobdingnagiens.
  • Chances égales: même si les élèves Lilliputiens et Brobdingnagiens qualifiés ont les mêmes chances d'être admis, la contrainte supplémentaire selon laquelle les Lilliputiens et les Brobdingnagiens non qualifiés ont les mêmes chances d'être refusés n'est pas satisfaite. Les Lilliputiens non qualifiés ont un taux de refus de 70 %, tandis que les Brobdingnagiens non qualifiés ont un taux de refus de 90 %.

Pour en savoir plus, consultez la section Équité: égalité des chances dans le cours d'initiation au machine learning.

cotes égalisées

#fairness

Métrique d'équité permettant d'évaluer si un modèle prédit des résultats aussi bien pour toutes les valeurs d'un attribut sensible par rapport à la classe positive et à la classe négative, et non pas seulement pour une classe ou l'autre. En d'autres termes, le taux de vrais positifs et le taux de faux négatifs doivent être les mêmes pour tous les groupes.

Les chances égalisées sont liées à l'égalité des chances, qui ne se concentre que sur les taux d'erreur d'une seule classe (positive ou négative).

Par exemple, supposons que l'université Glubbdubdrib admette à la fois des Lilliputiens et des Brobdingnagiens dans un programme de mathématiques rigoureux. Les écoles secondaires des Lilliputiens proposent un programme complet de cours de mathématiques, et la grande majorité des élèves sont qualifiés pour le programme universitaire. Les écoles secondaires des Brobdingnagiens n'offrent pas du tout de cours de mathématiques. Par conséquent, beaucoup moins de leurs élèves sont qualifiés. Les chances égales sont respectées si, que le demandeur soit un Lilliputien ou un Brobdingnagien, s'il est qualifié, il a autant de chances d'être admis au programme que s'il ne l'est pas, il a autant de chances d'être refusé.

Supposons que 100 Lilliputiens et 100 Brobdingnagiens postulent à l'université Glubbdubdrib, et que les décisions d'admission soient prises comme suit:

Tableau 3 : Candidats Lilliputiens (90% sont éligibles)

  Qualifié Non défini
Admis 45 2
Refusé 45 8
Total 90 10
Pourcentage d'étudiants qualifiés acceptés: 45/90 = 50%
Pourcentage d'étudiants non qualifiés refusés: 8/10 = 80%
Pourcentage total d'étudiants Lilliputiens acceptés: (45 + 2)/100 = 47%

 

Tableau 4. Candidats Brobdingnagiens (10% sont éligibles):

  Qualifié Non défini
Admis 5 18
Refusé 5 72
Total 10 90
Pourcentage d'étudiants qualifiés admis: 5/10 = 50%
Pourcentage d'étudiants non qualifiés refusés: 72/90 = 80%
Pourcentage total d'étudiants brobdingnagiens admis: (5 + 18)/100 = 23%

Les chances sont égales, car les étudiants Lilliputiens et Brobdingnagiens qualifiés ont tous deux 50% de chances d'être admis, et les Lilliputiens et Brobdingnagiens non qualifiés ont 80% de chances d'être refusés.

Les probabilités égalisées sont définies officiellement dans "Equality of Opportunity in Supervised Learning" (Égalité des chances dans l'apprentissage supervisé) comme suit : "Le prédicteur Ŷ satisfait les probabilités égalisées par rapport à l'attribut protégé A et au résultat Y si Ŷ et A sont indépendants, sous réserve de Y."

Estimator

#TensorFlow

API TensorFlow obsolète. Utilisez tf.keras au lieu des estimateurs.

evals

#language
#generativeAI

Abréviation principalement utilisée pour les évaluations de LLM. Plus largement, evals est une abréviation de toute forme d'évaluation.

hors connexion

#language
#generativeAI

Processus consistant à mesurer la qualité d'un modèle ou à comparer différents modèles entre eux.

Pour évaluer un modèle de machine learning supervisé, vous le comparez généralement à un ensemble de validation et à un ensemble de test. Évaluer un LLM implique généralement des évaluations plus larges de la qualité et de la sécurité.

exemple

#fundamentals

Valeurs d'une ligne de éléments géographiques et éventuellement d'un libellé. Les exemples d'apprentissage supervisé se divisent en deux catégories générales:

  • Un exemple étiqueté se compose d'une ou plusieurs caractéristiques et d'un libellé. Des exemples étiquetés sont utilisés pendant l'entraînement.
  • Un exemple non étiqueté se compose d'une ou de plusieurs caractéristiques, mais ne comporte pas d'étiquette. Les exemples sans étiquette sont utilisés lors de l'inférence.

Par exemple, supposons que vous entraîniez un modèle pour déterminer l'influence des conditions météorologiques sur les résultats des élèves aux tests. Voici trois exemples avec des libellés:

Fonctionnalités Libellé
Température Humidité Pression Note du test
15 47 998 Bonne
19 34 1020 Excellente
18 92 1012 Médiocre

Voici trois exemples sans libellé:

Température Humidité Pression  
12 62 1014  
21 47 1017  
19 41 1021  

La ligne d'un ensemble de données est généralement la source brute d'un exemple. Autrement dit, un exemple se compose généralement d'un sous-ensemble des colonnes de l'ensemble de données. De plus, les éléments d'un exemple peuvent également inclure des éléments synthétiques, tels que des croisements d'éléments.

Pour en savoir plus, consultez la section Apprentissage supervisé du cours "Introduction au machine learning".

enregistrement de l'expérience

#rl

En apprentissage par renforcement, technique DQN utilisée pour réduire les corrélations temporelles dans les données d'entraînement. L'agent stocke les transitions d'état dans un tampon de relecture, puis échantillonne les transitions à partir du tampon de relecture pour créer des données d'entraînement.

effet expérimentateur

#fairness

Voir biais de confirmation.

Problème d'explosion du gradient

#seq

Tendance des gradients dans les réseaux de neurones profonds (en particulier les réseaux de neurones récurrents) à devenir étonnamment raides (élevés). Les gradients raides entraînent souvent des mises à jour très importantes des pondérations de chaque nœud dans un réseau de neurones profond.

Les modèles qui souffrent du problème d'explosion du gradient deviennent difficiles ou impossibles à entraîner. La coupe du dégradé peut atténuer ce problème.

Comparez-le au problème de gradient qui disparaît.

F

F1

Métrique de classification binaire "récapitulative" qui repose à la fois sur la précision et le rappel. Voici la formule:

$$F{_1} = \frac{\text{2 * precision * recall}} {\text{precision + recall}}$$

factualité

#generativeAI

Dans le monde du ML, propriété décrivant un modèle dont la sortie est basée sur la réalité. La véracité est un concept, et non une métrique. Par exemple, supposons que vous envoyiez la invite suivante à un grand modèle de langage:

Quelle est la formule chimique du sel de table ?

Un modèle optimisant la véracité répondrait:

NaCl

Il est tentant de supposer que tous les modèles doivent être basés sur des faits. Toutefois, certaines requêtes, comme celles ci-dessous, doivent amener un modèle d'IA générative à optimiser la créativité plutôt que la véracité.

Récite-moi un limerick sur un astronaute et une chenille.

Il est peu probable que le limerick qui en résulte soit basé sur la réalité.

À comparer à la ancrage.

contrainte d'équité

#fairness
Application d'une contrainte à un algorithme pour s'assurer qu'une ou plusieurs définitions d'équité sont respectées. Voici quelques exemples de contraintes d'équité:

métrique d'équité

#fairness

Une définition mathématique de l'équité qui est mesurable Voici quelques métriques d'équité couramment utilisées:

De nombreuses métriques d'équité sont mutuellement exclusives. Consultez la section Incompatibilité des métriques d'équité.

faux négatif (FN)

#fundamentals

Exemple dans lequel le modèle prédit à tort la classe négative. Par exemple, le modèle prédit qu'un e-mail particulier n'est pas du spam (classe négative), alors qu'en réalité il l'est.

taux de faux négatifs

Proportion d'exemples positifs réels pour lesquels le modèle a prédit à tort la classe négative. La formule suivante calcule le taux de faux négatifs:

$$\text{false negative rate} = \frac{\text{false negatives}}{\text{false negatives} + \text{true positives}}$$

Pour en savoir plus, consultez la section Seuils et matrice de confusion du cours d'initiation au machine learning.

faux positif (FP)

#fundamentals

Exemple dans lequel le modèle prédit à tort la classe positive. Par exemple, le modèle prédit qu'un e-mail particulier est du spam (classe positive), alors qu'en réalité ce n'est pas un courrier indésirable.

Pour en savoir plus, consultez la section Seuils et matrice de confusion du cours d'initiation au machine learning.

taux de faux positifs (TFP) (false positive rate (FPR))

#fundamentals

Proportion d'exemples négatifs réels pour lesquels le modèle a prédit à tort la classe positive. La formule suivante calcule le taux de faux positifs:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

Le taux de faux positifs correspond à l'abscisse d'une courbe ROC.

Pour en savoir plus, consultez la section Classification: ROC et AUC du cours d'initiation au machine learning.

fonctionnalité

#fundamentals

Variable d'entrée d'un modèle de machine learning. Un exemple se compose d'une ou de plusieurs entités. Par exemple, supposons que vous entraîniez un modèle pour déterminer l'influence des conditions météorologiques sur les résultats des élèves aux tests. Le tableau suivant présente trois exemples, chacun contenant trois caractéristiques et un libellé:

Fonctionnalités Libellé
Température Humidité Pression Note du test
15 47 998 92
19 34 1020 84
18 92 1012 87

À comparer au libellé.

Pour en savoir plus, consultez la section Apprentissage supervisé du cours "Introduction au machine learning".

croisement de caractéristiques

#fundamentals

Caractéristique synthétique résultant du "croisement" de caractéristiques catégorielles ou binées.

Prenons l'exemple d'un modèle de "prédiction de l'humeur" qui représente la température dans l'un des quatre buckets suivants:

  • freezing
  • chilly
  • temperate
  • warm

Il représente la vitesse du vent dans l'un des trois buckets suivants:

  • still
  • light
  • windy

Sans croisement de caractéristiques, le modèle linéaire s'entraîne indépendamment sur chacun des sept buckets précédents. Ainsi, le modèle s'entraîne sur, par exemple, freezing indépendamment de l'entraînement sur, par exemple, windy.

Vous pouvez également créer un croisement de caractéristiques pour la température et la vitesse du vent. Cette fonctionnalité synthétique aurait les 12 valeurs possibles suivantes:

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

Grâce aux croisements de caractéristiques, le modèle peut apprendre les différences d'humeur entre un jour freezing-windy et un jour freezing-still.

Si vous créez une caractéristique synthétique à partir de deux caractéristiques qui comportent chacune de nombreux buckets différents, le croisement de caractéristiques qui en résultera aura un nombre énorme de combinaisons possibles. Par exemple, si une caractéristique comporte 1 000 buckets et l'autre 2 000 buckets, la croisement de caractéristiques qui en résulte comporte 2 000 000 buckets.

Formellement, un croisement est un produit cartésien.

Les croisements de fonctionnalités sont principalement utilisés avec des modèles linéaires et sont rarement utilisés avec des réseaux de neurones.

Pour en savoir plus, consultez la section Données catégorielles: croisements de fonctionnalités dans le cours d'initiation au machine learning.

l'ingénierie des caractéristiques.

#fundamentals
#TensorFlow

Ce processus comprend les étapes suivantes:

  1. Déterminer les caractéristiques susceptibles d'être utiles pour entraîner un modèle.
  2. Convertir les données brutes de l'ensemble de données en versions efficaces de ces fonctionnalités.

Par exemple, vous pouvez déterminer que temperature peut être une fonctionnalité utile. Vous pouvez ensuite tester le groupement pour optimiser ce que le modèle peut apprendre à partir de différentes plages temperature.

L'ingénierie des caractéristiques est parfois appelée extraction de caractéristiques ou featurisation.

Pour en savoir plus, consultez la section Données numériques: comment un modèle ingère des données à l'aide de vecteurs de caractéristiques dans le cours d'initiation au machine learning.

extraction de caractéristiques

Terme complexe qui a une des définitions suivantes:

importance des caractéristiques

#df

Synonyme de importance des variables.

ensemble de fonctionnalités

#fundamentals

Groupe des caractéristiques utilisées pour l'entraînement de votre modèle de machine learning. Par exemple, le code postal, la taille et l'état de la propriété peuvent constituer un ensemble d'éléments simple pour un modèle qui prédit les prix des logements.

spécification des caractéristiques

#TensorFlow

Décrit les informations requises pour extraire les données des caractéristiques du tampon du protocole tf.Example. Étant donné que le tampon de protocole tf.Example n'est qu'un conteneur de données, vous devez spécifier les éléments suivants:

  • Les données à extraire (c'est-à-dire les clés des éléments géographiques)
  • Type de données (par exemple, float ou int)
  • Longueur (fixe ou variable)

vecteur de caractéristiques

#fundamentals

Tableau des valeurs de feature constituant un exemple. Le vecteur de caractéristiques est saisi pendant l'entraînement et l'inférence. Par exemple, le vecteur de caractéristiques d'un modèle avec deux caractéristiques discrètes peut être le suivant:

[0.92, 0.56]

Quatre couches: une couche d&#39;entrée, deux couches cachées et une couche de sortie.
          La couche d&#39;entrée contient deux nœuds, l&#39;un contenant la valeur 0,92 et l&#39;autre la valeur 0,56.

Chaque exemple fournit des valeurs différentes pour le vecteur de caractéristiques. Le vecteur de caractéristiques de l'exemple suivant pourrait donc être le suivant:

[0.73, 0.49]

L'ingénierie des caractéristiques détermine comment représenter les caractéristiques dans le vecteur de caractéristiques. Par exemple, une caractéristique catégorielle binaire avec cinq valeurs possibles peut être représentée par un encodage one-hot. Dans ce cas, la partie du vecteur de caractéristiques d'un exemple particulier se compose de quatre zéros et d'un seul 1,0 à la troisième position, comme suit:

[0.0, 0.0, 1.0, 0.0, 0.0]

Prenons un autre exemple. Supposons que votre modèle comporte trois caractéristiques:

  • une caractéristique catégorielle binaire avec cinq valeurs possibles représentées par un codage one-hot (par exemple: [0.0, 1.0, 0.0, 0.0, 0.0])
  • Une autre caractéristique catégorielle binaire avec trois valeurs possibles représentées par un encodage one-hot (par exemple: [0.0, 0.0, 1.0])
  • une fonctionnalité à virgule flottante (par exemple, 8.3).

Dans ce cas, le vecteur de caractéristiques de chaque exemple serait représenté par neuf valeurs. Compte tenu des exemples de valeurs de la liste précédente, le vecteur de caractéristiques serait le suivant:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

Pour en savoir plus, consultez la section Données numériques: comment un modèle ingère des données à l'aide de vecteurs de caractéristiques dans le cours d'initiation au machine learning.

featurization

Processus d'extraction de caractéristiques à partir d'une source d'entrée, telle qu'un document ou une vidéo, et de mappage de ces caractéristiques dans un vecteur de caractéristiques.

Certains experts en ML utilisent la featurisation comme synonyme de ingénierie des caractéristiques ou d'extraction de caractéristiques.

apprentissage fédéré

Une approche de machine learning distribué qui entraîne des modèles de machine learning à l'aide d'exemples décentralisés stockés sur des appareils tels que des smartphones. Dans l'apprentissage fédéré, un sous-ensemble d'appareils télécharge le modèle actuel à partir d'un serveur de coordination central. Les appareils utilisent les exemples stockés sur eux pour améliorer le modèle. Les appareils importent ensuite les améliorations du modèle (mais pas les exemples d'entraînement) sur le serveur de coordination, où elles sont agrégées avec d'autres mises à jour pour générer un modèle global amélioré. Après l'agrégation, les mises à jour du modèle calculées par les appareils ne sont plus nécessaires et peuvent être supprimées.

Étant donné que les exemples d'entraînement ne sont jamais importés, l'apprentissage fédéré respecte les principes de confidentialité de la collecte et de la minimisation des données ciblées.

Pour en savoir plus sur l'apprentissage fédéré, consultez ce tutoriel.

boucle de rétroaction

#fundamentals

En machine learning, situation dans laquelle les prédictions d'un modèle influencent les données d'entraînement du même modèle ou d'un autre. Par exemple, un modèle qui recommande des films influence les films que les utilisateurs regardent, ce qui influence les modèles de recommandation de films ultérieurs.

Pour en savoir plus, consultez la section Systèmes de ML en production: questions à se poser dans le cours d'initiation au machine learning.

réseau de neurones feedforward (FFN)

Réseau de neurones sans connexions cycliques ou récursives. Par exemple, les réseaux de neurones profonds traditionnels sont des réseaux de neurones feedforward. À comparer aux réseaux de neurones récurrents, qui sont cycliques.

apprentissage few-shot

Approche du machine learning, souvent utilisée pour la classification d'objets, conçue pour entraîner des classificateurs efficaces à partir d'un petit nombre d'exemples d'entraînement.

Voir également apprentissage one-shot et apprentissage zero-shot.

requêtes few-shot

#language
#generativeAI

Invite contenant plusieurs (quelques-uns) exemples montrant comment le grand modèle de langage doit répondre. Par exemple, l'invite longue suivante contient deux exemples montrant à un grand modèle de langage comment répondre à une requête.

Composants d'une requête Remarques
Quelle est la devise officielle du pays spécifié ? La question à laquelle vous souhaitez que le LLM réponde.
France: EUR Voici un exemple.
Royaume-Uni: GBP Autre exemple.
Inde: Requête réelle.

Les requêtes few-shot génèrent généralement des résultats plus intéressants que les requêtes zero-shot et les requêtes one-shot. Toutefois, les requêtes few-shot nécessitent une requête plus longue.

Les requêtes few-shot sont une forme d'apprentissage few-shot appliquée à l'apprentissage basé sur les requêtes.

Pour en savoir plus, consultez la section Ingénierie des requêtes du cours d'initiation au machine learning.

Violon

#language

Bibliothèque de configuration Python first qui définit les valeurs des fonctions et des classes sans code ni infrastructure intrusifs. Dans le cas de Pax (et d'autres codebases de ML), ces fonctions et classes représentent des modèles et des hyperparamètres d'entraînement.

Fiddle part du principe que les codebases de machine learning sont généralement divisés en:

  • Code de bibliothèque, qui définit les couches et les optimiseurs.
  • Code de liaison de l'ensemble de données, qui appelle les bibliothèques et relie tous les éléments.

Fiddle capture la structure d'appel du code de liaison sous une forme non évaluée et modifiable.

affiner

#language
#image
#generativeAI

Deuxième étape d'entraînement spécifique à la tâche effectuée sur un modèle pré-entraîné pour affiner ses paramètres pour un cas d'utilisation spécifique. Par exemple, la séquence d'entraînement complète de certains grands modèles de langage est la suivante:

  1. Pré-entraînement:entraînez un grand modèle de langage sur un vaste ensemble de données général, comme toutes les pages de Wikipedia en anglais.
  2. Ajustement:entraînez le modèle pré-entraîné pour qu'il effectue une tâche spécifique, comme répondre à des requêtes médicales. Le réglage fin implique généralement des centaines ou des milliers d'exemples axés sur la tâche spécifique.

Autre exemple : la séquence d'entraînement complète d'un grand modèle d'image se présente comme suit :

  1. Pré-entraînement:entraînez un grand modèle d'image sur un vaste ensemble de données d'images générales, comme toutes les images de Wikimedia Commons.
  2. Affinement:entraînez le modèle pré-entraîné pour qu'il effectue une tâche spécifique, comme générer des images d'orques.

Le réglage fin peut impliquer n'importe quelle combinaison des stratégies suivantes:

  • Modifier tous les paramètres existants du modèle pré-entraîné. On parle parfois de réglage fin complet.
  • Modifier seulement certains des paramètres existants du modèle pré-entraîné (généralement, les couches les plus proches de la couche de sortie), tout en laissant les autres paramètres existants inchangés (généralement, les couches les plus proches de la couche d'entrée). Consultez la section Réglage des paramètres avec optimisation.
  • Ajouter des calques, généralement au-dessus des calques existants les plus proches du calque de sortie.

L'optimisation est une forme d'apprentissage par transfert. Par conséquent, l'ajustement fin peut utiliser une fonction de perte ou un type de modèle différents de ceux utilisés pour entraîner le modèle pré-entraîné. Par exemple, vous pouvez affiner un grand modèle d'image pré-entraîné pour produire un modèle de régression qui renvoie le nombre d'oiseaux dans une image d'entrée.

Comparez l'ajustement fin aux termes suivants:

Pour en savoir plus, consultez la section Ajustement du cours d'initiation au machine learning.

Lin

#language

Bibliothèque Open Source hautes performances pour le deep learning, basée sur JAX. Flax fournit des fonctions pour entraîner des réseaux de neurones, ainsi que des méthodes pour évaluer leurs performances.

Flaxformer

#language

Bibliothèque Transformer Open Source, basée sur Flax, conçue principalement pour le traitement du langage naturel et la recherche multimodale.

porte d'oubli

#seq

Partie d'une cellule de mémoire à court terme à long terme qui régule le flux d'informations à travers la cellule. Les portes d'oubli maintiennent le contexte en décidant des informations à supprimer de l'état de la cellule.

fraction de succès

#generativeAI

Métrique permettant d'évaluer le texte généré d'un modèle de ML. La fraction de succès correspond au nombre de sorties de texte générées "réussies" divisé par le nombre total de sorties de texte générées. Par exemple, si un grand modèle de langage a généré 10 blocs de code, dont cinq ont réussi, la fraction de réussite est de 50%.

Bien que la fraction de succès soit généralement utile dans les statistiques, dans le ML, cette métrique est principalement utile pour mesurer des tâches vérifiables telles que la génération de code ou les problèmes mathématiques.

softmax complet

Synonyme de softmax.

À comparer à l'échantillonnage de candidats.

Pour en savoir plus, consultez la section Réseaux de neurones: classification à classes multiples du cours d'initiation au machine learning.

couche entièrement connectée

Couche cachée dans laquelle chaque nœud est connecté à tous les nœuds de la couche cachée suivante.

Une couche entièrement connectée est également appelée couche dense.

transformation de fonction

Fonction qui reçoit une fonction en entrée et renvoie une fonction transformée en sortie. JAX utilise des transformations de fonction.

G

GAN

Abréviation de réseaux antagonistes génératifs.

Gemini

#language
#image
#generativeAI

Écosystème composé de l'IA la plus avancée de Google. Voici quelques éléments de cet écosystème:

  • Différents modèles Gemini
  • Interface conversationnelle interactive pour un modèle Gemini. Les utilisateurs saisissent des requêtes, et Gemini y répond.
  • Diverses API Gemini
  • Divers produits professionnels basés sur des modèles Gemini, par exemple Gemini pour Google Cloud.

Modèles Gemini

#language
#image
#generativeAI

Les modèles multimodaux de pointe de Google basés sur Transformer Les modèles Gemini sont spécialement conçus pour s'intégrer aux agents.

Les utilisateurs peuvent interagir avec les modèles Gemini de différentes manières, y compris via une interface de boîte de dialogue interactive et via des SDK.

généralisation

#fundamentals

Capacité d'un modèle à effectuer des prédictions correctes pour des données nouvelles, qui n'ont encore jamais été vues. Un modèle capable de généraliser est l'opposé d'un modèle qui surapprend.

Pour en savoir plus, consultez la section Généralisation du cours d'initiation au machine learning.

courbe de généralisation

#fundamentals

Graphique de la perte d'entraînement et de la perte de validation en fonction du nombre d'itérations.

Une courbe de généralisation peut vous aider à détecter un éventuel surapprentissage. Par exemple, la courbe de généralisation suivante suggère un surapprentissage, car la perte de validation devient finalement beaucoup plus élevée que la perte d'entraînement.

Graphique cartésien dans lequel l&#39;axe des ordonnées est étiqueté &quot;perte&quot; et l&#39;axe des abscisses est étiqueté &quot;itérations&quot;. Deux graphiques s&#39;affichent. L&#39;un des graphiques montre la perte d&#39;entraînement et l&#39;autre la perte de validation.
          Les deux graphiques se ressemblent au début, mais la perte d&#39;entraînement finit par descendre beaucoup plus bas que la perte de validation.

Pour en savoir plus, consultez la section Généralisation du cours d'initiation au machine learning.

modèle linéaire généralisé

Généralisation des modèles de régression des moindres carrés, qui sont basés sur le bruit gaussien, à d'autres types de modèles basés sur d'autres types de bruit, tels que le bruit de Poisson ou le bruit catégoriel. Voici quelques exemples de modèles linéaires généralisés:

Les paramètres d'un modèle linéaire généralisé peuvent être déterminés via une optimisation convexe.

Les modèles linéaires généralisés présentent les propriétés suivantes:

  • La prédiction moyenne du modèle de régression des moindres carrés optimal est égale à l'étiquette moyenne des données d'entraînement.
  • La probabilité moyenne prédite par le modèle de régression logistique optimal est égale à l'étiquette moyenne des données d'entraînement.

La puissance d'un modèle linéaire généralisé est limitée par ses caractéristiques. Contrairement à un modèle profond, un modèle généralisé ne peut pas "apprendre de nouvelles caractéristiques".

texte généré

#language
#generativeAI

En général, le texte généré par un modèle de ML. Lors de l'évaluation de grands modèles de langage, certaines métriques comparent le texte généré à un texte de référence. Par exemple, supposons que vous essayiez de déterminer l'efficacité d'un modèle de ML pour traduire du français vers le néerlandais. Dans ce cas :

  • Le texte généré correspond à la traduction néerlandaise générée par le modèle de ML.
  • Le texte de référence est la traduction néerlandaise créée par un traducteur humain (ou un logiciel).

Notez que certaines stratégies d'évaluation n'impliquent pas de texte de référence.

réseaux antagonistes génératifs (GAN)

Système permettant de créer de nouvelles données dans lequel un générateur crée des données et un discriminateur détermine si les données créées sont valides ou non.

Pour en savoir plus, consultez le cours sur les réseaux génératifs antagonistes.

IA générative

#language
#image
#generativeAI

Champ émergent et transformateur sans définition formelle. Cela dit, la plupart des experts s'accordent à dire que les modèles d'IA générative peuvent créer ("générer") du contenu qui présente les caractéristiques suivantes:

  • complexe
  • cohérent
  • originale

Par exemple, un modèle d'IA générative peut créer des essais ou des images sophistiqués.

Certaines technologies antérieures, y compris les LSTM et les RNN, peuvent également générer des contenus originaux et cohérents. Certains experts considèrent ces technologies antérieures comme de l'IA générative, tandis que d'autres estiment que la véritable IA générative nécessite des résultats plus complexes que ces technologies antérieures ne peuvent produire.

À comparer au ML prédictif.

modèle génératif

Concrètement, un modèle qui effectue l'une des opérations suivantes:

  • Crée (génère) de nouveaux exemples à partir de l'ensemble de données d'entraînement. Par exemple, un modèle génératif pourrait créer de la poésie à l'issue d'un entraînement sur un ensemble de données de poèmes. Le générateur d'un réseau antagoniste génératif fait partie de cette catégorie.
  • Détermine la probabilité qu'un nouvel exemple provienne de l'ensemble d'entraînement, ou ait été créé à partir du même mécanisme à l'origine de l'ensemble d'entraînement. Par exemple, après un entraînement sur un ensemble de données de phrases en anglais, un modèle génératif pourrait déterminer la probabilité qu'une nouvelle entrée est une phrase anglaise valide.

Un modèle génératif peut théoriquement discerner la distribution des exemples ou des caractéristiques particulières dans un ensemble de données. Par exemple :

p(examples)

Les modèles d'apprentissage non supervisés sont génératifs.

À comparer aux modèles discriminatifs.

générateur

Sous-système d'un réseau antagoniste génératif qui crée de nouveaux exemples.

À comparer au modèle discriminatif.

impureté de Gini

#df

Métrique semblable à l'entropie. Les séparateurs utilisent des valeurs dérivées de l'impureté de Gini ou de l'entropie pour composer des conditions de classification des arbres de décision. Le gain d'information est dérivé de l'entropie. Il n'existe pas de terme équivalent universellement accepté pour la métrique dérivée de l'impureté de Gini. Toutefois, cette métrique sans nom est tout aussi importante que le gain d'informations.

L'impureté de Gini est également appelée indice de Gini ou simplement Gini.

ensemble de données d'or

Ensemble de données sélectionnées manuellement qui capture la vérité terrain. Les équipes peuvent utiliser un ou plusieurs ensembles de données d'or pour évaluer la qualité d'un modèle.

Certains ensembles de données d'or capturent différents sous-domaines de vérité terrain. Par exemple, un ensemble de données d'or pour la classification d'images peut capturer les conditions d'éclairage et la résolution de l'image.

réponse dorée

#language
#generativeAI

Réponse connue comme étant correcte. Par exemple, avec l'invite suivante:

2 + 2

La réponse idéale est la suivante:

4

GPT (Generative Pre-trained Transformer)

#language

Famille de grands modèles de langage basés sur Transformer développés par OpenAI.

Les variantes GPT peuvent s'appliquer à plusieurs modalités, y compris les suivantes:

  • la génération d'images (par exemple, ImageGPT) ;
  • Génération de texte à image (par exemple, DALL-E).

gradient

Vecteur des dérivées partielles calculées pour l'ensemble des variables indépendantes. Dans le machine learning, le gradient correspond au vecteur des dérivées partielles de la fonction du modèle. Le gradient indique toujours la direction de la croissance maximale.

accumulation de gradients

Technique de propagation inverse qui ne met à jour les paramètres qu'une fois par époque au lieu d'une fois par itération. Après le traitement de chaque mini-lot, l'accumulation de gradients met simplement à jour un total cumulé des gradients. Ensuite, après avoir traité le dernier mini-lot de l'époque, le système met finalement à jour les paramètres en fonction du total de toutes les modifications de gradient.

L'accumulation de gradients est utile lorsque la taille de lot est très importante par rapport à la quantité de mémoire disponible pour l'entraînement. Lorsque la mémoire est un problème, la tendance naturelle est de réduire la taille de lot. Toutefois, réduire la taille de lot dans la rétropropagation normale augmente le nombre de mises à jour de paramètres. L'accumulation de gradients permet au modèle d'éviter les problèmes de mémoire, tout en s'entraînant efficacement.

Arbres de décision à boosting de gradient (GBT)

#df

Type de forêt de décision dans lequel:

Pour en savoir plus, consultez la section Arbres de décision à boosting de gradient du cours sur les forêts de décision.

boostage par gradient

#df

Algorithme d'entraînement dans lequel des modèles faibles sont entraînés pour améliorer de manière itérative la qualité (réduire la perte) d'un modèle fort. Par exemple, un modèle faible peut être un modèle linéaire ou un petit modèle d'arbre de décision. Le modèle fort devient la somme de tous les modèles faibles précédemment entraînés.

Dans la forme la plus simple du renforcement par gradient, à chaque itération, un modèle faible est entraîné pour prédire le gradient de perte du modèle fort. Ensuite, la sortie du modèle fort est mise à jour en soustrayant le gradient prévu, comme dans la descente du gradient.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

où :

  • $F_{0}$ est le modèle fort de départ.
  • $F_{i+1}$ est le prochain modèle performant.
  • $F_{i}$ est le modèle fort actuel.
  • $\xi$ est une valeur comprise entre 0,0 et 1,0 appelée rétrécissement, qui est analogue au taux d'apprentissage dans la descente du gradient.
  • $f_{i}$ est le modèle faible entraîné pour prédire le gradient de perte de $F_{i}$.

Les variantes modernes du boosting par gradient incluent également la seconde dérivée (Hessian) de la perte dans leur calcul.

Les arbres de décision sont couramment utilisés comme modèles faibles dans le boosting par gradient. Consultez les arbres de décision à boosting de gradient.

bornement de la norme du gradient

#seq

Mécanisme couramment utilisé pour atténuer le problème d'explosion du gradient en limitant artificiellement (coupant) la valeur maximale des gradients lorsque vous utilisez la descente du gradient pour entraîner un modèle.

descente de gradient

#fundamentals

Technique mathématique visant à minimiser les pertes. La descente de gradient ajuste de manière itérative les pondérations et les biais, en trouvant progressivement la meilleure combinaison pour minimiser la perte.

La descente du gradient est beaucoup plus ancienne que le machine learning.

Pour en savoir plus, consultez la section Régression linéaire: descente du gradient du cours d'initiation au machine learning.

graphique

#TensorFlow

Dans TensorFlow, les spécifications du calcul. Les nœuds du graphe représentent des opérations. Les bords sont orientés et représentent le passage du résultat d'une opération (un Tensor) en tant qu'opérande vers une autre opération. Pour visualiser un graphe, utilisez TensorBoard.

exécution de graphe

#TensorFlow

Environnement de programmation TensorFlow dans lequel le programme commence par construire un graphe, puis exécute tout ou partie de ce graphe. L'exécution de graphe est le mode d'exécution par défaut dans TensorFlow 1.x.

À comparer à l'exécution eager.

règle gloutonne

#rl

Dans l'apprentissage par renforcement, stratégie qui choisit toujours l'action dont le rendement attendu est le plus élevé.

ancrage

Propriété d'un modèle dont la sortie est basée sur (est "fondée sur") un matériel source spécifique. Par exemple, supposons que vous fournissiez un manuel de physique entier en entrée ("contexte") à un grand modèle de langage. Vous lui posez ensuite une question de physique. Si la réponse du modèle reflète les informations de ce manuel, ce modèle est ancré sur ce manuel.

Notez qu'un modèle ancré n'est pas toujours un modèle factuel. Par exemple, le manuel de physique utilisé peut contenir des erreurs.

vérité terrain

#fundamentals

Réalité.

Ce qui s'est passé réellement

Prenons l'exemple d'un modèle de classification binaire qui prédit si un étudiant en première année d'université obtiendra son diplôme dans un délai de six ans. La vérité terrain de ce modèle est de savoir si cet étudiant a effectivement obtenu son diplôme dans les six ans.

biais de représentativité

#fairness

Fait de supposer que ce qui s'applique à un individu s'applique également à tous les membres du groupe auquel cet individu appartient. Les effets du biais de représentativité peuvent être exacerbés si un échantillonnage de commodité est utilisé pour la collecte de données. Dans un échantillon non représentatif, il est possible de faire des attributions qui ne reflètent pas la réalité.

Voir aussi le biais d'homogénéité de l'exogroupe et le biais d'appartenance. Pour en savoir plus, consultez également la section Équité: types de biais du cours d'initiation au machine learning.

H

hallucination

#language

Production de résultats qui semblent plausibles, mais qui sont en fait incorrects, par un modèle d'IA générative qui prétend faire une affirmation sur le monde réel. Par exemple, un modèle d'IA générative qui affirme que Barack Obama est mort en 1865 est hallucinant.

hachage

Dans le machine learning, mécanisme qui permet de faire un binning des données catégorielles, en particulier lorsque le nombre de catégories est grand, mais que le nombre de catégories figurant réellement dans l'ensemble de données est comparativement faible.

Par exemple, la Terre abrite environ 73 000 espèces d'arbres. Vous pouvez représenter chacune des 73 000 espèces d'arbres dans 73 000 ensembles de catégories distincts. Ou bien, si seulement 200 de ces espèces d'arbres figurent réellement dans un ensemble de données, vous pouvez utiliser le hachage pour diviser les espèces d'arbres en 500 ensembles, par exemple.

Un ensemble peut contenir plusieurs espèces d'arbres. Par exemple, le hachage pourrait placer le baobab et l'érable rouge dans le même ensemble, même si ces deux espèces sont génétiquement dissemblables. Quoi qu'il en soit, le hachage reste un bon moyen de mapper de grands ensembles catégoriels au nombre sélectionné d'ensembles. Le hachage transforme une caractéristique catégorique comportant un grand nombre de valeurs possibles en un nombre de valeurs bien plus réduit en regroupant les valeurs de manière déterministe.

Pour en savoir plus, consultez la section Données catégorielles: vocabulaire et encodage one-hot dans le cours d'initiation au machine learning.

heuristique

Solution simple et rapide à un problème. Par exemple, "Avec une heuristique, nous avons atteint une précision de 86 %. Lorsque nous avons opté pour un réseau de neurones profond, la précision a atteint 98%."

couche cachée

#fundamentals

Couche d'un réseau de neurones située entre la couche d'entrée (les caractéristiques) et la couche de sortie (la prédiction). Chaque couche cachée comprend un ou plusieurs neurones. Par exemple, le réseau de neurones suivant contient deux couches cachées, la première avec trois neurones et la seconde avec deux neurones:

Quatre couches. La première couche est une couche d&#39;entrée contenant deux éléments géographiques. La deuxième couche est une couche cachée contenant trois neurones. La troisième couche est une couche cachée contenant deux neurones. La quatrième couche est une couche de sortie. Chaque caractéristique contient trois arêtes, chacune pointant vers un neurone différent de la deuxième couche. Chacun des neurones de la deuxième couche contient deux arêtes, chacune pointant vers un neurone différent de la troisième couche. Chacun des neurones de la troisième couche contient un seul bord, chacun pointant vers la couche de sortie.

Un réseau de neurones profond contient plus d'une couche cachée. Par exemple, l'illustration précédente est un réseau de neurones profond, car le modèle contient deux couches cachées.

Pour en savoir plus, consultez la section Réseaux de neurones: nœuds et couches cachées du cours d'initiation au machine learning.

clustering hiérarchique

#clustering

Catégorie d'algorithmes de clustering qui créent un arbre de clusters. Le clustering hiérarchique est parfaitement adapté aux données hiérarchiques, telles que les catégories botaniques. Il existe deux types d'algorithmes de clustering hiérarchique:

  • Le clustering agglomératif assigne d'abord chaque exemple à son propre cluster, puis fusionne de manière itérative les clusters les plus proches pour créer un arbre hiérarchique.
  • Le clustering divisif regroupe d'abord tous les exemples en un cluster, puis divise le cluster de manière itérative en un arbre hiérarchique.

À comparer au clustering basé sur centroïde.

Pour en savoir plus, consultez la section Algorithmes de clustering dans le cours sur le clustering.

montée en côte

Algorithme permettant d'améliorer de manière itérative ("monter la colline") un modèle de ML jusqu'à ce qu'il cesse de s'améliorer ("atteindre le sommet de la colline"). La forme générale de l'algorithme est la suivante:

  1. Créez un modèle de départ.
  2. Créez des modèles candidats en apportant de légères modifications à la façon dont vous entraînez ou affinez. Cela peut impliquer de travailler avec un ensemble d'entraînement légèrement différent ou des hyperparamètres différents.
  3. Évaluez les nouveaux modèles candidats et effectuez l'une des actions suivantes :
    • Si un modèle candidat surpasse le modèle de départ, il devient le nouveau modèle de départ. Dans ce cas, répétez les étapes 1, 2 et 3.
    • Si aucun modèle ne surpasse le modèle de départ, vous avez atteint le sommet de la colline et devez arrêter l'itération.

Consultez le guide de réglage du deep learning pour obtenir des conseils sur le réglage des hyperparamètres. Consultez les modules sur les données du Cours d'initiation au Machine Learning pour obtenir des conseils sur l'ingénierie des caractéristiques.

marge maximale

Famille de fonctions de perte pour la classification conçue pour trouver la frontière de décision la plus éloignée possible de chaque exemple d'entraînement, afin de maximiser la marge entre les exemples et la frontière. Les KSVM utilisent la marge maximale (ou une fonction associée, par exemple le carré de la marge maximale). Dans le cas de la classification binaire, la fonction de marge maximale est définie ainsi:

$$\text{loss} = \text{max}(0, 1 - (y * y'))$$

y est l'étiquette réelle, soit -1 ou +1, et y' est la sortie brute du modèle du classificateur:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Par conséquent, le graphique de la perte en fonction de (y * y') est de la forme suivante:

Graphique cartésien composé de deux segments de ligne joints. Le premier segment de ligne commence à (-3, 4) et se termine à (1, 0). Le deuxième segment de ligne commence à (1, 0) et se poursuit indéfiniment avec une pente de 0.

biais historique

#fairness

Type de biais qui existe déjà dans le monde et s'est glissé dans un ensemble de données. Ces biais ont tendance à refléter les stéréotypes culturels existants, les inégalités démographiques et les préjugés envers certains groupes sociaux.

Prenons l'exemple d'un modèle de classification qui prédit si un demandeur de prêt fera défaut sur son prêt. Il a été entraîné sur des données historiques sur les défauts de paiement des prêts des années 1980 provenant de banques locales de deux communautés différentes. Si les anciens candidats de la communauté A étaient six fois plus susceptibles de faire défaut sur leurs prêts que ceux de la communauté B, le modèle pourrait apprendre un biais historique, ce qui le rendrait moins susceptible d'approuver des prêts dans la communauté A, même si les conditions historiques qui ont entraîné des taux de défaut plus élevés dans cette communauté n'étaient plus pertinentes.

Pour en savoir plus, consultez la section Équité: types de biais dans le cours d'initiation au machine learning.

données exclues

Exemples intentionnellement non utilisés ("exclus") pendant l'entraînement. L'ensemble de données de validation et l'ensemble de données de test sont des exemples de données exclues. Les données exclues aident à évaluer la capacité de votre modèle à être généralisé à des données autres que celles utilisées pour l'apprentissage. La perte d'un ensemble de données non vues jusqu'à présent est estimée plus précisément par la perte de l'ensemble de données exclues que par celui de l'ensemble d'entraînement.

hôte

#TensorFlow
#GoogleCloud

Lors de l'entraînement d'un modèle de ML sur des chips d'accélérateur (GPU ou TPU), la partie du système qui contrôle les deux éléments suivants:

  • Flux global du code.
  • Extraction et transformation du pipeline d'entrée.

L'hôte s'exécute généralement sur un processeur, et non sur une puce d'accélérateur. L'appareil manipule les tensors sur les puces d'accélérateur.

évaluation humaine

#language
#generativeAI

Processus par lequel des personnes évaluent la qualité de la sortie d'un modèle de ML (par exemple, en demandant à des personnes bilingues d'évaluer la qualité d'un modèle de traduction de ML). L'évaluation humaine est particulièrement utile pour évaluer des modèles pour lesquels il n'existe pas de réponse unique.

À comparer à l'évaluation automatique et à l'évaluation par l'outil d'évaluation automatique.

human-in-the-loop (avec intervention humaine)

#generativeAI

Idiome vaguement défini qui peut signifier l'un des éléments suivants:

  • Règle consistant à examiner les résultats de l'IA générative de manière critique ou sceptique. Par exemple, les humains qui rédigent ce glossaire de ML sont émerveillés par ce que peuvent faire les grands modèles de langage, mais ils sont conscients des erreurs qu'ils commettent.
  • Stratégie ou système visant à s'assurer que les utilisateurs contribuent à façonner, évaluer et affiner le comportement d'un modèle. En gardant un humain dans la boucle, une IA peut bénéficier à la fois de l'intelligence artificielle et de l'intelligence humaine. Par exemple, un système dans lequel une IA génère du code que les ingénieurs logiciels examinent ensuite est un système humain dans la boucle.

hyperparamètre

#fundamentals

Variables que vous ou un service de réglage des hyperparamètresajustez lors des exécutions successives de l'entraînement d'un modèle. Par exemple, le taux d'apprentissage est un hyperparamètre. Vous pouvez définir le taux d'apprentissage sur 0,01 avant une session d'entraînement. Si vous déterminez que 0,01 est trop élevé, vous pouvez peut-être définir le taux d'apprentissage sur 0,003 pour la prochaine session d'entraînement.

À l'inverse, les paramètres sont les différents pondérations et biais que le modèle apprend pendant l'entraînement.

Pour en savoir plus, consultez la section Régression linéaire : hyperparamètres du cours d'initiation au machine learning.

hyperplan

Limite qui sépare un espace en deux sous-espaces. Par exemple, une ligne est un hyperplan en deux dimensions, et un plan est un hyperplan en trois dimensions. Plus généralement, en machine learning, un hyperplan est la limite qui sépare un espace à haute dimension. Les machines à vecteurs de support à noyau utilisent les hyperplans pour séparer les classes positives et négatives, souvent dans un espace de très grande dimension.

I

iid

Abréviation de variables indépendantes et identiquement distribuées.

reconnaissance d'image

#image

Processus de classification des objets, des formes ou des concepts dans une image. La reconnaissance d'image est également appelée classification d'images.

Pour en savoir plus, consultez Travaux pratiques sur le machine learning: Classification d'images.

Pour en savoir plus, consultez le cours Travaux pratiques sur le machine learning: Classification d'images.

ensemble de données déséquilibré

Synonyme de ensemble de données avec déséquilibre des classes.

biais implicite

#fairness

Fait de faire automatiquement une association ou une hypothèse sur la base de ses propres modèles mentaux et souvenirs. Le biais implicite peut avoir une incidence sur les points suivants:

  • Manière dont les données sont collectées et classées.
  • Manière dont les systèmes de machine learning sont conçus et développés.

Par exemple, lors de la création d'un classificateur pour identifier des photos de mariage, un ingénieur peut utiliser comme caractéristique une robe blanche trouvée sur une photo. Cependant, les robes blanches ne sont d'usage que dans certaines cultures et, de surcroît, seulement à certaines époques.

Voir aussi le biais de confirmation.

imputation

Abréviation de imputation de valeur.

Incompatibilité des critères d'équité

#fairness

Idée selon laquelle certaines notions d'équité sont mutuellement incompatibles et ne peuvent pas être satisfaites simultanément. Par conséquent, il n'existe pas de métrique universelle unique pour quantifier l'équité qui puisse être appliquée à tous les problèmes de ML.

Bien que cela puisse sembler décourageant, l'incompatibilité des métriques d'équité n'implique pas que les efforts d'équité soient infructueux. Il suggère plutôt que l'équité doit être définie selon un contexte et un problème de ML donné, dans le but d'éviter les dommages spécifiques à ses cas d'utilisation.

Pour en savoir plus sur ce sujet, consultez "On the (im)possibility of fairness" (Sur l'impossibilité de l'impartialité).

apprentissage en contexte

#language
#generativeAI

Synonyme de requête few-shot.

variables indépendantes et identiquement distribuées (variables iid)

#fundamentals

Données extraites d'une distribution qui ne change pas et où chaque valeur extraite ne dépend pas des valeurs extraites précédemment. Une distribution i.i.d. est le gaz parfait du machine learning : c'est une construction mathématique utile qui ne se rencontre quasiment jamais à l'identique dans le monde réel. Par exemple, la distribution des visiteurs d'une page Web peut être une variable idd sur une courte période, c'est-à-dire que la distribution ne change pas pendant cette période et que la visite d'un internaute est généralement indépendante de la visite d'un autre. Toutefois, si vous élargissez cette période, des différences saisonnières peuvent apparaître dans les visiteurs de la page Web.

Voir également non-stationnarité.

équité individuelle

#fairness

Métrique d'équité qui vérifie si des individus similaires sont classés de manière similaire. Par exemple, l'Académie Brobdingnagian peut vouloir garantir l'équité individuelle en s'assurant que deux élèves ayant des notes et des résultats aux tests standardisés identiques ont autant de chances d'être admis.

Notez que l'équité individuelle repose entièrement sur la façon dont vous définissez la "similitude" (dans ce cas, les notes et les notes de test). Vous risquez d'introduire de nouveaux problèmes d'équité si votre métrique de similarité ne tient pas compte d'informations importantes (telles que la rigueur du programme d'un élève).

Pour en savoir plus sur l'équité individuelle, consultez "Équité grâce à la sensibilisation".

inférence

#fundamentals

Dans le machine learning, processus consistant à effectuer des prédictions en appliquant un modèle entraîné à des exemples sans étiquette.

L'inférence a une signification quelque peu différente en statistiques. Pour en savoir plus, consultez l' article Wikipédia sur l'inférence statistique.

Consultez la section Apprentissage supervisé du cours "Introduction au ML" pour découvrir le rôle de l'inférence dans un système d'apprentissage supervisé.

chemin d'inférence

#df

Dans un arbre de décision, lors de l'inférence, le chemin qu'un exemple particulier emprunte de la racine à d'autres conditions se termine par une feuille. Par exemple, dans l'arborescence de décision suivante, les flèches plus épaisses indiquent le chemin d'inférence pour un exemple avec les valeurs de caractéristique suivantes:

  • x = 7
  • y = 12
  • z = -3

Le chemin d'inférence de l'illustration suivante passe par trois conditions avant d'atteindre la feuille (Zeta).

Arbre de décision composé de quatre conditions et de cinq feuilles.
          La condition racine est (x > 0). Comme la réponse est &quot;Oui&quot;, le chemin d&#39;inférence passe de la racine à la condition suivante (y > 0).
          Comme la réponse est &quot;Oui&quot;, le chemin d&#39;inférence passe ensuite à la condition suivante (z > 0). Étant donné que la réponse est &quot;Non&quot;, le chemin d&#39;inférence se dirige vers son nœud terminal, qui est la feuille (Zeta).

Les trois flèches épaisses indiquent le chemin d'inférence.

Pour en savoir plus, consultez la section Arbres de décision du cours "Forêts de décision".

gain d'informations

#df

Dans les forêts de décision, différence entre l'entropie d'un nœud et la somme pondérée (par le nombre d'exemples) de l'entropie de ses nœuds enfants. L'entropie d'un nœud correspond à l'entropie des exemples de ce nœud.

Prenons l'exemple des valeurs d'entropie suivantes:

  • Entropie du nœud parent = 0,6
  • Entropie d'un nœud enfant avec 16 exemples pertinents = 0,2
  • Entropie d'un autre nœud enfant avec 24 exemples pertinents = 0,1

Ainsi, 40% des exemples se trouvent dans un nœud enfant et 60% dans l'autre. Par conséquent :

  • Somme pondérée de l'entropie des nœuds enfants = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Le gain d'information est donc le suivant:

  • Gain d'information = entropie du nœud parent - somme pondérée de l'entropie des nœuds enfants
  • Gain d'information = 0,6 - 0,14 = 0,46

La plupart des séparateurs cherchent à créer des conditions qui maximisent le gain d'informations.

biais d'appartenance

#fairness

Faire preuve de partialité envers son propre groupe ou ses propres traits caractéristiques. Si les testeurs ou les évaluateurs sont composés d'amis, de membres de la famille ou de collègues du développeur en machine learning, alors le biais d'appartenance peut invalider le test du produit ou l'ensemble de données.

Le biais d'appartenance est une forme de biais de représentativité. Voir aussi le biais d'homogénéité de l'exogroupe.

Pour en savoir plus, consultez la section Équité: types de biais du cours d'initiation au machine learning.

générateur d'entrée

Mécanisme par lequel les données sont chargées dans un réseau de neurones.

Un générateur d'entrée peut être considéré comme un composant chargé de traiter les données brutes en tenseurs, qui sont itérés pour générer des lots à des fins d'entraînement, d'évaluation et d'inférence.

couche d'entrée

#fundamentals

Couche d'un réseau de neurones qui contient le vecteur de caractéristiques. Autrement dit, la couche d'entrée fournit des exemples pour l'entraînement ou l'inférence. Par exemple, la couche d'entrée du réseau de neurones suivant se compose de deux caractéristiques:

Quatre couches: une couche d&#39;entrée, deux couches cachées et une couche de sortie.

condition définie

#df

Dans un arbre de décision, condition qui vérifie la présence d'un élément dans un ensemble d'éléments. Par exemple, la condition suivante est définie dans un ensemble:

  house-style in [tudor, colonial, cape]

Lors de l'inférence, si la valeur de la fonctionnalité de style de maison est tudor, colonial ou cape, cette condition est évaluée à "Oui". Si la valeur de la fonctionnalité de style de maison est différente (par exemple, ranch), cette condition renvoie la valeur "Non".

Les conditions du jeu de données génèrent généralement des arbres de décision plus efficaces que les conditions qui testent des caractéristiques encodées en one-hot.

instance

Synonyme de exemple.

réglage des instructions

#generativeAI

Forme de réglage fin qui améliore la capacité d'un modèle d'IA générative à suivre des instructions. Le réglage des instructions consiste à entraîner un modèle sur une série d'invites d'instructions, qui couvrent généralement une grande variété de tâches. Le modèle optimisé par instruction qui en résulte tend ensuite à générer des réponses utiles aux invites sans entraînement pour diverses tâches.

Comparez et contrastez avec:

interprétabilité

#fundamentals

Capacité à expliquer ou à présenter le raisonnement d'un modèle de ML à un humain en termes compréhensibles.

Par exemple, la plupart des modèles de régression linéaire sont très faciles à interpréter. (Il vous suffit d'examiner les pondérations entraînées pour chaque caractéristique.) Les forêts de décision sont également très interprétables. Toutefois, certains modèles nécessitent des visualisations complexes pour pouvoir être interprétés.

Vous pouvez utiliser Learning Interpretability Tool (LIT) pour interpréter des modèles de ML.

accord inter-évaluateurs

Mesure de la fréquence à laquelle les évaluateurs humains sont d'accord lorsqu'ils effectuent une tâche. Si les évaluateurs ne sont pas d'accord, il est possible que les instructions de la tâche doivent être améliorées. Parfois également appelé accord inter-annotateurs ou fiabilité inter-évaluateurs. Voir aussi le kappa de Cohen, l'une des mesures de l'accord inter-évaluateurs les plus populaires.

Pour en savoir plus, consultez la section Données catégorielles: problèmes courants du cours d'initiation au machine learning.

Intersection over Union (IoU)

#image

Intersection de deux ensembles divisée par leur union. Dans les tâches de détection d'images de machine learning, l'IoU permet de mesurer la justesse du cadre de délimitation prédit du modèle par rapport au cadre de délimitation de la vérité terrain. Dans ce cas, l'IoU des deux cadres correspond au ratio entre la zone de chevauchement et la zone totale. Sa valeur varie de 0 (pas de chevauchement entre le cadre de délimitation prédit et le cadre de délimitation de la vérité terrain) à 1 (le cadre de délimitation prédit et le cadre de délimitation de la vérité terrain ont exactement les mêmes coordonnées).

Par exemple, dans l'image ci-dessous:

  • Le cadre de délimitation prévu (les coordonnées délimitant l'emplacement de la table de chevet dans le tableau, selon le modèle) est entouré en violet.
  • Le cadre de délimitation de vérité terrain (les coordonnées délimitant l'emplacement réel de la table de chevet dans le tableau) est encadré en vert.

Tableau de Van Gogh intitulé &quot;La Chambre de Vincent à Arles&quot;, avec deux rectangles de délimitation différents autour de la table de chevet à côté du lit. Le cadre de délimitation de vérité terrain (en vert) entoure parfaitement la table de chevet. La zone de délimitation prévue (en violet) est décalée de 50% vers le bas et vers la droite de la zone de délimitation de la vérité terrain. Elle entoure le quart inférieur droit de la table de nuit, mais ne couvre pas le reste de la table.

Ici, l'intersection des cadres de délimitation pour la prédiction et la vérité terrain (en bas à gauche) est de 1, et l'union des cadres de délimitation pour la prédiction et la vérité terrain (en bas à droite) est de 7. L'IoU est donc \(\frac{1}{7}\).

Même image que ci-dessus, mais chaque cadre de délimitation est divisé en quatre quadrants. Il y a sept quadrants au total, car le quadrant inférieur droit du cadre de délimitation de la vérité terrain et le quadrant supérieur gauche du cadre de délimitation prédit se chevauchent. Cette section qui se chevauche (en vert) représente l&#39;intersection et a une superficie de 1. Même image que ci-dessus, mais chaque cadre de délimitation est divisé en quatre quadrants. Il y a sept quadrants au total, car le quadrant inférieur droit du cadre de délimitation de la vérité terrain et le quadrant supérieur gauche du cadre de délimitation prédit se chevauchent.
          L&#39;ensemble de l&#39;intérieur délimité par les deux rectangles de délimitation (en surbrillance en vert) représente l&#39;union et a une superficie de 7.

IoU

Abréviation de intersection sur union.

matrice éléments

#recsystems

Dans les systèmes de recommandation, matrice de vecteurs d'embedding générés par la factorisation matricielle, qui contient des signaux latents sur chaque élément. Chaque ligne de la matrice éléments contient la valeur d'une seule caractéristique latente pour tous les éléments. Prenons l'exemple d'un système de recommandation de films. Chaque colonne de la matrice éléments représente un seul film. Les signaux latents peuvent représenter des genres ou être des signaux plus difficiles à interpréter impliquant des interactions complexes entre des facteurs comme le genre, la note ou l'ancienneté du film.

La matrice éléments a le même nombre de colonnes que la matrice cible qui est factorisée. Par exemple, dans le cas d'un système de recommandation de films évaluant 10 000 titres de films, la matrice éléments comportera 10 000 colonnes.

éléments

#recsystems

Dans un système de recommandation, les entités recommandées par un système. Par exemple, les vidéos sont les éléments recommandés par un vidéo club, alors que les livres sont les éléments recommandés par une librairie.

itération

#fundamentals

Mise à jour unique des paramètres d'un modèle (ses pondérations et ses biais) pendant l'entraînement. La taille de lot détermine le nombre d'exemples que le modèle traite en une seule itération. Par exemple, si la taille de lot est de 20, le modèle traite 20 exemples avant d'ajuster les paramètres.

Lors de l'entraînement d'un réseau de neurones, une seule itération implique les deux passes suivantes:

  1. Passage avant pour évaluer la perte sur un seul lot.
  2. Une passe arrière (backpropagation) pour ajuster les paramètres du modèle en fonction de la perte et du taux d'apprentissage.

J

JAX

Bibliothèque de calcul matriciel combinant XLA (Accelerated Linear Algebra) et la différenciation automatique pour le calcul numérique hautes performances. JAX fournit une API simple et puissante pour écrire du code numérique accéléré avec des transformations composables. JAX propose des fonctionnalités telles que:

  • grad (différenciation automatique)
  • jit (compilation juste-à-temps)
  • vmap (vectorisation ou traitement par lot automatique)
  • pmap (parallélisation)

JAX est un langage permettant d'exprimer et de composer des transformations de code numérique, analogue (mais de portée beaucoup plus large) à la bibliothèque NumPy de Python. (En fait, la bibliothèque .numpy sous JAX est une version fonctionnellement équivalente, mais entièrement réécrite de la bibliothèque NumPy Python.)

JAX est particulièrement adapté pour accélérer de nombreuses tâches de machine learning en transformant les modèles et les données en une forme adaptée au parallélisme entre les GPU et les puces d'accélérateur TPU.

Flax, Optax, Pax et de nombreuses autres bibliothèques sont basées sur l'infrastructure JAX.

K

Keras

API de machine learning Python populaire. Keras s'exécute sur plusieurs frameworks de deep learning, y compris TensorFlow, où il est disponible sous la forme tf.keras.

machines à vecteurs de support à noyau (KSVM)

Algorithme de classification qui vise à maximiser la marge entre les classes positives et les classes négatives en associant chaque vecteur de données d'entrée à un vecteur dans un espace de plus grande dimension. Supposons un problème de classification dans lequel l'ensemble de données d'entrée se compose de cent caractéristiques. Afin de maximiser la marge entre les classes positives et négatives, un KVSM pourrait associer, en interne, chaque vecteur de caractéristiques à un vecteur dans un espace à un million de dimensions. Les KSVM utilisent une fonction de perte appelée marge maximale.

points clés

#image

Coordonnées de caractéristiques particulières d'une image. Par exemple, pour un modèle de reconnaissance d'image qui distingue les espèces de fleurs, les points clés peuvent être le centre de chaque pétale, la tige, les étamines, etc.

Validation croisée à k blocs

Algorithme permettant de prédire la capacité d'un modèle à généraliser à de nouvelles données. Le k dans la méthode k-fold fait référence au nombre de groupes égaux dans lesquels vous divisez les exemples d'un ensemble de données. Autrement dit, vous entraînez et testez votre modèle k fois. Pour chaque série d'entraînement et de test, un groupe différent est l'ensemble de test, et tous les groupes restants deviennent l'ensemble d'entraînement. Après k cycles d'entraînement et de test, vous calculez la moyenne et l'écart-type de la ou des métriques de test choisies.

Par exemple, supposons que votre ensemble de données comporte 120 exemples. Supposons également que vous décidiez de définir k sur 4. Par conséquent, après avoir mélangé les exemples, vous divisez l'ensemble de données en quatre groupes égaux de 30 exemples et effectuez quatre cycles d'entraînement et de test:

Ensemble de données divisé en quatre groupes d&#39;exemples égaux. Lors du premier tour, les trois premiers groupes sont utilisés pour l&#39;entraînement et le dernier groupe est utilisé pour les tests. Lors de la deuxième manche, les deux premiers groupes et le dernier sont utilisés pour l&#39;entraînement, tandis que le troisième est utilisé pour les tests. Au cours de la troisième manche, le premier groupe et les deux derniers sont utilisés pour l&#39;entraînement, tandis que le deuxième groupe est utilisé pour les tests.
          Au cours de la quatrième manche, le premier groupe est utilisé pour les tests, tandis que les trois derniers groupes sont utilisés pour l&#39;entraînement.

Par exemple, l'erreur quadratique moyenne (MSE) peut être la métrique la plus pertinente pour un modèle de régression linéaire. Vous trouverez donc la moyenne et l'écart type de l'erreur quadratique moyenne sur les quatre tours.

k-moyennes

#clustering

Algorithme de clustering populaire qui regroupe des exemples dans l'apprentissage non supervisé. L'algorithme k-moyennes effectue les opérations suivantes:

  • Détermine de manière itérative les meilleurs k points centraux (appelés centroïdes).
  • Assignation de chaque exemple au centroïde le plus proche. Les exemples les plus proches du même centroïde font partie du même groupe.

L'algorithme k-moyennes choisit l'emplacement des centroïdes de manière à minimiser le carré cumulatif des distances entre chaque exemple et son centroïde le plus proche.

Supposons le graphe suivant représentant la taille de chiens en fonction de leur largeur:

Graphique cartésien avec plusieurs dizaines de points de données.

Si k=3, l'algorithme k-moyennes déterminera trois centroïdes. Chaque exemple est assigné à son centroïde le plus proche, ce qui donne trois groupes:

Même graphique cartésien que dans l&#39;illustration précédente, mais avec trois centroïdes ajoutés.
          Les points de données précédents sont regroupés en trois groupes distincts, chacun représentant les points de données les plus proches d&#39;un centroïde particulier.

Imaginez qu'un fabricant souhaite déterminer les tailles idéales pour les pulls de petite, moyenne et grande taille pour les chiens. Les trois centroïdes identifient la hauteur et la largeur moyennes de chaque chien de ce cluster. Le fabricant devrait donc probablement baser les tailles de pulls sur ces trois centroïdes. Notez que le centroïde d'un cluster n'est généralement pas un exemple du cluster.

Les illustrations précédentes montrent le k-means pour des exemples n'ayant que deux caractéristiques (hauteur et largeur). Notez que k-means peut regrouper des exemples sur de nombreuses caractéristiques.

k-médiane

#clustering

Algorithme de clustering étroitement lié à k-moyennes. La différence pratique entre les deux est la suivante:

  • Dans l'algorithme k-moyennes, les centroïdes sont déterminés en minimisant la somme des carrés de la distance entre un centroïde potentiel et chacun de ses exemples.
  • Dans l'algorithme k-médiane, les centroïdes sont déterminés en minimisant la somme de la distance entre un centroïde potentiel et chacun de ses exemples.

Notez que la définition du terme "distance" est également différente:

  • Dans l'algorithme k-moyenne, la notion de distance utilisée est la distance euclidienne entre un centroïde et un exemple. Dans un espace à deux dimensions, la distance euclidienne revient à utiliser le théorème de Pythagore pour calculer l'hypoténuse. Par exemple, la distance k-moyennes entre (2,2) et (5,-2) est:
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • Dans l'algorithme k-médiane, la notion de distance utilisée est la distance de Manhattan entre le centroïde et un exemple. Cette distance est la somme des deltas absolus dans chaque dimension. Par exemple, la distance k-médiane entre (2,2) et (5,-2) est:
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

L

Régularisation L0

#fundamentals

Type de régularisation qui pénalise le nombre total de pondérations non nulles dans un modèle. Par exemple, un modèle comportant 11 pondérations non nulles sera pénalisé plus qu'un modèle similaire comportant 10 pondérations non nulles.

La régularisation L0 est parfois appelée régularisation de la norme L0.

Perte L1

#fundamentals

Fonction de perte qui calcule la valeur absolue de la différence entre les valeurs réelles des étiquettes et les valeurs prédites par un modèle. Par exemple, voici le calcul de la perte L1 pour un lot de cinq exemples:

Valeur réelle de l'exemple Valeur prédite du modèle Valeur absolue de delta
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = perte L1

La perte L1 est moins sensible aux anomalies que la perte L2.

L'erreur absolue moyenne correspond à la perte L1 moyenne par exemple.

Régularisation L1

#fundamentals

Type de régularisation qui pénalise les pondérations proportionnellement à la somme de la valeur absolue des pondérations. La régularisation L1 aide à mettre à exactement 0 les pondérations des caractéristiques peu ou pas pertinentes. Une fonctionnalité avec un poids de 0 est effectivement supprimée du modèle.

À comparer à la régularisation L2.

Perte L2

#fundamentals

Fonction de perte qui calcule le carré de la différence entre les valeurs réelles des étiquettes et les valeurs prédites par un modèle. Par exemple, voici le calcul de la perte L2 pour un lot de cinq exemples:

Valeur réelle de l'exemple Valeur prédite du modèle Carré de delta
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = perte L2

En raison de la mise au carré, la perte L2 amplifie l'influence des valeurs aberrantes. En d'autres termes, la perte L2 réagit plus fortement aux mauvaises prédictions que la perte L1. Par exemple, la perte L1 pour le lot précédent serait de 8 au lieu de 16. Notez qu'un seul point aberrant représente neuf des 16.

Les modèles de régression utilisent généralement la perte L2 comme fonction de perte.

L'erreur quadratique moyenne correspond à la perte L2 moyenne par exemple. La perte quadratique est un autre nom de la perte L2.

Régularisation L2

#fundamentals

Type de régularisation qui pénalise les pondérations proportionnellement à la somme des carrés des pondérations. La régularisation L2 aide à rapprocher de zéro la pondération des anomalies (celles dont la valeur est très positive ou très négative), sans pour autant atteindre zéro. Les caractéristiques dont les valeurs sont très proches de 0 restent dans le modèle, mais n'ont pas beaucoup d'incidence sur ses prédictions.

La régularisation L2 améliore toujours la généralisation dans les modèles linéaires.

À comparer à la régularisation L1.

étiquette

#fundamentals

Dans l'apprentissage automatique supervisé, partie "réponse" ou "résultat" d'un exemple.

Chaque exemple étiqueté se compose d'une ou de plusieurs caractéristiques et d'un libellé. Par exemple, dans un ensemble de données de détection de spam, l'étiquette sera probablement "spam" ou "non spam". Dans un ensemble de données sur les précipitations, le libellé peut être la quantité de pluie tombée pendant une certaine période.

exemple étiqueté

#fundamentals

Exemple contenant une ou plusieurs caractéristiques et un libellé. Par exemple, le tableau suivant présente trois exemples avec étiquette issus d'un modèle d'évaluation de maison, chacun avec trois caractéristiques et un libellé:

Nombre de chambres Nombre de salles de bain Âge de la maison Prix de la maison (libellé)
3 2 15 345 000 $
2 1 72 179 000 $
4 2 34 392 000 $

Dans le machine learning supervisé, les modèles sont entraînés sur des exemples étiquetés et effectuent des prédictions sur des exemples non étiquetés.

Comparez un exemple étiqueté à des exemples non étiquetés.

Fuites d'étiquettes

Défaut de conception du modèle dans lequel une fonctionnalité sert de proxy pour l'étiquette. Prenons l'exemple d'un modèle de classification binaire qui prédit si un client potentiel achètera ou non un produit particulier. Supposons que l'une des caractéristiques du modèle soit une valeur booléenne nommée SpokeToCustomerAgent. Supposons également qu'un agent client ne soit attribué qu'après que le client potentiel ait effectivement acheté le produit. Lors de l'entraînement, le modèle apprendra rapidement l'association entre SpokeToCustomerAgent et l'étiquette.

lambda

#fundamentals

Synonyme de taux de régularisation.

Lambda est un terme surchargé. Ici, nous nous référons à sa définition dans le cadre de la régularisation.

LaMDA (Language Model for Dialogue Applications)

#language

Grand modèle de langage basé sur un transformateur développé par Google et entraîné sur un grand ensemble de données de dialogues, capable de générer des réponses conversationnelles réalistes.

LaMDA: notre technologie conversationnelle révolutionnaire vous en donne un aperçu.

landmarks

#image

Synonyme de points clés.

modèle de langage

#language

Modèle qui estime la probabilité qu'un jeton ou une séquence de jetons se produise dans une séquence de jetons plus longue.

grand modèle de langage

#language

Au minimum, un modèle de langage comportant un très grand nombre de paramètres. Plus informellement, tout modèle de langage basé sur un Transformer, tel que Gemini ou GPT.

espace latent

#language

Synonyme de espace d'embedding.

cachée)

#fundamentals

Ensemble de neurones dans un réseau de neurones. Voici trois types de calques courants:

Par exemple, l'illustration suivante montre un réseau de neurones avec une couche d'entrée, deux couches cachées et une couche de sortie:

Un réseau de neurones avec une couche d&#39;entrée, deux couches cachées et une couche de sortie. La couche d&#39;entrée se compose de deux éléments. La première couche cachée se compose de trois neurones et la deuxième de deux neurones. La couche de sortie se compose d&#39;un seul nœud.

Dans TensorFlow, les couches sont également des fonctions Python qui prennent des Tensors et des options de configuration en entrée pour générer d'autres Tensors en sortie.

API Layers (tf.layers)

#TensorFlow

API TensorFlow pour la construction d'un réseau de neurones profond à partir de plusieurs couches. L'API Layers vous permet de créer différents types de couches, par exemple:

L'API Layers respecte les conventions de l'API Keras concernant les couches. Autrement dit, à l'exception d'un préfixe différent, toutes les fonctions de l'API Layers ont les mêmes noms et signatures que leurs homologues de l'API Keras Layers.

feuille

#df

Tout point de terminaison dans un arbre de décision. Contrairement à une condition, une feuille n'effectue pas de test. Il s'agit plutôt d'une prédiction possible. Une feuille est également le nœud terminal d'un chemin d'inférence.

Par exemple, l'arbre de décision suivant contient trois feuilles:

Arbre de décision avec deux conditions menant à trois feuilles.

Learning Interpretability Tool (LIT)

Outil visuel et interactif de compréhension des modèles et de visualisation des données.

Vous pouvez utiliser LIT Open Source pour interpréter des modèles ou pour visualiser du texte, des images et des données tabulaires.

taux d'apprentissage

#fundamentals

Nombre à virgule flottante qui indique à l'algorithme de descente de gradient l'intensité avec laquelle ajuster les pondérations et les biais à chaque itération. Par exemple, un taux d'apprentissage de 0,3 ajusterait les poids et les biais trois fois plus efficacement qu'un taux d'apprentissage de 0,1.

Le taux d'apprentissage est un hyperparamètre clé. Si vous définissez le taux d'apprentissage trop bas, l'entraînement prendra trop de temps. Si vous définissez le taux d'apprentissage trop élevé, la descente de gradient a souvent du mal à atteindre la convergence.

régression des moindres carrés

Modèle de régression linéaire entraîné en minimisant la perte L2.

Distance Levenshtein

#language
#metric

Métrique de distance de modification qui calcule le nombre minimal d'opérations de suppression, d'insertion et de substitution nécessaires pour remplacer un mot par un autre. Par exemple, la distance de Levenshtein entre les mots "cœur" et "fléchettes" est de trois, car les trois modifications suivantes sont les moins nombreuses à transformer un mot en l'autre:

  1. cœur → deart (remplacez "h" par "d")
  2. deart → dart (supprimez "e")
  3. dart → darts (insérer "s")

Notez que la séquence précédente n'est pas le seul chemin de trois modifications.

linear

#fundamentals

Relation entre deux ou plusieurs variables pouvant être représentée uniquement par addition et multiplication.

Le tracé d'une relation linéaire est une ligne.

À comparer à la non-linéaire.

modèle linéaire

#fundamentals

Modèle qui attribue une pondération par caractéristique pour effectuer des prédictions. (Les modèles linéaires intègrent également un biais.) En revanche, la relation entre les caractéristiques et les prédictions dans les modèles profonds est généralement non linéaire.

Les modèles linéaires sont généralement plus faciles à entraîner et plus interprétables que les modèles profonds. Toutefois, les modèles profonds peuvent apprendre des relations complexes entre les caractéristiques.

La régression linéaire et la régression logistique sont deux types de modèles linéaires.

régression linéaire

#fundamentals

Type de modèle de machine learning dans lequel les deux conditions suivantes sont remplies:

  • Il s'agit d'un modèle linéaire.
  • La prédiction est une valeur à virgule flottante. (Il s'agit de la partie régression de la régression linéaire.)

Comparez la régression linéaire à la régression logistique. Comparez également la régression à la classification.

LIT

Abréviation de Learning Interpretability Tool (LIT), anciennement appelé "Language Interpretability Tool".

LLM

#language
#generativeAI

Abréviation de grand modèle de langage.

Évaluations des LLM (évaluations)

#language
#generativeAI

Ensemble de métriques et de benchmarks permettant d'évaluer les performances des grands modèles de langage (LLM). De manière générale, les évaluations des LLM:

  • Aidez les chercheurs à identifier les domaines dans lesquels les LLM doivent être améliorés.
  • Ils sont utiles pour comparer différents LLM et identifier le meilleur LLM pour une tâche donnée.
  • Assurez-vous que les LLM sont sûrs et éthiques.

régression logistique

#fundamentals

Type de modèle de régression qui prédit une probabilité. Les modèles de régression logistique présentent les caractéristiques suivantes:

  • Le libellé est catégorique. Le terme "régression logistique" désigne généralement la régression logistique binaire, c'est-à-dire un modèle qui calcule les probabilités pour les étiquettes ayant deux valeurs possibles. Une variante moins courante, la régression logistique multinomiale, calcule les probabilités pour les étiquettes comportant plus de deux valeurs possibles.
  • La fonction de perte pendant l'entraînement est la perte logistique. (Plusieurs éléments Log Loss peuvent être placés en parallèle pour les libellés comportant plus de deux valeurs possibles.)
  • Le modèle présente une architecture linéaire, et non un réseau de neurones profond. Toutefois, le reste de cette définition s'applique également aux modèles profonds qui prédisent les probabilités pour les libellés catégoriels.

Prenons l'exemple d'un modèle de régression logistique qui calcule la probabilité qu'un e-mail soit du spam ou non. Lors de l'inférence, supposons que le modèle prédit 0,72. Par conséquent, le modèle estime:

  • 72% de chances que l'e-mail soit du spam.
  • 28% de chances que l'e-mail ne soit pas du spam

Un modèle de régression logistique utilise l'architecture en deux étapes suivante:

  1. Le modèle génère une prédiction brute (y') en appliquant une fonction linéaire des caractéristiques d'entrée.
  2. Le modèle utilise cette prédiction brute comme entrée pour une fonction sigmoïde, qui convertit la prédiction brute en une valeur comprise entre 0 et 1, exclusive.

Comme tout modèle de régression, un modèle de régression logistique prédit un nombre. Toutefois, ce nombre fait généralement partie d'un modèle de classification binaire comme suit:

  • Si le nombre prédit est supérieur au seuil de classification, le modèle de classification binaire prédit la classe positive.
  • Si le nombre prédit est inférieur au seuil de classification, le modèle de classification binaire prédit la classe négative.

fonctions logit

Vecteur de prédictions brutes (non normalisées) générées par un modèle de classification, qui est ensuite généralement transmis à une fonction de normalisation. Si le modèle résout un problème de classification multiclasse, les logits deviennent généralement une entrée de la fonction softmax. La fonction softmax génère ensuite un vecteur de probabilités (normalisées) avec une valeur pour chaque classe possible.

Perte logistique

#fundamentals

Fonction de perte utilisée dans la régression logistique binaire.

logarithme de cote

#fundamentals

Logarithme des probabilités d'un événement.

Mémoire à long terme (LSTM)

#seq

Type de cellule dans un réseau de neurones récurrent utilisé pour traiter des séquences de données dans des applications telles que la reconnaissance d'écriture manuscrite, la traduction automatique et le sous-titrage d'images. Les LSTM résolvent le problème de gradient qui disparaît lors de l'entraînement des RNN en raison de longues séquences de données en conservant l'historique dans un état de mémoire interne basé sur la nouvelle entrée et le contexte des cellules précédentes du RNN.

LoRA

#language
#generativeAI

Abréviation de adaptabilité de faible rang.

perte

#fundamentals

Lors de l'entraînement d'un modèle supervisé, mesure de l'écart entre la prédiction d'un modèle et son étiquette.

Une fonction de perte calcule la perte.

agrégateur de pertes

Type d'algorithme de machine learning qui améliore les performances d'un modèle en combinant les prédictions de plusieurs modèles et en les utilisant pour effectuer une seule prédiction. Par conséquent, un agrégateur de pertes peut réduire la variance des prédictions et améliorer leur précision.

courbe de fonction de perte

#fundamentals

Graphique de la perte en fonction du nombre d'itérations d'entraînement. Le graphique suivant montre une courbe de perte typique:

Graphique cartésien de la perte par rapport aux itérations d&#39;entraînement, montrant une baisse rapide de la perte pour les itérations initiales, suivie d&#39;une baisse progressive, puis d&#39;une pente plate lors des itérations finales.

Les courbes de perte peuvent vous aider à déterminer si votre modèle est en convergence ou en surapprentissage.

Les courbes de perte peuvent représenter tous les types de pertes suivants:

Voir également la courbe de généralisation.

fonction de perte

#fundamentals

Lors de l'entraînement ou des tests, fonction mathématique qui calcule la perte sur un lot d'exemples. Une fonction de perte renvoie une perte plus faible pour les modèles qui effectuent de bonnes prédictions que pour ceux qui effectuent de mauvaises prédictions.

L'objectif de l'entraînement est généralement de minimiser la perte renvoyée par une fonction de perte.

Il existe de nombreux types de fonctions de perte. Choisissez la fonction de perte appropriée pour le type de modèle que vous créez. Exemple :

surface de perte

Un graphique de pondération(s) contre perte. La descente de gradient vise à trouver les pondérations pour lesquelles le graphe de fonction de perte atteint un minimum local.

Adaptabilité à faible rang (LoRA)

#language
#generativeAI

Technique efficace en termes de paramètres pour l'ajustement fin qui "gèle" les poids pré-entraînés du modèle (de sorte qu'ils ne puissent plus être modifiés), puis insère un petit ensemble de poids enregistrables dans le modèle. Cet ensemble de poids enregistrables (également appelés "matrices de mise à jour") est considérablement plus petit que le modèle de base et est donc beaucoup plus rapide à entraîner.

LoRA offre les avantages suivants:

  • Améliore la qualité des prédictions d'un modèle pour le domaine où le réglage fin est appliqué.
  • Il effectue un ajustement plus rapide que les techniques qui nécessitent d'ajuster tous les paramètres d'un modèle.
  • Réduit le coût de calcul de l'inférence en permettant la diffusion simultanée de plusieurs modèles spécialisés partageant le même modèle de base.

LSTM

#seq

Abréviation de mémoire à long court terme.

M

machine learning

#fundamentals

Programme ou système qui entraîne un modèle à partir de données d'entrée. Le modèle entraîné peut faire des prédictions utiles à partir de données inédites issues de la même distribution que celle utilisée pour entraîner le modèle.

Le machine learning (ou apprentissage automatique) désigne également la discipline qui traite de ces programmes ou systèmes.

traduction automatique

#generativeAI

Utilisation d'un logiciel (généralement un modèle de machine learning) pour convertir du texte d'une langue humaine à une autre, par exemple de l'anglais au japonais.

classe majoritaire

#fundamentals

Étiquette la plus courante dans un ensemble de données avec déséquilibre des classes. Par exemple, pour un ensemble de données contenant 99% d'étiquettes négatives et 1% d'étiquettes positives, les étiquettes négatives constituent la classe majoritaire.

À comparer à la classe minoritaire.

Processus décisionnel de Markov (MDP)

#rl

Graphique représentant le modèle de prise de décision dans lequel des décisions (ou des actions) sont prises pour naviguer dans une séquence d'états en supposant que la propriété de Markov est respectée. Dans le apprentissage par renforcement, ces transitions entre les états renvoient une récompense numérique.

Propriété de Markov

#rl

Propriété de certains environnements, où les transitions d'état sont entièrement déterminées par les informations implicites dans l'état actuel et l'action de l'agent.

modèle de langage masqué

#language

Modèle de langage qui prédit la probabilité que des jetons candidats remplissent des espaces vides dans une séquence. Par exemple, un modèle de langage masqué peut calculer les probabilités des mots candidats pour remplacer le texte souligné dans la phrase suivante:

Le ____ dans le chapeau est revenu.

La littérature utilise généralement la chaîne "MASK" au lieu d'un trait de soulignement. Exemple :

Le mot "MASK" sur le chapeau est revenu.

La plupart des modèles de langage masqués modernes sont bidirectionnels.

matplotlib

Bibliothèque de traçage 2D open-source écrite en Python. matplotlib vous aide à visualiser différents aspects du machine learning.

factorisation matricielle

#recsystems

En mathématiques, mécanisme pour trouver les matrices dont le produit scalaire se rapproche d'une matrice cible.

Dans les systèmes de recommandation, la matrice cible contient souvent les notes des utilisateurs sur les éléments. Par exemple, la matrice cible d'un système de recommandation de films peut ressembler au tableau ci-dessous, où les entiers positifs sont les notes des utilisateurs et où zéro signifie que l'utilisateur n'a pas évalué le film:

  Casablanca Indiscrétions Black Panther Wonder Woman Pulp Fiction
Utilisateur 1 5.0 3,0 0,0 2.0 0,0
Utilisateur 2 4.0 0,0 0,0 1.0 5.0
Utilisateur 3 3,0 1.0 4.0 5,0 0,0

Le système de recommandation de films vise à prédire les notes des utilisateurs pour les films non évalués. Par exemple, l'utilisateur 1 va-t-il aimer Black Panther ?

Une approche pour les systèmes de recommandation consiste à utiliser la factorisation matricielle afin de générer les deux matrices suivantes:

  • Une matrice utilisateurs, définie sous la forme nombre d'utilisateurs X nombre de dimensions de la représentation vectorielle.
  • Une matrice éléments, définie sous la forme nombre de dimensions de la représentation vectorielle X nombre d'éléments.

Par exemple, utiliser la factorisation matricielle sur nos trois utilisateurs et cinq éléments pourrait générer les matrices utilisateurs et les matrices éléments suivantes:

User Matrix                 Item Matrix

1.1   2.3           0.9   0.2   1.4    2.0   1.2
0.6   2.0           1.7   1.2   1.2   -0.1   2.1
2.5   0.5

Le produit scalaire de la matrice utilisateurs et de la matrice éléments génère une matrice de recommandations qui contient non seulement les notes originales des utilisateurs, mais également des prédictions pour les films que chaque utilisateur n'a pas vu. Prenons par exemple la note de l'utilisateur 1 pour Casablanca, qui était de 5, 0. Le produit scalaire correspondant à cette cellule dans la matrice de recommandations devrait normalement se situer autour de 5,0, et c'est bien le cas:

(1.1 * 0.9) + (2.3 * 1.7) = 4.9

Plus important encore, l'utilisateur 1 va-t-il aimer Black Panther ? En prenant le produit scalaire correspondant à la première ligne et à la troisième colonne, on obtient une note de 4,3:

(1.1 * 1.4) + (2.3 * 1.2) = 4.3

La factorisation matricielle produit généralement une matrice utilisateurs et une matrice éléments qui, ensemble, sont nettement plus compactes que la matrice cible.

Erreur absolue moyenne (EAM)

Perte moyenne par exemple lorsque la perte L1 est utilisée. Calculez l'erreur absolue moyenne comme suit:

  1. Calculez la perte L1 pour un lot.
  2. Divisez la perte L1 par le nombre d'exemples du lot.

Prenons l'exemple du calcul de la perte L1 sur le lot suivant de cinq exemples:

Valeur réelle de l'exemple Valeur prédite du modèle Perte (différence entre la valeur réelle et la valeur prévue)
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = perte L1

La perte L1 est donc de 8 et le nombre d'exemples est de 5. L'erreur absolue moyenne est donc la suivante:

Mean Absolute Error = L1 loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

Comparez l'erreur absolue moyenne à l'erreur quadratique moyenne et à la racine carrée de l'erreur quadratique moyenne.

Précision moyenne à k (mAP@k)

#language
#generativeAI

Moyenne statistique de tous les scores de précision moyenne à k dans un ensemble de données de validation. L'une des utilisations de la précision moyenne à k est d'évaluer la qualité des recommandations générées par un système de recommandation.

Bien que l'expression "moyenne moyenne" semble redondante, le nom de la métrique est approprié. Après tout, cette métrique calcule la moyenne de plusieurs valeurs de précision moyenne à k.

erreur quadratique moyenne (MSE)

Perte moyenne par exemple lorsque la perte L2 est utilisée. Calculez l'erreur quadratique moyenne comme suit:

  1. Calculez la perte L2 pour un lot.
  2. Divisez la perte L2 par le nombre d'exemples du lot.

Prenons l'exemple de la perte du lot de cinq exemples suivant:

Valeur réelle Prédiction du modèle Perte Perte quadratique
7 6 1 1
5 4 1 1
8 11 3 9
4 6 2 4
9 8 1 1
16 = perte L2

L'erreur quadratique moyenne est donc la suivante:

Mean Squared Error = L2 loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

L'erreur quadratique moyenne est un optimiseur d'entraînement populaire, en particulier pour la régression linéaire.

Comparez l'erreur quadratique moyenne à l'erreur absolue moyenne et à la racine carrée de l'erreur quadratique moyenne.

TensorFlow Playground utilise l'erreur quadratique moyenne pour calculer les valeurs de perte.

Grille

#TensorFlow
#GoogleCloud

En programmation parallèle ML, terme associé à l'attribution des données et du modèle aux puces TPU, et à la définition de la manière dont ces valeurs seront fractionnées ou répliquées.

Le terme "masque" est un terme complexe qui peut désigner l'un des concepts suivants:

  • Disposition physique des puces TPU.
  • Construction logique abstraite permettant de mapper les données et le modèle sur les puces TPU.

Dans les deux cas, un maillage est spécifié en tant que forme.

méta-apprentissage

#language

Sous-ensemble du machine learning qui découvre ou améliore un algorithme d'apprentissage. Un système de méta-apprentissage peut également viser à entraîner un modèle pour qu'il apprenne rapidement une nouvelle tâche à partir d'une petite quantité de données ou de l'expérience acquise lors de tâches précédentes. Les algorithmes de méta-apprentissage tentent généralement d'atteindre les objectifs suivants:

  • Améliorer ou apprendre des fonctionnalités conçues manuellement (telles qu'un initialiseur ou un optimiseur)
  • Améliorez l'efficacité des données et du calcul.
  • Améliorer la généralisation

Le méta-apprentissage est lié à l'apprentissage few-shot.

métrique

#TensorFlow

Statistique qui vous intéresse.

Un objectif est une métrique qu'un système de machine learning tente d'optimiser.

API Metrics (tf.metrics)

API TensorFlow permettant d'évaluer des modèles. Par exemple, tf.metrics.accuracy détermine la fréquence à laquelle les prédictions d'un modèle correspondent aux étiquettes.

mini-lot

#fundamentals

Petit sous-ensemble, sélectionné aléatoirement, d'un lot traité en une seule itération. La taille de lot d'un mini-lot est généralement comprise entre 10 et 1 000 exemples.

Par exemple, supposons que l'ensemble d'entraînement complet (le lot complet) se compose de 1 000 exemples. Supposons également que vous définissiez la taille de lot de chaque mini-lot sur 20. Par conséquent, chaque itération détermine la perte sur 20 exemples aléatoires parmi les 1 000 exemples,puis ajuste les poids et les biais en conséquence.

Il est beaucoup plus efficace de calculer la perte pour un mini-lot que pour l'ensemble entier des exemples du lot complet.

descente de gradient stochastique par mini-lots

Algorithme de descente de gradient qui utilise des mini-lots. En d'autres termes, la descente de gradient stochastique par mini-lot estime le gradient à partir d'un petit sous-ensemble des données d'entraînement. La descente de gradient stochastique standard utilise un mini-lot de taille 1.

perte minimax

Fonction de perte pour les réseaux génératifs antagonistes, basée sur la entropie croisée entre la distribution des données générées et les données réelles.

La perte minimax est utilisée dans le premier article pour décrire les réseaux génératifs antagonistes.

classe minoritaire

#fundamentals

Étiquette la moins commune dans un ensemble de données avec déséquilibre des classes. Par exemple, pour un ensemble de données contenant 99% d'étiquettes négatives et 1% d'étiquettes positives, les étiquettes positives constituent la classe minoritaire.

À comparer à la classe majoritaire.

mélange d'experts

#language
#generativeAI

Méthode permettant d'augmenter l'efficacité d'un réseau de neurones en n'utilisant qu'un sous-ensemble de ses paramètres (appelé expert) pour traiter un jeton ou un exemple d'entrée donné. Un réseau de filtrage achemine chaque jeton d'entrée ou exemple vers le ou les experts appropriés.

Pour en savoir plus, consultez l'un des articles suivants:

ML

Abréviation de machine learning (apprentissage automatique).

MMIT

#language
#image
#generativeAI

Abréviation de multimodal instruction-tuned (multimodal tuned instruction).

MNIST

#image

Ensemble de données du domaine public compilé par LeCun, Cortes et Burges qui contient 60 000 images montrant chacune un chiffre manuscrit compris entre 0 et 9. Chaque image est stockée sous forme de tableau d'entiers 28x28, chaque entier représentant une valeur d'échelle de gris comprise entre 0 et 255 inclus.

MNIST est un ensemble de données canonique pour le machine learning, souvent utilisé pour tester de nouvelles approches de machine learning. Pour en savoir plus, consultez la Base de données MNIST de chiffres écrits à la main.

modality

#language

Catégorie de données de haut niveau. Par exemple, les nombres, le texte, les images, les vidéos et l'audio sont cinq modalités différentes.

modèle

#fundamentals

En général, toute construction mathématique qui traite les données d'entrée et renvoie une sortie. Autrement dit, un modèle est l'ensemble de paramètres et de structures nécessaires pour qu'un système puisse effectuer des prédictions. Dans le machine learning supervisé, un modèle prend un exemple en entrée et déduit une prédiction en sortie. Dans le machine learning supervisé, les modèles diffèrent quelque peu. Exemple :

  • Un modèle de régression linéaire se compose d'un ensemble de pondérations et d'un biais.
  • Un modèle de réseau de neurones se compose des éléments suivants :
    • Ensemble de couches cachées, chacune contenant un ou plusieurs neurones.
    • Les pondérations et les biais associés à chaque neurone.
  • Un modèle d'arbre de décision se compose des éléments suivants :
    • Forme de l'arborescence, c'est-à-dire le schéma dans lequel les conditions et les feuilles sont connectées.
    • Les conditions et les feuilles.

Vous pouvez enregistrer, restaurer ou créer des copies d'un modèle.

Le machine learning non supervisé génère également des modèles, généralement une fonction pouvant mapper un exemple d'entrée sur le cluster le plus approprié.

capacité du modèle

Complexité des problèmes à travers lesquels un modèle est capable d'apprendre. Plus un modèle est capable d'apprendre à travers des problèmes complexes, plus sa capacité est grande. La capacité d'un modèle augmente généralement avec le nombre de ses paramètres. Pour une définition formelle de la capacité d'un classificateur, consultez la section Dimension VC.

cascade de modèles

#generativeAI

Système qui sélectionne le modèle idéal pour une requête d'inférence spécifique.

Imaginez un groupe de modèles, allant de très grands (avec de nombreux paramètres) à beaucoup plus petits (avec beaucoup moins de paramètres). Les modèles très volumineux consomment plus de ressources de calcul au moment de l'inférence que les modèles plus petits. Toutefois, les modèles très volumineux peuvent généralement inférer des requêtes plus complexes que les modèles plus petits. La cascade de modèles détermine la complexité de la requête d'inférence, puis sélectionne le modèle approprié pour effectuer l'inférence. La motivation principale de la cascade de modèles est de réduire les coûts d'inférence en sélectionnant généralement des modèles plus petits et en ne sélectionnant un modèle plus volumineux que pour les requêtes plus complexes.

Imaginons qu'un petit modèle s'exécute sur un téléphone et qu'une version plus grande de ce modèle s'exécute sur un serveur distant. Une bonne cascade de modèles réduit les coûts et la latence en permettant au modèle plus petit de gérer les requêtes simples et d'appeler uniquement le modèle distant pour gérer les requêtes complexes.

Voir aussi routeur modèle.

parallélisme de modèle

#language

Méthode permettant de faire évoluer l'entraînement ou l'inférence en répartissant les différentes parties d'un modèle sur différents appareils. Le parallélisme des modèles permet d'utiliser des modèles trop volumineux pour être traités par un seul appareil.

Pour implémenter le parallélisme de modèle, un système procède généralement comme suit:

  1. Il divise le modèle en parties plus petites.
  2. Répartit l'entraînement de ces petites parties sur plusieurs processeurs. Chaque processeur entraîne sa propre partie du modèle.
  3. Combine les résultats pour créer un seul modèle.

Le parallélisme des modèles ralentit l'entraînement.

Voir également le parallélisme de données.

routeur modèle

#generativeAI

Algorithme qui détermine le modèle idéal pour l'inférence dans la cascadage de modèles. Un routeur de modèle est généralement lui-même un modèle de machine learning qui apprend progressivement à choisir le meilleur modèle pour une entrée donnée. Cependant, un routeur de modèle peut parfois être un algorithme plus simple, sans machine learning.

entraînement de modèle

Processus visant à déterminer le meilleur modèle.

ME

#language
#image
#generativeAI

Abréviation de mélange d'experts.

Momentum

Algorithme de descente de gradient sophistiqué dans lequel une étape d'apprentissage dépend non seulement de la dérivée de l'étape en cours, mais également des dérivées de l'étape ou des étapes qui l'ont immédiatement précédée. Le momentum implique le calcul d'une moyenne mobile pondérée exponentiellement des gradients au fil du temps, ce qui est analogue au momentum en physique. La dynamique empêche parfois l'apprentissage de se bloquer dans des minima locaux.

MT

#generativeAI

Abréviation de traduction automatique.

classification à classes multiples

#fundamentals

Dans l'apprentissage supervisé, problème de classification dans lequel l'ensemble de données contient plus de deux classes d'étiquettes. Par exemple, les libellés de l'ensemble de données Iris doivent appartenir à l'une des trois classes suivantes:

  • Iris setosa
  • Iris virginica
  • Iris versicolor

Un modèle entraîné sur l'ensemble de données Iris qui prédit le type d'iris sur de nouveaux exemples effectue une classification à classes multiples.

À l'inverse, les problèmes de classification qui distinguent exactement deux classes sont des modèles de classification binaires. Par exemple, un modèle d'e-mail qui prédit spam ou non spam est un modèle de classification binaire.

Dans les problèmes de clustering, la classification multiclasse fait référence à plus de deux clusters.

régression logistique multiclasses

Utilisation de la régression logistique dans les problèmes de classification multiclasse.

auto-attention multi-tête

#language

Extension de l'auto-attention qui applique le mécanisme d'auto-attention plusieurs fois pour chaque position de la séquence d'entrée.

Les modèles Transformer ont introduit l'auto-attention multitête.

multimodal instruction-tuned

#language

Modèle adapté aux instructions capable de traiter des entrées autres que du texte, telles que des images, des vidéos et des contenus audio.

modèle multimodal

#language

Modèle dont les entrées et/ou les sorties incluent plusieurs modalités. Prenons l'exemple d'un modèle qui utilise à la fois une image et un sous-titre textuel (deux modalités) comme caractéristiques, et qui génère un score indiquant dans quelle mesure le sous-titre textuel est approprié pour l'image. Les entrées de ce modèle sont donc multimodales et la sortie est unimodale.

classification multinomiale

Synonyme de classification à classes multiples.

régression multinomiale

Synonyme de régression logistique multiclasses.

multitâche

Technique de machine learning dans laquelle un seul modèle est entraîné pour effectuer plusieurs tâches.

Les modèles multitâches sont créés en les entraînant sur des données adaptées à chacune des différentes tâches. Cela permet au modèle d'apprendre à partager des informations entre les tâches, ce qui l'aide à apprendre plus efficacement.

Un modèle entraîné pour plusieurs tâches présente souvent des capacités de généralisation améliorées et peut être plus robuste dans la gestion de différents types de données.

N

Piège NaN

Lorsqu'un nombre du modèle devient un NaN pendant l'entraînement et que, à la suite de ce changement, de nombreux autres nombres du modèle, voire tous, finissent par devenir également des NaN.

NaN est l'abréviation de Not a Number (Ce n'est pas un nombre).

traitement du langage naturel

#language
Domaine qui consiste à apprendre aux ordinateurs à traiter ce qu'un utilisateur a dit ou saisi à l'aide de règles linguistiques. Presque tout le traitement du langage naturel moderne repose sur le machine learning.

compréhension du langage naturel

#language

Sous-ensemble du traitement du langage naturel qui détermine les intentions d'une déclaration ou d'une saisie. La compréhension du langage naturel peut aller au-delà du traitement du langage naturel pour prendre en compte des aspects complexes du langage, comme le contexte, le sarcasme et le sentiment.

classe négative

#fundamentals

Dans la classification binaire, une classe est dite positive et l'autre négative. La classe positive est l'élément ou l'événement que le modèle teste, et la classe négative est l'autre possibilité. Exemple :

  • La classe négative d'un test médical pourrait être "pas une tumeur".
  • La classe négative d'un classificateur d'e-mails peut être "non-spam".

À comparer à la classe positive.

échantillonnage négatif

Synonyme de échantillonnage de candidats.

Recherche d'architecture neuronale (NAS)

Technique permettant de concevoir automatiquement l'architecture d'un réseau de neurones. Les algorithmes NAS peuvent réduire le temps et les ressources nécessaires pour entraîner un réseau de neurones.

Les NAS utilisent généralement:

  • Un espace de recherche, qui est un ensemble d'architectures possibles.
  • Une fonction d'aptitude, qui mesure la performance d'une architecture particulière pour une tâche donnée.

Les algorithmes NAS commencent souvent par un petit ensemble d'architectures possibles et élargissent progressivement l'espace de recherche à mesure que l'algorithme en apprend davantage sur les architectures efficaces. La fonction d'aptitude est généralement basée sur les performances de l'architecture sur un ensemble d'entraînement, et l'algorithme est généralement entraîné à l'aide d'une technique de machine learning par renforcement.

Les algorithmes NAS se sont avérés efficaces pour trouver des architectures performantes pour diverses tâches, y compris la classification des images, la classification du texte et la traduction automatique.

neurones feedforward

#fundamentals

Un modèle contenant au moins une couche cachée. Un réseau de neurones profond est un type de réseau de neurones contenant plusieurs couches cachées. Par exemple, le diagramme suivant montre un réseau de neurones profond contenant deux couches cachées.

Un réseau de neurones avec une couche d&#39;entrée, deux couches cachées et une couche de sortie.

Chaque neurone d'un réseau de neurones se connecte à tous les nœuds de la couche suivante. Par exemple, dans le diagramme précédent, notez que chacun des trois neurones de la première couche cachée se connecte séparément aux deux neurones de la deuxième couche cachée.

Les réseaux de neurones implémentés sur des ordinateurs sont parfois appelés réseaux de neurones artificiels pour les différencier des réseaux de neurones présents dans les cerveaux et autres systèmes nerveux.

Certains réseaux de neurones peuvent imiter des relations non linéaires extrêmement complexes entre différentes caractéristiques et le libellé.

Consultez également les articles Réseau de neurones convolutif et Réseau de neurones récurrent.

neurone

#fundamentals

En machine learning, unité distincte d'une couche cachée d'un réseau de neurones. Chaque neurone effectue l'action en deux étapes suivante:

  1. Calcule la somme pondérée des valeurs d'entrée multipliées par leurs pondérations correspondantes.
  2. Transmet la somme pondérée en entrée à une fonction d'activation.

Un neurone de la première couche cachée accepte les entrées des valeurs des caractéristiques dans la couche d'entrée. Un neurone de toute couche cachée au-delà de la première accepte les entrées des neurones de la couche cachée précédente. Par exemple, un neurone de la deuxième couche cachée accepte les entrées des neurones de la première couche cachée.

L'illustration suivante met en évidence deux neurones et leurs entrées.

Un réseau de neurones avec une couche d&#39;entrée, deux couches cachées et une couche de sortie. Deux neurones sont mis en évidence: l&#39;un dans la première couche cachée et l&#39;autre dans la deuxième couche cachée. Le neurone mis en surbrillance de la première couche cachée reçoit les entrées des deux caractéristiques de la couche d&#39;entrée. Le neurone mis en surbrillance de la deuxième couche cachée reçoit les entrées de chacun des trois neurones de la première couche cachée.

Un neurone dans un réseau de neurones imite le comportement des neurones dans le cerveau et d'autres parties des systèmes nerveux.

N-gramme

#seq
#language

Séquence ordonnée de N mots. Par exemple, vraiment follement est un 2-grammes. L'ordre a une importance : follement vraiment est un 2-grammes différent de vraiment follement.

N Nom(s) pour ce genre de N-gramme Exemples
2 bigramme ou 2-gramme to go, go to, eat lunch, eat dinner
3 trigramme ou 3-gramme ate too much, three blind mice, the bell tolls
4 4-gramme walk in the park, dust in the wind, the boy ate lentils

De nombreux modèles de compréhension du langage naturel reposent sur les N-grammes pour prédire le prochain mot que l'utilisateur saisira ou énoncera. Supposons qu'un utilisateur saisisse les mots three blind. Un modèle NLU basé sur des trigrammes prédira probablement que le prochain mot saisi sera mice.

Faire la distinction entre les N-grammes et les sacs de mots, qui sont des listes de mots non ordonnées.

NLP

#language

Abréviation de traitement du langage naturel.

NLU (Natural Language Understanding, compréhension du langage naturel) - 1st occurrence only, then use "NLU".

#language

Abréviation de compréhension du langage naturel.

nœud (arbre de décision)

#df

Dans un arbre de décision, toute condition ou feuille.

Arbre de décision avec deux conditions et trois feuilles.

nœud (réseau de neurones) (node (neural network))

#fundamentals

Neurone dans une couche cachée.

nœud (graphe TensorFlow) (node (TensorFlow graph))

#TensorFlow

Opération dans un graphe TensorFlow.

bruit

Pour faire simple, tout ce qui masque le signal dans un ensemble de données. Du bruit peut être introduit dans les données de différentes manières. Exemple :

  • Des évaluateurs humains font des erreurs concernant l'ajout d'étiquettes.
  • Des instruments sont mal enregistrés ou des humains omettent des valeurs de caractéristiques.

condition non binaire

#df

Condition contenant plus de deux résultats possibles. Par exemple, la condition non binaire suivante contient trois résultats possibles:

Condition (number_of_legs = ?) qui conduit à trois résultats possibles. Un résultat (number_of_legs = 8) conduit à une araignée nommée feuille. Un deuxième résultat (number_of_legs = 4) mène à une feuille nommée &quot;dog&quot;. Un troisième résultat (number_of_legs = 2) conduit à une feuille nommée &quot;pingouin&quot;.

non linéaire

#fundamentals

Relation entre deux ou plusieurs variables qui ne peut pas être représentée uniquement par addition et multiplication. Une relation linéaire peut être représentée par une ligne, tandis qu'une relation non linéaire ne peut pas l'être. Prenons l'exemple de deux modèles qui associent chacun une seule caractéristique à un seul libellé. Le modèle de gauche est linéaire et celui de droite est non linéaire:

Deux graphiques L&#39;un des tracés est une ligne. Il s&#39;agit donc d&#39;une relation linéaire.
          L&#39;autre graphique est une courbe. Il s&#39;agit donc d&#39;une relation non linéaire.

biais de non-réponse

#fairness

Voir biais de sélection.

non-stationnarité

#fundamentals

Élément dont les valeurs varient selon une ou plusieurs dimensions, généralement le temps. Prenons l'exemple suivant de non-stationnarité:

  • Le nombre de maillots de bain vendus dans un magasin donné varie en fonction de la saison.
  • La quantité d'un fruit particulier récolté dans une région donnée est nulle pendant une grande partie de l'année, mais importante pendant une courte période.
  • En raison du changement climatique, les températures moyennes annuelles évoluent.

À comparer à la stationnarité.

pas de réponse unique (NORA)

#language
#generativeAI

Invite avec plusieurs réponses appropriées. Par exemple, la requête suivante n'a pas de réponse unique:

Raconte-moi une blague sur les éléphants.

L'évaluation des invites sans bonne réponse peut s'avérer difficile.

NORA

#language
#generativeAI

Abréviation de pas de bonne réponse unique.

normalisation

#fundamentals

De manière générale, il s'agit du processus de conversion de la plage de valeurs réelle d'une variable en une plage de valeurs standard, par exemple:

  • -1 à +1
  • Entre 0 et 1
  • Scores Z (environ -3 à +3)

Par exemple, supposons que la plage de valeurs réelle d'une caractéristique donnée soit comprise entre 800 et 2 400. Dans le cadre de l'ingénierie des caractéristiques, vous pouvez normaliser les valeurs réelles dans une plage standard, par exemple de -1 à +1.

La normalisation est une tâche courante dans la création de caractéristiques. Les modèles sont généralement entraînés plus rapidement (et produisent de meilleures prédictions) lorsque chaque caractéristique numérique du vecteur de caractéristiques a à peu près la même plage.

Pour en savoir plus, consultez le module sur l'utilisation des données numériques du cours d'initiation au machine learning. Consultez également Normalisation par score Z.

détection de nouveauté

Processus consistant à déterminer si un nouvel exemple provient de la même distribution que l'ensemble d'entraînement. En d'autres termes, après l'entraînement sur l'ensemble d'entraînement, la détection de nouveauté détermine si un exemple nouveau (lors de l'inférence ou de l'entraînement supplémentaire) est une anomalie.

À comparer à la détection d'anomalies.

données numériques

#fundamentals

Caractéristiques représentées par des nombres entiers ou réels. Par exemple, un modèle d'évaluation de la valeur d'une maison représenterait probablement la taille d'une maison (en pieds carrés ou en mètres carrés) sous forme de données numériques. Représenter une caractéristique sous forme de données numériques indique que les valeurs de la caractéristique ont une relation mathématique avec le libellé. Autrement dit, le nombre de mètres carrés d'une maison a probablement une relation mathématique avec la valeur de la maison.

Toutes les données entières ne doivent pas être représentées sous forme de données numériques. Par exemple, dans certaines régions du monde, les codes postaux sont des entiers. Toutefois, ils ne doivent pas être représentés en tant que données numériques dans les modèles. En effet, un code postal 20000 n'est pas deux fois (ou moitié) plus efficace qu'un code postal 10000. De plus, même si les codes postaux différents correspondent à des valeurs immobilières différentes, nous ne pouvons pas supposer que les valeurs immobilières au code postal 20 000 sont deux fois plus élevées que celles au code postal 10 000. Les codes postaux doivent être représentés par des données catégorielles.

Les caractéristiques numériques sont parfois appelées caractéristiques continues.

NumPy

Bibliothèque mathématique Open Source qui fournit différentes opérations de tableau efficaces pour Python. pandas est basé sur NumPy.

O

objectif

Métrique que votre algorithme tente d'optimiser.

fonction objectif

Formule mathématique ou métrique qu'un modèle vise à optimiser. Par exemple, la fonction objectif de la régression linéaire est généralement l'erreur quadratique moyenne. Par conséquent, lors de l'entraînement d'un modèle de régression linéaire, l'entraînement vise à minimiser la perte quadratique moyenne.

Dans certains cas, l'objectif est de maximiser la fonction objectif. Par exemple, si la fonction objectif est la précision, l'objectif est de maximiser la précision.

Voir également perte.

condition oblique

#df

Dans un arbre de décision, condition impliquant plusieurs caractéristiques. Par exemple, si la hauteur et la largeur sont toutes deux des caractéristiques, la condition suivante est oblique:

  height > width

À comparer à la condition alignée sur l'axe.

Hors connexion

#fundamentals

Synonyme de statique.

inférence hors connexion

#fundamentals

Processus par lequel un modèle génère un lot de prédictions, puis met en cache (enregistre) ces prédictions. Les applications peuvent ensuite accéder à la prédiction inférée à partir du cache plutôt que de réexécuter le modèle.

Prenons l'exemple d'un modèle qui génère des prévisions météo locales (prédictions) toutes les quatre heures. Après chaque exécution du modèle, le système met en cache toutes les prévisions météorologiques locales. Les applications météo récupèrent les prévisions à partir du cache.

L'inférence hors connexion est également appelée inférence statique.

À comparer à l'inférence en ligne.

Encodage one-hot

#fundamentals

Représentation des données catégorielles sous forme de vecteur dans lequel:

  • Un élément est défini sur 1.
  • Tous les autres éléments sont définis sur 0.

L'encodage one-hot est couramment utilisé pour représenter des chaînes ou des identifiants qui ont un ensemble fini de valeurs possibles. Par exemple, supposons qu'une caractéristique catégorique nommée Scandinavia ait cinq valeurs possibles:

  • "Danemark"
  • "Suède"
  • "Norvège"
  • "Finlande"
  • "Islande"

L'encodage en valeurs uniques peut représenter chacune des cinq valeurs comme suit:

country Vecteur
"Danemark" 1 0 0 0 0
"Suède" 0 1 0 0 0
"Norvège" 0 0 1 0 0
"Finlande" 0 0 0 1 0
"Islande" 0 0 0 0 1

Grâce à l'encodage one-hot, un modèle peut apprendre différentes connexions en fonction de chacun des cinq pays.

Représenter une caractéristique sous la forme de données numériques est une alternative à l'encodage one-hot. Malheureusement, représenter les pays scandinaves de manière numérique n'est pas un bon choix. Prenons l'exemple de la représentation numérique suivante:

  • "Danemark" est 0
  • "Suède" est 1
  • "Norvège" est 2
  • "Finlande" est 3
  • "Islande" est 4

Avec l'encodage numérique, un modèle interpréterait les nombres bruts de manière mathématique et essaierait de s'entraîner sur ces nombres. Toutefois, l'Islande n'est pas deux fois plus (ou moitié moins) qu'un autre pays comme la Norvège. Le modèle aboutirait donc à des conclusions étranges.

apprentissage one-shot

Approche du machine learning, souvent utilisée pour la classification d'objets, conçue pour apprendre des classificateurs efficaces à partir d'un seul exemple d'entraînement.

Voir aussi apprentissage few-shot et apprentissage zero-shot.

requêtes one-shot

#language
#generativeAI

Une invite contenant un exemple montrant comment le grand modèle de langage doit répondre. Par exemple, l'invite suivante contient un exemple montrant à un grand modèle de langage comment répondre à une requête.

Composants d'une requête Remarques
Quelle est la devise officielle du pays spécifié ? La question à laquelle vous souhaitez que le LLM réponde.
France: EUR Voici un exemple.
Inde: Requête réelle.

Comparez la invite ponctuelle aux termes suivants:

un contre tous

#fundamentals

Face à un problème de classification avec N classes, une solution consiste en N classificateurs binaires distincts : un classificateur binaire pour chaque résultat possible. Soit, par exemple, un modèle qui classe les exemples en animal, végétal ou minéral. Une solution un contre tous fournirait les trois classificateurs binaires distincts suivants:

  • animal ou non
  • légume par rapport à non-légume
  • minéral ou non

En ligne

#fundamentals

Synonyme de dynamique.

inférence en ligne

#fundamentals

Génération de prédictions à la demande. Par exemple, supposons qu'une application transmette une entrée à un modèle et émette une requête de prédiction. Un système utilisant l'inférence en ligne répond à la requête en exécutant le modèle (et en renvoyant la prédiction à l'application).

À comparer à l'inférence hors connexion.

opération (op)

#TensorFlow

Dans TensorFlow, toute procédure qui crée, manipule ou détruit un Tensor. Par exemple, une multiplication matricielle est une opération qui prend deux tenseurs en entrée et génère un tenseur en sortie.

Optax

Bibliothèque de traitement et d'optimisation de gradient pour JAX. Optax facilite la recherche en fournissant des éléments de base qui peuvent être recombinés de manière personnalisée pour optimiser les modèles paramétriques tels que les réseaux de neurones profonds. Voici d'autres objectifs:

  • Fournir des implémentations lisibles, bien testées et efficaces des principaux composants.
  • Amélioration de la productivité en permettant de combiner des ingrédients de bas niveau dans des optimiseurs personnalisés (ou d'autres composants de traitement du gradient).
  • Accélérer l'adoption de nouvelles idées en permettant à tous de contribuer facilement.

optimizer

Implémentation particulière de l'algorithme de descente de gradient. Voici quelques optimiseurs couramment utilisés:

  • AdaGrad, qui signifie "descente de gradient adaptative".
  • Adam, qui signifie ADAptive with Momentum.

biais d'homogénéité de l'exogroupe

#fairness

Tendance à percevoir les membres d'un exogroupe comme plus semblables que les membres de son groupe d'appartenance lorsque l'on compare les attitudes, les valeurs, les traits de personnalité et d'autres caractéristiques. Le groupe d'appartenance désigne les personnes avec lesquelles vous interagissez régulièrement, tandis que l'exogroupe désigne les personnes avec lesquelles vous n'interagissez pas régulièrement. Si vous créez un ensemble de données en demandant à des personnes de fournir des attributs relatifs à des exogroupes, ces attributs seront probablement moins nuancés et plus stéréotypés que les attributs mis en avant quant au groupe d'appartenance des participants.

Par exemple, des Lilliputiens pourraient décrire de manière très détaillée les maisons d'autres Lilliputiens, en mentionnant de légères différences dans les styles architecturaux, les fenêtres, les portes et les dimensions. Cependant, les mêmes Lilliputiens pourraient simplement affirmer que les Brobdingnagiens habitent tous dans des maisons identiques.

Le biais d'homogénéité de l'exogroupe est une forme de biais de représentativité.

Voir aussi biais d'appartenance.

détection des anomalies

Processus consistant à identifier les valeurs aberrantes dans un ensemble d'entraînement.

À comparer à la détection de nouveauté.

des anomalies

Valeurs éloignées de la plupart des autres valeurs. Dans le machine learning, toutes les valeurs suivantes sont des anomalies:

  • Données d'entrée dont les valeurs sont éloignées de plus de trois écarts types environ de la moyenne
  • Pondérations dont la valeur absolue est élevée
  • Valeurs prédites relativement éloignées des valeurs réelles

Par exemple, supposons que widget-price soit une caractéristique d'un certain modèle. Supposons que la moyenne widget-price soit de 7 euros avec un écart type de 1 euro. Les exemples contenant un widget-price de 12 euros ou de 2 euros seraient donc considérés comme des valeurs aberrantes, car chacun de ces prix est à cinq écarts-types de la moyenne.

Les valeurs aberrantes sont souvent causées par des fautes de frappe ou d'autres erreurs de saisie. Dans d'autres cas, les valeurs aberrantes ne sont pas des erreurs. Après tout, les valeurs éloignées de cinq écarts types de la moyenne sont rares, mais pas impossibles.

Les anomalies entraînent souvent des dysfonctionnements lors de l'entraînement du modèle. Le clipping est un moyen de gérer les valeurs aberrantes.

évaluation hors échantillon (évaluation hors échantillon)

#df

Mécanisme permettant d'évaluer la qualité d'une forêt d'arbres de décision en testant chaque arbre de décision avec les exemples non utilisés lors de l'entraînement de cet arbre de décision. Par exemple, dans le diagramme suivant, notez que le système entraîne chaque arbre de décision sur environ deux tiers des exemples, puis les évalue par rapport au tiers restant.

Forêt de décision composée de trois arbres de décision.
          Un arbre de décision s&#39;entraîne sur les deux tiers des exemples, puis utilise le tiers restant pour l&#39;évaluation hors échantillon.
          Un deuxième arbre de décision s&#39;entraîne sur deux tiers différents des exemples par rapport à l&#39;arbre de décision précédent, puis utilise un tiers différent pour l&#39;évaluation hors échantillon que l&#39;arbre de décision précédent.

L'évaluation hors échantillon est une approximation efficace et conservatrice du mécanisme de validation croisée. Dans la validation croisée, un modèle est entraîné pour chaque cycle de validation croisée (par exemple, 10 modèles sont entraînés dans une validation croisée à 10 fois). Avec l'évaluation hors bande, un seul modèle est entraîné. Étant donné que le bagging retient certaines données de chaque arbre pendant l'entraînement, l'évaluation hors échantillon peut utiliser ces données pour approximer la validation croisée.

couche de sortie

#fundamentals

Couche "finale" d'un réseau de neurones. La couche de sortie contient la prédiction.

L'illustration suivante montre un petit réseau de neurones profond avec une couche d'entrée, deux couches cachées et une couche de sortie:

Un réseau de neurones avec une couche d&#39;entrée, deux couches cachées et une couche de sortie. La couche d&#39;entrée se compose de deux éléments. La première couche cachée se compose de trois neurones et la deuxième de deux neurones. La couche de sortie se compose d&#39;un seul nœud.

surapprentissage

#fundamentals

Création d'un modèle correspondant si étroitement aux données d'entraînement qu'il ne parvient pas à effectuer des prédictions correctes avec de nouvelles données.

La régularisation peut réduire le surapprentissage. L'entraînement sur un ensemble d'entraînement volumineux et diversifié peut également réduire le surapprentissage.

suréchantillonnage

Réutilisation des exemples d'une classe minoritaire dans un ensemble de données avec déséquilibre des classes afin de créer un ensemble d'entraînement plus équilibré.

Par exemple, considérons un problème de classification binaire dans lequel le ratio de la classe majoritaire sur la classe minoritaire est de 5 000:1. Si l'ensemble de données contient un million d'exemples, il ne contient alors qu'environ 200 exemples de la classe minoritaire, ce qui peut être insuffisant pour un entraînement efficace. Pour remédier à cette lacune, vous pouvez suréchantillonner (réutiliser) ces 200 exemples plusieurs fois, ce qui peut fournir suffisamment d'exemples pour un entraînement utile.

Vous devez faire attention à ne pas trop suradapter votre modèle lorsque vous effectuez un suréchantillonnage.

À comparer à l'échantillonnage sous-représentatif.

P

données compressées

Approche permettant de stocker des données plus efficacement.

Les données compressées stockent des données à l'aide d'un format compressé ou d'une autre méthode permettant d'y accéder plus efficacement. Les données compressées réduisent la quantité de mémoire et de calcul requise pour y accéder, ce qui accélère l'entraînement et améliore l'inférence de modèle.

Les données compressées sont souvent utilisées avec d'autres techniques, telles que l'augmentation des données et la régularisation, ce qui améliore encore les performances des modèles.

pandas

#fundamentals

API d'analyse de données orientée colonnes basée sur numpy. De nombreux frameworks de machine learning, y compris TensorFlow, acceptent les structures de données pandas comme entrées. Pour en savoir plus, consultez la documentation de pandas.

paramètre

#fundamentals

Les pondérations et les biais qu'un modèle apprend lors de l'entraînement. Par exemple, dans un modèle de régression linéaire, les paramètres consistent en le biais (b) et toutes les pondérations (w1, w2, etc.) dans la formule suivante:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

À l'inverse, les hyperparamètres sont les valeurs que vous (ou un service de réglage d'hyperparamètres) fournissez au modèle. Par exemple, le taux d'apprentissage est un hyperparamètre.

réglage des paramètres avec optimisation

#language
#generativeAI

Ensemble de techniques permettant d'affiner un grand modèle de langage pré-entraîné (PLM) plus efficacement que l'affinage complet. L'optimisation des paramètres avec affinage s'effectue généralement sur beaucoup moins de paramètres que l'affinage complet, mais produit généralement un grand modèle de langage qui fonctionne aussi bien (ou presque) qu'un grand modèle de langage créé à partir d'un affinage complet.

Comparez et contrastez le réglage des paramètres avec optimisation avec:

Le réglage des paramètres avec optimisation est également appelé optimisation du réglage des paramètres.

Serveur de paramètres (PS)

#TensorFlow

Tâche qui effectue le suivi des paramètres d'un modèle dans une configuration distribuée.

mise à jour des paramètres

Opération consistant à ajuster les paramètres d'un modèle pendant l'entraînement, généralement dans une seule itération de la descente du gradient.

dérivée partielle

Dérivée dans laquelle toutes les variables, sauf une, sont considérées comme des constantes. Par exemple, la dérivée partielle de f(x, y) par rapport à x est la dérivée de f considérée comme une fonction de x uniquement (c'est-à-dire en maintenant y constant). La dérivée partielle de f par rapport à x se concentre uniquement sur l'évolution de x et ignore toutes les autres variables de l'équation.

biais de participation

#fairness

Synonyme de biais de non-réponse. Voir biais de sélection.

stratégie de partitionnement

Algorithme qui répartit les variables entre les serveurs de paramètres.

carte à k (carte@k)

Métrique permettant de déterminer la qualité du code (par exemple, Python) généré par un grand modèle de langage. Plus précisément, la valeur "pass at k" indique la probabilité qu'au moins un bloc de code généré sur k blocs de code générés réussisse tous ses tests unitaires.

Les grands modèles de langage ont souvent du mal à générer du bon code pour des problèmes de programmation complexes. Les ingénieurs logiciels s'adaptent à ce problème en demandant au grand modèle de langage de générer plusieurs (k) solutions pour le même problème. Ensuite, les ingénieurs logiciels testent chacune des solutions à l'aide de tests unitaires. Le calcul de la réussite à k dépend du résultat des tests unitaires:

  • Si une ou plusieurs de ces solutions réussissent le test unitaire, le LLM réussit ce défi de génération de code.
  • Si aucune des solutions ne réussit le test unitaire, le LLM échoue sur ce défi de génération de code.

La formule pour le pass à k est la suivante:

$$\text{pass at k} = \frac{\text{total number of passes}} {\text{total number of challenges}}$$

En règle générale, des valeurs plus élevées de k génèrent des scores de réussite plus élevés pour k. Toutefois, des valeurs plus élevées de k nécessitent des ressources plus importantes pour le modèle de langage et les tests unitaires.

Pax

Framework de programmation conçu pour l'entraînement de modèles de réseaux de neurones à grande échelle, si grands qu'ils couvrent plusieurs tranches ou pods de puce d'accélérateur TPU.

Pax est basé sur Flax, qui est basé sur JAX.

Schéma illustrant la position de Pax dans la pile logicielle.
          Pax est basé sur JAX. Pax se compose de trois couches. La couche inférieure contient TensorStore et Flax.
          La couche médiane contient Optax et Flaxformer. La couche supérieure contient la bibliothèque de modélisation Praxis. Fiddle est basé sur Pax.

perceptron

Système (matériel ou logiciel) qui prend une ou plusieurs valeurs d'entrée, exécute une fonction sur la somme pondérée des entrées et calcule une seule valeur de sortie. Dans le machine learning, la fonction est généralement non linéaire, comme ReLU, sigmoïde ou tanh. Par exemple, le perceptron suivant repose sur la fonction sigmoïde pour traiter trois valeurs d'entrée:

$$f(x_1, x_2, x_3) = \text{sigmoid}(w_1 x_1 + w_2 x_2 + w_3 x_3)$$

Dans l'illustration suivante, le perceptron prend trois entrées chacune modifiée par une pondération avant d'entrer dans le perceptron:

Un perceptron qui prend 3 entrées, chacune multipliée par des pondérations différentes. Le perceptron renvoie une seule valeur.

Les perceptrons sont les neurones des réseaux de neurones.

performance

Terme complexe ayant plusieurs significations:

  • Sens standard dans le génie logiciel. à savoir: à quelle vitesse, ou avec quelle efficacité, ce logiciel s'exécute-t-il ?
  • Signification dans le machine learning. Ici, les performances répondent à la question suivante: quel est le degré d'exactitude de ce modèle ? Autrement dit, les prédictions du modèle sont-elles bonnes ?

Importances des variables de permutation

#df

Type d'importance des variables qui évalue l'augmentation de l'erreur de prédiction d'un modèle après avoir permuté les valeurs de la caractéristique. L'importance des variables de permutation est une métrique indépendante du modèle.

perplexité

Mesure de l'efficacité d'un modèle à exécuter une tâche. Par exemple, supposons que votre tâche consiste à lire les premières lettres d'un mot qu'un utilisateur saisit sur le clavier d'un téléphone et à proposer une liste de mots de fin possibles. La perplexité, P, pour cette tâche correspond approximativement au nombre de suppositions que vous devez proposer pour que votre liste contienne le mot réel que l'utilisateur essaie de saisir.

La perplexité est liée à l'entropie croisée comme suit:

$$P= 2^{-\text{cross entropy}}$$

pipeline

Infrastructure sur laquelle repose un algorithme de machine learning. Le pipeline inclut la collecte des données, l'intégration de celles-ci dans des fichiers de données d'entraînement, l'entraînement d'un ou plusieurs modèles, et l'exportation des modèles en production.

pipeline

#language

Forme de parallélisme de modèle dans laquelle le traitement d'un modèle est divisé en étapes consécutives, et chaque étape est exécutée sur un appareil différent. Pendant qu'une étape traite un lot, l'étape précédente peut travailler sur le lot suivant.

Voir également entraînement par étapes.

pjit

Fonction JAX qui divise le code à exécuter sur plusieurs chips d'accélérateur. L'utilisateur transmet une fonction à pjit, qui renvoie une fonction ayant une sémantique équivalente, mais compilée dans un calcul XLA exécuté sur plusieurs appareils (tels que des GPU ou des cœurs TPU).

pjit permet aux utilisateurs de fractionner les calculs sans les réécrire à l'aide du partitionneur SPMD.

Depuis mars 2023, pjit a été fusionné avec jit. Pour en savoir plus, consultez la section Matrices distribuées et parallélisation automatique.

PLM

#language
#generativeAI

Abréviation de modèle de langage pré-entraîné.

pmap

Fonction JAX qui exécute des copies d'une fonction d'entrée sur plusieurs appareils matériels sous-jacents (CPU, GPU ou TPU), avec différentes valeurs d'entrée. pmap s'appuie sur SPMD.

policy

#rl

Dans l'apprentissage par renforcement, mappage probabiliste d'un agent entre les états et les actions.

pooling

#image

Réduction d'une matrice (ou de matrices) créée par une couche convolutive antérieure à une matrice plus petite. Le pooling consiste généralement à prendre la valeur maximale ou moyenne sur la zone groupée. Soit, par exemple, la matrice 3 x 3 suivante:

La matrice 3 x 3 [[5,3,1], [8,2,5], [9,4,3]].

Une opération de pooling, tout comme une opération convolutive, divise cette matrice en tranches, puis déplace cette opération convolutive selon un certain pas. Par exemple, supposons que l'opération de pooling divise la matrice convolutive en tranches 2 x 2 avec un pas de 1 x 1. Comme illustré dans le diagramme suivant, quatre opérations de pooling ont lieu. Imaginons que chaque opération de pooling sélectionne la valeur maximale des quatre valeurs de cette tranche:

La matrice d&#39;entrée est de 3 x 3 avec les valeurs: [[5,3,1], [8,2,5], [9,4,3]].
          La sous-matrice 2x2 en haut à gauche de la matrice d&#39;entrée est [[5,3], [8,2]]. L&#39;opération de pooling en haut à gauche génère donc la valeur 8 (qui est la valeur maximale de 5, 3, 8 et 2). La sous-matrice 2x2 en haut à droite de la matrice d&#39;entrée est [[3,1], [2,5]]. L&#39;opération de pooling en haut à droite donne donc la valeur 5. La sous-matrice 2x2 en bas à gauche de la matrice d&#39;entrée est [[8,2], [9,4]]. L&#39;opération de pooling en bas à gauche génère donc la valeur 9. La sous-matrice 2x2 en bas à droite de la matrice d&#39;entrée est [[2,5], [4,3]]. L&#39;opération de pooling en bas à droite donne donc la valeur 5. En résumé, l&#39;opération de pooling génère la matrice 2x2 [[8,5], [9,5]].

Le pooling permet d'appliquer l'invariance par translation dans la matrice d'entrée.

Le pooling pour les applications de vision est plus communément appelé pooling spatial. Les applications de séries temporelles appellent généralement le regroupement regroupement temporel. De manière moins formelle, le pooling est souvent appelé sous-échantillonnage ou rééchantillonnage.

encodage en position

#language

Technique permettant d'ajouter des informations sur la position d'un jeton dans une séquence à l'encapsulation du jeton. Les modèles Transformer utilisent l'encodage de position pour mieux comprendre la relation entre les différentes parties de la séquence.

Une implémentation courante de l'encodage de position utilise une fonction sinusoïdale. (Plus précisément, la fréquence et l'amplitude de la fonction sinusoïdale sont déterminées par la position du jeton dans la séquence.) Cette technique permet à un modèle Transformer d'apprendre à prêter attention à différentes parties de la séquence en fonction de leur position.

classe positive

#fundamentals

Classe pour laquelle vous effectuez le test.

Par exemple, la classe positive d'un modèle de cancer pourrait être "tumeur". La classe positive d'un classificateur d'e-mail pourrait être "spam".

À comparer à la classe négative.

post-traitement

#fairness
#fundamentals

Ajustement de la sortie d'un modèle après son exécution. Le post-traitement peut être utilisé pour appliquer des contraintes d'équité sans modifier les modèles eux-mêmes.

Par exemple, vous pouvez appliquer un post-traitement à un classificateur binaire en définissant un seuil de classification de sorte que l'égalité des chances soit maintenue pour un attribut en vérifiant que le taux de vrai positif est le même pour toutes les valeurs de cet attribut.

modèle post-entraîné

#language
#image
#generativeAI

Terme vaguement défini qui désigne généralement un modèle pré-entraîné ayant subi un post-traitement, tel qu'un ou plusieurs des éléments suivants:

AUC PR (aire sous la courbe PR)

Aire sous la courbe de précision/rappel interpolée, obtenue en traçant des points (rappel, précision) pour différentes valeurs du seuil de classification.

Praxis

Bibliothèque ML principale hautes performances de Pax. Praxis est souvent appelé "bibliothèque de calques".

Praxis ne contient pas seulement les définitions de la classe Layer, mais également la plupart de ses composants associés, y compris:

Praxis fournit les définitions de la classe Model.

precision

Statistique des modèles de classification qui répond à la question suivante:

Lorsque le modèle a prédit la classe positive, quel pourcentage des prédictions étaient correctes ?

Voici la formule:

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

où :

  • Un vrai positif signifie que le modèle a correctement prédit la classe positive.
  • Un faux positif signifie que le modèle a incorrectement prédit la classe positive.

Par exemple, supposons qu'un modèle ait effectué 200 prédictions positives. Sur ces 200 prédictions positives:

  • 150 étaient des vrais positifs.
  • 50 d'entre eux étaient des faux positifs.

Dans ce cas :

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

À comparer à la précision et au rappel.

Pour en savoir plus, consultez Classification: précision, rappel, précision et métriques associées.

Précision à k (precision@k)

#language

Métrique permettant d'évaluer une liste d'éléments classés (triés). La précision à k identifie la fraction des premiers k éléments de cette liste qui sont "pertinents". Par exemple :

\[\text{precision at k} = \frac{\text{relevant items in first k items of the list}} {\text{k}}\]

La valeur de k doit être inférieure ou égale à la longueur de la liste renvoyée. Notez que la longueur de la liste renvoyée n'est pas prise en compte dans le calcul.

La pertinence est souvent subjective. Même les évaluateurs humains experts sont souvent en désaccord sur les éléments pertinents.

Comparer avec :

la courbe de précision/rappel

Courbe de précision par rapport au rappel à différents seuils de classification.

prédiction

#fundamentals

Résultat d'un modèle. Exemple :

  • La prédiction d'un modèle de classification binaire correspond à la classe positive ou à la classe négative.
  • La prédiction d'un modèle de classification multiclasse est une classe.
  • La prédiction d'un modèle de régression linéaire est un nombre.

biais de prédiction

Valeur indiquant l'écart entre la moyenne des prédictions et la moyenne des étiquettes dans l'ensemble de données.

À ne pas confondre avec le terme de biais dans les modèles de machine learning ni avec les biais en matière d'éthique et d'équité.

ML prédictif

Tout système de machine learning standard (classique).

Le terme ML prédictif n'a pas de définition formelle. Il s'agit plutôt d'un terme qui distingue une catégorie de systèmes de ML non basés sur l'IA générative.

parité prédictive

#fairness

Métrique d'équité qui vérifie si, pour un classifieur donné, les taux de précision sont équivalents pour les sous-groupes considérés.

Par exemple, un modèle qui prédit l'acceptation dans une université satisferait la parité prédictive pour la nationalité si son taux de précision est le même pour les Lilliputiens et les Brobdingnagiens.

La parité prédictive est parfois appelée parité tarifaire prédictive.

Pour en savoir plus sur la parité prédictive, consultez la section Définitions de l'équité (section 3.2.1).

parité tarifaire prédictive.

#fairness

Autre nom de la parité prédictive.

prétraitement

#fairness
Traitement des données avant qu'elles ne soient utilisées pour entraîner un modèle. Le prétraitement peut être aussi simple que la suppression de mots d'un corpus de texte en anglais qui ne figurent pas dans le dictionnaire anglais, ou aussi complexe que la réexpression des points de données de manière à éliminer autant que possible les attributs corrélés à des attributs sensibles. Le prétraitement peut aider à respecter les contraintes d'équité.

modèle pré-entraîné

#language
#image
#generativeAI

Il s'agit généralement d'un modèle qui a déjà été entraîné. Le terme peut également désigner un vecteur d'embedding précédemment entraîné.

Le terme modèle de langage pré-entraîné désigne généralement un grand modèle de langage déjà entraîné.

pré-entraînement

#language
#image
#generativeAI

Entraînement initial d'un modèle sur un grand ensemble de données. Certains modèles pré-entraînés sont des géants maladroits et doivent généralement être affinés par un entraînement supplémentaire. Par exemple, les experts en ML peuvent pré-entraîner un grand modèle de langage sur un vaste ensemble de données textuelles, comme toutes les pages en anglais de Wikipédia. Après le pré-entraînement, le modèle obtenu peut être affiné à l'aide de l'une des techniques suivantes:

croyance antérieure

Ce que vous croyez à propos des données avant de commencer l'entraînement avec celles-ci. Par exemple, la régularisation L2 s'appuie sur l'idée que les pondérations doivent être faibles et normalement distribuées autour de zéro.

modèle de régression probabiliste

Modèle de régression qui utilise non seulement les pondérations pour chaque caractéristique, mais aussi l'incertitude de ces pondérations. Un modèle de régression probabiliste génère une prédiction et l'incertitude de cette prédiction. Par exemple, un modèle de régression probabiliste peut donner une prédiction de 325 avec une déviation standard de 12. Pour en savoir plus sur les modèles de régression probabiliste, consultez cet Colab sur tensorflow.org.

fonction de densité de probabilité

Fonction qui identifie la fréquence des échantillons de données ayant exactement une valeur particulière. Lorsque les valeurs d'un ensemble de données sont des nombres à virgule flottante continus, les correspondances exactes sont rares. Toutefois, l'intégration d'une fonction de densité de probabilité de la valeur x à la valeur y donne la fréquence attendue des échantillons de données entre x et y.

Prenons l'exemple d'une distribution normale ayant une moyenne de 200 et un écart-type de 30. Pour déterminer la fréquence attendue des échantillons de données compris entre 211,4 et 218,7, vous pouvez intégrer la fonction de densité de probabilité pour une distribution normale de 211,4 à 218,7.

Requête

#language
#generativeAI

Tout texte saisi en entrée d'un grand modèle de langage pour conditionner le modèle à se comporter d'une certaine manière. Les requêtes peuvent être aussi courtes qu'une phrase ou aussi longues que vous le souhaitez (par exemple, le texte complet d'un roman). Les requêtes se répartissent en plusieurs catégories, y compris celles indiquées dans le tableau suivant:

Catégorie de requête Exemple Remarques
Question À quelle vitesse un pigeon peut-il voler ?
Instruction Écris un poème amusant sur l'arbitrage. Requête qui demande au grand modèle de langage de faire quelque chose.
Exemple Traduire le code Markdown en HTML Exemple :
Markdown: * élément de liste
HTML: <ul> <li>élément de liste</li> </ul>
La première phrase de cet exemple d'invite est une instruction. Le reste de la requête est l'exemple.
Rôle Expliquez pourquoi la descente de gradient est utilisée dans l'entraînement de machine learning à un doctorat en physique. La première partie de la phrase est une instruction. La phrase "un doctorat en physique" correspond à la partie du rôle.
Entrée partielle que le modèle doit compléter Le Premier ministre du Royaume-Uni réside à Une invite d'entrée partielle peut se terminer brusquement (comme dans cet exemple) ou se terminer par un trait de soulignement.

Un modèle d'IA générative peut répondre à une requête avec du texte, du code, des images, des représentations vectorielles continues, des vidéos… presque n'importe quoi.

apprentissage basé sur des requêtes

#language
#generativeAI

Capacité de certains modèles qui leur permet d'adapter leur comportement en réponse à une entrée de texte arbitraire (invites). Dans un paradigme d'apprentissage basé sur des requêtes, un grand modèle de langage répond à une requête en générant du texte. Par exemple, supposons qu'un utilisateur saisisse la requête suivante:

Résumez la troisième loi du mouvement de Newton.

Un modèle capable d'apprendre à partir d'invites n'est pas spécifiquement entraîné pour répondre à l'invite précédente. Le modèle "sait" plutôt beaucoup de choses sur la physique, les règles générales du langage et ce qui constitue des réponses généralement utiles. Ces connaissances sont suffisantes pour fournir une réponse (espérons-le) utile. Des commentaires humains supplémentaires ("Cette réponse était trop compliquée" ou "Qu'est-ce qu'une réaction ?") permettent à certains systèmes d'apprentissage basés sur des invites d'améliorer progressivement l'utilité de leurs réponses.

conception de requête

#language
#generativeAI

Synonyme de ingénierie des requêtes.

prompt engineering

#language
#generativeAI

Art de créer des requêtes qui génèrent les réponses souhaitées à partir d'un grand modèle de langage. Les humains effectuent une ingénierie rapide. Pour obtenir des réponses utiles à partir d'un grand modèle de langage, il est essentiel de rédiger des requêtes bien structurées. L'ingénierie des requêtes dépend de nombreux facteurs, parmi lesquels:

  • Ensemble de données utilisé pour pré-entraîner et éventuellement affiner le grand modèle de langage.
  • La température et les autres paramètres de décodage que le modèle utilise pour générer des réponses.

Pour en savoir plus sur la rédaction de requêtes utiles, consultez la section Présentation de la conception de requête.

La conception d'invites est synonyme d'ingénierie des requêtes.

réglage des requêtes

#language
#generativeAI

Mécanisme de réglage des paramètres avec optimisation qui apprend un "préfixe" que le système ajoute au message d'invite réel.

Une variante du réglage des requêtes (parfois appelée réglage du préfixe) consiste à ajouter le préfixe à chaque couche. En revanche, la plupart des réglages d'invite n'ajoutent qu'un préfixe à la couche d'entrée.

proxy (attributs sensibles)

#fairness
Attribut utilisé comme substitut d'un attribut sensible. Par exemple, le code postal d'une personne peut être utilisé comme indicateur de son revenu, de sa race ou de son origine ethnique.

étiquettes de substitution

#fundamentals

Données utilisées pour réaliser une approximation des étiquettes qui ne sont pas directement disponibles dans un ensemble de données.

Par exemple, supposons que vous deviez entraîner un modèle pour prédire le niveau de stress des employés. Votre ensemble de données contient de nombreuses fonctionnalités prédictives, mais ne contient pas d'étiquette nommée niveau de stress. Vous choisissez "Accidents du travail" comme étiquette de proxy pour le niveau de stress. Après tout, les employés soumis à un stress élevé sont plus sujets aux accidents que les employés calmes. Ou est-ce que ce n'est pas le cas ? Il est possible que les accidents du travail augmentent et diminuent pour plusieurs raisons.

Prenons un deuxième exemple. Supposons que vous souhaitiez que est-ce qu'il pleut ? soit un libellé booléen pour votre ensemble de données, mais que celui-ci ne contienne pas de données sur la pluie. Si des photos sont disponibles, vous pouvez créer des photos de personnes portant des parapluies comme étiquette de substitution pour la phrase is it raining? S'agit-il d'un bon libellé de proxy ? C'est possible, mais les personnes de certaines cultures peuvent être plus susceptibles de porter un parapluie pour se protéger du soleil que de la pluie.

Les libellés de proxy sont souvent imparfaits. Dans la mesure du possible, privilégiez les libellés réels aux libellés proxy. Toutefois, lorsqu'une étiquette réelle est absente, choisissez l'étiquette de proxy très attentivement, en sélectionnant la candidate la moins horrible.

fonction pure

Fonction dont les sorties ne dépendent que de ses entrées et qui n'a aucun effet secondaire. Plus précisément, une fonction pure n'utilise ni ne modifie aucun état global, tel que le contenu d'un fichier ou la valeur d'une variable en dehors de la fonction.

Les fonctions pures peuvent être utilisées pour créer du code thread-safe, ce qui est utile lors du fractionnement du code du modèle sur plusieurs chips d'accélérateur.

Les méthodes de transformation de fonction de JAX exigent que les fonctions d'entrée soient des fonctions pures.

Q

Fonction Q

#rl

Dans l'apprentissage par renforcement, fonction qui prédit le rendement attendu de l'exécution d'une action dans un état, puis en suivant une stratégie donnée.

La fonction Q est également appelée fonction de valeur d'état-action.

Apprentissage Q

#rl

Dans le machine learning par renforcement, algorithme qui permet à un agent d'apprendre la fonction Q optimale d'un processus de décision de Markov en appliquant l'équation de Bellman. Le processus de décision de Markov modélise un environnement.

quantile

Chaque ensemble dans le binning en quantiles.

binning en quantiles

Distribuer les valeurs d'une caractéristique dans des ensembles afin que chaque ensemble contienne le même nombre (ou presque) d'exemples. Par exemple, la figure suivante divise 44 points en 4 ensembles, chacun contenant 11 points. Pour que chaque ensemble de la figure contienne le même nombre de points, certains ensembles couvrent une largeur différente de valeurs x.

44 points de données répartis en 4 ensembles de 11 points chacun.
          Bien que chaque ensemble contienne le même nombre de points de données, certains ensembles contiennent une plage de valeurs d&#39;éléments géographiques plus large que d&#39;autres.

quantification

Terme complexe qui peut être utilisé de différentes manières:

  • Implémentation du binning en quantiles sur une fonctionnalité spécifique.
  • Transformer les données en zéros et en uns pour un stockage, un entraînement et une inférence plus rapides Étant donné que les données booléennes sont plus robustes au bruit et aux erreurs que les autres formats, la quantification peut améliorer l'exactitude du modèle. Les techniques de quantification incluent l'arrondi, la troncature et le binning.
  • Réduction du nombre de bits utilisés pour stocker les paramètres d'un modèle. Par exemple, supposons que les paramètres d'un modèle soient stockés sous forme de nombres à virgule flottante 32 bits. La quantification convertit ces paramètres de 32 bits en 4, 8 ou 16 bits. La quantification réduit les éléments suivants:

    • Utilisation des capacités de calcul, de la mémoire, du disque et du réseau
    • Délai d'inférence d'une prédication
    • Consommation d'énergie

    Toutefois, la quantification diminue parfois l'exactitude des prédictions d'un modèle.

q

#TensorFlow

Opération TensorFlow qui implémente une structure de données de file d'attente. Généralement utilisé dans les E/S.

R

RAG

#fundamentals

Abréviation de génération augmentée par récupération.

forêt d'arbres décisionnels

#df

Ensemble d'arbres de décision dans lequel chaque arbre de décision est entraîné avec un bruit aléatoire spécifique, tel que le bagging.

Les forêts d'arbres décisionnels sont un type de forêt de décision.

règle aléatoire

#rl

Dans le machine learning par renforcement, règle qui choisit une action au hasard.

rang (ordinalité) (rank (ordinality))

Position ordinale d'une classe dans un problème de machine learning qui hiérarchise des classes par ordre décroissant. Par exemple, un système de classement de comportement pourrait classer les récompenses pour un chien de la récompense la plus élevée (un steak) à la récompense la plus faible (du chou frisé flétri).

rang (Tensor) (rank (Tensor))

#TensorFlow

Nombre de dimensions d'un Tensor. Par exemple, une grandeur scalaire a un rang de 0, un vecteur un rang de 1 et une matrice un rang de 2.

À ne pas confondre avec le rang (ordinalité).

classement

Type d'apprentissage supervisé dont l'objectif est de classer une liste d'éléments.

évaluateur

#fundamentals

Personne qui fournit des libellés pour des exemples. "Annotateur" est un autre nom pour "évaluateur".

recall (rappel)

Statistique des modèles de classification qui répond à la question suivante:

Lorsque la vérité terrain était la classe positive, quel pourcentage de prédictions le modèle a-t-il correctement identifié comme étant la classe positive ?

Voici la formule:

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

où :

  • Un vrai positif signifie que le modèle a correctement prédit la classe positive.
  • Un faux négatif signifie que le modèle a à tort prédit la classe négative.

Par exemple, supposons que votre modèle ait effectué 200 prédictions sur des exemples pour lesquels la vérité terrain était la classe positive. Sur ces 200 prédictions:

  • 180 étaient des vrais positifs.
  • 20 étaient des faux négatifs.

Dans ce cas :

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

Pour en savoir plus, consultez Classification: précision, rappel, précision et métriques associées.

rappel à k (recall@k)

#language

Métrique permettant d'évaluer les systèmes qui génèrent une liste d'éléments classés (triés). Le rappel à k identifie la fraction d'éléments pertinents dans les k premiers éléments de cette liste par rapport au nombre total d'éléments pertinents renvoyés.

\[\text{recall at k} = \frac{\text{relevant items in first k items of the list}} {\text{total number of relevant items in the list}}\]

À comparer à la précision à k.

système de recommandation

#recsystems

Système qui sélectionne pour chaque utilisateur un ensemble relativement petit d'éléments souhaitables dans un corpus volumineux. Par exemple, un système de recommandation de vidéos peut recommander deux vidéos d'un corpus de 100 000 vidéos, en sélectionnant Casablanca et Indiscrétions pour un utilisateur et Wonder Woman et Black Panther pour un autre. Un système de recommandation de vidéos pourrait baser ses recommandations sur la base de facteurs tels que:

  • Des films notés ou vus par des utilisateurs similaires ;
  • Le genre, les réalisateurs, les acteurs, la cible démographique, etc.

Unité de rectification linéaire (ReLU)

#fundamentals

Fonction d'activation dont le comportement est le suivant:

  • Si l'entrée est négative ou nulle, la sortie est 0.
  • Si l'entrée est positive, la sortie est égale à l'entrée.

Exemple :

  • Si l'entrée est -3, le résultat est 0.
  • Si l'entrée est +3, le résultat est 3,0.

Voici un graphique de la fonction ReLU:

Graphique cartésien de deux lignes. La première ligne a une valeur y constante de 0, qui s&#39;étend le long de l&#39;axe X de -infini,0 à 0,-0.
          La deuxième ligne commence à 0,0. Cette ligne a une pente de +1. Elle s&#39;étend donc de 0,0 à +infini,+infini.

ReLU est une fonction d'activation très populaire. Malgré son comportement simple, ReLU permet toujours à un réseau de neurones d'apprendre des relations non linéaires entre les caractéristiques et l'étiquette.

réseau de neurones récurrent

#seq

Réseau de neurones exécuté intentionnellement à plusieurs reprises, où des parties de chaque exécution alimentent la prochaine exécution. Plus précisément, les couches cachées de l'exécution précédente fournissent une partie de l'entrée dans la même couche cachée lors de l'exécution suivante. Les réseaux de neurones récurrents sont particulièrement utiles pour évaluer les séquences, afin que les couches cachées puissent apprendre des exécutions précédentes du réseau de neurones sur les parties précédentes de la séquence.

Par exemple, la figure suivante illustre un réseau de neurones récurrent exécuté quatre fois. Notez que les valeurs apprises dans les couches cachées lors de la première exécution font partie de l'entrée des mêmes couches cachées lors de la deuxième exécution. De même, les valeurs apprises dans la couche caché lors de la deuxième exécution font partie de l'entrée de la même couche caché lors de la troisième exécution. De cette manière, le réseau de neurones récurrent s'entraîne progressivement et prédit la signification de la séquence complète plutôt que simplement la signification des mots individuels.

Un RNN qui s&#39;exécute quatre fois pour traiter quatre mots d&#39;entrée.

texte de référence

#language
#generativeAI

Réponse d'un expert à une invite. Par exemple, avec l'invite suivante:

Traduire la question "Quel est votre nom ?" de l'anglais vers le français.

Voici ce qu'un expert pourrait répondre:

Comment vous appelez-vous ?

Diverses métriques (telles que ROUGE) mesurent le degré de correspondance entre le texte de référence et le texte généré d'un modèle de ML.

modèle de régression

#fundamentals

De manière informelle, modèle qui génère une prédiction numérique. (À l'inverse, un modèle de classification génère une prédiction de classe.) Par exemple, les modèles de régression suivants:

  • Un modèle qui prédit la valeur d'une maison en euros, par exemple 423 000.
  • Modèle qui prédit l'espérance de vie d'un arbre en années, par exemple 23,2.
  • Modèle qui prédit la quantité de pluie en pouces qui tombera dans une certaine ville au cours des six prochaines heures, par exemple 0,18.

Voici deux types de modèles de régression courants:

  • Régression linéaire, qui trouve la ligne qui s'adapte le mieux aux valeurs de libellé aux éléments géographiques.
  • Régression logistique, qui génère une probabilité comprise entre 0,0 et 1,0 qu'un système mappe généralement à une prédiction de classe.

Tous les modèles qui génèrent des prédictions numériques ne sont pas des modèles de régression. Dans certains cas, une prédiction numérique n'est en réalité qu'un modèle de classification qui se trouve avoir des noms de classe numériques. Par exemple, un modèle qui prédit un code postal numérique est un modèle de classification, et non un modèle de régression.

régularisation

#fundamentals

Tout mécanisme qui réduit le surapprentissage. Voici quelques-uns des types de régularisation les plus courants:

La régularisation peut également être définie comme la pénalité appliquée à la complexité d'un modèle.

taux de régularisation

#fundamentals

Nombre qui spécifie l'importance relative de la régularisation lors de l'entraînement. Augmenter le taux de régularisation réduit le surapprentissage, mais peut réduire la puissance prédictive du modèle. À l'inverse, réduire ou omettre le taux de régularisation augmente le surapprentissage.

apprentissage par renforcement (RL)

#rl

Famille d'algorithmes qui apprennent une stratégie optimale, dont l'objectif est de maximiser le rendement lors de l'interaction avec un environnement. Par exemple, la récompense ultime dans la plupart des jeux est la victoire. Les systèmes d'apprentissage par renforcement peuvent devenir experts dans les jeux complexes en évaluant les séquences d'actions de parties antérieures qui ont finalement conduit à des victoires et les séquences qui ont finalement conduit à des échecs.

Apprentissage automatique par renforcement qui utilise le feedback humain (RLHF)

#generativeAI
#rl

Utilisation des commentaires de réviseurs humains pour améliorer la qualité des réponses d'un modèle Par exemple, un mécanisme RLHF peut demander aux utilisateurs d'évaluer la qualité de la réponse d'un modèle à l'aide d'un emoji 👍 ou 👎. Le système peut ensuite ajuster ses futures réponses en fonction de ces commentaires.

ReLU

#fundamentals

Abréviation de unité de rectification linéaire.

mémoire de rejeu

#rl

Dans les algorithmes de type DQN, la mémoire utilisée par l'agent pour stocker les transitions d'état à utiliser dans la reproduction d'expérience.

Cloud SQL

Copie de l'ensemble d'entraînement ou du modèle, généralement sur une autre machine. Par exemple, un système peut utiliser la stratégie suivante pour implémenter le parallélisme de données:

  1. Placer des répliques d'un modèle existant sur plusieurs machines
  2. Envoyez différents sous-ensembles de l'ensemble d'entraînement à chaque réplica.
  3. Agrégez les mises à jour du paramètre.

biais de fréquence

#fairness

Fait que le rythme auquel les personnes écrivent à propos d'actions, de résultats ou de propriétés ne reflète pas leur rythme dans le monde réel ou le degré selon lequel une propriété est caractéristique d'une classe d'individus. Le biais de fréquence peut influer sur la composition des données à partir desquelles les systèmes de machine learning apprennent.

Par exemple, dans les livres, le mot ri est plus répandu que respiré. Un modèle de machine learning conçu pour estimer à partir d'un corpus de livres la fréquence relative du fait de rire et du fait de respirer déterminerait probablement que le premier est plus courant que le second.

vectorielle

Processus de mise en correspondance des données et des éléments géographiques utiles.

reclassement

#recsystems

Étape finale d'un système de recommandation au cours duquel les éléments notés peuvent être réévalués selon un autre algorithme (généralement non issu du machine learning). Le reclassement évalue la liste des éléments générés par la phase d'attribution de scores, en prenant des mesures telles que:

  • Éliminer les éléments que l'utilisateur a déjà achetés.
  • Booster le score des éléments plus récents.

génération augmentée par récupération (RAG)

#fundamentals

Technique permettant d'améliorer la qualité de la sortie d'un grand modèle de langage (LLM) en l'ancrant à des sources de connaissances récupérées après l'entraînement du modèle. Le RAG améliore la précision des réponses du LLM en lui donnant accès aux informations récupérées à partir de bases de connaissances ou de documents fiables.

Voici quelques motivations courantes à utiliser la génération augmentée par récupération:

  • Améliorer la justesse factuelle des réponses générées par un modèle
  • Donner au modèle accès à des connaissances sur lesquelles il n'a pas été entraîné
  • Modifier les connaissances utilisées par le modèle
  • Activer la citation des sources par le modèle

Par exemple, supposons qu'une application de chimie utilise l'API PALM pour générer des résumés liés aux requêtes des utilisateurs. Lorsque le backend de l'application reçoit une requête, il:

  1. Recherche (ou "récupère") des données pertinentes par rapport à la requête de l'utilisateur.
  2. Ajoute (ou "augmente") les données chimiques pertinentes à la requête de l'utilisateur.
  3. Indique au LLM de créer un résumé basé sur les données ajoutées.

retour

#rl

Dans l'apprentissage par renforcement, étant donné une certaine stratégie et un certain état, le rendement correspond à la somme de toutes les récompenses que l'agent s'attend à recevoir lorsqu'il suit la stratégie à partir de l'état jusqu'à la fin de l'épisode. L'agent tient compte de la nature différée des récompenses attendues en les réduisant en fonction des transitions d'état requises pour les obtenir.

Par conséquent, si le facteur de remise est \(\gamma\)et que \(r_0, \ldots, r_{N}\)désigne les récompenses jusqu'à la fin de l'épisode, le calcul du retour est le suivant:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

récompense

#rl

Dans l'apprentissage par renforcement, résultat numérique de l'exécution d'une action dans un état, tel que défini par l'environnement.

régularisation d'arête

Synonyme de régularisation L2. Le terme régularisation d'arête est utilisé plus souvent dans les contextes de statistiques pures, tandis que la régularisation L2 est utilisée plus souvent dans le machine learning.

RNN

#seq

Abréviation de réseaux de neurones récurrents.

courbe ROC (receiver operating characteristic) (courbe ROC (receiver operating characteristic))

#fundamentals

Graphique du taux de vrais positifs par rapport au taux de faux positifs pour différents seuils de classification dans la classification binaire.

La forme d'une courbe ROC suggère la capacité d'un modèle de classification binaire à séparer les classes positives des classes négatives. Supposons, par exemple, qu'un modèle de classification binaire sépare parfaitement toutes les classes négatives de toutes les classes positives:

Une ligne de nombres avec huit exemples positifs à droite et sept exemples négatifs à gauche.

La courbe ROC du modèle précédent se présente comme suit:

Courbe ROC. L&#39;axe X correspond au taux de faux positifs et l&#39;axe Y au taux de vrais positifs. La courbe a la forme d&#39;un L inversé. La courbe commence à (0,0,0) et monte directement jusqu&#39;à (0,0,1). La courbe passe ensuite de (0,0,1,0) à (1,0,1,0).

À l'inverse, l'illustration suivante représente graphiquement les valeurs de régression logistique brutes d'un modèle terrible qui ne peut pas du tout séparer les classes négatives des classes positives:

Une ligne numérique avec des exemples positifs et des classes négatives complètement mélangées.

La courbe ROC de ce modèle se présente comme suit:

Une courbe ROC, qui est en réalité une ligne droite allant de (0,0) à (1,0).

En attendant, dans le monde réel, la plupart des modèles de classification binaire séparent les classes positives et négatives dans une certaine mesure, mais généralement pas de manière parfaite. Ainsi, une courbe ROC typique se situe quelque part entre les deux extrêmes:

Courbe ROC. L&#39;axe X correspond au taux de faux positifs et l&#39;axe Y au taux de vrais positifs. La courbe ROC est proche d&#39;un arc irrégulier qui traverse les points cardinaux de l&#39;ouest au nord.

Le point d'une courbe ROC le plus proche de (0,0,1,0) identifie théoriquement le seuil de classification idéal. Cependant, plusieurs autres problèmes concrets influencent la sélection du seuil de classification idéal. Par exemple, les faux négatifs sont peut-être beaucoup plus pénibles que les faux positifs.

Une métrique numérique appelée AUC résume la courbe ROC en une seule valeur à virgule flottante.

invite de rôle

#language
#generativeAI

Partie facultative d'une requête qui identifie une audience cible pour la réponse d'un modèle d'IA générative. Sans requête de rôle, un grand modèle de langage fournit une réponse qui peut ou non être utile à la personne qui pose les questions. Avec une requête de rôle, un grand modèle de langage peut répondre de manière plus appropriée et plus utile pour une audience cible spécifique. Par exemple, la partie de l'invite de rôle des requêtes suivantes est en gras:

  • Résume cet article pour un doctorat en économie.
  • Expliquez le fonctionnement des marées à un enfant de 10 ans.
  • Expliquez la crise financière de 2008. Parlez comme vous le feriez avec un jeune enfant ou un retriever.

root

#df

Nœud de départ (première condition) d'un arbre de décision. Par convention, les diagrammes placent la racine en haut de l'arbre de décision. Exemple :

Arbre de décision avec deux conditions et trois feuilles. La condition de départ (x > 2) est la racine.

répertoire racine

#TensorFlow

Répertoire que vous spécifiez pour l'enregistrement des sous-répertoires du point de contrôle TensorFlow et des fichiers d'événements de plusieurs modèles.

la racine carrée de l'erreur quadratique moyenne (RMSE, Root Mean Squared Error)

#fundamentals

Racine carrée de l'erreur quadratique moyenne.

invariance rotationnelle

#image

Dans un problème de classification d'images, capacité d'un algorithme à classer correctement les images, même lorsque leur orientation change. Par exemple, l'algorithme peut toujours identifier une raquette de tennis, qu'elle soit orientée vers le haut, sur le côté ou vers le bas. Notez que l'invariance rotationnelle n'est pas toujours souhaitable. Par exemple, un 9 à l'envers ne devrait pas être classé comme étant un 9.

Consultez également les sections invariance par translation et invariance par redimensionnement.

ROUGE (Recall-Oriented Understudy for Gisting Evaluation)

#language

Famille de métriques qui évaluent les modèles de résumé automatique et de traduction automatique. Les métriques ROUGE déterminent le degré de chevauchement d'un texte de référence avec le texte généré d'un modèle de ML. Chaque membre de la famille ROUGE mesure le chevauchement d'une manière différente. Plus le score ROUGE est élevé, plus le texte généré est semblable au texte de référence.

Chaque membre de la famille ROUGE génère généralement les métriques suivantes:

  • Précision
  • Rappel
  • F1

Pour en savoir plus et obtenir des exemples, consultez les pages suivantes:

ROUGE-L

#language

Un membre de la famille ROUGE s'est concentré sur la longueur de la sous-séquence commune la plus longue dans le texte de référence et le texte généré. Les formules suivantes calculent le rappel et la précision pour ROUGE-L:

$$\text{ROUGE-L recall} = \frac{\text{longest common sequence}} {\text{number of words in the reference text} }$$
$$\text{ROUGE-L precision} = \frac{\text{longest common sequence}} {\text{number of words in the generated text} }$$

Vous pouvez ensuite utiliser F1 pour regrouper le rappel ROUGE-L et la précision ROUGE-L dans une seule métrique:

$$\text{ROUGE-L F} {_1} = \frac{\text{2} * \text{ROUGE-L recall} * \text{ROUGE-L precision}} {\text{ROUGE-L recall} + \text{ROUGE-L precision} }$$

ROUGE-L ignore les sauts de ligne dans le texte de référence et le texte généré. Par conséquent, la sous-séquence commune la plus longue peut s'étendre sur plusieurs phrases. Lorsque le texte de référence et le texte généré comportent plusieurs phrases, une variante de ROUGE-L appelée ROUGE-Lsum est généralement une meilleure métrique. ROUGE-Lsum détermine la sous-séquence commune la plus longue pour chaque phrase d'un passage, puis calcule la moyenne de ces sous-séquences communes les plus longues.

ROUGE-N

#language

Ensemble de métriques de la famille ROUGE qui compare les N-grammes partagés d'une certaine taille dans le texte de référence et le texte généré. Exemple :

  • ROUGE-1 mesure le nombre de jetons partagés dans le texte de référence et le texte généré.
  • ROUGE-2 mesure le nombre de bigrammes (2-grammes) partagés dans le texte de référence et le texte généré.
  • ROUGE-3 mesure le nombre de trigrammes (3-grammes) partagés dans le texte de référence et le texte généré.

Vous pouvez utiliser les formules suivantes pour calculer la précision et la récence ROUGE-N pour n'importe quel membre de la famille ROUGE-N:

$$\text{ROUGE-N recall} = \frac{\text{number of matching N-grams}} {\text{number of N-grams in the reference text} }$$
$$\text{ROUGE-N precision} = \frac{\text{number of matching N-grams}} {\text{number of N-grams in the generated text} }$$

Vous pouvez ensuite utiliser F1 pour regrouper le rappel ROUGE-N et la précision ROUGE-N dans une seule métrique:

$$\text{ROUGE-N F}{_1} = \frac{\text{2} * \text{ROUGE-N recall} * \text{ROUGE-N precision}} {\text{ROUGE-N recall} + \text{ROUGE-N precision} }$$

ROUGE-S

#language

Forme tolérante de ROUGE-N qui permet la mise en correspondance de skip-gram. Autrement dit, ROUGE-N ne comptabilise que les n-grammes qui correspondent exactement, tandis que ROUGE-S comptabilise également les n-grammes séparés par un ou plusieurs mots. Nous vous conseillons, par exemple, de suivre les recommandations suivantes :

Lors du calcul de ROUGE-N, le 2-gramme nuages blancs ne correspond pas à nuages blancs en forme de volutes. Toutefois, lors du calcul de ROUGE-S, Nuages blancs correspond à Nuages blancs en forme de volutes.

Coefficient de détermination

Métrique de régression indiquant dans quelle mesure la variation d'un libellé est due à une caractéristique individuelle ou à un ensemble de caractéristiques. Le coefficient de détermination est une valeur comprise entre 0 et 1, que vous pouvez interpréter comme suit:

  • Un R-squared de 0 signifie qu'aucune variation d'un libellé n'est due à l'ensemble de caractéristiques.
  • Un R-squared de 1 signifie que toute la variation d'un libellé est due à l'ensemble de caractéristiques.
  • Un R-squared compris entre 0 et 1 indique dans quelle mesure la variation du libellé peut être prédite à partir d'une caractéristique particulière ou de l'ensemble de caractéristiques. Par exemple, un R-squared de 0,10 signifie que 10 % de la variance de l'étiquette est due à l'ensemble d'éléments, un R-squared de 0,20 signifie que 20 % est dû à l'ensemble d'éléments, etc.

Le coefficient de détermination correspond au carré du coefficient de corrélation de Pearson entre les valeurs prédites par un modèle et la vérité terrain.

S

biais d'échantillonnage

#fairness

Voir biais de sélection.

Échantillonnage avec remplacement

#df

Méthode permettant de sélectionner des éléments parmi un ensemble d'éléments candidats dans lequel le même élément peut être sélectionné plusieurs fois. L'expression "avec remplacement" signifie qu'après chaque sélection, l'élément sélectionné est renvoyé dans l'ensemble d'éléments candidats. La méthode inverse, l'échantillonnage sans remplacement, signifie qu'un élément candidat ne peut être sélectionné qu'une seule fois.

Prenons l'exemple suivant:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Supposons que le système choisisse de manière aléatoire fig comme premier élément. Si vous utilisez l'échantillonnage avec remplacement, le système sélectionne le deuxième élément de l'ensemble suivant:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Oui, il s'agit du même ensemble qu'auparavant. Le système pourrait donc choisir fig à nouveau.

Si vous utilisez l'échantillonnage sans remplacement, une fois qu'un échantillon a été sélectionné, vous ne pouvez plus le sélectionner à nouveau. Par exemple, si le système choisit de manière aléatoire fig comme premier échantillon, fig ne peut plus être sélectionné. Par conséquent, le système choisit le deuxième échantillon de l'ensemble (réduit) suivant:

fruit = {kiwi, apple, pear, cherry, lime, mango}

SavedModel

#TensorFlow

Format recommandé pour l'enregistrement et la récupération des modèles TensorFlow. SavedModel est un format de sérialisation récupérable, de langage neutre, qui permet aux systèmes et aux outils de plus haut niveau de produire, consommer et transformer des modèles TensorFlow.

Pour en savoir plus, consultez la section Enregistrer et restaurer du guide du programmeur TensorFlow.

Économique

#TensorFlow

Objet TensorFlow responsable de l'enregistrement des points de contrôle du modèle.

scalaire

Nombre ou chaîne unique pouvant être représentés sous la forme d'un tenseur de rang 0. Par exemple, les lignes de code suivantes créent chacune un scalaire dans TensorFlow:

breed = tf.Variable("poodle", tf.string)
temperature = tf.Variable(27, tf.int16)
precision = tf.Variable(0.982375101275, tf.float64)

scaling

Toute transformation ou technique mathématique qui modifie la plage d'un libellé et/ou d'une valeur d'élément géographique. Certaines formes de scaling sont très utiles pour les transformations telles que la normalisation.

Voici quelques formes de scaling courantes utiles en machine learning:

  • la mise à l'échelle linéaire, qui utilise généralement une combinaison de soustraction et de division pour remplacer la valeur d'origine par un nombre compris entre -1 et +1 ou entre 0 et 1.
  • Échelle logarithmique, qui remplace la valeur d'origine par son logarithme.
  • Normalisation par score z, qui remplace la valeur d'origine par une valeur à virgule flottante représentant le nombre d'écarts types par rapport à la moyenne de cette caractéristique.

scikit-learn

Plate-forme de machine learning Open Source populaire. Pour en savoir plus, consultez scikit-learn.org.

notation

#recsystems

Partie d'un système de recommandation qui fournit une valeur ou un classement pour chaque élément produit par la phase de génération de candidats.

biais de sélection

#fairness

Erreurs dans les conclusions tirées des échantillons de données en raison d'un processus de sélection générant des différences systématiques entre les échantillons observés dans les données et ceux non observés. Le biais de sélection existe sous les formes suivantes:

  • biais de couverture: la population représentée dans l'ensemble de données ne correspond pas à celle sur laquelle le modèle de machine learning fait des prédictions.
  • biais d'échantillonnage: les données ne sont pas collectées aléatoirement auprès du groupe cible.
  • biais de non-réponse (également appelé biais de participation): les utilisateurs de certains groupes refusent de participer à certaines enquêtes à des taux différents des utilisateurs d'autres groupes.

Supposons que vous créez un modèle de machine learning qui prédit le succès d'un film. Pour collecter les données d'entraînement, vous distribuez une enquête à toutes les personnes situées au premier rang d'une salle de cinéma projetant le film. Même si de prime abord cette approche peut sembler être un bon moyen de recueillir un ensemble de données, elle peut introduire les formes de biais de sélection suivantes:

  • Biais de couverture: en échantillonnant à partir d'une population qui a voulu voir le film, les prédictions de votre modèle peuvent mal se généraliser à des personnes qui n'ont pas manifesté un tel intérêt pour le film.
  • Biais d'échantillonnage: plutôt que d'échantillonner aléatoirement la population visée (toutes les personnes dans la salle), vous n'avez échantillonné que les personnes du premier rang. Il est possible que les personnes du premier rang sont plus intéressées par le film que les personnes des autres rangs.
  • Biais de non-réponse: en général, les personnes qui ont des opinions fortes ont tendance à répondre plus souvent aux enquêtes facultatives que les personnes qui ont des opinions modérées. Comme l'enquête sur le film est facultative, il est plus probable que les réponses forment une distribution bimodale plutôt qu'une distribution normale (en cloche).

auto-attention (également appelée couche d'auto-attention)

#language

Couche de réseau de neurones qui transforme une séquence d'embeddings (par exemple, des embeddings de jeton) en une autre séquence d'embeddings. Chaque imbrication de la séquence de sortie est construite en intégrant les informations des éléments de la séquence d'entrée via un mécanisme d'attention.

La partie auto-attention de l'auto-attention fait référence à la séquence qui s'occupe d'elle-même plutôt que d'un autre contexte. L'auto-attention est l'un des principaux composants des transformateurs et utilise la terminologie de recherche dans un dictionnaire, comme "requête", "clé" et "valeur".

Une couche d'auto-attention commence par une séquence de représentations d'entrée, une pour chaque mot. La représentation d'entrée d'un mot peut être un simple vecteur d'encapsulation. Pour chaque mot d'une séquence d'entrée, le réseau évalue la pertinence du mot par rapport à chaque élément de la séquence complète de mots. Les scores de pertinence déterminent dans quelle mesure la représentation finale du mot intègre les représentations d'autres mots.

Prenons l'exemple de la phrase suivante:

L'animal n'a pas traversé la rue, car il était trop fatigué.

L'illustration suivante (issue de Transformer: A Novel Neural Network Architecture for Language Understanding) montre le modèle d'attention d'une couche d'auto-attention pour le pronom it, l'intensité de chaque ligne indiquant dans quelle mesure chaque mot contribue à la représentation:

La phrase suivante apparaît deux fois: L&#39;animal n&#39;a pas traversé la rue, car il était trop fatigué. Les lignes relient le pronom &quot;it&quot; dans une phrase à cinq jetons (&quot;The&quot;, &quot;animal&quot;, &quot;street&quot;, &quot;it&quot; et &quot;the period&quot;) dans l&#39;autre phrase.  La limite entre le pronom &quot;il&quot; et le mot &quot;animal&quot; est la plus forte.

La couche d'auto-attention met en avant les mots pertinents pour "it". Dans ce cas, la couche d'attention a appris à mettre en évidence les mots auxquels elle peut faire référence, en attribuant la pondération la plus élevée à animal.

Pour une séquence de n jetons, l'attention automatique transforme une séquence d'engrammes n fois, une fois à chaque position de la séquence.

Consultez également attention et attention auto-attentive multitête.

apprentissage autosupervisé

Famille de techniques permettant de convertir un problème d'apprentissage automatique non supervisé en problème d'apprentissage automatique supervisé en créant des étiquettes de substitution à partir d'exemples non étiquetés.

Certains modèles basés sur Transformer, comme BERT, utilisent l'apprentissage autosupervisé.

L'entraînement autosupervisé est une approche d'apprentissage partiellement supervisé.

auto-formation

Variante de l'apprentissage autosupervisé, particulièrement utile lorsque toutes les conditions suivantes sont remplies:

L'auto-entraînement fonctionne en itérant les deux étapes suivantes jusqu'à ce que le modèle cesse de s'améliorer:

  1. Utilisez le machine learning supervisé pour entraîner un modèle sur les exemples étiquetés.
  2. Utilisez le modèle créé à l'étape 1 pour générer des prédictions (étiquettes) sur les exemples non étiquetés, en déplaçant ceux pour lesquels la confiance est élevée dans les exemples étiquetés avec l'étiquette prédite.

Notez que chaque itération de l'étape 2 ajoute des exemples annotés pour l'étape 1.

apprentissage partiellement supervisé

Entraînement d'un modèle avec des données où seulement certains des exemples d'entraînement sont étiquetés. Une technique d'apprentissage semi-supervisé consiste à inférer des étiquettes pour les exemples non étiquetés, puis à entraîner le modèle sur les étiquettes inférées pour créer un nouveau modèle. L'apprentissage partiellement supervisé peut être utile si les étiquettes sont coûteuses, mais que les exemples sans étiquette abondent.

L'auto-apprentissage est une technique d'apprentissage partiellement supervisé.

attribut sensible

#fairness
Attribut humain auquel une attention particulière peut être accordée pour des motifs juridiques, éthiques, sociaux ou personnels.

analyse des sentiments

#language

Utilisation d'algorithmes statistiques ou de machine learning pour déterminer l'attitude globale d'un groupe (positive ou négative) à l'égard d'un service, d'un produit, d'une organisation ou d'un sujet. Par exemple, en utilisant la compréhension du langage naturel, un algorithme pourrait effectuer une analyse des sentiments sur les commentaires textuels d'un cours universitaire afin de déterminer le degré d'appréciation des étudiants pour ce cours.

modèle de séquence

#seq

Modèle dont les entrées présentent une dépendance séquentielle. Par exemple, prévision de la prochaine vidéo visionnée à partir d'une séquence de vidéos précédemment regardées.

tâche de séquence à séquence

#language

Une tâche qui convertit une séquence d'entrée de jetons en une séquence de jetons de sortie. Par exemple, voici deux types de tâches de séquence à séquence populaires:

  • Traducteurs :
    • Exemple de séquence d'entrée: "Je t'aime."
    • Exemple de séquence de sortie: "Je t'aime."
  • Systèmes de questions-réponses :
    • Exemple de séquence d'entrée: "Ai-je besoin de ma voiture à New York ?"
    • Exemple de séquence de sortie: "Non. Veuillez laisser votre voiture chez vous."

du modèle

Processus permettant de rendre un modèle entraîné disponible pour fournir des prédictions via une inférence en ligne ou une inférence hors connexion.

forme (Tensor)

Nombre d'éléments dans chaque dimension d'un tenseur. La forme est représentée sous la forme d'une liste d'entiers. Par exemple, le tenseur bidimensionnel suivant a une forme de [3,4]:

[[5, 7, 6, 4],
 [2, 9, 4, 8],
 [3, 6, 5, 1]]

TensorFlow utilise le format à partir des lignes (style C) pour représenter l'ordre des dimensions. C'est pourquoi la forme dans TensorFlow est [3,4] plutôt que [4,3]. En d'autres termes, dans un tenseur TensorFlow bidimensionnel, la forme est [nombre de lignes, nombre de colonnes].

Une forme statique est une forme de tenseur connue au moment de la compilation.

Une forme dynamique est inconnue au moment de la compilation et dépend donc des données d'exécution. Ce tenseur peut être représenté avec une dimension d'espace réservé dans TensorFlow, comme dans [3, ?].

segment

#TensorFlow
#GoogleCloud

Division logique de l'ensemble d'entraînement ou du modèle. En règle générale, un processus crée des fragments en divisant les exemples ou les paramètres en fragments (généralement) de taille égale. Chaque fragment est ensuite attribué à une machine différente.

Le partitionnement d'un modèle est appelé parallélisme de modèle, tandis que le partitionnement de données est appelé parallélisme de données.

rétrécissement

#df

Hyperparamètre dans le boosting par gradient qui contrôle l'surajustement. La rétraction dans le boosting par gradient est analogue au taux d'apprentissage dans la descente de gradient. Le rétrécissement est une valeur décimale comprise entre 0,0 et 1,0. Une valeur de rétrécissement plus faible réduit le surajustement plus qu'une valeur de rétrécissement plus élevée.

fonction sigmoïde

#fundamentals

Fonction mathématique qui "écrase" une valeur d'entrée dans une plage contrainte, généralement de 0 à 1 ou de -1 à +1. Autrement dit, vous pouvez transmettre n'importe quel nombre (deux, un million, un milliard négatif, etc.) à une fonction sigmoïde, et la sortie restera dans la plage contrainte. Un graphique de la fonction d'activation sigmoïde se présente comme suit:

Graphique courbe à deux dimensions dont les valeurs x couvrent la plage allant de l&#39;infini négatif à l&#39;infini positif, tandis que les valeurs y couvrent la plage allant presque de 0 à 1. Lorsque x est égal à 0, y est égal à 0,5. La pente de la courbe est toujours positive, avec la pente la plus élevée à 0,0,5 et des pentes diminuant progressivement à mesure que la valeur absolue de x augmente.

La fonction sigmoïde a plusieurs utilisations dans le machine learning, par exemple:

mesure de similarité

#clustering

Dans les algorithmes de clustering, la métrique permettant de déterminer le degré de similarité entre deux exemples.

Programme unique / Données multiples (SPMD)

Technique de parallélisme dans laquelle le même calcul est exécuté en parallèle sur différents appareils avec différentes données d'entrée. L'objectif de SPMD est d'obtenir des résultats plus rapidement. Il s'agit du style de programmation parallèle le plus courant.

invariance par redimensionnement

#image

Dans un problème de classification d'images, capacité d'un algorithme à classer correctement les images, même lorsque leur taille change. Par exemple, l'algorithme peut identifier un chat, qu'il consomme 2 millions de pixels ou 200 000 pixels. Notez que même les meilleurs algorithmes de classification d'images présentent encore des limites pratiques au niveau de l'invariance par redimensionnement. Par exemple, il est peu probable qu'un algorithme (ou une personne) puisse classer correctement une image de chat de seulement 20 pixels.

Consultez également les pages invariance de translation et invariance de rotation.

croquis

#clustering

Dans le machine learning non supervisé, une catégorie d'algorithmes qui effectuent une analyse de similarité préliminaire sur les exemples. Les algorithmes de similarité approximative utilisent une fonction de hachage sensible à la localité pour identifier les points potentiellement similaires, puis les regroupent dans des ensembles.

La similarité approximative diminue la quantité de calcul requise pour les calculs de similarité sur les grands ensembles de données. Au lieu de calculer la similarité pour chaque paire d'exemples dans l'ensemble de données, nous la calculons uniquement pour chaque paire de points de chaque ensemble.

skip-gram

#language

N-gramme pouvant omettre (ou "sauter") des mots du contexte d'origine, ce qui signifie que les N mots n'étaient peut-être pas initialement adjacents. Plus précisément, un "k-skip-n-gram" est un n-gramme pour lequel jusqu'à k mots peuvent avoir été ignorés.

Par exemple, "the quick brown fox" présente les bigrammes suivants:

  • "the quick"
  • "quick brown"
  • "renard brun"

Un "1-skip-2-gram" est une paire de mots séparés par un maximum d'un mot. Par conséquent, "the quick brown fox" comporte les bigrammes à saut 1 suivants:

  • "the brown"
  • "quick fox"

De plus, tous les bigrammes sont également des bigrammes à saut unique, car un seul mot peut être ignoré.

Les skip-grams sont utiles pour mieux comprendre le contexte entourant un mot. Dans l'exemple, "renard" était directement associé à "rapide" dans l'ensemble des bigrammes à saut 1, mais pas dans l'ensemble des bigrammes.

Les skip-grams permettent d'entraîner des modèles d'embedding de mots.

softmax

#fundamentals

Fonction qui détermine les probabilités pour chaque classe possible dans un modèle de classification à classes multiples. La somme des probabilités est exactement égale à 1,0. Par exemple, le tableau suivant montre comment la fonction softmax distribue différentes probabilités:

L'image est un... Probabilité
chien 0,85
cat .13
cheval 0,02

La fonction softmax est également appelée softmax complet.

À comparer à l'échantillonnage de candidats.

réglage des requêtes douces

#language
#generativeAI

Technique permettant d'ajuster un grand modèle de langage pour une tâche spécifique, sans ajustement précis particulièrement gourmand en ressources. Au lieu de réentraîner tous les poids du modèle, l'ajustement doux de la requête ajuste automatiquement une requête pour atteindre le même objectif.

Lorsqu'une requête textuelle est fournie, le réglage de la requête douce ajoute généralement des embeddings de jetons supplémentaires à la requête et utilise la rétropropagation pour optimiser l'entrée.

Une requête "dure" contient des jetons réels au lieu d'embeddings de jetons.

caractéristique creuse

#language
#fundamentals

Élément géographique dont les valeurs sont pour la plupart nulles ou vides. Par exemple, une fonctionnalité contenant une seule valeur 1 et un million de valeurs 0 est sporadique. À l'inverse, une entité dense a des valeurs qui ne sont pas principalement nulles ou vides.

En machine learning, un nombre surprenant de caractéristiques sont des caractéristiques peu denses. Les caractéristiques catégorielles sont généralement des caractéristiques peu denses. Par exemple, parmi les 300 espèces d'arbres possibles dans une forêt, un seul exemple peut n'identifier qu'un érable. Par exemple, parmi les millions de vidéos possibles dans une bibliothèque vidéo, un seul exemple peut identifier "Casablanca".

Dans un modèle, vous représentez généralement des caractéristiques creuses avec un encodage one-hot. Si l'encodage one-hot est volumineux, vous pouvez placer une couche d'encapsulation au-dessus de l'encodage one-hot pour plus d'efficacité.

représentation creuse

#language
#fundamentals

Stocker uniquement la ou les positions des éléments non nuls dans une fonctionnalité sporadique.

Par exemple, supposons qu'une caractéristique catégorielle nommée species identifie les 36 espèces d'arbres d'une forêt donnée. Supposons également que chaque exemple n'identifie qu'une seule espèce.

Vous pouvez utiliser un vecteur à valeurs uniques pour représenter les espèces d'arbres dans chaque exemple. Un vecteur one-hot contiendrait un seul 1 (pour représenter l'espèce d'arbre particulière dans cet exemple) et 35 0 (pour représenter les 35 espèces d'arbres non dans cet exemple). Ainsi, la représentation one-hot de maple peut ressembler à ceci:

Vecteur dans lequel les positions 0 à 23 contiennent la valeur 0, la position 24 la valeur 1 et les positions 25 à 35 la valeur 0.

En revanche, une représentation sporadique identifie simplement la position de l'espèce en question. Si maple se trouve à la position 24, la représentation creuse de maple est simplement la suivante:

24

Notez que la représentation sparse est beaucoup plus compacte que la représentation one-hot.

vecteur creux

#fundamentals

Vecteur dont les valeurs sont principalement nulles. Voir également caractéristique creuse et parcimonie.

parcimonie

Nombre d'éléments définis sur zéro (ou nuls) dans un vecteur ou une matrice, divisé par le nombre total d'entrées de ce vecteur ou de cette matrice. Prenons l'exemple d'une matrice de 100 éléments dans laquelle 98 cellules contiennent zéro. La formule permettant de calculer la parcimonie est la suivante:

$$ {\text{sparsity}} = \frac{\text{98}} {\text{100}} = {\text{0.98}} $$

La spaticité des caractéristiques fait référence à la sparsité d'un vecteur de caractéristiques. La spaticité du modèle fait référence à la sparsité des poids du modèle.

pooling spatial

#image

Voir pooling.

split

#df

Dans un arbre de décision, autre nom d'une condition.

séparateur

#df

Lors de l'entraînement d'un arbre de décision, routine (et algorithme) chargée de trouver la meilleure condition à chaque nœud.

SPMD

Abréviation de single program/multiple data (programme unique/données multiples).

marge maximale quadratique

Carré de la perte de marge maximale. La perte de marge maximale quadratique pénalise les valeurs aberrantes plus sévèrement que la perte de marge maximale classique.

perte quadratique

#fundamentals

Synonyme de perte L2.

entraînement par étapes

#language

Stratégie consistant à entraîner un modèle dans une séquence d'étapes distinctes. L'objectif peut être d'accélérer le processus d'entraînement ou d'obtenir une meilleure qualité de modèle.

Vous trouverez ci-dessous une illustration de l'approche d'empilement progressif:

  • L'étape 1 contient trois couches cachées, l'étape 2 contient six couches cachées et l'étape 3 contient 12 couches cachées.
  • L'étape 2 commence l'entraînement avec les poids appris dans les trois couches cachées de l'étape 1. L'étape 3 commence l'entraînement avec les poids appris dans les six couches cachées de l'étape 2.

Trois étapes, intitulées Étape 1, Étape 2 et Étape 3.
          Chaque étape contient un nombre différent de couches: l&#39;étape 1 contient trois couches, l&#39;étape 2 en contient six et l&#39;étape 3 en contient 12.
          Les trois couches de l&#39;étape 1 deviennent les trois premières couches de l&#39;étape 2.
          De même, les six couches de l&#39;étape 2 deviennent les six premières couches de l&#39;étape 3.

Voir également pipeline.

state

#rl

Dans l'apprentissage par renforcement, valeurs de paramètre qui décrivent la configuration actuelle de l'environnement, que l'agent utilise pour choisir une action.

fonction de valeur d'état-action

#rl

Synonyme de fonction Q.

static

#fundamentals

Action effectuée une seule fois plutôt que de manière continue. Les termes statique et hors connexion sont synonymes. Voici des utilisations courantes de l'apprentissage automatique statique et hors connexion:

  • Un modèle statique (ou modèle hors connexion) est un modèle entraîné une fois, puis utilisé pendant un certain temps.
  • L'entraînement statique (ou entraînement hors connexion) consiste à entraîner un modèle statique.
  • L'inférence statique (ou inférence hors connexion) est un processus au cours duquel un modèle génère un lot de prédictions à la fois.

À comparer au dynamique.

inférence statique

#fundamentals

Synonyme de inférence hors connexion.

stationnarité

#fundamentals

Élément dont les valeurs ne changent pas pour une ou plusieurs dimensions, généralement le temps. Par exemple, une caractéristique dont les valeurs sont à peu près identiques en 2021 et en 2023 présente une stationnarité.

Dans la réalité, très peu de caractéristiques présentent une stationnarité. Même les caractéristiques synonymes de stabilité (comme le niveau de la mer) changent au fil du temps.

À comparer à la non-stationnarité.

étape

Une propagation avant et une rétropropagation d'un lot.

Pour en savoir plus sur la propagation avant et arrière, consultez la section backpropagation.

taille de pas

Synonyme de taux d'apprentissage.

descente de gradient stochastique (SGD)

#fundamentals

Algorithme de descente de gradient dans lequel la taille de lot est égale à un. Autrement dit, la descente de gradient stochastique s'entraîne sur un seul exemple choisi uniformément, de manière aléatoire, dans un ensemble d'entraînement.

stride

#image

Dans une opération convolutive ou un pooling, le delta dans chaque dimension de la série suivante de tranches d'entrée. Par exemple, l'animation suivante montre une longueur de foulée (1,1) lors d'une opération de convolution. Par conséquent, le prochain segment d'entrée commence à une position à droite du segment d'entrée précédent. Lorsque l'opération atteint le bord droit, le segment suivant est tout à gauche, mais une position plus bas.

Matrice d&#39;entrée 5x5 et filtre convolutif 3x3. Étant donné que la longueur de la marche est (1,1), un filtre convolutif sera appliqué neuf fois. La première tranche de convolution évalue la sous-matrice 3x3 en haut à gauche de la matrice d&#39;entrée. La deuxième tranche évalue la sous-matrice 3x3 en haut au milieu. La troisième tranche de convolution évalue la sous-matrice 3x3 en haut à droite.  La quatrième tranche évalue la sous-matrice 3x3 du milieu gauche.
     La cinquième tranche évalue la sous-matrice centrale de 3 x 3. La sixième tranche évalue la sous-matrice 3x3 au milieu à droite. La septième tranche évalue la sous-matrice 3x3 en bas à gauche.  La huitième tranche évalue la sous-matrice 3x3 en bas au milieu. La neuvième tranche évalue la sous-matrice 3x3 en bas à droite.

L'exemple précédent illustre une longueur de pas bidimensionnelle. Si la matrice d'entrée est tridimensionnelle, le pas est également tridimensionnel.

minimisation du risque structurel (SRM)

Algorithme qui concilie les deux objectifs suivants:

  • Créer le modèle prédictif le plus efficace (par exemple, perte la plus faible)
  • Créer un modèle aussi simple que possible (par exemple, forte régularisation)

Par exemple, une fonction qui minimise la perte et effectue la régularisation sur l'ensemble d'entraînement est un algorithme de minimisation du risque structurel.

À comparer à la minimisation du risque empirique.

sous-échantillonnage

#image

Voir pooling.

jeton de sous-mot

#language

Dans les modèles de langage, jeton qui est une sous-chaîne d'un mot, qui peut être l'ensemble du mot.

Par exemple, un mot comme "énumérer" peut être divisé en "élément" (un mot racine) et "iser" (un suffixe), chacun étant représenté par son propre jeton. En divisant les mots inhabituels en éléments tels que des sous-mots, les modèles de langage peuvent fonctionner sur les parties constituantes les plus courantes du mot, telles que les préfixes et les suffixes.

À l'inverse, les mots courants comme "aller" peuvent ne pas être divisés et être représentés par un seul jeton.

résumé

#TensorFlow

Dans TensorFlow, valeur ou ensemble de valeurs calculées à un pas donné, généralement utilisé pour effectuer le suivi des métriques du modèle pendant l'entraînement.

machine learning supervisé

#fundamentals

Entraînement d'un modèle à partir de caractéristiques et de leurs libellés correspondants. Le machine learning supervisé est comparable à l'apprentissage d'un sujet en étudiant une série de questions et les réponses correspondantes. Une fois qu'un élève a maîtrisé la mise en correspondance des questions et des réponses, il peut fournir des réponses à de nouvelles questions (jamais vues auparavant) sur le même sujet.

À comparer au machine learning non supervisé.

caractéristique synthétique

#fundamentals

Élément absent des éléments d'entrée, mais assemblé à partir d'un ou de plusieurs d'entre eux. Les méthodes de création de fonctionnalités synthétiques incluent les suivantes:

  • Binning d'une caractéristique continue dans des paquets de plage
  • Créer un croisement de caractéristiques
  • Multiplication (ou division) d'une caractéristique par d'autres caractéristiques ou par elle-même Par exemple, si a et b sont des éléments d'entrée, voici des exemples de caractéristiques synthétiques :
    • ab
    • a2
  • Application d'une fonction transcendantale à une valeur d'élément géographique. Par exemple, si c est une fonctionnalité d'entrée, voici des exemples de fonctionnalités synthétiques :
    • sin(c)
    • ln(c)

Les caractéristiques créées par normalisation ou mise à l'échelle seules ne sont pas considérées comme des caractéristiques synthétiques.

T

T5

#language

Modèle de transfert d'apprentissage texte-texte introduit par Google AI en 2020. T5 est un modèle encodeur-décodeur, basé sur l'architecture Transformer, entraîné sur un ensemble de données extrêmement volumineux. Il est efficace pour diverses tâches de traitement du langage naturel, telles que la génération de texte, la traduction de langues et la réponse à des questions de manière conversationnelle.

Le nom T5 vient des cinq T de "Text-to-Text Transfer Transformer" (transformateur de transfert texte-vers-texte).

T5X

#language

Framework de machine learning Open Source conçu pour créer et entraîner des modèles de traitement du langage naturel (TLN) à grande échelle. T5 est implémenté sur le codebase T5X (basé sur JAX et Flax).

apprentissage Q tabulaire

#rl

Dans le apprentissage par renforcement, implémentation du Q-learning à l'aide d'un tableau pour stocker les fonctions Q pour chaque combinaison d'état et d'action.

cible

Synonyme de libellé.

réseau cible

#rl

Dans l'apprentissage Q profond, réseau de neurones qui est une approximation stable du réseau de neurones principal, où le réseau de neurones principal implémente une fonction Q ou une stratégie. Vous pouvez ensuite entraîner le réseau principal sur les valeurs Q prédites par le réseau cible. Vous évitez ainsi la boucle de rétroaction qui se produit lorsque le réseau principal s'entraîne sur des valeurs Q prédites par lui-même. En évitant ces retours, la stabilité de l'entraînement est améliorée.

opération

Problème pouvant être résolu à l'aide de techniques de machine learning, par exemple:

température

#language
#image
#generativeAI

Hyperparamètre qui contrôle le degré de hasard de la sortie d'un modèle. Des températures plus élevées entraînent des sorties plus aléatoires, tandis que des températures plus basses entraînent des sorties moins aléatoires.

Le choix de la meilleure température dépend de l'application spécifique et des propriétés préférées de la sortie du modèle. Par exemple, vous augmenterez probablement la température lorsque vous créerez une application qui génère des résultats créatifs. À l'inverse, vous devriez probablement baisser la température lorsque vous créez un modèle qui classe des images ou du texte afin d'améliorer sa précision et sa cohérence.

La température est souvent utilisée avec la fonction softmax.

données temporelles

Données enregistrées à différents moments. Par exemple, les ventes de manteaux d'hiver enregistrées pour chaque jour de l'année sont des données temporelles.

Tensor

#TensorFlow

Structure de données principale des programmes TensorFlow. Les tenseurs sont des structures de données à N dimensions (où N peut être très grand), le plus souvent des scalaires, des vecteurs ou des matrices. Les éléments d'un Tensor peuvent contenir des valeurs de type entier, à virgule flottante ou chaîne.

TensorBoard

#TensorFlow

Tableau de bord qui affiche les résumés enregistrés lors de l'exécution d'un ou de plusieurs programmes TensorFlow.

TensorFlow

#TensorFlow

Plate-forme étendue distribuée de machine learning. Le terme fait également référence à la couche d'API de base de la pile TensorFlow, qui prend en charge le calcul général sur les graphiques de flux de données.

Bien que TensorFlow soit principalement utilisé pour le machine learning, vous pouvez également l'utiliser pour des tâches autres que le ML qui nécessitent des calculs numériques à l'aide de graphiques de flux de données.

TensorFlow Playground

#TensorFlow

Programme qui visualise l'influence de différents hyperparamètres sur l'entraînement d'un modèle (principalement un réseau de neurones). Pour découvrir TensorFlow Playground, rendez-vous sur le site http://playground.tensorflow.org.

TensorFlow Serving

#TensorFlow

Plate-forme permettant de déployer des modèles entraînés en production.

Tensor Processing Unit (TPU)

#TensorFlow
#GoogleCloud

Circuit intégré spécifique à une application (ASIC) qui optimise les performances des charges de travail de machine learning. Ces ASIC sont déployés sous forme de plusieurs puces TPU sur un appareil TPU.

rang de Tensor

#TensorFlow

Voir rang (Tensor).

Forme de Tensor

#TensorFlow

Nombre d'éléments d'un Tensor dans différentes dimensions. Par exemple, un tenseur [5, 10] a une forme de 5 dans une dimension et de 10 dans une autre.

Taille du tenseur

#TensorFlow

Nombre total de grandeurs scalaires d'un Tensor. Par exemple, la taille d'un Tensor [5, 10] est de 50.

TensorStore

Bibliothèque permettant de lire et d'écrire efficacement de grands tableaux multidimensionnels.

condition de fin

#rl

Dans le apprentissage par renforcement, conditions qui déterminent quand un épisode se termine, par exemple lorsque l'agent atteint un certain état ou dépasse un nombre seuil de transitions d'état. Par exemple, au tic-tac-toe (également appelé "morpion"), un épisode se termine lorsqu'un joueur marque trois cases consécutives ou lorsque toutes les cases sont marquées.

test

#df

Dans un arbre de décision, autre nom d'une condition.

perte de test

#fundamentals

Métrique représentant la perte d'un modèle par rapport à l'ensemble de test. Lorsque vous créez un modèle, vous essayez généralement de minimiser la perte de test. En effet, une faible perte de test est un signal de qualité plus fort qu'une faible perte d'entraînement ou une faible perte de validation.

Un écart important entre la perte de test et la perte d'entraînement ou de validation suggère parfois que vous devez augmenter le taux de régularisation.

ensemble de test

Sous-ensemble de l'ensemble de données réservé au test d'un modèle entraîné.

Traditionnellement, vous divisez les exemples de l'ensemble de données en trois sous-ensembles distincts:

Chaque exemple d'un ensemble de données ne doit appartenir qu'à l'un des sous-ensembles précédents. Par exemple, un seul exemple ne doit pas appartenir à la fois à l'ensemble d'entraînement et à l'ensemble de test.

L'ensemble d'entraînement et l'ensemble de validation sont tous deux étroitement liés à l'entraînement d'un modèle. Étant donné que l'ensemble de test n'est associé qu'indirectement à l'entraînement, la perte de test est une métrique moins biaisée et de meilleure qualité que la perte d'entraînement ou la perte de validation.

étendue de texte

#language

Intervalle d'indice de tableau associé à une sous-section spécifique d'une chaîne de texte. Par exemple, le mot good dans la chaîne Python s="Be good now" occupe la plage de texte de 3 à 6.

tf.Example

#TensorFlow

Protocol Buffer standard pour la description des données d'entrée, pour l'inférence ou l'entraînement d'un modèle de machine learning.

tf.keras

#TensorFlow

Implémentation de Keras intégrée à TensorFlow.

seuil (pour les arbres de décision)

#df

Dans une condition alignée sur l'axe, valeur à laquelle une entité est comparée. Par exemple, 75 est la valeur de seuil dans la condition suivante:

grade >= 75

analyse de séries temporelles

#clustering

Sous-domaine du machine learning et de la statistique qui analyse les données temporelles. De nombreux types de problèmes de machine learning nécessitent une analyse de séries temporelles, y compris la classification, le clustering, la prévision et la détection d'anomalies. Vous pouvez par exemple utiliser l'analyse de séries temporelles pour prédire les ventes mensuelles de manteaux d'hiver à partir des données de vente historiques.

pas de temps

#seq

Une cellule "déroulée" dans un réseau de neurones récurrent. Par exemple, la figure suivante montre trois étapes temporelles (étiquetées avec les indices t-1, t et t+1):

Trois étapes temporelles dans un réseau de neurones récurrent. La sortie du premier pas de temps devient l&#39;entrée du deuxième pas de temps. La sortie du deuxième pas de temps devient l&#39;entrée du troisième pas de temps.

jeton

#language

Dans un modèle de langage, unité atomique sur laquelle le modèle effectue l'entraînement et les prédictions. Un jeton est généralement l'un des éléments suivants:

  • un mot : par exemple, l'expression "chiens aiment les chats" se compose de trois jetons de mot : "chiens", "aiment" et "chats".
  • un caractère (par exemple, l'expression "bike fish" se compose de neuf jetons de caractères). (Notez que l'espace vide compte comme l'un des jetons.)
  • sous-mots, dans lesquels un seul mot peut être un seul jeton ou plusieurs jetons. Un sous-mot se compose d'un mot racine, d'un préfixe ou d'un suffixe. Par exemple, un modèle de langage qui utilise des sous-mots comme jetons peut considérer le mot "chiens" comme deux jetons (le mot racine "chien" et le suffixe au pluriel "s"). Ce même modèle de langage peut considérer le mot unique "plus grand" comme deux sous-mots (le mot racine "grand" et le suffixe "er").

Dans les domaines autres que les modèles de langage, les jetons peuvent représenter d'autres types d'unités atomiques. Par exemple, dans les applications de vision par ordinateur, un jeton peut être un sous-ensemble d'une image.

Précision top-k

#language

Pourcentage de fois où un "libellé cible" apparaît dans les premières k positions des listes générées. Il peut s'agir de recommandations personnalisées ou d'une liste d'éléments triés par softmax.

La précision top-k est également appelée précision à k.

tour

Composant d'un réseau de neurones profond qui est lui-même un réseau de neurones profond. Dans certains cas, chaque tour lit à partir d'une source de données indépendante, et ces tours restent indépendantes jusqu'à ce que leur sortie soit combinée dans une couche finale. Dans d'autres cas (par exemple, dans la tour de l'encodeur et du décodeur de nombreux transformateurs), les tours sont interconnectées.

toxique

#language

Le degré d'abus, de menace ou d'incitation à la haine du contenu De nombreux modèles de machine learning peuvent identifier et mesurer la toxicité. La plupart de ces modèles identifient la toxicité en fonction de plusieurs paramètres, tels que le niveau de langage abusif et le niveau de langage menaçant.

TPU

#TensorFlow
#GoogleCloud

Abréviation de Tensor Processing Unit.

Puce TPU

#TensorFlow
#GoogleCloud

Accélérateur d'algèbre linéaire programmable avec une mémoire à bande passante élevée sur puce optimisée pour les charges de travail de machine learning. Plusieurs puces TPU sont déployées sur un appareil TPU.

Appareil TPU

#TensorFlow
#GoogleCloud

Carte de circuit imprimé (PCB) avec plusieurs puces TPU, des interfaces réseau à bande passante élevée et du matériel de refroidissement du système.

maître TPU

#TensorFlow
#GoogleCloud

Processus de coordination central exécuté sur une machine hôte qui échange (envoie et reçoit) des données, des résultats, des programmes, des performances et des informations sur l'état du système avec les workers TPU. Le maître TPU gère également la configuration et l'arrêt des appareils TPU.

Nœud TPU

#TensorFlow
#GoogleCloud

Ressource TPU sur Google Cloud avec un type de TPU spécifique. Le nœud TPU se connecte à votre réseau VPC à partir d'un réseau VPC homologue. Les nœuds TPU sont une ressource définie dans l'API Cloud TPU.

Pod TPU

#TensorFlow
#GoogleCloud

Configuration spécifique des appareils TPU dans un centre de données Google. Tous les appareils d'un pod TPU sont interconnectés sur un réseau haut débit dédié. Un pod TPU est la plus grande configuration d'appareils TPU disponible pour une version de TPU spécifique.

Ressource TPU

#TensorFlow
#GoogleCloud

Entité TPU sur Google Cloud que vous créez, gérez ou consommez. Par exemple, les nœuds TPU et les types de TPU sont des ressources TPU.

Tranche TPU

#TensorFlow
#GoogleCloud

Une tranche TPU est une partie fractionnaire des appareils TPU d'un pod TPU. Tous les appareils d'une tranche TPU sont interconnectés sur un réseau haut débit dédié.

Type de TPU

#TensorFlow
#GoogleCloud

Configuration d'un ou de plusieurs appareils TPU avec une version matérielle TPU spécifique. Vous sélectionnez un type de TPU lorsque vous créez un nœud TPU sur Google Cloud. Par exemple, un type de TPU v2-8 correspond à un seul appareil TPU v2 avec huit cœurs. Un type de TPU v3-2048 comporte 256 appareils TPU v3 en réseau et un total de 2 048 cœurs. Les types de TPU sont une ressource définie dans l'API Cloud TPU.

Nœud de calcul TPU

#TensorFlow
#GoogleCloud

Processus qui s'exécute sur une machine hôte et exécute des programmes de machine learning sur des appareils TPU.

entraînement

#fundamentals

Processus consistant à déterminer les paramètres idéaux (pondérations et biais) d'un modèle. Pendant l'entraînement, un système lit des exemples et ajuste progressivement les paramètres. L'entraînement utilise chaque exemple de quelques fois à des milliards de fois.

perte d'entraînement

#fundamentals

Métrique représentant la perte d'un modèle lors d'une itération d'entraînement spécifique. Par exemple, supposons que la fonction de perte soit l'erreur quadratique moyenne. La perte d'entraînement (l'erreur quadratique moyenne) pour la 10e itération est peut-être de 2,2, et la perte d'entraînement pour la 100e itération est de 1,9.

Une courbe de perte représente la perte d'entraînement en fonction du nombre d'itérations. Une courbe de perte fournit les indications suivantes sur l'entraînement:

  • Une pente descendante implique que le modèle s'améliore.
  • Une pente ascendante implique que le modèle se dégrade.
  • Une pente plate implique que le modèle a atteint la convergence.

Par exemple, la courbe de perte suivante, quelque peu idéalisée, montre:

  • Une pente descendante abrupte lors des itérations initiales, ce qui implique une amélioration rapide du modèle.
  • Une pente progressivement aplatie (mais toujours à la baisse) jusqu'à la fin de l'entraînement, ce qui implique une amélioration continue du modèle à un rythme un peu plus lent que lors des itérations initiales.
  • Une pente plate vers la fin de l'entraînement, ce qui suggère une convergence.

Graphique de la perte d&#39;entraînement par rapport aux itérations. Cette courbe de perte commence par une pente descendante abrupte. La pente s&#39;aplatit progressivement jusqu&#39;à ce qu&#39;elle devienne nulle.

Bien que la perte d'entraînement soit importante, consultez également la généralisation.

Décalage entraînement/mise en service

#fundamentals

Différence entre les performances d'un modèle lors de l'entraînement et celles de ce même modèle lors de la diffusion.

ensemble d'entraînement

#fundamentals

Sous-ensemble de l'ensemble de données utilisé pour entraîner un modèle.

Traditionnellement, les exemples de l'ensemble de données sont divisés en trois sous-ensembles distincts:

Idéalement, chaque exemple de l'ensemble de données ne doit appartenir qu'à l'un des sous-ensembles précédents. Par exemple, un seul exemple ne doit pas appartenir à la fois à l'ensemble d'entraînement et à l'ensemble de validation.

trajectoire

#rl

Dans le apprentissage par renforcement, séquence de tuples représentant une séquence de transitions d'état de l'agent, où chaque tuple correspond à l'état, à l'action, à la récompense et à l'état suivant pour une transition d'état donnée.

apprentissage par transfert

Transférer des informations d'une tâche de machine learning à une autre Par exemple, dans un apprentissage multitâche, un seul modèle résout plusieurs tâches. C'est le cas des modèles profonds, qui ont différents nœuds de sortie pour différentes tâches. L'apprentissage par transfert peut impliquer de transférer des connaissances de la solution d'une tâche plus simple vers une tâche plus complexe, ou de transférer des connaissances d'une tâche où il y a plus de données vers une tâche où il y en a moins.

La plupart des systèmes de machine learning ne résolvent qu'une tâche. L'apprentissage par transfert est un premier pas vers l'intelligence artificielle, dans lequel un seul programme peut résoudre plusieurs tâches.

Transformer

#language

Architecture de réseau de neurones développée chez Google, qui s'appuie sur des mécanismes d'attention sélective pour transformer une séquence d'embeddings d'entrée en séquence d'embeddings de sortie sans s'appuyer sur des convolutions ni sur des réseaux de neurones récurrents. Un Transformer peut être considéré comme une pile de couches d'auto-attention.

Un transformateur peut inclure l'un des éléments suivants:

Un encodeur transforme une séquence d'embeddings en une nouvelle séquence de la même longueur. Un encodeur comprend N couches identiques, chacune contenant deux sous-couches. Ces deux sous-couches sont appliquées à chaque position de la séquence d'encapsulation d'entrée, transformant chaque élément de la séquence en un nouvel encapsulage. La première sous-couche de l'encodeur agrège les informations de la séquence d'entrée. La deuxième sous-couche de l'encodeur transforme les informations agrégées en un vecteur d'encapsulation de sortie.

Un décodeur transforme une séquence d'embeddings d'entrée en une séquence d'embeddings de sortie, éventuellement de longueur différente. Un décodeur comprend également N couches identiques avec trois sous-couches, dont deux sont similaires aux sous-couches de l'encodeur. La troisième sous-couche du décodeur prend la sortie de l'encodeur et applique le mécanisme d'auto-attention pour en extraire des informations.

L'article de blog Transformer: une nouvelle architecture de réseau de neurones pour la compréhension du langage fournit une bonne introduction aux Transformers.

invariance par translation

#image

Dans un problème de classification d'images, capacité d'un algorithme à classer correctement les images, même lorsque la position des objets dans l'image change. Par exemple, l'algorithme peut identifier un chien comme tel, qu'il se trouve au centre ou à gauche de l'image.

Consultez également les sections Invariance de taille et Invariance de rotation.

trigramme

#seq
#language

Un N-gramme dans lequel N=3.

vrai négatif (VN)

#fundamentals

Exemple dans lequel le modèle prédit correctement la classe négative. Par exemple, le modèle déduit qu'un e-mail particulier n'est pas du spam, et qu'il n'est pas du spam.

vrai positif (VP)

#fundamentals

Exemple dans lequel le modèle prédit correctement la classe positive. Par exemple, le modèle déduit qu'un e-mail particulier est du spam, ce qui était bien le cas.

taux de vrais positifs (TVP) (true positive rate (TPR))

#fundamentals

Synonyme de rappel. Par exemple :

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

Le taux de vrais positifs correspond à l'ordonnée d'une courbe ROC.

U

ignorance (d'un attribut sensible)

#fairness

Situation dans laquelle des attributs sensibles sont présents, mais pas inclus dans les données d'entraînement. Étant donné que les attributs sensibles sont souvent corrélés à d'autres attributs des données, un modèle entraîné sans connaissance d'un attribut sensible peut toujours avoir un impact différent par rapport à cet attribut ou ne pas respecter d'autres contraintes d'équité.

sous-apprentissage

#fundamentals

Produire un modèle dont la capacité de prédiction est faible, car il n'a pas entièrement saisi la complexité des données d'entraînement. De nombreux problèmes peuvent causer un sous-apprentissage, y compris:

sous-échantillonnage

Suppression d'exemples de la classe majoritaire dans un ensemble de données déséquilibré afin de créer un ensemble d'entraînement plus équilibré.

Par exemple, considérons un ensemble de données dans lequel le ratio de la classe majoritaire sur la classe minoritaire est de 20:1. Pour remédier à cet déséquilibre de classes, vous pouvez créer un ensemble d'entraînement composé de tous les exemples de la classe minoritaire, mais seulement d'un dixième des exemples de la classe majoritaire, ce qui créerait un ratio de classes dans l'ensemble d'entraînement de 2:1. Grâce au sous-échantillonnage, cet ensemble d'entraînement plus équilibré peut produire un meilleur modèle. En revanche, cet ensemble d'entraînement plus équilibré peut ne pas contenir suffisamment d'exemples pour entraîner un modèle efficace.

À comparer à l'échantillonnage excessif.

unidirectionnel

#language

Système qui n'évalue que le texte qui précède une section cible de texte. À l'inverse, un système bidirectionnel évalue à la fois le texte qui précède et suit une section cible de texte. Pour en savoir plus, consultez la section bidirectionnel.

modèle de langage unidirectionnel

#language

Modèle de langage qui ne base ses probabilités que sur les jetons qui apparaissent avant, et non après, le ou les jetons cibles. À comparer au modèle de langage bidirectionnel.

exemple sans étiquette

#fundamentals

Exemple contenant des éléments géographiques, mais aucune étiquette. Par exemple, le tableau suivant présente trois exemples non libellés d'un modèle d'évaluation de maison, chacun avec trois caractéristiques, mais sans valeur de la maison:

Nombre de chambres Nombre de salles de bain Âge de la maison
3 2 15
2 1 72
4 2 34

Dans le machine learning supervisé, les modèles sont entraînés sur des exemples étiquetés et effectuent des prédictions sur des exemples non étiquetés.

Dans l'apprentissage semi-supervisé et non supervisé, des exemples sans étiquette sont utilisés pendant l'entraînement.

Comparez l'exemple sans étiquette à l'exemple étiqueté.

machine learning non supervisé

#clustering
#fundamentals

Entraînement d'un modèle pour détecter des schémas dans un ensemble de données, généralement sans étiquette.

Le machine learning non supervisé est surtout utilisé pour regrouper les données dans des clusters d'exemples similaires. Par exemple, un algorithme d'apprentissage automatique non supervisé peut regrouper des titres en fonction de diverses propriétés de la musique. Les clusters qui en résultent peuvent devenir une entrée pour d'autres algorithmes de machine learning (par exemple, pour un service de recommandation musicale). Le clustering peut être utile lorsque les libellés utiles sont rares ou absents. Par exemple, dans les domaines tels que la lutte contre les abus et la fraude, les clusters peuvent aider à mieux comprendre les données.

À comparer au machine learning supervisé.

modélisation de l'amélioration

Technique de modélisation couramment utilisée dans le marketing, qui modélise l'"effet causal" (également appelé "impact incrémentiel") d'un "traitement" sur un "individu". Voici deux exemples :

  • Les médecins peuvent utiliser la modélisation de l'impact positif pour prédire la diminution de la mortalité (effet causal) d'une procédure médicale (traitement) en fonction de l'âge et des antécédents médicaux d'un patient (individu).
  • Les marketeurs peuvent utiliser la modélisation de l'amélioration pour prédire l'augmentation de la probabilité d'un achat (effet causal) due à une annonce (traitement) sur une personne (individu).

La modélisation de l'impact diffère de la classification ou de la régression en ce sens que certaines étiquettes (par exemple, la moitié des étiquettes dans les traitements binaires) sont toujours manquantes dans la modélisation de l'impact. Par exemple, un patient peut recevoir ou non un traitement. Par conséquent, nous ne pouvons observer si le patient va guérir ou non que dans l'une de ces deux situations (mais jamais dans les deux). L'avantage principal d'un modèle d'impact est qu'il peut générer des prédictions pour la situation non observée (le contrefactuel) et l'utiliser pour calculer l'effet causal.

surpondération

Appliquer à la classe sous-échantillonnée une pondération égale au facteur de sous-échantillonnage.

matrice utilisateurs

#recsystems

Dans les systèmes de recommandation, vecteur d'encapsulation généré par la factorisation matricielle qui contient des signaux latents sur les préférences utilisateur. Chaque ligne de la matrice utilisateur contient des informations sur la force relative de divers signaux latents pour un seul utilisateur. Prenons l'exemple d'un système de recommandation de films. Dans ce système, les signaux latents de la matrice utilisateurs peuvent représenter l'intérêt de chaque utilisateur pour des genres particuliers, ou bien il peut s'agir de signaux plus difficiles à interpréter impliquant des interactions complexes entre plusieurs facteurs.

La matrice utilisateurs comporte une colonne pour chaque caractéristique latente et une ligne pour chaque utilisateur. C'est-à-dire que la matrice utilisateurs a le même nombre de lignes que la matrice cible qui est factorisée. Par exemple, avec un système de recommandation de films pour 1 000 000 d'utilisateurs, la matrice utilisateurs comportera 1 000 000 lignes.

V

validation

#fundamentals

Évaluation initiale de la qualité d'un modèle. La validation vérifie la qualité des prédictions d'un modèle par rapport à l'ensemble de validation.

Étant donné que l'ensemble de validation diffère de l'ensemble d'entraînement, la validation permet d'éviter le surapprentissage.

Vous pouvez considérer l'évaluation du modèle avec l'ensemble de validation comme la première série de tests et l'évaluation du modèle avec l'ensemble de test comme la deuxième série de tests.

perte de validation

#fundamentals

Métrique représentant la perte d'un modèle sur l'ensemble de validation lors d'une itération d'entraînement spécifique.

Voir également la courbe de généralisation.

ensemble de validation

#fundamentals

Sous-ensemble de l'ensemble de données qui effectue une évaluation initiale par rapport à un modèle entraîné. En règle générale, vous évaluez le modèle entraîné par rapport à l'ensemble de validation plusieurs fois avant de l'évaluer par rapport à l'ensemble de test.

Traditionnellement, vous divisez les exemples de l'ensemble de données en trois sous-ensembles distincts:

Idéalement, chaque exemple de l'ensemble de données ne doit appartenir qu'à l'un des sous-ensembles précédents. Par exemple, un seul exemple ne doit pas appartenir à la fois à l'ensemble d'entraînement et à l'ensemble de validation.

imputation de valeurs

Processus consistant à remplacer une valeur manquante par un substitut acceptable. Lorsqu'une valeur est manquante, vous pouvez soit supprimer l'exemple entier, soit utiliser l'imputation de valeur pour le récupérer.

Prenons l'exemple d'un ensemble de données contenant une fonctionnalité temperature qui est censée être enregistrée toutes les heures. Cependant, la mesure de la température n'était pas disponible à une heure donnée. Voici une section de l'ensemble de données:

Horodatage Température
1680561000 10
1680564600 12
1680568200 missing
1680571800 20
1680575400 21
1680579000 21

Un système peut supprimer l'exemple manquant ou imputer la température manquante à 12, 16, 18 ou 20, en fonction de l'algorithme d'imputation.

problème de gradient qui disparaît

#seq

Tendance des gradients des premières couches cachées de certains réseaux de neurones profonds à devenir étonnamment plats (faibles). Des gradients de plus en plus faibles entraînent des modifications de plus en plus faibles des poids sur les nœuds d'un réseau de neurones profond, ce qui entraîne peu ou pas d'apprentissage. Les modèles souffrant du problème de la disparition du gradient deviennent difficiles ou impossibles à entraîner. Les cellules de la mémoire à court terme de longue durée résolvent ce problème.

Comparez-le au problème d'explosion du gradient.

importance des variables

#df

Ensemble de scores qui indique l'importance relative de chaque caractéristique pour le modèle.

Prenons l'exemple d'un arbre de décision qui estime les prix des maisons. Supposons que cet arbre de décision utilise trois caractéristiques: la taille, l'âge et le style. Si un ensemble d'importances de variables pour les trois caractéristiques est calculé comme étant {size=5.8, age=2.5, style=4.7}, la taille est plus importante pour l'arbre de décision que l'âge ou le style.

Il existe différentes métriques d'importance des variables, qui peuvent renseigner les experts en ML sur différents aspects des modèles.

un auto-encodeur variationnel (VAE) ;

#language

Type d'autoencodeur qui exploite la divergence entre les entrées et les sorties pour générer des versions modifiées des entrées. Les auto-encodeurs variationnels sont utiles pour l'IA générative.

Les VAEs sont basés sur l'inférence variationnelle, une technique permettant d'estimer les paramètres d'un modèle de probabilité.

vecteur

Terme très complexe dont la signification varie selon les différents domaines mathématiques et scientifiques. Dans le machine learning, un vecteur possède deux propriétés:

  • Type de données: les vecteurs de machine learning contiennent généralement des nombres à virgule flottante.
  • Nombre d'éléments: il s'agit de la longueur ou de la dimension du vecteur.

Prenons l'exemple d'un vecteur de caractéristiques contenant huit nombres à virgule flottante. Ce vecteur de caractéristiques a une longueur ou dimension de huit. Notez que les vecteurs de machine learning ont souvent un nombre énorme de dimensions.

Vous pouvez représenter de nombreux types d'informations sous forme de vecteur. Exemple :

  • N'importe quelle position sur la surface de la Terre peut être représentée sous la forme d'un vecteur à deux dimensions, dont l'une correspond à la latitude et l'autre à la longitude.
  • Les prix actuels de chacune des 500 actions peuvent être représentés sous la forme d'un vecteur à 500 dimensions.
  • Une distribution de probabilité sur un nombre fini de classes peut être représentée sous la forme d'un vecteur. Par exemple, un système de classification multiclasse qui prédit l'une des trois couleurs de sortie (rouge, vert ou jaune) peut renvoyer le vecteur (0.3, 0.2, 0.5) pour signifier P[red]=0.3, P[green]=0.2, P[yellow]=0.5.

Les vecteurs peuvent être concatenatés. Par conséquent, différents supports peuvent être représentés par un seul vecteur. Certains modèles fonctionnent directement sur la concaténation de nombreux encodages one-hot.

Les processeurs spécialisés tels que les TPU sont optimisés pour effectuer des opérations mathématiques sur des vecteurs.

Un vecteur est un tenseur de rang 1.

W

Perte Wasserstein

L'une des fonctions de perte couramment utilisées dans les réseaux génératifs antagonistes, basée sur la distance de l'éleveur de terre entre la distribution des données générées et les données réelles.

weight

#fundamentals

Valeur qu'un modèle multiplie par une autre valeur. L'entraînement consiste à déterminer les pondérations idéales d'un modèle. L'inférence consiste à utiliser ces pondérations apprises pour effectuer des prédictions.

moindres carrés alternés pondérés (Weighted Alternating Least Squares (WALS))

#recsystems

Algorithme permettant de minimiser la fonction objectif lors de la factorisation matricielle dans les systèmes de recommandation, ce qui permet de sous-pondérer les exemples manquants. WALS minimise l'erreur quadratique pondérée entre la matrice d'origine et la reconstruction en corrigeant alternativement la factorisation des lignes et la factorisation des colonnes. Chacune de ces optimisations peut être résolue par l'optimisation convexe des moindres carrés. Pour en savoir plus, consultez le cours sur les systèmes de recommandation.

Somme pondérée

#fundamentals

Somme de toutes les valeurs d'entrée pertinentes multipliées par leurs pondérations correspondantes. Par exemple, supposons que les entrées pertinentes soient les suivantes:

valeur d'entrée pondération d'entrée
2 -1,3
-1 0,6
3 0,4

La somme pondérée est donc:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Une somme pondérée est l'argument d'entrée d'une fonction d'activation.

modèle wide learning

Modèle linéaire qui contient généralement un grand nombre de caractéristiques d'entrée creuses. Ce modèle est dit "large", car il s'agit d'un type particulier de réseau de neurones comportant un grand nombre d'entrées connectées directement au nœud de sortie. Les modèles larges sont souvent plus faciles à déboguer et à inspecter que les modèles profonds. Bien que les modèles larges ne puissent pas exprimer les non-linéarités via des couches cachées, ils peuvent utiliser des transformations telles que le croisement de fonctionnalités et le binning pour modéliser les non-linéarités de différentes manières.

À comparer au modèle profond.

largeur

Nombre de neurones dans une couche donnée d'un réseau de neurones.

Sagesse de la foule

#df

Idée selon laquelle la moyenne des opinions ou des estimations d'un grand groupe de personnes (la "foule") produit souvent des résultats étonnamment bons. Prenons l'exemple d'un jeu dans lequel les participants doivent deviner le nombre de bonbons enrobés dans un grand bocal. Bien que la plupart des estimations individuelles soient inexactes, la moyenne de toutes les estimations s'est avérée empiriquement étonnamment proche du nombre réel de bonbons dans le pot.

Les ensembles sont un équivalent logiciel de la sagesse de la foule. Même si des modèles individuels font des prédictions extrêmement inexactes, la moyenne des prédictions de nombreux modèles génère souvent des prédictions étonnamment bonnes. Par exemple, bien qu'un arbre de décision individuel puisse effectuer de mauvaises prédictions, une forêt de décision génère souvent de très bonnes prédictions.

embedding lexical

#language

Représentation de chaque mot d'un ensemble de mots dans un vecteur d'encapsulation, c'est-à-dire représentation de chaque mot sous la forme d'un vecteur de valeurs à virgule flottante comprises entre 0,0 et 1,0. Les mots ayant des significations similaires ont des représentations plus similaires que les mots ayant des significations différentes. Par exemple, les carottes, le céleri et les concombres ont des représentations relativement similaires, qui sont très différentes de celles d'un avion, de lunettes de soleil et de dentifrice.

X

XLA (Accelerated Linear Algebra)

Compilateur de machine learning Open Source pour les GPU, les CPU et les accélérateurs de ML.

Le compilateur XLA prend les modèles de frameworks de ML populaires tels que PyTorch, TensorFlow et JAX, et les optimise pour une exécution hautes performances sur différentes plates-formes matérielles, y compris les GPU, les processeurs et les accélérateurs de ML.

Z

apprentissage zero-shot

Type d'entraînement de machine learning dans lequel le modèle infère une prédiction pour une tâche pour laquelle il n'a pas encore été spécifiquement entraîné. En d'autres termes, le modèle ne reçoit aucun exemple d'entraînement spécifique à la tâche, mais il est invité à effectuer une inférence pour cette tâche.

requêtes zero-shot

#language
#generativeAI

Une requête qui ne fournit pas d'exemple de la façon dont vous souhaitez que le grand modèle de langage réponde. Exemple :

Composants d'une requête Remarques
Quelle est la devise officielle du pays spécifié ? La question à laquelle vous souhaitez que le LLM réponde.
Inde: Requête réelle.

Le grand modèle de langage peut répondre par l'une des réponses suivantes:

  • Roupie
  • INR
  • Roupie indienne
  • La roupie
  • Roupie indienne

Toutes les réponses sont correctes, mais vous pouvez préférer un format particulier.

Comparez les invites sans entraînement aux termes suivants:

Normalisation de la cote Z

#fundamentals

Technique de mise à l'échelle qui remplace une valeur brute de composant par une valeur à virgule flottante représentant le nombre d'écarts-types par rapport à la moyenne de ce composant. Prenons l'exemple d'une caractéristique dont la moyenne est de 800 et l'écart-type de 100. Le tableau suivant montre comment la normalisation par score Z mappe la valeur brute sur son score Z:

Valeur brute Score Z
800 0
950 +1,5
575 -2,25

Le modèle de machine learning s'entraîne ensuite sur les scores Z de cette caractéristique plutôt que sur les valeurs brutes.