Cette page a été traduite par l'API Cloud Translation.

Glossaire du machine learning

Ce glossaire définit les termes généraux liés au machine learning, ainsi que les termes spécifiques à TensorFlow.

A

ablation

Technique permettant d'évaluer l'importance d'une caractéristique ou d'un composant en le supprimant temporairement d'un modèle. Vous entraînez ensuite le modèle sans cette caractéristique ou composant. Si le modèle réentraîné est beaucoup moins performant, la caractéristique ou le composant supprimé était probablement important.

Par exemple, supposons que vous entraînez un modèle de classification sur 10 caractéristiques et que vous atteignez une précision de 88% sur l'ensemble de test. Pour vérifier l'importance de la première caractéristique, vous pouvez réentraîner le modèle en n'utilisant que les neuf autres caractéristiques. Si le modèle réentraîné est nettement moins performant (par exemple, une précision de 55 %), la caractéristique supprimée était probablement importante. À l'inverse, si le modèle réentraîné fonctionne aussi bien, cette caractéristique n'était probablement pas très importante.

L'ablation peut également aider à déterminer l'importance de:

Des composants plus volumineux, tels qu'un sous-système entier d'un système de ML plus vaste
Des processus ou des techniques, tels qu'une étape de prétraitement des données

Dans les deux cas, vous observerez comment les performances du système changent (ou ne changent pas) après la suppression du composant.

Tests A/B

Moyen statistique de comparaison de deux (ou plusieurs) techniques : le A et le B. En règle générale, le A est une technique existante et le B est une nouvelle technique. Les tests A/B permettent non seulement de déterminer quelle technique est la plus performante, mais aussi de déterminer si la différence est statistiquement pertinente.

Les tests A/B comparent généralement une seule métrique pour deux techniques. Par exemple, en quoi la précision d'un modèle est-elle comparée à deux techniques ? Cependant, les tests A/B peuvent également comparer n'importe quel nombre fini de métriques.

puce d'accélération

#GoogleCloud

Catégorie de composants matériels spécialisés conçus pour effectuer les calculs clés nécessaires aux algorithmes de deep learning.

Les puces d'accélérateur (ou simplement accélérateurs) peuvent améliorer considérablement la vitesse et l'efficacité des tâches d'entraînement et d'inférence par rapport à un processeur à usage général. Ils sont parfaits pour l'entraînement de réseaux de neurones et de tâches similaires qui utilisent beaucoup de ressources de calcul.

Voici quelques exemples de puces d'accélérateur:

Tensor Processing Units (TPU) de Google avec du matériel dédié au deep learning
Bien que conçus initialement pour le traitement graphique, les GPU NVIDIA sont conçus pour permettre le traitement en parallèle, ce qui peut augmenter considérablement la vitesse de traitement.

accuracy

#fundamentals

Nombre de prédictions de classification correctes divisé par le nombre total de prédictions. Par exemple :

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Par exemple, un modèle qui a effectué 40 prédictions correctes et 10 prédictions incorrectes aurait une justesse de:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

La classification binaire fournit des noms spécifiques aux différentes catégories de prédictions correctes et de prédictions incorrectes. La formule de justesse pour la classification binaire est donc la suivante:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

où :

"VP" correspond au nombre de vrais positifs (prédictions correctes).
"VN" correspond au nombre de vrais négatifs (prédictions correctes).
"FP" correspond au nombre de faux positifs (prédictions incorrectes).
"FN" correspond au nombre de faux négatifs (prédictions incorrectes).

Indiquer les points communs et les différences entre la justesse, la précision et le rappel.

Cliquez sur l'icône pour afficher des remarques supplémentaires.

Même s'il s'agit d'une métrique précieuse dans certaines situations, la précision peut induire en erreur d'autres. En particulier, la justesse n'est généralement pas une bonne métrique pour évaluer les modèles de classification qui traitent les ensembles de données avec déséquilibre des classes.

Par exemple, supposons que la neige ne tombe que 25 jours par siècle dans une certaine ville subtropicale. Étant donné que le nombre de jours sans neige (classe négative) est largement supérieur au nombre de jours avec neige (classe positive), l'ensemble de données relatif à l'enneigement pour cette ville présente un déséquilibre des classes. Imaginez un modèle de classification binaire censé prédire l'absence de neige ou de neige chaque jour, mais qui prédit simplement "pas de neige" tous les jours. Ce modèle est très précis, mais n'a pas de performances prédictives. Le tableau suivant résume les résultats pour un siècle de prédictions:

Catégorie	Nombre
VP	0
VN	36500
FP	25
FN	0

La justesse de ce modèle est donc:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (0 + 36500) / (0 + 36500 + 25 + 0) = 0.9993 = 99.93%

Bien que la précision de 99,93% semble être un pourcentage impressionnant, le modèle n'a en réalité aucun pouvoir de prédiction.

La précision et le rappel sont généralement plus utiles que la précision pour évaluer les modèles entraînés sur des ensembles de données avec déséquilibre des classes.

action

#rl

Dans l'apprentissage par renforcement, le mécanisme par lequel l'agent passe d'un état à l'autre dans l'environnement. L'agent choisit l'action à l'aide d'une règle.

fonction d'activation

#fundamentals

Fonction qui permet aux réseaux de neurones d'apprendre les relations non linéaires (complexes) entre les caractéristiques et l'étiquette.

Les fonctions d'activation les plus courantes sont les suivantes:

ReLU
Sigmoïde

Les tracés des fonctions d'activation ne sont jamais représentés par des lignes droites simples. Par exemple, le tracé de la fonction d'activation ReLU est composé de deux lignes droites:

Graphique cartésien composé de deux lignes. La première ligne a une valeur y constante de 0 et court le long de l'axe des abscisses de -infini,0 à 0,-0.
La deuxième ligne commence à 0,0. Cette ligne a une pente de +1, elle va donc de 0,0 à +infini,+infini.

Le tracé de la fonction d'activation sigmoïde se présente comme suit:

Un graphique incurvé bidimensionnel avec des valeurs x couvrant le domaine -infini à +positif, tandis que les valeurs y s'étendent entre presque 0 et presque 1. Lorsque x est égal à 0, y est égal à 0,5. La pente de la courbe est toujours positive, avec la pente la plus élevée à 0,0,5.La pente diminue progressivement à mesure que la valeur absolue de x augmente.

Cliquez sur l'icône pour voir un exemple.

Dans un réseau de neurones, les fonctions d'activation manipulent la somme pondérée de toutes les entrées d'un neurone. Pour calculer une somme pondérée, le neurone additionne les produits des valeurs et pondérations pertinentes. Par exemple, supposons que l'entrée correspondant à un neurone se compose des éléments suivants:

valeur d'entrée	poids d'entrée
2	-1,3
-1	0,6
3	0,4

La somme pondérée est donc la suivante :

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Supposons que le concepteur de ce réseau de neurones choisisse la fonction sigmoïde comme fonction d'activation. Dans ce cas, le neurone calcule la valeur sigmoïde de -2,0, soit approximativement 0,12. Par conséquent, le neurone transmet 0,12 (au lieu de -2,0) à la couche suivante du réseau de neurones. La figure suivante illustre la partie pertinente du processus:

apprentissage actif

Méthode d'entraînement dans laquelle l'algorithme choisit une partie des données à partir desquelles il apprend. L'apprentissage actif est particulièrement utile lorsque les exemples étiquetés sont rares ou coûteux à obtenir. Au lieu de rechercher aveuglément une gamme diversifiée d'exemples étiquetés, un algorithme d'apprentissage actif recherche de manière sélective la gamme particulière d'exemples dont il a besoin pour apprendre.

AdaGrad

Algorithme sophistiqué de descente de gradient qui redimensionne les gradients de chaque paramètre, donnant à chaque paramètre un taux d'apprentissage indépendant. Pour une explication complète, consultez cet article d'AdaGrad.

agent

#rl

Dans l'apprentissage par renforcement, l'entité qui utilise une règle pour maximiser le retour attendu obtenu en passant d'états de l'environnement

Plus généralement, un agent est un logiciel qui planifie et exécute de manière autonome une série d'actions dans la poursuite d'un objectif, tout en ayant la capacité de s'adapter aux changements de son environnement. Par exemple, les agents basés sur un LLM peuvent l'utiliser pour générer un plan, plutôt que d'appliquer une règle d'apprentissage par renforcement.

clustering agglomératif

#clustering

Voir clustering hiérarchique.

détection d'anomalies

Processus d'identification des anomalies. Par exemple, si la moyenne d'une certaine caractéristique est de 100 avec un écart type de 10, la détection d'anomalies doit signaler une valeur de 200 comme suspecte.

AR

Abréviation de réalité augmentée.

aire sous la courbe PR

Consultez la section PR AUC (aire sous la courbe PR).

aire sous la courbe ROC

Voir AUC (aire sous la courbe ROC).

intelligence générale artificielle

Mécanisme non humain qui démontre un large éventail de possibilités de résolution de problèmes, de créativité et d'adaptabilité. Par exemple, un programme démontrant l'intelligence artificielle générale peut traduire du texte, composer des symphonies et exceller dans des jeux qui n'ont pas encore été inventés.

l'intelligence artificielle

#fundamentals

Programme ou model non humain capable d'exécuter des tâches complexes. Par exemple, un programme ou un modèle qui traduit du texte, ou un programme ou un modèle qui identifie des maladies à partir d'images radiologiques, exploitent tous deux l'intelligence artificielle.

Officiellement, le machine learning est un sous-domaine de l'intelligence artificielle. Toutefois, ces dernières années, certaines organisations ont commencé à utiliser les termes intelligence artificielle et machine learning de manière interchangeable.

"Attention",

#language

Mécanisme utilisé dans un réseau de neurones qui indique l'importance d'un mot ou d'une partie de mot particulier. L'attention compresse la quantité d'informations dont un modèle a besoin pour prédire le jeton ou le mot suivant. Un mécanisme d'attention classique peut consister en une somme pondérée sur un ensemble d'entrées, où la pondération de chaque entrée est calculée par une autre partie du réseau de neurones.

Reportez-vous également aux concepts d'auto-attention et d'auto-attention multi-tête, qui sont les éléments de base des modèles Transformer.

Attribut

#fairness

Synonyme de caractéristique.

Dans le domaine de l'équité dans le machine learning, les attributs font souvent référence à des caractéristiques propres aux individus.

échantillonnage d'attributs

#df

Stratégie d'entraînement d'une forêt de décision dans laquelle chaque arbre de décision ne prend en compte qu'un sous-ensemble aléatoire de caractéristiques possibles lors de l'apprentissage de la condition. En règle générale, un sous-ensemble différent de caractéristiques est échantillonné pour chaque nœud. En revanche, lors de l'entraînement d'un arbre de décision sans échantillonnage d'attributs, toutes les caractéristiques possibles sont prises en compte pour chaque nœud.

AUC (aire sous la courbe ROC)

#fundamentals

Nombre compris entre 0,0 et 1,0 représentant la capacité d'un modèle de classification binaire à séparer des classes positives des classes négatives. Plus l'AUC est proche de 1, plus le modèle sera à même de séparer les classes les unes des autres.

Par exemple, l'illustration suivante montre un modèle de classificateur qui sépare parfaitement les classes positives (ovales vertes) des classes négatives (rectangles violets). L'AUC de ce modèle, irréaliste, parfait est de 1,0:

Un axe gradué avec 8 exemples positifs d'un côté et 9 exemples négatifs de l'autre.

À l'inverse, l'illustration suivante montre les résultats d'un modèle de classificateur qui a généré des résultats aléatoires. L'AUC de ce modèle est de 0,5:

Un axe gradué avec six exemples positifs et six exemples négatifs
La séquence d'exemples est positive, négative, positive, négative, positive, négative, positive, négative, positive, négative, positive, négative.

Oui, l'AUC du modèle précédent est de 0,5, et non de 0,0.

La plupart des modèles se situent entre les deux extrêmes. Par exemple, le modèle suivant distingue quelque peu les positifs des négatifs et présente donc un AUC compris entre 0,5 et 1,0:

Un axe gradué avec six exemples positifs et six exemples négatifs
La séquence d'exemples est négative, négative, négative, négative, positive, négative, positive, positive, négative, positive, positive, positive.

L'AUC ignore toute valeur définie pour le seuil de classification. L'AUC prend en compte tous les seuils de classification possibles.

Cliquez sur l'icône pour en savoir plus sur la relation entre les courbes AUC et ROC.

L'AUC représente l'aire située sous une courbe ROC. Par exemple, la courbe ROC d'un modèle qui sépare parfaitement les positifs des négatifs se présente comme suit:

L'AUC est la superficie de la région grise de l'illustration précédente. Dans ce cas inhabituel, l'aire correspond simplement à la longueur de la zone grise (1,0) multipliée par la largeur de la zone grise (1,0). Ainsi, le produit de 1,0 et 1,0 donne un AUC d'exactement 1,0, ce qui correspond au score AUC le plus élevé possible.

À l'inverse, la courbe ROC d'un classificateur qui ne peut pas du tout séparer les classes est la suivante. L'aire de cette zone grise est de 0,5.

Une courbe ROC plus typique ressemble approximativement à ce qui suit:

Il serait difficile de calculer manuellement l'aire sous cette courbe, c'est pourquoi un programme calcule généralement la plupart des valeurs AUC.

Cliquez sur l'icône pour obtenir une définition plus formelle de l'AUC.

L'AUC correspond à la probabilité que le niveau de confiance d'un classificateur soit plus élevé pour qu'un exemple positif choisi aléatoirement soit réellement positif qu'avec un exemple négatif choisi aléatoirement.

réalité augmentée

#image

Technologie qui superpose une image générée par ordinateur à la vue d'un utilisateur du monde réel, fournissant ainsi une vue composite.

auto-encodeur

#language

#image

Système qui apprend à extraire les informations les plus importantes de l'entrée. Les auto-encodeurs associent un encodeur et un décodeur. Les auto-encodeurs s'appuient sur le processus en deux étapes suivant:

L'encodeur mappe l'entrée dans un format (généralement) de dimension inférieure (intermédiaire) avec pertes.
Le décodeur crée une version avec pertes de l'entrée d'origine en mappant le format de dimension inférieure au format d'entrée d'origine de dimension supérieure.

Les auto-encodeurs sont entraînés de bout en bout lorsque le décodeur tente de reconstruire l'entrée d'origine à partir du format intermédiaire de l'encodeur aussi fidèlement que possible. Comme le format intermédiaire est plus petit (de dimension inférieure) que le format d'origine, l'auto-encodeur est obligé d'apprendre quelles informations d'entrée sont essentielles. La sortie ne sera donc pas parfaitement identique à l'entrée.

Exemple :

Si les données d'entrée sont un graphique, la copie non exacte est semblable au graphique d'origine, mais légèrement modifiée. La copie non exacte supprime peut-être le bruit de l'élément graphique d'origine ou remplace certains pixels manquants.
Si les données d'entrée sont du texte, un auto-encodeur génère un nouveau texte qui imite le texte d'origine, mais n'est pas identique.

Consultez également la page sur les auto-encodeurs variationnels.

biais d'automatisation

#fairness

Lorsqu'un décideur humain privilégie les recommandations d'un système de prise de décision automatisé par rapport aux informations obtenues sans automatisation, même lorsque le système de prise de décision automatisé compromet des erreurs.

AutoML

Tout processus automatisé de création de modèles de machine learning. AutoML peut effectuer automatiquement les tâches suivantes:

Recherchez le modèle le plus approprié.
Régler les hyperparamètres
Préparer les données (y compris effectuer une extraction de caractéristiques)
Déployer le modèle obtenu

AutoML est utile pour les data scientists, car il leur fait gagner du temps et leur aide à développer des pipelines de machine learning, et améliore la précision des prédictions. Il est également utile aux non-spécialistes, car il rend les tâches de machine learning complexes plus accessibles.

modèle autorégressif

#language

#image

#IAgénérative

model qui infère une prédiction à partir de ses propres prédictions précédentes. Par exemple, les modèles de langage autorégressifs prédisent le jeton suivant en fonction des jetons précédemment prédits. Tous les grands modèles de langage basés sur Transformer sont autorégressifs.

En revanche, les modèles d'images basés sur le GAN ne sont généralement pas autorégressifs, car ils génèrent une image en une seule étape avant et non de manière itérative par étapes. Cependant, certains modèles de génération d'images sont autorégressifs, car ils génèrent une image par étapes.

perte auxiliaire

Fonction de perte, utilisée conjointement avec la fonction de perte principale d'un réseau de neurones, qui permet d'accélérer l'entraînement lors des premières itérations lorsque les pondérations sont initialisées de manière aléatoire.

Les fonctions de perte auxiliaire transmettent les gradients effectifs aux couches précédentes. Cela facilite la convergence lors de l'entraînement en luttant contre le problème de disparition du gradient.

précision moyenne

Métrique permettant de résumer les performances d'une séquence de résultats classés. La précision moyenne est calculée en prenant la moyenne des valeurs de précision de chaque résultat pertinent (chacun figurant dans la liste de classement où le rappel augmente par rapport au résultat précédent).

Consultez également Aire sous la courbe PR.

condition alignée sur l'axe

#df

Dans une arborescence de décision, une condition qui implique une seule caractéristique. Par exemple, si l'aire est une caractéristique, alors la condition suivante est alignée sur l'axe:

area > 200

À comparer à la condition oblique.

B

rétropropagation

#fundamentals

L'algorithme qui met en œuvre la descente de gradient dans les réseaux de neurones.

L'entraînement d'un réseau de neurones implique de nombreuses itérations du cycle en deux temps suivant:

Lors de la passe avant, le système traite un lot d'exemples pour produire une ou plusieurs prédictions. Le système compare chaque prédiction à chaque valeur d'étiquette. Pour cet exemple, la différence entre la prédiction et la valeur de l'étiquette est la perte. Le système agrège les pertes pour tous les exemples afin de calculer la perte totale pour le lot en cours.
Lors du passage rétrospectif (rétropropagation), le système réduit la perte en ajustant les pondérations de tous les neurones de l'ensemble des couches cachées.

Les réseaux de neurones contiennent souvent de nombreux neurones sur de nombreuses couches cachées. Chacun de ces neurones contribue à la perte globale de différentes manières. La rétropropagation détermine s'il faut augmenter ou diminuer les pondérations appliquées à des neurones spécifiques.

Le taux d'apprentissage est un multiplicateur qui contrôle le degré d'augmentation ou de diminution de chaque pondération. Un taux d'apprentissage élevé augmente ou diminue chaque pondération plus qu'un faible taux d'apprentissage.

En termes de calcul, la rétropropagation implémente la règle de chaîne à partir du calcul. En d'autres termes, la rétropropagation calcule la dérivée partielle de l'erreur par rapport à chaque paramètre.

Il y a plusieurs années, les professionnels du ML devaient écrire du code pour implémenter la rétropropagation. Les API de ML modernes telles que TensorFlow implémentent désormais la rétropropagation à votre place. Ouf !

bagging

#df

Méthode d'entraînement d'un ensemble dans lequel chaque modèle s'entraîne sur un sous-ensemble aléatoire d'exemples d'entraînement échantillonnés avec remplacement. Par exemple, une forêt aléatoire est un ensemble d'arbres de décision entraînés à l'aide de bagging.

Le terme bagging est l'abréviation de bootstrap agrégat.

sac de mots

#language

Représentation des mots d'une expression ou d'un passage, quel que soit leur ordre. Par exemple, un sac de mots représente les trois expressions suivantes à l'identique:

le chien saute
saute le chien
CANNOT TRANSLATE

Chaque mot est mappé à un indice dans un vecteur creux, où le vecteur possède un indice pour chaque mot du vocabulaire. Par exemple, la phrase the dog jumps est mappée dans un vecteur de caractéristiques avec des valeurs non nulles aux trois indices correspondant aux mots the, dog, et jumps. La valeur non nulle peut être l'une des suivantes:

1 pour indiquer la présence d’un mot.
Nombre de fois où un mot apparaît dans le sac. Par exemple, si l'expression est the maroon dog is a dog with maroon fur, maroon et dog seront représentés par la valeur 2, tandis que les autres mots seront représentés par la valeur 1.
Une autre valeur, telle que le logarithme du nombre d'apparitions d'un mot dans le sac.

Valeur de référence

model utilisé comme point de référence pour comparer les performances d'un autre modèle (généralement un modèle plus complexe). Par exemple, un modèle de régression logistique peut servir de référence pour un modèle profond.

Pour un problème particulier, la référence aide les développeurs de modèles à quantifier les performances minimales attendues qu'un nouveau modèle doit atteindre pour être utile.

lot

#fundamentals

Ensemble d'exemples utilisés dans une itération d'entraînement. La taille de lot détermine le nombre d'exemples dans un lot.

Pour plus d'informations sur la relation entre un lot et une époque, consultez la section epoch.

inférence par lot

#TensorFlow

#GoogleCloud

Processus d'inférence des prédictions sur plusieurs exemples sans étiquette divisé en sous-ensembles plus petits ("lots").

L'inférence par lot peut exploiter les fonctionnalités de parallélisation des puces accélérateurs. Autrement dit, plusieurs accélérateurs peuvent déduire simultanément des prédictions sur différents lots d'exemples non étiquetés, ce qui augmente considérablement le nombre d'inférences par seconde.

normalisation des lots

Normalisation de l'entrée ou de la sortie des fonctions d'activation dans une couche cachée La normalisation des lots peut offrir les avantages suivants:

Améliorer la stabilité des réseaux de neurones en les protégeant contre les pondérations des anomalies.
Améliorez les taux d'apprentissage, ce qui peut accélérer l'entraînement.
Réduisez le surapprentissage.

taille de lot

#fundamentals

Nombre d'exemples dans un lot. Par exemple, si la taille de lot est de 100, le modèle traite 100 exemples par itération.

Voici quelques stratégies populaires de taille de lot:

Stochastic Gradient Descent (SGD) : la taille de lot est de 1.
Lot complet, dans lequel la taille de lot correspond au nombre d'exemples dans l'ensemble de l'ensemble d'entraînement. Par exemple, si l'ensemble d'entraînement contient un million d'exemples, la taille de lot est égale à un million d'exemples. Le traitement par lot complet n'est généralement pas une stratégie efficace.
mini-lot dont la taille de lot est généralement comprise entre 10 et 1 000. Le mini-lot est généralement la stratégie la plus efficace.

Réseau de neurones bayésien

Réseau de neurones probabiliste qui prend en compte les incertitudes liées aux pondérations et aux résultats. Un modèle de régression standard pour les réseaux de neurones prédit généralement une valeur scalaire. Par exemple, un modèle standard prédit le prix d'une maison de 853 000. En revanche, un réseau de neurones bayésien prédit une distribution de valeurs. Par exemple, un modèle bayésien prédit un prix de maison de 853 000 avec un écart type de 67 200.

Un réseau de neurones bayésien s'appuie sur le théorème de Bayes pour calculer les incertitudes dans les pondérations et les prédictions. Un réseau de neurones bayésien peut s'avérer utile lorsqu'il est important de quantifier l'incertitude, comme dans les modèles liés aux produits pharmaceutiques. Les réseaux de neurones bayésiens peuvent également empêcher le surapprentissage.

Optimisation bayésienne

Technique de modèle de régression probabiliste permettant d'optimiser des fonctions objectifs coûteuses en ressources informatiques en optimisant à la place un substitut qui quantifie l'incertitude à l'aide d'une technique d'apprentissage bayésienne. L'optimisation bayésienne étant elle-même très coûteuse, elle est généralement utilisée pour optimiser les tâches coûteuses à évaluer qui comportent un petit nombre de paramètres, comme la sélection d'hyperparamètres.

Équation de Bellman

#rl

Dans l'apprentissage par renforcement, l'identité suivante est satisfaite par la fonction Q optimale:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

Les algorithmes d'apprentissage par renforcement appliquent cette identité pour créer un apprentissage Q via la règle de mise à jour suivante:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

Au-delà de l'apprentissage par renforcement, l'équation de Bellman s'applique à la programmation dynamique. Consultez l' article Wikipédia pour l'équation de Bellman.

BERT (Bidirectional Encoder Representations from Transformers)

#language

Architecture de modèle pour la représentation de texte. Un modèle BERT entraîné peut faire partie d'un modèle plus vaste pour la classification de texte ou d'autres tâches de ML.

BERT présente les caractéristiques suivantes:

Utilise l'architecture Transformer, et donc repose sur l'auto-attention.
Utilise la partie encodeur du modèle Transformer. Le rôle de l'encodeur est de produire de bonnes représentations de texte, plutôt que d'effectuer une tâche spécifique telle que la classification.
est bidirectionnel ;
Utilise le masquage pour l'entraînement non supervisé.

Les variantes de BERT sont les suivantes:

ALBERT, l'acronyme de A Light BERT.
LaBSE.

Pour en savoir plus sur BERT, consultez Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing (Open Sourcing BERT : pré-entraînement de pointe pour le traitement du langage naturel).

biais (éthique/impartialité)

#fairness

#fundamentals

1. Stéréotypes, préjugés ou favoritisme envers certaines choses, certaines personnes ou certains groupes par rapport à d'autres. Ces biais peuvent affecter la collecte et l'interprétation des données, la conception d'un système et la façon dont les utilisateurs interagissent avec celui-ci. Les formes de ce type de préjugé sont les suivantes:

biais d'automatisation
biais de confirmation
biais de l'expérimentateur
biais d'attribution de groupe
biais implicite
biais d'appartenance
biais d'homogénéité de l'exogroupe

2. Erreur systématique introduite par une procédure d'échantillonnage ou de création de rapports Les formes de ce type de préjugé sont les suivantes:

biais de couverture
biais de non-réponse
biais de participation
biais de fréquence
biais d'échantillonnage
biais de sélection

À ne pas confondre avec le biais des modèles de machine learning ou le biais de prédiction.

biais (mathématiques) ou terme de biais

#fundamentals

Ordonnée à l'origine ou décalage par rapport à une origine. Le biais est un paramètre des modèles de machine learning, symbolisé par l'un des éléments suivants:

b
s₀

Par exemple, b représente le biais dans la formule suivante:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Dans une simple ligne à deux dimensions, biais signifie simplement "ordonnée à l'origine". Par exemple, dans l'illustration suivante, le biais de la ligne est de 2.

Tracé d'une droite avec une pente de 0,5 et un biais (ordonné à l'origine) de 2.

Il existe un biais, car tous les modèles ne partent pas de l'origine (0,0). Par exemple, supposons que l'entrée d'un parc d'attractions coûte 2 euros et que le coût d'entrée d'un client soit de 0,5 euro supplémentaire par heure de séjour. Par conséquent, un modèle mappant le coût total présente un biais de 2, car le coût le plus faible est de 2 euros.

Les biais ne doivent pas être confondus avec les biais d'éthique et d'impartialité ni avec le biais de prédiction.

bidirectionnelle

#language

Terme utilisé pour décrire un système qui évalue le texte qui passe et suit une section de texte cible. En revanche, un système unidirectionnel n'évalue que le texte qui précédent une section de texte cible.

Prenons l'exemple d'un modèle de langage masqué qui doit déterminer les probabilités du ou des mots soulignés dans la question suivante:

Qu’est-ce que _____ avec vous ?

Un modèle de langage unidirectionnel ne devrait baser ses probabilités que sur le contexte fourni par les mots "Quoi", "est" et "la". En revanche, un modèle de langage bidirectionnel peut également obtenir du contexte grâce aux mots "avec" et "vous", ce qui peut l'aider à générer de meilleures prédictions.

modèle de langage bidirectionnel

#language

Modèle de langage qui détermine la probabilité qu'un jeton donné soit présent à un emplacement donné dans un extrait de texte basé sur le texte précédent et suivant.

bigramme

#seq

#language

Un N-gramme dans lequel N=2.

classification binaire

#fundamentals

Type de tâche de classification qui prédit l'une des deux classes mutuellement exclusives:

la classe positive
la classe négative.

Par exemple, les deux modèles de machine learning suivants effectuent chacun une classification binaire:

Modèle qui détermine si les e-mails sont du spam (la classe positive) ou non spam (la classe négative).
Un modèle qui évalue les symptômes médicaux pour déterminer si une personne a une maladie particulière (classe positive) ou n'en a pas (la classe négative).

À comparer à la classification à classes multiples.

Voir aussi Régression logistique et Seuil de classification.

condition binaire

#df

Dans une arborescence de décision, une condition qui n'a que deux résultats possibles, généralement oui ou non. Par exemple, voici une condition binaire:

temperature >= 100

À comparer à la condition non binaire.

binning

Synonyme de binning.

BLEU (Bilingual Evaluation Understudy)

#language

Score compris entre 0,0 et 1,0 inclus, indiquant la qualité d'une traduction entre deux langues humaines (par exemple, de l'anglais et du russe). Un score BLEU de 1,0 indique une traduction parfaite. Un score BLEU de 0,0 indique une traduction médiocre.

boosting

Technique de machine learning qui combine de manière itérative un ensemble de classificateurs simples et peu précis (appelés classificateurs "faibles") en un classificateur de haute précision (classificateur "fort") en surpondérant les exemples actuellement mal classifiés par le modèle.

cadre de délimitation

#image

Dans une image, coordonnées (x, y) d'un rectangle autour d'une zone d'intérêt, comme le chien dans l'image ci-dessous.

Photographie d'un chien assis sur un canapé. Un cadre de délimitation vert avec les coordonnées en haut à gauche de (275, 1271) et celles en bas à droite de (2954, 2761) délimite le corps du chien.

diffusion

Extension de la forme d'un opérande dans une opération mathématique matricielle à des dimensions compatibles pour cette opération. Par exemple, l'algèbre linéaire nécessite que les deux opérandes d'une opération d'addition matricielle doivent avoir les mêmes dimensions. Par conséquent, vous ne pouvez pas ajouter une matrice de forme (m, n) à un vecteur de longueur n. Le broadcasting permet cette opération en étendant virtuellement le vecteur de longueur n à une matrice de forme (m, n) en répliquant les mêmes valeurs dans chaque colonne.

Par exemple, avec les définitions suivantes, l'algèbre linéaire interdit A+B, car A et B ont des dimensions différentes:

A = [[7, 10, 4],
     [13, 5, 9]]
B = [2]

Cependant, le broadcasting permet d'effectuer l'opération A+B en développant virtuellement B de la manière suivante:

 [[2, 2, 2],
  [2, 2, 2]]

Ainsi, A+B est désormais une opération valide:

[[7, 10, 4],  +  [[2, 2, 2],  =  [[ 9, 12, 6],
 [13, 5, 9]]      [2, 2, 2]]      [15, 7, 11]]

Pour en savoir plus, consultez la description suivante de la diffusion dans NumPy.

binning

#fundamentals

Conversion d'une seule caractéristique en plusieurs caractéristiques binaires appelées buckets ou classes, généralement en fonction d'une plage de valeurs. La caractéristique coupée est généralement une caractéristique continue.

Par exemple, au lieu de représenter la température comme une seule caractéristique continue à virgule flottante, vous pouvez découper des plages de températures en buckets distincts, tels que:

<= 10 degrés Celsius correspond à la tranche "froid".
11 à 24 degrés Celsius correspond à l'intervalle "tempéré".
>= 25 degrés Celsius serait le bucket "chaud".

Le modèle traitera chaque valeur d'un même bucket de manière identique. Par exemple, les valeurs 13 et 22 se trouvent toutes deux dans le bucket "tempéré". Le modèle traite donc les deux valeurs de manière identique.

Cliquez sur l'icône pour afficher des remarques supplémentaires.

Si vous représentez la température comme une caractéristique continue, le modèle traite la température comme une seule caractéristique. Si vous représentez une température sous forme de trois buckets, le modèle traite chaque bucket comme une caractéristique distincte. Autrement dit, un modèle peut apprendre les relations distinctes de chaque bucket avec l'étiquette. Par exemple, un modèle de régression linéaire peut apprendre des pondérations distinctes pour chaque bucket.

L'augmentation du nombre de buckets complique votre modèle en augmentant le nombre de relations qu'il doit apprendre. Par exemple, les buckets froid, tempéré et chaud sont essentiellement trois caractéristiques distinctes pour l'entraînement de votre modèle. Si vous décidez d'ajouter deux buckets supplémentaires (par exemple, un bucket gelé et un autre à chaud), votre modèle devra maintenant s'entraîner sur cinq caractéristiques distinctes.

Comment savoir combien de buckets créer ou quelles doivent être les plages de chaque bucket ? Les réponses nécessitent généralement un certain nombre d'expérimentations.

C

niveau de calibrage

Ajustement post-prédiction, généralement pour prendre en compte le biais de prédiction. Les prédictions et les probabilités ajustées doivent correspondre à la distribution d'un ensemble observé d'étiquettes.

génération de candidats

#recsystems

Ensemble initial de recommandations choisi par un système de recommandation. Prenons l'exemple d'une librairie qui propose 100 000 ouvrages. La phase de génération de candidats crée une liste beaucoup plus restreinte de livres adaptés à un utilisateur particulier, par exemple 500. Mais même 500 livres est beaucoup trop à recommander à un utilisateur. Les phases ultérieures et plus coûteuses d'un système de recommandation (telles que l'évaluation et le reclassement) réduisent ces 500 recommandations à un ensemble de recommandations beaucoup plus réduit et plus utile.

échantillonnage de candidats

Optimisation réalisée lors de l'entraînement qui calcule une probabilité pour toutes les étiquettes positives en utilisant, par exemple, softmax, mais uniquement pour un échantillon aléatoire d'étiquettes négatives. Par exemple, pour un exemple étiqueté beagle et dog, l'échantillonnage de candidats calcule les probabilités prédites et les termes de perte correspondants pour:

beagle
chien
un sous-ensemble aléatoire des classes négatives restantes (par exemple, cat, lollipop, cloison).

L'idée est que les classes négatives peuvent apprendre d'un renforcement négatif moins fréquent, à condition que les classes positives soient toujours correctement renforcées positivement, ce qui est effectivement observé empiriquement.

L'échantillonnage de candidats est plus efficace en termes de calcul que les algorithmes d'entraînement qui calculent des prédictions pour toutes les classes négatives, en particulier lorsque le nombre de classes négatives est très élevé.

données catégorielles

#fundamentals

Des caractéristiques ayant un ensemble spécifique de valeurs possibles. Prenons l'exemple d'une caractéristique catégorielle nommée traffic-light-state, qui ne peut avoir que l'une des trois valeurs possibles suivantes:

red
yellow
green

En représentant traffic-light-state comme une caractéristique catégorielle, un modèle peut apprendre les impacts différents de red, green et yellow sur le comportement du conducteur.

Les caractéristiques catégorielles sont parfois appelées caractéristiques discrètes.

À comparer aux données numériques.

modèle de langage causal

#language

Synonyme de modèle de langage unidirectionnel.

Consultez la section Modèle de langage bidirectionnel pour différencier les différentes approches directionnelles de modélisation du langage.

centroid

#clustering

Centre d'un cluster déterminé par un algorithme k-moyennes ou k-médiane. Par exemple, si k est égal à 3, alors l'algorithme k-moyennes ou k-médiane trouve 3 centroïdes.

clustering basé sur centroïde

#clustering

Catégorie d'algorithmes de clustering qui organisent les données en clusters non hiérarchiques. k-moyennes est l'algorithme de clustering basé sur centroïde le plus utilisé.

À comparer aux algorithmes de clustering hiérarchique.

requêtes en chaîne de pensée

#language

#IAgénérative

Technique d'ingénierie des requêtes qui encourage un grand modèle de langage (LLM) à expliquer son raisonnement pas à pas. Prenons l'exemple de l'invite suivante, en accordant une attention particulière à la deuxième phrase:

Combien de forces g un conducteur aurait-il dû subir dans une voiture qui passe de 0 à 60 miles par heure en 7 secondes ? Dans la réponse, affichez tous les calculs pertinents.

La réponse du LLM se présentera probablement comme suit:

Affichez une séquence de formules physiques en insérant les valeurs 0, 60 et 7 aux endroits appropriés.
Expliquez pourquoi il a choisi ces formules et ce que signifient les différentes variables.

Une requête en chaîne de pensée oblige le LLM à effectuer tous les calculs, ce qui peut conduire à une réponse plus correcte. En outre, l'invite en chaîne de pensée permet à l'utilisateur d'examiner les étapes du LLM afin de déterminer si la réponse a du sens.

chat

#language

#IAgénérative

Contenu d'un dialogue avec un système de ML, généralement un grand modèle de langage. L'interaction précédente dans un chat (ce que vous avez saisi et la réponse du grand modèle de langage) devient le contexte des parties suivantes du chat.

Un chatbot est une application d'un grand modèle de langage.

point de contrôle

Données qui capturent l'état des paramètres d'un modèle à une itération d'entraînement particulière. Les points de contrôle permettent d'exporter les pondérations du modèle ou d'effectuer un entraînement sur plusieurs sessions. Les points de contrôle permettent également à l'entraînement de poursuivre les erreurs passées (par exemple, la préemption de tâches).

Lors du réglage, le point de départ de l'entraînement du nouveau modèle est un point de contrôle spécifique du modèle pré-entraîné.

classe

#fundamentals

Catégorie à laquelle un libellé peut appartenir. Exemple :

Dans un modèle de classification binaire qui détecte le spam, les deux classes peuvent être spam et non spam.
Dans un modèle de classification à classes multiples qui identifie les races de chiens, les classes peuvent être caniche, beagle, carlin, et ainsi de suite.

Un modèle de classification prédit une classe. En revanche, un modèle de régression prédit un nombre plutôt qu'une classe.

modèle de classification

#fundamentals

Un model dont la prédiction est une model. Par exemple, les modèles suivants sont tous des modèles de classification:

Un modèle qui prédit la langue d'une phrase en entrée (le français De l'espagnol ? italien ?).
Un modèle qui prédit des espèces d'arbres (érable ? Oak? Baobab?).
Modèle qui prédit la classe positive ou négative d'un problème médical particulier.

En revanche, les modèles de régression prédisent des nombres plutôt que des classes.

Deux types courants de modèles de classification sont les suivants:

classification binaire
classification à classes multiples

seuil de classification

#fundamentals

Dans une classification binaire, il s'agit d'un nombre compris entre 0 et 1 qui convertit la sortie brute d'un modèle de régression logistique en prédiction de la classe positive ou de la classe négative. Notez que le seuil de classification est une valeur choisie par un humain, et non une valeur choisie par l'entraînement du modèle.

Un modèle de régression logistique génère une valeur brute comprise entre 0 et 1. Alors :

Si cette valeur brute est supérieure au seuil de classification, la classe positive est prédite.
Si cette valeur brute est inférieure au seuil de classification, la classe négative est prédite.

Par exemple, supposons que le seuil de classification soit de 0,8. Si la valeur brute est de 0,9, le modèle prédit la classe positive. Si la valeur brute est 0,7, le modèle prédit la classe négative.

Le choix du seuil de classification influence fortement le nombre de faux positifs et de faux négatifs.

Cliquez sur l'icône pour afficher des remarques supplémentaires.

À mesure que les modèles ou les ensembles de données évoluent, les ingénieurs modifient parfois le seuil de classification. Lorsque le seuil de classification change, les prédictions de classes positives peuvent soudainement devenir des classes négatives, et inversement.

Prenons l'exemple d'un modèle de prédiction d'une maladie de classification binaire. Supposons que, lorsque le système s'exécute la première année:

La valeur brute d'un patient particulier est 0,95.
Le seuil de classification est de 0,94.

Par conséquent, le système diagnostique la classe positive. (Le patient halète : "Oh non ! Je suis malade !")

Un an plus tard, les valeurs devraient maintenant se présenter comme suit:

La valeur brute pour le même patient reste à 0,95.
Le seuil de classification passe à 0,97.

Par conséquent, le système reclassifie ce patient en tant que classe négative. ("Bonne journée ! je ne suis pas malade.") Même patient. Diagnostic différent.

ensemble de données avec déséquilibre des classes

#fundamentals

Ensemble de données pour un problème de classification dans lequel le nombre total d'étiquettes de chaque classe diffère considérablement. Prenons l'exemple d'un ensemble de données de classification binaire dont les deux étiquettes sont divisées comme suit:

1 000 000 étiquettes négatives
10 étiquettes positives

Le ratio entre les étiquettes négatives et positives est de 100 000 pour 1. Il s'agit donc d'un ensemble de données avec déséquilibre des classes.

En revanche, l'ensemble de données suivant n'est pas déséquilibré, car le ratio entre les étiquettes négatives et les étiquettes positives est relativement proche de 1:

517 libellés négatifs
483 étiquettes positives

Les ensembles de données à classes multiples peuvent également présenter un déséquilibre des classes. Par exemple, l'ensemble de données de classification à classes multiples suivant présente également un déséquilibre des classes, car une étiquette contient beaucoup plus d'exemples que les deux autres:

1 000 000 étiquettes avec la classe "green"
200 étiquettes avec une classe "violet"
350 libellés de classe "orange"

Voir aussi entropie, classe majoritaire et classe minoritaire.

bornement

#fundamentals

Technique de gestion des anomalies en effectuant l'une des opérations suivantes, ou les deux:

Réduire les valeurs de feature qui sont supérieures à un seuil maximal jusqu'à ce seuil maximal
Augmenter les valeurs des caractéristiques qui sont inférieures à un seuil minimal jusqu'à ce seuil minimal.

Par exemple, supposons que moins de 0,5% des valeurs d'une caractéristique particulière se situent en dehors de la plage 40-60. Dans ce cas, vous pouvez procéder comme suit:

Permet de rogner toutes les valeurs supérieures à 60 (le seuil maximal) pour qu'elles soient exactement égales à 60.
Recadrez toutes les valeurs inférieures à 40 (le seuil minimal) pour qu'elles soient exactement égales à 40.

Les anomalies peuvent endommager les modèles, et entraîner parfois un dépassement des pondérations pendant l'entraînement. Certaines anomalies peuvent également gâcher considérablement des métriques telles que la précision. Le rognage est une technique courante pour limiter les dommages.

Le bornement du gradient force les valeurs de gradient dans une plage désignée pendant l'entraînement.

Cloud TPU

#TensorFlow

#GoogleCloud

Accélérateur matériel spécialisé conçu pour accélérer les charges de travail de machine learning sur Google Cloud.

clustering

#clustering

Regrouper des exemples connexes, en particulier lors de l'apprentissage non supervisé Une fois tous les exemples regroupés, un humain peut éventuellement donner un sens à chaque cluster.

Il existe de nombreux algorithmes de clustering. Par exemple, l'algorithme k-moyennes regroupe des exemples en fonction de leur proximité avec un centroïde, comme illustré dans le schéma suivant:

Un chercheur humain pourrait ensuite examiner les groupes et, par exemple, étiqueter le groupe 1 comme "arbres nains" et le cluster 2 comme "arbres de taille réelle".

Prenons un autre exemple avec un algorithme de clustering basé sur la distance entre un exemple et un point central, illustré comme suit:

Des dizaines de points de données sont disposés en cercles concentriques, presque
comme des trous autour du centre d'une cible de fléchettes. L'anneau le plus interne de points de données est dans le cluster 1, l'anneau central dans le cluster 2 et l'anneau le plus externe dans le cluster 3.

co-adaptation

Lorsque des neurones prédisent des modèles dans les données d'entraînement en s'appuyant presque exclusivement sur les sorties d'autres neurones spécifiques, au lieu de s'appuyer sur le comportement du réseau dans son ensemble. Lorsque les modèles à l'origine de la co-adaptation ne sont pas présents dans les données de validation, la coadaptation entraîne un surapprentissage. La régularisation par abandon réduit la coadaptation, car l'abandon empêche les neurones de s'appuyer uniquement sur d'autres neurones spécifiques.

filtrage collaboratif

#recsystems

Effectuer des prédictions sur les centres d'intérêt d'un utilisateur en fonction de ceux de nombreux autres utilisateurs Le filtrage collaboratif est souvent utilisé dans les systèmes de recommandation.

dérive conceptuelle

Changement dans la relation entre les caractéristiques et l'étiquette. Au fil du temps, la dérive conceptuelle diminue la qualité du modèle.

Pendant l'entraînement, le modèle apprend la relation entre les caractéristiques et leurs étiquettes dans l'ensemble d'entraînement. Si les étiquettes de l'ensemble d'entraînement sont de bons mandataires du monde réel, le modèle devrait faire de bonnes prédictions du monde réel. Cependant, en raison d'une dérive conceptuelle, les prédictions du modèle ont tendance à se dégrader au fil du temps.

Prenons l'exemple d'un modèle de classification binaire qui prédit si un certain modèle de voiture est "économique en carburant". En d'autres termes, les caractéristiques pourraient être les suivantes:

poids de la voiture
compression du moteur
type de transmission

tandis que l'étiquette est soit:

économe en carburant
pas économe en carburant

Cependant, le concept de "voiture économe en carburant" ne cesse d'évoluer. Un modèle de voiture étiqueté économique en carburant en 1994 serait très certainement libellé non économe en carburant en 2024. Un modèle présentant une dérive conceptuelle a tendance à réaliser des prédictions de moins en moins utiles au fil du temps.

Indiquer les points communs et les différences avec la nonstationarité.

Cliquez sur l'icône pour afficher des remarques supplémentaires.

Pour compenser la dérive conceptuelle, réentraînez les modèles plus rapidement que le taux de dérive conceptuelle. Par exemple, si la dérive conceptuelle réduit la précision du modèle d'une marge significative tous les deux mois, réentraînez votre modèle plus souvent que tous les deux mois.

état

#df

Dans une arborescence de décision, tout nœud qui évalue une expression. Par exemple, la partie suivante d'un arbre de décision contient deux conditions:

Arbre de décision composé de deux conditions: (x > 0) et (y > 0).

Une condition est également appelée fractionnement ou test.

Comparer la condition avec la feuille.

Voir également :

condition binaire
condition non binaire.
condition-alignée-axe
oblique-condition

discussion

#language

Synonyme d'hallucination.

D'un point de vue technique, la conversation est probablement plus juste que l'hallucination. Toutefois, l'hallucination est d'abord devenue populaire.

configuration

Processus d'attribution des valeurs de propriété initiales utilisées pour entraîner un modèle, y compris:

les couches composantes du modèle ;
l'emplacement des données
hyperparamètres, par exemple :

Dans les projets de machine learning, la configuration peut être effectuée via un fichier de configuration spécial ou à l'aide de bibliothèques de configuration telles que:

biais de confirmation

#fairness

Tendance à rechercher, interpréter, favoriser et rappeler des informations d'une manière qui confirme ses croyances ou hypothèses préexistantes. Les développeurs en machine learning peuvent collecter ou étiqueter par inadvertance des données de manière à influencer un résultat soutenant leurs croyances existantes. Le biais de confirmation est une forme de biais implicite.

Le biais de l'expérimentateur est une forme de biais de confirmation par lequel un expérimentateur continue à entraîner des modèles jusqu'à ce qu'une hypothèse préexistante soit confirmée.

Matrice de confusion

#fundamentals

Une table NxN qui résume le nombre de prédictions correctes et incorrectes effectuées par un modèle de classification. Prenons l'exemple de la matrice de confusion suivante pour un modèle de classification binaire:

	Tumeur (prédiction)	Pas de tumeur (prédiction)
Tumeur (vérité terrain)	18 (VP)	1 (FN)
Pas de tumeur (vérité terrain)	6 (FP)	452 (VN)

La matrice de confusion précédente montre les éléments suivants:

Sur les 19 prédictions pour lesquelles la vérité terrain était Tumor, le modèle en a correctement classé 18 et en a mal classé 1.
Sur les 458 prédictions pour lesquelles la vérité terrain était "Non-Tumor", le modèle en a correctement classé 452 et en a incorrectement classé 6.

La matrice de confusion pour un problème de classification à classes multiples peut vous aider à identifier des modèles d'erreurs. Prenons l'exemple de la matrice de confusion suivante pour un modèle de classification à classes multiples à trois classes qui classe trois types d'iris différents (Virginica, Versicolor et Setosa). Lorsque la vérité terrain était Virginica, la matrice de confusion montre que le modèle était beaucoup plus susceptible de prédire à tort Versicolor que Setosa:

	Setosa (prédiction)	Versicolor (prédiction)	Virginica (prédiction)
Setosa (vérité terrain)	88	12	0
Versicolor (vérité terrain)	6	141	7
Virginica (vérité terrain)	2	27	109

Autre exemple, une matrice de confusion pourrait révéler qu'un modèle entraîné à reconnaître des chiffres manuscrits tend à prédire à tort 9 au lieu de 4, ou 1 au lieu de 7.

Les matrices de confusion contiennent suffisamment d'informations pour calculer diverses métriques de performances, y compris la précision et le rappel.

analyse de la circonscription

#language

Diviser une phrase en structures grammaticales plus petites ("constituants"). Une partie ultérieure du système de ML, telle qu'un modèle de compréhension du langage naturel, peut analyser les constituants plus facilement que la phrase d'origine. Prenons l'exemple de la phrase suivante:

Mon ami a adopté deux chats.

Un analyseur de circonscriptions peut diviser cette phrase en deux:

Mon ami est un syntagme nominal.
adopted two cats est un syntagme verbal.

Ces composants peuvent être subdivisés en plus petits composants. Par exemple, le verbe

a adopté deux chats

peut être subdivisée comme suit:

adopted est un verbe.
deux chats est un autre syntagme nominal.

représentation vectorielle continue du langage contextualisé

#language

#IAgénérative

Représentation vectorielle continue qui se rapproche de la "compréhension" de mots et d'expressions comme le peut le faire pour les locuteurs natifs. Les représentations vectorielles continues de langage contextualisées permettent de comprendre la syntaxe, la sémantique et le contexte complexes.

Par exemple, considérons les représentations vectorielles continues du mot anglais cow. Les représentations vectorielles continues plus anciennes telles que word2vec peuvent représenter des mots anglais, de sorte que la distance dans l'espace de représentation vectorielle continue entre vache et bull est semblable à la distance entre ewe (mouton femelle) et ram (mouton mâle) ou entre femelle et mâle. Les représentations vectorielles continues de langues peuvent aller plus loin, car les anglophones utilisent parfois le mot vache pour désigner "vache" ou "taureau".

fenêtre de contexte

#language

#IAgénérative

Nombre de jetons qu'un modèle peut traiter dans une requête donnée. Plus la fenêtre de contexte est grande, plus le modèle peut utiliser d'informations pour fournir des réponses cohérentes et cohérentes à la requête.

caractéristique continue

#fundamentals

Caractéristique à virgule flottante avec une plage infinie de valeurs possibles, telles que la température ou le poids.

À comparer à la caractéristique discrète.

échantillonnage de commodité

Utiliser un ensemble de données qui n'a pas été collecté scientifiquement afin d'effectuer des tests rapides. Par la suite, il est essentiel de passer à un ensemble de données collecté de manière scientifique.

convergence

#fundamentals

État atteint lorsque les valeurs de perte changent très peu, voire pas du tout à chaque itération. Par exemple, la courbe de perte suivante suggère une convergence à environ 700 itérations:

Graphique cartésien. l'axe des X représente la perte. L'axe Y correspond au nombre d'itérations d'entraînement. La perte est très élevée lors des premières itérations, mais chute fortement. Après environ 100 itérations, la perte est toujours décroissante, mais beaucoup plus progressivement. Après environ 700 itérations, la perte reste plate.

Un modèle converge lorsqu'un entraînement supplémentaire ne l'améliorera pas.

Dans le deep learning, les valeurs de perte restent parfois constantes ou presque pendant de nombreuses itérations avant de finir par décroissant. Au cours d'une longue période de valeurs de perte constantes, vous pouvez temporairement obtenir un faux sentiment de convergence.

Voir aussi arrêt prématuré.

fonction convexe

Fonction dans laquelle la région située au-dessus du graphique est un ensemble convexe. La fonction convexe prototypique est en forme de lettre U. Par exemple, les éléments suivants sont toutes des fonctions convexes:

Courbes en U, chacune ayant un seul point minimal.

En revanche, la fonction suivante n'est pas convexe. Notez que la région au-dessus du graphique n'est pas un ensemble convexe:

Courbe en W avec deux points minimums locaux différents.

Une fonction strictement convexe possède exactement un minimum local, qui est également le minimum global. Les fonctions classiques en U sont des fonctions strictement convexes. Cependant, certaines fonctions convexes (par exemple, les lignes droites) ne sont pas en U.

Cliquez sur l'icône pour obtenir des informations plus détaillées.

De nombreuses fonctions de perte courantes, y compris les suivantes, sont convexes:

Perte L₂
Perte logistique
Régularisation L₁
Régularisation L₂

De nombreuses variantes de descente de gradient trouvent forcément un point proche du minimum d'une fonction strictement convexe. De même, de nombreuses variantes de descente de gradient stochastique ont une forte probabilité (mais sans garantie) de trouver un point proche du minimum d'une fonction strictement convexe.

La somme de deux fonctions convexes (par exemple, perte L₂ + régularisation L₁) est une fonction convexe.

Les modèles profonds ne sont jamais des fonctions convexes. Il est à noter que les algorithmes conçus pour l'optimisation convexe ont tendance à trouver de toute façon des solutions raisonnablement efficaces sur les réseaux profonds, même s'il n'est pas garanti que ces solutions représentent un minimum global.

optimisation convexe

Processus d'utilisation de techniques mathématiques telles que la descente de gradient pour déterminer le minimum d'une fonction convexe. De nombreuses recherches en machine learning se sont concentrées sur la formulation de divers problèmes sous forme de problèmes d'optimisation convexes et leur résolution plus efficace.

Pour des informations complètes, voir le livre de Boyd et Vandenberghe, Convex Optimization (en anglais).

ensemble convexe

Sous-ensemble de l'espace euclidien de sorte qu'une ligne tracée entre deux points du sous-ensemble reste entièrement dans le sous-ensemble. Par exemple, les deux formes suivantes sont des ensembles convexes:

Une illustration d'un rectangle. Autre illustration d'un ovale.

À l'inverse, les deux formes suivantes ne sont pas des ensembles convexes:

Une illustration d'un graphique à secteurs avec une tranche manquante.
Une autre illustration d'un polygone extrêmement irrégulier.

convolution

#image

En mathématiques, dans le langage courant, il s'agit d'un mélange de deux fonctions. En machine learning, une convolution mélange le filtre convolutif et la matrice d'entrée pour entraîner des pondérations.

Dans le domaine du machine learning, le terme "convolution" désigne souvent une opération convolutive ou une couche convolutive.

Sans convolution, un algorithme de machine learning devrait apprendre une pondération distincte pour chaque cellule d'un grand Tensor. Par exemple, un algorithme de machine learning sur des images de 2K x 2K serait forcé de trouver 4 millions de pondérations distinctes. Grâce aux convolutions, un algorithme de machine learning ne doit trouver des pondérations que pour chaque cellule du filtre convolutif, ce qui réduit considérablement la mémoire nécessaire à l'entraînement du modèle. Lorsque le filtre convolutif est appliqué, il est simplement répliqué entre les cellules, de sorte que chacune d'elles soit multipliée par le filtre.

filtre convolutif

#image

L'un des deux acteurs d'une opération convolutive. (L'autre acteur est une tranche d'une matrice d'entrée.) Un filtre convolutif est une matrice ayant le même rang que la matrice d'entrée, mais de forme plus petite. Par exemple, avec une matrice d'entrée de 28 x 28, le filtre peut être n'importe quelle matrice 2D d'une taille inférieure à 28 x 28.

Dans la manipulation photographique, toutes les cellules d'un filtre convolutif sont généralement définies sur un motif constant de uns et de zéros. En machine learning, les filtres convolutifs sont généralement alimentés par des nombres aléatoires, puis le réseau entraîne les valeurs idéales.

couche convolutive

#image

Couche d'un réseau de neurones profond dans laquelle un filtre convolutif transmet une matrice d'entrée. Prenons l'exemple du filtre convolutif 3 x 3 suivant:

Matrice 3x3 avec les valeurs suivantes: [[0,1,0], [1,0,1], [0,1,0]]

L'animation suivante montre une couche convolutive composée de neuf opérations convolutives impliquant la matrice d'entrée 5x5. Notez que chaque opération convolutive fonctionne sur une tranche 3 x 3 différente de la matrice d'entrée. La matrice 3x3 résultante (à droite) est constituée des résultats des neuf opérations convolutives:

réseau de neurones convolutif

#image

Réseau de neurones dans lequel au moins une couche est une couche convolutive. Un réseau de neurones convolutif typique consiste en une combinaison des couches suivantes:

couches convolutives
couches de pooling
couches denses

Les réseaux de neurones convolutifs ont rencontré un franc succès dans certains types de problèmes, tels que la reconnaissance d'image.

opération convolutive

#image

L'opération mathématique en deux étapes suivante:

Multiplication élément par élément du filtre convolutif et d'une tranche d'une matrice d'entrée. (La tranche de la matrice d'entrée a le même rang et la même taille que le filtre convolutif.)
Somme de toutes les valeurs de la matrice de produits résultante.

Prenons l'exemple de la matrice d'entrée 5 x 5 suivante:

La matrice 5x5: [[128,97,53,201,198], [35,22,25,200,195], [37,24,28,197,182], [33,28,92,195,179], [31,40],100,7

Imaginons maintenant le filtre convolutif 2 x 2 suivant:

Matrice 2x2: [[1, 0], [0, 1]]

Chaque opération convolutive implique une seule tranche 2x2 de la matrice d'entrée. Par exemple, supposons que nous utilisons la tranche 2x2 en haut à gauche de la matrice d'entrée. Ainsi, l'opération de convolution sur cette tranche se présente comme suit:

Application du filtre convolutif [[1, 0], [0, 1]] en haut à gauche de la section 2x2 de la matrice d'entrée, qui est [[128,97], [35,22]]
Le filtre convolutif laisse les valeurs 128 et 22 intactes, mais met à zéro les valeurs 97 et 35. Par conséquent, l'opération de convolution donne la valeur 150 (128+22).

Une couche convolutive consiste en une série d'opérations convolutives, chacune agissant sur une tranche différente de la matrice d'entrée.

cost

Synonyme de perte.

co-formation

Une approche d'apprentissage semi-supervisé particulièrement utile lorsque toutes les conditions suivantes sont remplies:

Le ratio entre les exemples sans étiquette et les exemples étiquetés dans l'ensemble de données est élevé.
Il s'agit d'un problème de classification (binaire ou à classes multiples).
L'ensemble de données contient deux ensembles différents de caractéristiques prédictives indépendantes l'un de l'autre et complémentaires.

Le co-entraînement amplifie essentiellement les signaux indépendants pour en faire un signal plus fort. Prenons l'exemple d'un modèle de classification qui catégorise les voitures d'occasion individuelles comme Bon ou Mauvais. Un ensemble de caractéristiques prédictives peut se concentrer sur des caractéristiques agrégées telles que l'année, la marque et le modèle de la voiture. Un autre ensemble de caractéristiques prédictives peut se concentrer sur le parcours du propriétaire précédent et l'historique d'entretien de la voiture.

L'article phare sur le co-entraînement est intitulé Combiner des données étiquetées et non étiquetées avec le co-entraînement de Blum et Mitchell.

équité contrefactuelle

#fairness

Métrique d'équité qui vérifie si un classificateur produit le même résultat pour un individu que pour un autre individu identique au premier, sauf en ce qui concerne un ou plusieurs attributs sensibles. Évaluer l'équité contrefactuelle d'un classificateur est une méthode permettant de mettre en évidence les sources potentielles de biais dans un modèle.

Pour en savoir plus sur l'équité contrefactuelle, consultez l'article Quand Worlds Collide: Integrating Different Counterfactual Assumptions in Fairness

biais de couverture

#fairness

Voir biais de sélection.

émergence d'un plantage

#language

Phrase ou expression au sens ambigu. Les phrases équivoques posent un problème majeur pour la compréhension du langage naturel. Par exemple, le titre Red Tape Holds Up Skyscraper est une phrase équivoque, car un modèle NLU peut l'interpréter littéralement ou figurativement.

Cliquez sur l'icône pour afficher des remarques supplémentaires.

Pour clarifier ce titre mystérieux :

Le terme rubrique blanc peut faire référence à l'un des éléments suivants :
- Un adhésif
- Bureaucratie excessive
Holds Up peut faire référence à l'un des éléments suivants :
- Soutien structurel
- Retards

critique

#rl

Synonyme de Deep Q-Network.

entropie croisée

Généralisation de la perte logistique aux problèmes de classification à classes multiples. L'entropie croisée quantifie la différence entre deux distributions de probabilité. Voir aussi perplexité.

validation croisée

Mécanisme permettant d'estimer la capacité d'un model à généraliser à de nouvelles données en le testant sur un ou plusieurs sous-ensembles de données qui ne se chevauchent pas et sont exclus de l'model.

fonction de distribution cumulée (CDF)

Fonction qui définit la fréquence des échantillons inférieurs ou égaux à une valeur cible. Prenons l'exemple d'une distribution normale de valeurs continues. Un CDF vous indique qu'environ 50% des échantillons doivent être inférieurs ou égaux à la moyenne, et qu'environ 84% des échantillons doivent être inférieurs ou égaux à un écart type au-dessus de la moyenne.

D

analyse de données

Comprendre les données à l'aide d'échantillons, de mesures et de visualisations. L'analyse de données peut être particulièrement utile lors de la première réception d'un ensemble de données, avant la création du premier model. Il est également crucial pour comprendre les expériences et résoudre les problèmes du système.

augmentation des données

#image

Augmentation artificielle de l'éventail et du nombre d'exemples d'entraînement en transformant des exemples existants pour en créer d'autres. Par exemple, supposons que les images constituent l'une de vos fonctionnalités, mais que votre ensemble de données ne contienne pas suffisamment d'exemples d'images pour que le modèle apprenne des associations utiles. Idéalement, vous devriez ajouter suffisamment d'images avec étiquette à votre ensemble de données pour permettre à votre modèle de s'entraîner correctement. Si cela n'est pas possible, l'augmentation des données peut faire pivoter, étirer et refléter chaque image pour produire de nombreuses variantes de l'image d'origine, fournissant éventuellement suffisamment de données étiquetées pour un entraînement optimal.

DataFrame

#fundamentals

Type de données pandas populaire pour représenter des ensembles de données en mémoire.

Un DataFrame est analogue à un tableau ou à une feuille de calcul. Chaque colonne d'un DataFrame porte un nom (un en-tête) et chaque ligne est identifiée par un numéro unique.

Chaque colonne d'un DataFrame est structurée comme un tableau bidimensionnel, à la différence que chaque colonne peut se voir attribuer son propre type de données.

Consultez également la page de référence officielle de pandas.DataFrame.

parallélisme des données

Moyen de scaling de l'entraînement ou de l'inférence qui réplique l'intégralité d'un modèle sur plusieurs appareils, puis transmet un sous-ensemble des données d'entrée à chaque appareil. Le parallélisme des données peut permettre l'entraînement et l'inférence sur de très grandes tailles de lot. Cependant, le parallélisme des données nécessite que le modèle soit suffisamment petit pour s'adapter à tous les appareils.

Le parallélisme des données accélère généralement l'entraînement et l'inférence.

Consultez également la page Parallélisme des modèles.

ensemble de données

#fundamentals

Ensemble de données brutes, généralement (mais pas exclusivement) organisés dans l'un des formats suivants:

une feuille de calcul
Un fichier au format CSV (valeurs séparées par des virgules)

API Dataset (tf.data)

#TensorFlow

API TensorFlow de haut niveau permettant de lire les données et de les transformer en un format requis par un algorithme de machine learning. Un objet tf.data.Dataset représente une séquence d'éléments, dans laquelle chaque élément contient un ou plusieurs Tensors. Un objet tf.data.Iterator permet d'accéder aux éléments d'un Dataset.

Pour plus d'informations sur l'API Dataset, consultez la page tf.data: Créer des pipelines d'entrée TensorFlow dans le guide du programmeur TensorFlow.

frontière de décision

Séparateur entre les classes appris par un modèle dans une classe binaire ou des problèmes de classification à classes multiples. Par exemple, dans l'image suivante représentant un problème de classification binaire, la frontière de décision est la frontière entre la classe orange et la classe bleue:

Limite bien définie entre une classe et une autre.

forêt de décision

#df

Modèle créé à partir de plusieurs arbres de décision. Une forêt de décision effectue une prédiction en agrégeant les prédictions de ses arbres de décision. Les types courants de forêts de décision incluent les forêts aléatoires et les arbres à boosting de gradient.

seuil de décision

Synonyme de seuil de classification.

arbre de décision

#df

Un modèle d'apprentissage supervisé composé d'un ensemble de conditions et de quis organisés de façon hiérarchique Voici un exemple d'arbre de décision:

Arbre de décision composé de quatre conditions organisées hiérarchiquement, conduisant à cinq feuilles.

décodeur

#language

En général, tout système de ML qui convertit une représentation traitée, dense ou interne en une représentation plus brute, creuse ou externe.

Les décodeurs sont souvent un composant d'un modèle plus grand, dans lequel ils sont souvent associés à un encodeur.

Dans les tâches de séquence à séquence, un décodeur commence par l'état interne généré par l'encodeur pour prédire la séquence suivante.

Reportez-vous à Transformer pour obtenir la définition d'un décodeur dans l'architecture Transformer.

modèle deep learning

#fundamentals

Un réseau de neurones contenant plusieurs couches cachées.

Un modèle profond est également appelé réseau de neurones profond.

À comparer au modèle large.

de réseau de neurones profond

Synonyme de modèle profond.

Q-Network profond (DQN)

#rl

Dans l'apprentissage Q, un réseau de neurones profond qui prédit des fonctions Q.

Critic est un synonyme de Deep Q-Network.

parité démographique

#fairness

Métrique d'équité qui est satisfaite si les résultats de la classification d'un modèle ne dépendent pas d'un attribut sensible donné.

Par exemple, si les Lilliputiens et les Brobdingnagians postulent tous les deux à l'Université de Glubbdubdrib, la parité démographique est atteinte si le pourcentage de Lilliputiens acceptés est identique au pourcentage de Brobdingnagians acceptés, qu'un groupe soit en moyenne plus qualifié que l'autre.

À comparer aux cotes égales et à l'égalité des chances, qui permettent aux résultats de classification agrégés de dépendre d'attributs sensibles, mais qui empêchent les résultats de classification de certaines étiquettes de vérité terrain spécifiées de dépendre d'attributs sensibles. Consultez l'article Lutter contre la discrimination grâce à un machine learning plus intelligent pour obtenir une visualisation qui examine les compromis liés à l'optimisation pour la parité démographique.

suppression du bruit

#language

Approche courante de l'apprentissage auto-supervisé dans laquelle:

Le bruit est ajouté artificiellement à l'ensemble de données.
Le model tente de supprimer le bruit.

La suppression du bruit permet d'apprendre à partir d'exemples sans étiquette. L'ensemble de données d'origine sert de cible ou d'étiquette, et les données comportant du bruit en entrée.

Certains modèles de langage masqué utilisent la suppression du bruit comme suit:

Le bruit est ajouté artificiellement à une phrase non étiquetée en masquant certains des jetons.
Le modèle tente de prédire les jetons d'origine.

caractéristique dense

#fundamentals

Caractéristique dans laquelle la plupart ou la totalité des valeurs sont non nulles, généralement un Tensor de valeurs à virgule flottante. Par exemple, le Tensor à 10 éléments suivant est dense, car neuf de ses valeurs sont différentes de zéro:

À comparer à la caractéristique creuse.

couche dense

Synonyme de couche entièrement connectée.

profondeur

#fundamentals

La somme des éléments suivants dans un réseau de neurones:

le nombre de couches cachées ;
Nombre de couches de sortie, qui est généralement 1
le nombre de couches de représentations vectorielles continues

Par exemple, un réseau de neurones avec cinq couches cachées et une couche de sortie a une profondeur de 6.

Notez que la couche d'entrée n'a aucune incidence sur la profondeur.

Réseau de neurones convolutif séparable en profondeur (sepCNN)

#image

Architecture de réseau de neurones convolutif basée sur Inception, mais où les modules Inception sont remplacés par des convolutions séparables en profondeur. Également appelé Xception.

Une convolution séparable en profondeur (également appelée convolution séparable) transforme une convolution 3D standard en deux opérations de convolution distinctes plus efficaces en termes de calcul: d'abord, une convolution en profondeur, avec une profondeur de 1 (n x n × 1), puis une convolution pointique de 1 × n × largeur.

Pour en savoir plus, consultez Xception: Deep Learning with Depthwise Séparable Convolutions.

étiquette dérivée

Synonyme d'étiquette de proxy.

appareil

#TensorFlow

#GoogleCloud

Terme surchargé dont les deux définitions possibles sont les suivantes:

Catégorie de matériel pouvant exécuter une session TensorFlow, y compris les CPU, les GPU et les TPU.
Lors de l'entraînement d'un modèle de ML sur des puces accélérateurs (GPU ou TPU), il s'agit de la partie du système qui manipule les Tensors et les représentations vectorielles continues. L'appareil s'exécute sur des puces d'accélérateur. En revanche, l'hôte s'exécute généralement sur un processeur.

confidentialité différentielle

En machine learning, approche d'anonymisation visant à protéger les données sensibles (par exemple, les informations personnelles d'un individu) incluses dans l'ensemble d'entraînement d'un modèle contre l'exposition. Cette approche garantit que le model n'apprend pas ou ne se souvient pas grand-chose d'un individu spécifique. Pour ce faire, vous devez échantillonner et ajouter du bruit pendant l'entraînement du modèle afin de masquer des points de données individuels, ce qui réduit le risque d'exposer des données d'entraînement sensibles.

La confidentialité différentielle est également utilisée en dehors du machine learning. Par exemple, les data scientists utilisent parfois la confidentialité différentielle pour protéger la confidentialité des individus lorsqu'ils calculent des statistiques d'utilisation de produits pour différentes données démographiques.

réduction des dimensions

Diminution du nombre de dimensions utilisées pour représenter une caractéristique particulière dans un vecteur de caractéristiques, généralement par conversion en vecteur de représentation vectorielle continue.

dimensions

Terme complexe qui a l'une des définitions suivantes:

Nombre de niveaux de coordonnées dans un Tensor. Exemple :
- Un scalaire a zéro dimension ; par exemple, ["Hello"].
- Un vecteur a une dimension ; par exemple, [3, 5, 7, 11].
- Une matrice a deux dimensions ; par exemple, [[2, 4, 18], [5, 7, 14]].
Vous pouvez spécifier de manière unique une cellule particulière dans un vecteur unidimensionnel avec une coordonnée ; vous avez besoin de deux coordonnées pour spécifier de manière unique une cellule particulière dans une matrice à deux dimensions.
Nombre d'entrées dans un vecteur de caractéristiques.
Nombre d'éléments dans une couche de représentations vectorielles continues.

requêtes directes

#language

#IAgénérative

Synonyme de requête zero-shot.

caractéristique discrète

#fundamentals

Caractéristique avec un ensemble fini de valeurs possibles. Par exemple, une caractéristique dont les valeurs ne peuvent être que animal, végétal ou minéral est une caractéristique discrète (ou catégorielle).

À comparer à la caractéristique continue.

modèle discriminatif

model qui prédit des model à partir d'un ensemble d'une ou plusieurs model Plus formellement, les modèles discriminatifs définissent la probabilité conditionnelle d'un résultat en fonction des caractéristiques et des pondérations, à savoir:

p(output | features, weights)

Par exemple, un modèle qui prédit si un e-mail est du spam à partir de caractéristiques et de pondérations est un modèle discriminatif.

La grande majorité des modèles d'apprentissage supervisé, y compris les modèles de classification et de régression, sont des modèles discriminatifs.

À comparer au modèle génératif.

discriminateur

Système qui détermine si des exemples sont réels ou falsifiés.

Il peut également s'agir du sous-système d'un réseau antagoniste génératif qui détermine si les exemples créés par le générateur sont réels ou factices.

impact disparate

#fairness

Prendre des décisions sur les personnes qui ont un impact disproportionné sur les différents sous-groupes de la population. Il s'agit généralement de situations dans lesquelles un processus de prise de décision basé sur un algorithme nuit ou profite plus à certains sous-groupes que d'autres.

Par exemple, supposons qu'un algorithme qui détermine l'éligibilité d'un lilliputien à un prêt immobilier miniature est plus susceptible de le classer dans la catégorie "inéligible" si son adresse postale contient un certain code postal. Si les Lilliputiens du Big-Endian sont plus susceptibles d'avoir des adresses postales avec ce code postal que les Lilliputiens de Little-Endian, cet algorithme peut avoir un impact disparate.

À comparer au traitement disparates, qui se concentre sur les disparités qui se produisent lorsque les caractéristiques des sous-groupes sont des entrées explicites dans un processus de prise de décision algorithmique.

traitement disparate

#fairness

Prendre en compte les attributs sensibles des sujets dans un processus de prise de décision algorithmique de sorte que les différents sous-groupes de personnes soient traités différemment.

Prenons l'exemple d'un algorithme qui détermine l'éligibilité des Lilliputiens à un prêt immobilier miniature en fonction des données fournies dans leur demande de prêt. Si l'algorithme utilise comme entrée l'affiliation d'un lilliputien en tant que big-endian ou Little-Endian, il applique un traitement disparate selon cette dimension.

À comparer à l'impact incohérent, qui se concentre sur les disparités dans l'impact sociétal des décisions algorithmiques sur les sous-groupes, que ces sous-groupes soient ou non des entrées du modèle.

distillation

#IAgénérative

Processus consistant à réduire la taille d'un model (appelé model) en un modèle plus petit (l'model) qui émule les prédictions du modèle d'origine aussi fidèlement que possible. La distillation est utile, car le plus petit modèle présente deux avantages clés par rapport au modèle plus grand (l'enseignant):

Inférence plus rapide
Réduction de la consommation de mémoire et d'énergie

Cependant, les prédictions de l'élève ne sont généralement pas aussi bonnes que celles de l'enseignant.

La distillation entraîne le modèle élève à minimiser une fonction de perte en fonction de la différence entre les résultats des prédictions des modèles élève et enseignant.

Comparez la distillation avec les termes suivants:

affinage
apprentissage rapide

distribution

Fréquence et plage de différentes valeurs pour une caractéristique ou une étiquette donnée. Une distribution capture la probabilité d'une valeur particulière.

L'image suivante montre un histogramme de deux distributions différentes:

À gauche, la répartition des richesses selon la loi du pouvoir par rapport au nombre de personnes qui possèdent cette richesse.
À droite, il s'agit d'une distribution normale de la taille par rapport au nombre de personnes qui possèdent cette taille.

Comprendre la distribution de chaque caractéristique et étiquette peut vous aider à déterminer comment normaliser les valeurs et détecter les anomalies.

L'expression hors distribution fait référence à une valeur qui n'apparaît pas dans l'ensemble de données ou qui est très rare. Par exemple, une image de la planète Saturne serait considérée comme non distribuée pour un ensemble de données constitué d'images de chats.

clustering divisif

#clustering

Voir clustering hiérarchique.

sous-échantillonnage

#image

Terme complexe qui peut désigner l'un des termes suivants:

Réduction de la quantité d'informations dans une caractéristique afin d'entraîner un modèle plus efficacement. Par exemple, avant d'entraîner un modèle de reconnaissance d'image, sous-échantillonnage d'images haute résolution dans un format de résolution inférieure.
Entraînement sur un pourcentage disproportionné d'exemples de classe surreprésentées afin d'améliorer l'entraînement du modèle sur les classes sous-représentées. Par exemple, dans un ensemble de données avec déséquilibre des classes, les modèles ont tendance à beaucoup apprendre sur la classe majoritaire et pas assez sur la classe minoritaire. Le sous-échantillonnage permet d'équilibrer la quantité d'entraînement sur les classes majoritaires et minoritaires.

DQN

#rl

Abréviation de Deep Q-Network.

régularisation par abandon

Forme de régularisation utile pour l'entraînement des réseaux de neurones. La régularisation par abandon supprime la sélection aléatoire d'un nombre fixe d'unités dans une couche de réseau pour un pas de gradient unique. Plus le nombre d'unités abandonnées est élevé, plus la régularisation est solide. Cette méthode revient à entraîner le réseau pour émuler un ensemble exponentiel de réseaux plus petits. Pour plus d'informations, consultez l'article Dropout: A Simple Way to Prevent Neural Networks from Overapprentissage (Abandon : un moyen simple d'empêcher le surapprentissage des réseaux de neurones).

dynamic

#fundamentals

quelque chose fait fréquemment ou en continu. Les termes dynamique et en ligne sont des synonymes en machine learning. Vous trouverez ci-dessous des utilisations courantes des classes dynamique et en ligne en machine learning:

Un modèle dynamique (ou modèle en ligne) est un modèle qui est réentraîné fréquemment ou en continu.
L'entraînement dynamique (ou entraînement en ligne) est le processus d'entraînement fréquemment ou continu.
L'inférence dynamique (ou inférence en ligne) est le processus de génération de prédictions à la demande.

modèle dynamique

#fundamentals

Un model qui est fréquemment (peut-être même en continu) réentraîné. Un modèle dynamique est un "apprentissage continu" qui s'adapte en permanence à l'évolution des données. Un modèle dynamique est également appelé modèle en ligne.

À comparer au modèle statique.

E

exécution eager

#TensorFlow

Environnement de programmation TensorFlow dans lequel les operations s'exécutent immédiatement. En revanche, les opérations appelées dans l'exécution de graphe ne sont exécutées que lorsqu'elles sont explicitement évaluées. L'exécution eager est une interface impérative, tout comme le code de la plupart des langages de programmation. Les programmes d'exécution eager sont généralement beaucoup plus faciles à déboguer que les programmes d'exécution de graphe.

arrêt prématuré

#fundamentals

Méthode de régularisation qui consiste à mettre fin à l'entraînement avant la diminution de la perte d'entraînement. Lors d'un arrêt prématuré, vous arrêtez intentionnellement l'entraînement du modèle lorsque la perte sur un ensemble de données de validation commence à augmenter, c'est-à-dire lorsque les performances de la généralisation s'aggravent.

Cliquez sur l'icône pour afficher des remarques supplémentaires.

L'arrêt prématuré peut sembler contre-intuitif. Après tout, demander à un modèle d'arrêter l'entraînement alors que la perte diminue peut ressembler à demander à un chef d'arrêter la cuisson avant que le dessert ne soit entièrement cuit. Cependant, entraîner un modèle trop longtemps peut entraîner un surapprentissage. Autrement dit, si vous entraînez un modèle trop longtemps, il se peut que les données d'entraînement soient si proches que le modèle ne fera pas de bonnes prédictions sur les nouveaux exemples.

Distance du déménageur de terre (EMD)

Mesure de la similarité relative de deux distributions. Plus la distance du mouvement de la Terre est faible, plus les distributions se ressemblent.

modifier la distance

#language

Mesure de la similitude entre deux chaînes de texte. En machine learning, la modification de la distance est utile, car elle est simple à calculer. C'est aussi un moyen efficace de comparer deux chaînes connues pour être similaires ou de trouver des chaînes semblables à une chaîne donnée.

Il existe plusieurs définitions de la distance de modification, chacune utilisant différentes opérations de chaîne. Par exemple, la distance de Levenshtein considère le plus petit nombre d'opérations de suppression, d'insertion et de substitution.

Par exemple, la distance de Levenshtein entre les mots "cœur" et "fléchettes" est de 3, car les trois modifications suivantes correspondent au minimum de modifications pour transformer un mot en un autre:

cœur → affaiblir (remplacez "h" par "d")
deart → dart (supprimer "e")
fléchettes → fléchettes (insérer "s")

Notation Einsum

Notation efficace pour décrire comment deux Tensors doivent être combinés. Les Tensors sont combinés en multipliant les éléments d'un Tensor par les éléments de l'autre Tensor, puis en additionnant les produits. La notation Einsum utilise des symboles pour identifier les axes de chaque Tensor, et ces mêmes symboles sont réorganisés pour spécifier la forme du nouveau Tensor obtenu.

NumPy fournit une implémentation Einsum courante.

couche de représentation vectorielle continue

#language

#fundamentals

Une couche cachée spéciale qui s'entraîne sur une caractéristique catégorielle de grande dimension pour apprendre progressivement un vecteur de représentation vectorielle continue de dimension inférieure. Une couche d'intégration permet à un réseau de neurones d'effectuer un entraînement beaucoup plus efficace que sur la simple caractéristique catégorielle de grande dimension.

Par exemple, la Terre recense actuellement environ 73 000 espèces d'arbres. Supposons qu'une espèce d'arbre soit une caractéristique de votre modèle. La couche d'entrée de votre modèle inclut donc un vecteur one-hot d'une longueur de 73 000 éléments. Par exemple, baobab peut être représenté comme ceci:

Tableau de 73 000 éléments. Les 6 232 premiers éléments contiennent la valeur 0. L'élément suivant contient la valeur 1. Les 66 767 derniers éléments contiennent la valeur zéro.

Un tableau de 73 000 éléments est très long. Si vous n'ajoutez pas de couche de représentation vectorielle continue au modèle, l'entraînement va prendre beaucoup de temps,car vous multiplierez par 72 999 zéros. Vous pouvez choisir que la couche de représentation vectorielle continue soit composée de 12 dimensions. Par conséquent, la couche de représentation vectorielle continue apprend progressivement un nouveau vecteur de représentation vectorielle continue pour chaque espèce d'arbre.

Dans certains cas, le hachage est une alternative raisonnable à une couche de représentation vectorielle continue.

espace de représentation vectorielle continue

#language

Espace vectoriel à d dimensions auquel les caractéristiques d'un espace vectoriel de plus grande dimension sont mappées. Idéalement, l'espace de représentation vectorielle continue contient une structure qui donne des résultats mathématiques significatifs. Par exemple, dans un espace de représentation vectorielle idéale, l'addition et la soustraction de représentations vectorielles continues peuvent résoudre des tâches d'analogie de mots.

Le produit scalaire de deux représentations vectorielles continues est une mesure de leur similarité.

vecteur de représentation vectorielle continue

#language

De manière générale, il s'agit d'un tableau de nombres à virgule flottante provenant de n'importe quelle couche cachée décrivant les entrées de cette couche cachée. Souvent, un vecteur de représentation vectorielle continue est le tableau de nombres à virgule flottante entraîné dans une couche de représentations vectorielles continues. Par exemple, supposons qu'une couche de représentation vectorielle continue apprenne un vecteur de représentation vectorielle continue pour chacune des 73 000 espèces d'arbres sur Terre. Le tableau suivant est peut-être le vecteur de représentation vectorielle continue d'un baobab:

Tableau de 12 éléments, chacun contenant un nombre à virgule flottante compris entre 0,0 et 1,0.

Un vecteur de représentation vectorielle continue n'est pas un ensemble de nombres aléatoires. Une couche de représentations vectorielles continues détermine ces valeurs via l'entraînement, de la même manière qu'un réseau de neurones apprend d'autres pondérations pendant l'entraînement. Chaque élément du tableau correspond à une note correspondant à une caractéristique d'une espèce d'arbre. Quel élément représente la caractéristique de quelle espèce d'arbre ? C'est très difficile pour les humains de le déterminer.

La partie mathématique remarquable d'un vecteur de représentation vectorielle continue est que les éléments similaires ont des ensembles similaires de nombres à virgule flottante. Par exemple, les espèces d'arbres similaires ont un ensemble plus semblable de nombres à virgule flottante que les espèces d'arbres différentes. Les séquoias et les séquoias sont des espèces d'arbres similaires. Ils auront donc un ensemble de nombres à virgule flottante plus similaire que le séquoia et le cocotier. Les nombres du vecteur de représentation vectorielle continue changent chaque fois que vous entraînez le modèle à nouveau, même si vous le réentraînez avec une entrée identique.

fonction de distribution cumulée empirique (eCDF ou EDF)

Fonction de distribution cumulée basée sur des mesures empiriques à partir d'un ensemble de données réel. La valeur de la fonction en tout point de l'axe des abscisses correspond à la fraction des observations de l'ensemble de données qui sont inférieures ou égales à la valeur spécifiée.

Minimisation du risque empirique (ERM)

Choisir la fonction qui minimise la perte pour l'ensemble d'entraînement. À comparer à la minimisation du risque structurel.

encodeur

#language

En général, tout système de ML qui convertit d'une représentation brute, creuse ou externe en une représentation plus traitée, plus dense ou plus interne.

Les encodeurs font souvent partie d'un modèle plus grand, dans lequel ils sont souvent associés à un décodeur. Certains Transformer associent des encodeurs à des décodeurs, tandis que d'autres n'utilisent que l'encodeur ou uniquement le décodeur.

Certains systèmes utilisent la sortie de l'encodeur comme entrée d'un réseau de classification ou de régression.

Dans les tâches de séquence à séquence, un encodeur utilise une séquence d'entrée et renvoie un état interne (un vecteur). Le décodeur utilise ensuite cet état interne pour prédire la séquence suivante.

Reportez-vous à Transformer pour obtenir la définition d'un encodeur dans l'architecture Transformer.

groupe

Ensemble de modèles entraînés indépendamment et dont les prédictions sont moyennes ou agrégées. Souvent, un ensemble produit de meilleures prédictions qu'un seul modèle. Par exemple, une forêt aléatoire est un ensemble construit à partir de plusieurs arbres de décision. Notez que les forêts de décision ne sont pas toutes des ensembles.

entropie

#df

Dans la théorie de l'information, il s'agit d'une description du degré d'imprévisibilité d'une distribution de probabilités. L'entropie est également définie comme la quantité d'informations que contient chaque exemple. Une distribution possède l'entropie la plus élevée possible lorsque toutes les valeurs d'une variable aléatoire sont tout aussi probables.

L'entropie d'un ensemble avec deux valeurs possibles : "0" et "1" (par exemple, les étiquettes d'un problème de classification binaire) a la formule suivante :

H = -p log p - q log q = -p log p - (1-p) * log (1-p)

où :

H est l'entropie.
p est la fraction des exemples "1".
q est la fraction des exemples "0". Notez que q = (1 - p)
log est généralement log₂. Dans ce cas, l'unité d'entropie est un bit.

Par exemple, supposons les éléments suivants :

100 exemples contiennent la valeur "1"
300 exemples contiennent la valeur "0"

La valeur d'entropie est donc la suivante:

p = 0,25
q = 0,75
H = (-0,25)log₂(0,25) - (0,75)log₂(0,75) = 0,81 bit par exemple

Un ensemble parfaitement équilibré (par exemple, 200 "0" et 200 "1") possède une entropie de 1 bit par exemple. À mesure qu'un ensemble devient déséquilibré, son entropie se rapproche de 0,0.

Dans les arbres de décision, l'entropie permet de formuler des gains d'informations pour aider le séparateur à sélectionner les conditions lors de la croissance d'un arbre de décision de classification.

Comparez l'entropie avec:

impure gini
Fonction de perte d'entropie croisée

L'entropie est souvent appelée entropie de Shannon.

de production

#rl

Dans l'apprentissage par renforcement, le monde qui contient l'agent et permet à celui-ci d'observer l'état de ce monde. Par exemple, le monde représenté peut être un jeu tel que les échecs, ou un monde physique tel qu'un labyrinthe. Lorsque l'agent applique une action à l'environnement, celui-ci passe d'un état à un autre.

épisode

#rl

Dans l'apprentissage par renforcement, chacune des tentatives répétées de l'agent d'apprendre un environnement.

epoch

#fundamentals

Passage d'entraînement complet sur la totalité de l'ensemble d'entraînement de sorte que chaque exemple ait été traité une fois.

Une époque représente les itérations d'entraînement N/taille de lot, où N correspond au nombre total d'exemples.

Par exemple, supposons que:

L'ensemble de données comprend 1 000 exemples.
La taille de lot est de 50 exemples.

Par conséquent, une seule époque nécessite 20 itérations:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

règlement epsilon greedy

#rl

Dans l'apprentissage par renforcement, il s'agit d'une règle qui suit soit une règle aléatoire avec une probabilité d'epsilon, soit une règle gloutonne dans le cas contraire. Par exemple, si la valeur d'epsilon est de 0,9, la règle suit une règle aléatoire dans 90% des cas et une règle gourmande dans 10% des cas.

Au fil d'épisodes successifs, l'algorithme réduit la valeur d'epsilon afin de passer d'une règle aléatoire à une règle gloutonne. En modifiant la règle, l'agent explore d'abord l'environnement de manière aléatoire, puis exploite les résultats de cette exploration aléatoire.

égalité des chances

#fairness

Métrique d'équité permettant d'évaluer si un modèle prédit aussi bien le résultat souhaitable pour toutes les valeurs d'un attribut sensible. En d'autres termes, si le résultat souhaitable d'un modèle est la classe positive, l'objectif est que le taux de vrais positifs soit le même pour tous les groupes.

L'égalité des chances est liée aux cotes égales, qui nécessitent que les taux de vrais positifs et de faux positifs soient identiques pour tous les groupes.

Supposons que l'université Glubbdubdrib accepte à la fois des Lilliputiens et des Brobdingnagians à un programme de mathématiques rigoureux. Les écoles secondaires des Lilliputiens proposent un programme solide de cours de mathématiques, et la grande majorité des étudiants sont qualifiés pour le programme universitaire. Les écoles secondaires de Brobdingnagians ne proposent pas du tout de cours de mathématiques et, par conséquent, beaucoup moins d'élèves sont qualifiés. L'égalité des chances est satisfaite pour le libellé "admis" par rapport à la nationalité (liliputien ou brobdingnagien) si les étudiants qualifiés sont également susceptibles d'être admis, qu'ils soient un Lilliputien ou un Brobdingnagian.

Par exemple, supposons que 100 Lilliputiens et 100 Brodingnagians postulent à l'Université de Glubbdubdrib, et que les décisions d'admission soient prises comme suit:

Tableau 1. Candidats lilliputiens (90% sont qualifiés)

	Qualifié	Non défini
Accepté	45	3
Refusé(e)	45	7
Total	90	10
Pourcentage d'étudiants qualifiés admis: 45/90 = 50% Pourcentage d'élèves non qualifiés refusés: 7/10 = 70% Pourcentage total d'étudiants lilliputiens acceptés: (45 + 3)/100 = 48%

Tableau 2. Candidats Brobdingnagian (10% sont qualifiés):

	Qualifié	Non défini
Accepté	5	9
Refusé(e)	5	81
Total	10	90
Pourcentage d'étudiants qualifiés admis: 5/10 = 50% Pourcentage d'élèves non qualifiés refusés: 81/90 = 90% Pourcentage total d'étudiants Brobdingnagiens acceptés: (5 + 9)/100 = 14%

Les exemples précédents assurent l'égalité des chances d'acceptation des étudiants qualifiés, car les Lilliputiens et les Brobdingnagians qualifiés ont tous deux 50% de chances d'être admis.

Si l'égalité des chances est satisfaite, les deux métriques d'équité suivantes ne le sont pas:

Parité démographique: les Lilliputiens et les Brobdingnagians sont admis à l'université à des taux différents. 48% des Lilliputiens sont admis, mais seulement 14% des Brobdingnagiens.
Probabilités égales: bien que les étudiants Lilliputiens et Brobdingnagiens qualifiés aient tous les deux les mêmes chances d'être admis, la contrainte supplémentaire selon laquelle les Lilliputiens et les Brobdingnagians non qualifiés ont tous deux la même chance d'être rejetés n'est pas satisfaite. Les Lilliputiens non qualifiés présentent un taux de refus de 70 %, tandis que les Brobdingnagians non qualifiés présentent un taux de refus de 90 %.

Pour obtenir des informations plus détaillées sur l'égalité des chances, consultez la page Égalité des opportunités dans l'apprentissage supervisé. Consultez également l'article Lutter contre la discrimination grâce à un machine learning plus intelligent pour consulter une visualisation qui examine les compromis liés à l'optimisation à des fins d'égalité des chances.

cotes égales

#fairness

Métrique d'équité permettant d'évaluer si un modèle prédit des résultats de manière égale pour toutes les valeurs d'un attribut sensible par rapport à la classe positive et à la classe négative, et pas seulement à l'une ou l'autre classe. En d'autres termes, le taux de vrais positifs et le taux de faux négatifs doivent être identiques pour tous les groupes.

Les cotes égales sont liées à l'égalité des chances, qui ne se concentre que sur les taux d'erreur d'une seule classe (positive ou négative).

Supposons, par exemple, que l'université Glubbdubdrib accepte à la fois des Lilliputiens et des Broobdingnagians à un programme de mathématiques rigoureux. Les écoles secondaires des Lilliputiens proposent un solide programme de cours de mathématiques et la grande majorité des élèves sont qualifiés pour le programme universitaire. Les écoles secondaires de Brobdingnagians ne proposent pas du tout de cours de mathématiques et, par conséquent, beaucoup moins d'étudiants sont qualifiés. Les probabilités égales sont satisfaites à condition qu'il s'agisse d'un Lilliputien ou d'un Brobdingnagian. S'il est qualifié, il est tout aussi susceptible d'être admis dans le programme. S'il ne l'est pas, il est tout aussi probable qu'il soit rejeté.

Supposons que 100 liliputiens et 100 brobdingnagians postulent à cette université, et que les décisions concernant les admissions soient prises comme suit:

Tableau 3 : Candidats lilliputiens (90% sont qualifiés)

	Qualifié	Non défini
Accepté	45	2
Refusé(e)	45	8
Total	90	10
Pourcentage d'étudiants qualifiés admis: 45/90 = 50% Pourcentage d'élèves non qualifiés refusés: 8/10 = 80% Pourcentage total d'étudiants lilliputiens acceptés: (45 + 2)/100 = 47%

Tableau 4. Candidats Brobdingnagian (10% sont qualifiés):

	Qualifié	Non défini
Accepté	5	18
Refusé(e)	5	72
Total	10	90
Pourcentage d'étudiants qualifiés admis: 5/10 = 50% Pourcentage d'élèves non qualifiés rejetés: 72/90 = 80% Pourcentage total d'étudiants Brobdingnagiens acceptés: (5 + 18)/100 = 23%

Les probabilités égales sont satisfaites, car les étudiants qualifiés de Lilliputian et Brobdingnagian ont tous deux 50% de chances d'être admis, tandis que les Lilliputian et Brobdingnagian non qualifiés ont 80% de chances d'être rejetés.

Les probabilités égales sont formellement définies dans "Égalité des opportunités dans l'apprentissage supervisé" comme suit : "predictor ¥ répond aux probabilités égales vis-à-vis de l'attribut protégé A et du résultat Y si M' et A sont indépendants et conditionnels à Y."

Estimator

#TensorFlow

API TensorFlow obsolète. Utilisez tf.keras au lieu d'Estimators.

hors connexion

Processus de mesure de la qualité des prédictions d'un modèle de machine learning. Lors du développement d'un modèle, vous appliquez généralement des métriques d'évaluation non seulement à l'ensemble d'entraînement, mais également à un ensemble de validation et à un ensemble de test. Vous pouvez aussi utiliser les métriques d'évaluation pour comparer différents modèles.

pour décrire cela.

#fundamentals

Les valeurs d'une ligne de caractéristiques et éventuellement d'un libellé. Les exemples d'apprentissage supervisé appartiennent à deux catégories générales:

Un exemple étiqueté se compose d'une ou de plusieurs caractéristiques et d'une étiquette. Les exemples étiquetés sont utilisés pendant l'entraînement.
Un exemple sans étiquette se compose d'une ou de plusieurs caractéristiques, mais sans étiquette. Les exemples sans étiquette sont utilisés lors de l'inférence.

Par exemple, supposons que vous entraîniez un modèle pour déterminer l'influence des conditions météorologiques sur les résultats des élèves aux tests. Voici trois exemples étiquetés:

Caractéristiques			Étiquette
Température	Humidité	Pression	Résultat du test
15	47	998	Bonne
19	34	1020	Excellente
18	92	1012	Médiocre

Voici trois exemples sans étiquette:

Température	Humidité	Pression
12	62	1014
21	47	1017
19	41	1021

La ligne d'un ensemble de données est généralement la source brute d'un exemple. Autrement dit, un exemple consiste généralement en un sous-ensemble des colonnes de l'ensemble de données. De plus, les caractéristiques d'un exemple peuvent également inclure des caractéristiques synthétiques, telles que les croisements de caractéristiques.

expérience rediffusion

#rl

Dans l'apprentissage par renforcement, il s'agit d'une technique DQN utilisée pour réduire les corrélations temporelles dans les données d'entraînement. L'agent stocke les transitions d'état dans un tampon de relecture, puis échantillonne les transitions à partir du tampon de relecture pour créer des données d'entraînement.

biais de l'expérimentateur

#fairness

Voir biais de confirmation.

problème de gradient éclatant

#seq

Tendance des gradients dans les réseaux de neurones profonds (en particulier les réseaux de neurones récurrents) à devenir étonnamment abrupte (élevée). Les gradients escarpés entraînent souvent des mises à jour très importantes des pondérations de chaque nœud d'un réseau de neurones profond.

Les modèles présentant un problème de gradient éclatant deviennent difficiles, voire impossibles à entraîner. Le rognage de gradient peut atténuer ce problème.

À comparer au problème de disparition du gradient.

F

F₁

Une métrique de classification binaire de consolidation qui s'appuie à la fois sur la précision et le rappel. La formule est la suivante:

$$F{_1} = \frac{\text{2 * precision * recall}} {\text{precision + recall}}$$

Prenons l'exemple suivant:

précision = 0,6
rappel = 0,4

$$F{_1} = \frac{\text{2 * 0.6 * 0.4}} {\text{0.6 + 0.4}} = 0.48$$

Lorsque la précision et le rappel sont assez similaires (comme dans l'exemple précédent), F₁ est proche de leur moyenne. Lorsque la précision et le rappel diffèrent considérablement, F₁ est plus proche de la valeur la plus faible. Exemple :

précision = 0,9
rappel = 0,1

$$F{_1} = \frac{\text{2 * 0.9 * 0.1}} {\text{0.9 + 0.1}} = 0.18$$

contrainte d'équité

#fairness

Application d'une contrainte à un algorithme pour s'assurer qu'une ou plusieurs définitions d'impartialité sont respectées. Voici quelques exemples de contraintes d'équité:

Post-traitez la sortie de votre modèle.
Modification de la fonction de perte afin d'incorporer une pénalité pour non-respect d'une métrique d'équité.
Ajout direct d'une contrainte mathématique à un problème d'optimisation

métrique d'équité

#fairness

Définition mathématique d'« impartialité » qui est mesurable. Voici quelques métriques d'équité couramment utilisées:

chances égales
parité prédictive
impartialité contrefactuelle
parité démographique

De nombreuses métriques d'équité s'excluent mutuellement. Consultez la section Métriques d'incompatibilité des métriques d'équité.

faux négatif (FN)

#fundamentals

Exemple dans lequel le modèle prédit à tort la classe négative. Par exemple, le modèle prédit qu'un e-mail particulier n'est pas du spam (la classe négative), mais en réalité, ce n'est pas du spam.

taux de faux négatifs

Proportion d'exemples positifs réels pour lesquels le modèle a prédit à tort la classe négative. La formule suivante calcule le taux de faux négatifs:

$$\text{false negative rate} = \frac{\text{false negatives}}{\text{false negatives} + \text{true positives}}$$

faux positif (FP)

#fundamentals

Exemple dans lequel le modèle prédit à tort la classe positive. Par exemple, le modèle prédit qu'un e-mail particulier est du spam (classe positive), alors que cet e-mail n'est en réalité pas du spam.

taux de faux positifs (TFP)

#fundamentals

Proportion d'exemples négatifs réels pour lesquels le modèle a prédit à tort la classe positive. La formule suivante calcule le taux de faux positifs:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

Le taux de faux positifs correspond à l'axe des abscisses d'une courbe ROC.

fonctionnalité

#fundamentals

Variable d'entrée d'un modèle de machine learning. Un exemple est constitué d'une ou de plusieurs caractéristiques. Par exemple, supposons que vous entraîniez un modèle pour déterminer l'influence des conditions météorologiques sur les résultats des élèves aux tests. Le tableau suivant présente trois exemples, chacun contenant trois caractéristiques et une étiquette:

Caractéristiques			Étiquette
Température	Humidité	Pression	Résultat du test
15	47	998	92
19	34	1020	84
18	92	1012	87

À comparer à l'étiquette.

croisement de caractéristiques

#fundamentals

Caractéristique synthétique formée par le "croisement" de caractéristiques catégorielles ou réparties

Prenons l'exemple d'un modèle de "prévision de l'humeur" qui représente la température dans l'un des quatre buckets suivants:

freezing
chilly
temperate
warm

Elle représente la vitesse du vent dans l'un des trois segments suivants:

still
light
windy

Sans croisement de caractéristiques, le modèle linéaire s'entraîne indépendamment sur chacun des sept buckets précédents. Ainsi, le modèle est entraîné avec, par exemple, freezing indépendamment de l'entraînement effectué sur windy, par exemple.

Vous pouvez également créer un croisement de caractéristiques entre la température et la vitesse du vent. Cette caractéristique synthétique peut présenter les 12 valeurs suivantes:

freezing-still
freezing-light
freezing-windy
chilly-still
chilly-light
chilly-windy
temperate-still
temperate-light
temperate-windy
warm-still
warm-light
warm-windy

Grâce aux croisements de caractéristiques, le modèle peut apprendre les différences d'humeur entre un jour freezing-windy et un jour freezing-still.

Si vous créez une caractéristique synthétique à partir de deux caractéristiques ayant chacune de nombreux buckets différents, le croisement de caractéristiques résultant aura un grand nombre de combinaisons possibles. Par exemple, si une caractéristique comporte 1 000 buckets et que l'autre en compte 2 000, le croisement de caractéristiques résultant comporte 2 000 000 de buckets.

Officiellement, une croix est un produit cartésien.

Les croisements de caractéristiques sont principalement utilisés avec des modèles linéaires et rarement avec les réseaux de neurones.

l'ingénierie des caractéristiques.

#fundamentals

#TensorFlow

Un processus comprenant les étapes suivantes:

Déterminer les caractéristiques qui pourraient s'avérer utiles pour entraîner un modèle
Convertir les données brutes de l'ensemble de données en versions efficaces de ces caractéristiques

Par exemple, vous pouvez déterminer que temperature peut être une fonctionnalité utile. Vous pouvez ensuite expérimenter le binning pour optimiser ce que le modèle peut apprendre à partir de différentes plages temperature.

L'extraction de caractéristiques est parfois appelée extraction de caractéristiques ou fonctionnalité.

Cliquez sur l'icône pour afficher des remarques supplémentaires concernant TensorFlow.

Dans TensorFlow, l'extraction de caractéristiques implique souvent de convertir les entrées des fichiers journaux bruts en tampons de protocole tf.Example. Consultez également tf.Transform.

extraction de caractéristiques

Terme complexe associé à l'une des définitions suivantes:

Récupérer des représentations de caractéristiques intermédiaires calculées par un modèle non supervisé ou pré-entraîné (par exemple, des valeurs de couche cachée dans un réseau de neurones) afin de les utiliser en entrée dans un autre modèle
Synonyme d'extraction de caractéristiques.

importances des caractéristiques

#df

Synonyme d'importance des variables.

ensemble de caractéristiques

#fundamentals

Groupe des caractéristiques utilisées pour l'entraînement de votre modèle de machine learning. Par exemple, le code postal, la taille et l'état du bien peuvent consister en un ensemble de caractéristiques simple pour un modèle qui prédit le prix des logements.

spécification des caractéristiques

#TensorFlow

Décrit les informations requises pour extraire les données de caractéristiques du tampon de protocole tf.Example. Étant donné que le tampon de protocole tf.Example n'est qu'un conteneur de données, vous devez spécifier les éléments suivants:

Données à extraire (c'est-à-dire, les clés des caractéristiques)
Type de données (par exemple, flottant ou entier)
La longueur (fixe ou variable)

vecteur de caractéristiques

#fundamentals

Tableau de valeurs de feature comprenant un exemple. Le vecteur de caractéristiques est saisi pendant l'entraînement et l'inférence. Par exemple, le vecteur de caractéristiques d'un modèle comportant deux caractéristiques distinctes pourrait être:

[0.92, 0.56]

Quatre couches: une couche d'entrée, deux couches cachées et une couche de sortie.
La couche d'entrée contient deux nœuds, l'un contenant la valeur 0.92 et l'autre la valeur 0.56.

Chaque exemple fournit des valeurs différentes pour le vecteur de caractéristiques. Le vecteur de caractéristiques utilisé dans l'exemple suivant pourrait donc se présenter comme suit:

[0.73, 0.49]

L'extraction de caractéristiques détermine comment représenter les caractéristiques dans le vecteur. Par exemple, une caractéristique catégorielle binaire avec cinq valeurs possibles peut être représentée avec l'encodage one-hot. Dans ce cas, la partie du vecteur de caractéristiques d'un exemple particulier serait composée de quatre zéros et d'un seul "1,0" en troisième position, comme suit:

[0.0, 0.0, 1.0, 0.0, 0.0]

Prenons un autre exemple et supposons que votre modèle comporte trois caractéristiques:

une caractéristique catégorielle binaire avec cinq valeurs possibles représentées avec l'encodage one-hot ; par exemple: [0.0, 1.0, 0.0, 0.0, 0.0]
une autre caractéristique catégorielle binaire avec trois valeurs possibles représentées avec l'encodage one-hot ; par exemple: [0.0, 0.0, 1.0]
une caractéristique à virgule flottante, par exemple: 8.3.

Dans ce cas, le vecteur de caractéristiques pour chaque exemple est représenté par neuf valeurs. Compte tenu des exemples de valeurs de la liste précédente, le vecteur de caractéristiques serait:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

fonctionnalité

Processus d'extraction de caractéristiques à partir d'une source d'entrée, telle qu'un document ou une vidéo, et de mise en correspondance de ces caractéristiques dans un vecteur de caractéristiques.

Certains experts en ML utilisent la caractéristique comme synonyme d'extraction de caractéristiques ou d'extraction de caractéristiques.

apprentissage fédéré

Approche de machine learning distribué qui entraîne des modèles de machine learning à l'aide d'exemples décentralisés et hébergés sur des appareils tels que des smartphones. Dans l'apprentissage fédéré, un sous-ensemble d'appareils télécharge le modèle actuel à partir d'un serveur central de coordination. Les appareils utilisent les exemples stockés sur les appareils pour améliorer le modèle. Les appareils importent ensuite les améliorations du modèle (mais pas les exemples d'entraînement) sur le serveur coordonné, où elles sont agrégées avec d'autres mises à jour pour produire un modèle global amélioré. Après l'agrégation, les mises à jour de modèle calculées par les appareils ne sont plus nécessaires et peuvent être supprimées.

Comme les exemples d'entraînement ne sont jamais importés, l'apprentissage fédéré suit les principes de confidentialité de la collecte ciblée et de la minimisation des données.

Pour plus d'informations sur l'apprentissage fédéré, consultez ce tutoriel.

boucle de rétroaction

#fundamentals

En machine learning, situation dans laquelle les prédictions d'un modèle influencent les données d'entraînement du même modèle ou d'un autre modèle. Par exemple, un modèle qui recommande des films aura une incidence sur ceux que les utilisateurs verront, ce qui aura une incidence sur les modèles de recommandation de films suivants.

Réseau de neurones feedforward (FFN)

Réseau de neurones sans connexions cycliques ou récursives. Par exemple, les réseaux de neurones profonds traditionnels sont des réseaux de neurones feedforward. À comparer aux réseaux de neurones récurrents, qui sont cycliques.

apprentissage few-shot

Approche du machine learning, souvent utilisée pour la classification d'objets, conçue pour entraîner des classificateurs efficaces à partir d'un petit nombre d'exemples d'entraînement.

Voir aussi apprentissage one-shot et apprentissage zero-shot.

requête few-shot

#language

#IAgénérative

Une requête contenant plusieurs (quelques exemples) montrant comment le grand modèle de langage doit répondre. Par exemple, la longue requête suivante contient deux exemples montrant à un grand modèle de langage comment répondre à une requête.

Composantes d'une requête	Remarques
`Quelle est la devise officielle du pays spécifié ?`	La question à laquelle le LLM doit répondre.
`France: EUR`	Par exemple.
`Royaume-Uni: GBP`	Voici un autre exemple.
`Inde:`	Requête réelle.

Les requêtes few-shot produisent généralement des résultats plus souhaitables que les requêtes zero-shot et les requêtes one-shot. Cependant, les requêtes few-shot nécessitent une requête plus longue.

Une requête few-shot est une forme d'apprentissage few-shot appliquée à l'apprentissage par requête.

Violon

#language

Bibliothèque de configuration axée sur Python qui définit les valeurs des fonctions et des classes sans code ni infrastructure invasif. Dans le cas de Pax et d'autres codebases de ML, ces fonctions et classes représentent les modèles et les hyperparamètres d'entraînement.

Fiddle part du principe que le codebase de machine learning est généralement divisé comme suit:

Le code de bibliothèque, qui définit les couches et les optimiseurs.
Le code "glue" de l'ensemble de données, qui appelle les bibliothèques et relie tout ensemble

Fiddle capture la structure d'appel du code Glue sous une forme non évaluée et modifiable.

réglage

#language

#image

#IAgénérative

Une deuxième passe d'entraînement spécifique à une tâche effectuée sur un modèle pré-entraîné afin d'affiner ses paramètres pour un cas d'utilisation spécifique. Par exemple, la séquence d'entraînement complète pour certains grands modèles de langage est la suivante:

Pré-entraînement:entraînez un grand modèle de langage sur un vaste ensemble de données général, comme toutes les pages Wikipédia en anglais.
Ajustement:entraînez le modèle pré-entraîné à effectuer une tâche spécifique, comme répondre à des requêtes médicales. L'affinage implique généralement des centaines, voire des milliers d'exemples axés sur la tâche spécifique.

Dans cet autre exemple, la séquence d'entraînement complète pour un grand modèle d'images se présente comme suit:

Pré-entraînement:entraînez un grand modèle d'images sur un vaste ensemble de données d'images génériques, tel que toutes les images de Wikimedia commons.
Ajustement:entraînez le modèle pré-entraîné à effectuer une tâche spécifique, comme générer des images d'orques.

Pour l'optimiser, vous pouvez combiner les stratégies suivantes:

Modifier tous les paramètres existants du modèle pré-entraîné On parle parfois de réglage complet.
Ne modifier que certains des paramètres existants du modèle pré-entraîné (généralement, les couches les plus proches de la couche de sortie), tout en conservant les autres paramètres existants inchangés (en général, les couches les plus proches de la couche d'entrée) Consultez la section Optimiser l'efficacité des paramètres.
Ajout de couches, généralement au-dessus des couches existantes les plus proches de la couche de sortie.

L'affinage est une forme d'apprentissage par transfert. Ainsi, l'affinage peut utiliser une fonction de perte ou un type de modèle différents de ceux utilisés pour entraîner le modèle pré-entraîné. Par exemple, vous pouvez affiner un grand modèle d'images pré-entraîné pour produire un modèle de régression qui renvoie le nombre d'oiseaux dans une image d'entrée.

Comparer et différencier l'affinage avec les termes suivants:

distillation
apprentissage rapide

Lin

#language

Bibliothèque Open Source hautes performances basée sur JAX, dédiée au deep learning. Flax fournit des fonctions pour l'entraînement des réseaux de neurones, ainsi que des méthodes d'évaluation de leurs performances.

Lin

#language

Une bibliothèque Open Source Transformer, basée sur Flax, conçue principalement pour le traitement du langage naturel et la recherche multimodale.

Oublier le portail

#seq

Partie d'une cellule de mémoire longue à court terme qui régule le flux d'informations dans la cellule. Les portes d'oubli conservent le contexte en déterminant quelles informations supprimer de l'état de la cellule.

softmax complet

Synonyme de softmax.

À comparer à l'échantillonnage de candidats.

couche entièrement connectée

Une couche cachée dans laquelle chaque nœud est connecté à chaque nœud de la couche cachée suivante.

Une couche entièrement connectée est également appelée couche dense.

transformation de fonction

Fonction qui reçoit une fonction en entrée et renvoie une fonction transformée en sortie. JAX utilise des transformations de fonction.

G

Réseau d'affiliation Google

Abréviation de réseau antagoniste génératif.

généralisation

#fundamentals

Capacité d'un modèle à effectuer des prédictions correctes sur de nouvelles données qui n'étaient pas visibles auparavant. Un modèle capable de généraliser est l'opposé d'un modèle qui est en surapprentissage.

Cliquez sur l'icône pour afficher des remarques supplémentaires.

Vous entraînez un modèle sur les exemples de l'ensemble d'entraînement. Par conséquent, il apprend les particularités des données de l'ensemble d'entraînement. La généralisation demande essentiellement si votre modèle est capable d'effectuer des prédictions correctes sur des exemples qui ne figurent pas dans l'ensemble d'entraînement.

Pour encourager la généralisation, la régularisation permet à un modèle de ne pas s'entraîner exactement selon les particularités des données de l'ensemble d'entraînement.

courbe de généralisation

#fundamentals

Représentation graphique de la perte d'entraînement et de la perte de validation en tant que fonction du nombre d'itérations.

Une courbe de généralisation peut vous aider à détecter un éventuel surapprentissage. Par exemple, la courbe de généralisation suivante suggère un surapprentissage, car la perte de validation devient en fin de compte nettement plus élevée que la perte d'entraînement.

Graphique cartésien dans lequel l'axe des y est étiqueté "perte" et l'axe des x est étiqueté "itérations". Deux tracés apparaissent. L'un représente la perte d'entraînement et l'autre la perte de validation.
Les deux tracés commencent de la même manière, mais la perte d'entraînement finit par chuter
bien plus bas que la perte de validation.

modèle linéaire généralisé

Généralisation des modèles de régression des moindres carrés, basés sur le bruit gaussien, à d'autres types de modèles basés sur d'autres types de bruit, tels que le bruit de Poisson ou le bruit catégorielle. Voici quelques exemples de modèles linéaires généralisés:

régression logistique
régression à classes multiples
régression des moindres carrés

Les paramètres d'un modèle linéaire généralisé peuvent être déterminés via une optimisation convexe.

Les modèles linéaires généralisés présentent les propriétés suivantes:

La prédiction moyenne du modèle de régression des moindres carrés optimal est égale à l'étiquette moyenne des données d'entraînement.
La probabilité moyenne prédite par le modèle de régression logistique optimal est égale à l'étiquette moyenne des données d'entraînement.

La puissance d'un modèle linéaire généralisé est limitée par ses caractéristiques. Contrairement à un modèle profond, un modèle linéaire généralisé ne peut pas "apprendre de nouvelles caractéristiques".

réseau antagoniste génératif (GAN)

Système permettant de créer des données dans lesquelles un générateur crée des données et un discriminateur détermine si ces données créées sont valides ou non.

IA générative

#language

#image

#IAgénérative

Un domaine novateur en pleine transformation, sans définition formelle. Cela dit, la plupart des experts s'accordent à dire que les modèles d'IA générative peuvent créer ("générer") des contenus présentant tous les éléments suivants:

complexe
cohérentes
originale

Par exemple, un modèle d'IA générative peut créer des images ou des essais complexes.

Certaines technologies antérieures, telles que les LSTM et les RNN, peuvent également générer du contenu original et cohérent. Certains experts considèrent ces technologies antérieures comme de l'IA générative, tandis que d'autres estiment que la véritable IA générative nécessite des résultats plus complexes que ce que peuvent produire ces technologies antérieures.

À comparer au ML prédictif.

modèle génératif

Concrètement, un modèle qui effectue l'une des opérations suivantes:

Crée (génère) de nouveaux exemples à partir de l'ensemble de données d'entraînement. Par exemple, un modèle génératif peut créer de la poésie après un entraînement sur un ensemble de données de poèmes. La partie générateur d'un réseau antagoniste génératif entre dans cette catégorie.
Détermine la probabilité qu'un nouvel exemple provienne de l'ensemble d'entraînement ou ait été créé à partir du même mécanisme que celui qui a créé l'ensemble d'entraînement. Par exemple, après l'entraînement sur un ensemble de données composé de phrases en anglais, un modèle génératif peut déterminer la probabilité que la nouvelle entrée soit une phrase anglaise valide.

Un modèle génératif peut théoriquement discerner la distribution d'exemples ou de caractéristiques particulières dans un ensemble de données. Par exemple :

p(examples)

Les modèles d'apprentissage non supervisés sont génératifs.

À comparer aux modèles discriminatifs.

générateur

Sous-système d'un réseau antagoniste génératif qui crée de nouveaux exemples.

À comparer au modèle discriminatif.

impureté de gini

#df

Métrique semblable à l'entropie. Les splitters utilisent des valeurs dérivées de l'impureté de Gini ou de l'entropie de Gini pour composer des conditions pour les arbres de décision de classification. Les données collectées sont issues de l'entropie. Il n'existe pas de terme équivalent universellement accepté pour la métrique dérivée de l'impure gini. Toutefois, cette métrique sans nom est tout aussi importante que l'acquisition d'informations.

L'impureté de Gini est également appelée indice de gini ou tout simplement gini.

Cliquez sur l'icône pour obtenir des détails mathématiques sur l'impureté de gini.

L'impure de Gini correspond à la probabilité d'une mauvaise classification d'un nouvel élément de données provenant de la même distribution. L'impure gini d'un ensemble avec deux valeurs possibles "0" et "1" (par exemple, les étiquettes d'un problème de classification binaire) est calculée à l'aide de la formule suivante:

I = 1 - (p² + q²) = 1 - (p² + (1-p)²)

où :

I est l'impure de Gini.
p est la fraction des exemples "1".
q est la fraction des exemples "0". Notez que q = 1-p

Prenons l'exemple de l'ensemble de données suivant:

100 étiquettes (0,25 de l'ensemble de données) contiennent la valeur "1"
300 étiquettes (0,75 de l'ensemble de données) contiennent la valeur "0"

Par conséquent, l'impure gini est la suivante:

p = 0,25
q = 0,75
I = 1 - (0,25² + 0,75²) = 0,375

Par conséquent, une étiquette aléatoire du même ensemble de données aurait 37,5% de chances d'être mal classée et 62,5% de chances d'être correctement classée.

Une étiquette parfaitement équilibrée (par exemple, 200 "0" et 200 "1") présenterait une impureté Gini de 0,5. Une étiquette très déséquilibrée présenterait une impure gini proche de 0,0.

ensemble de données d'or

Ensemble de données sélectionnées manuellement qui capture la vérité terrain. Les équipes peuvent utiliser un ou plusieurs ensembles de données fiables pour évaluer la qualité d'un modèle.

Certains ensembles de données clés capturent différents sous-domaines de la vérité terrain. Par exemple, un ensemble de données de référence pour la classification d'images peut capturer les conditions de luminosité et la résolution d'image.

GPT (Generative Pre-trained Transformer)

#language

Famille de grands modèles de langage basés sur Transformer et développé par OpenAI.

Les variantes GPT peuvent s'appliquer à plusieurs modalités, dont les suivantes:

Génération d'images (ImageGPT, par exemple)
génération de texte en image (par exemple, DALL-E).

gradient

Vecteur des dérivées partielles pour toutes les variables indépendantes. En machine learning, le gradient est le vecteur des dérivées partielles de la fonction du modèle. Le gradient indique la direction de l'ascension la plus forte.

accumulation de gradients

Technique de rétropropagation qui ne met à jour les paramètres qu'une fois par époque plutôt qu'une fois par itération. Après le traitement de chaque mini-lot, l'accumulation de gradients met simplement à jour un total cumulé de gradients. Ensuite, après avoir traité le dernier mini-lot de l'epoch, le système met enfin à jour les paramètres en fonction du total de toutes les modifications de gradient.

L'accumulation de gradients est utile lorsque la taille de lot est très importante par rapport à la quantité de mémoire disponible pour l'entraînement. Lorsque la mémoire est un problème, il s'agit généralement de réduire la taille de lot. Cependant, la réduction de la taille de lot en rétropropagation normale augmente le nombre de mises à jour des paramètres. L'accumulation de gradients permet au modèle d'éviter les problèmes de mémoire tout en permettant l'entraînement efficacement.

Arbres de décision à boosting de gradient (GBT)

#df

Type de forêt de décision dans laquelle:

L'entraînement repose sur l'optimisation de gradient.
Le modèle faible est un arbre de décision.

optimisation de gradient

#df

Algorithme d'entraînement dans lequel les modèles faibles sont entraînés pour améliorer de manière itérative la qualité (réduire la perte) d'un modèle fort. Par exemple, un modèle faible peut être un modèle linéaire ou à petit arbre de décision. Le modèle fort devient la somme de tous les modèles faibles entraînés précédemment.

Dans la forme la plus simple d'optimisation de gradient, à chaque itération, un modèle faible est entraîné à prédire le gradient de perte du modèle fort. Ensuite, la sortie du modèle efficace est mise à jour en soustrayant le gradient prédit, comme pour la descente de gradient.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

où :

$F_{0}$ est le modèle fort de départ.
$F_{i+1}$ est le prochain modèle efficace.
$F_{i}$ est le modèle efficace actuel.
$\xi$ est une valeur comprise entre 0,0 et 1,0 appelée rétrécissement, qui est analogue au taux d'apprentissage dans la descente de gradient.
$f_{i}$ est le modèle faible entraîné pour prédire le gradient de perte de $F_{i}$.

Les variations modernes du boosting de gradient incluent également la dérivée secondaire (hessienne) de la perte dans leur calcul.

Les arbres de décision sont couramment utilisés comme modèles faibles dans l'optimisation de gradient. Consultez la section Arbres de décision à boosting de gradient.

bornement de la norme du gradient

#seq

Mécanisme couramment utilisé pour atténuer le problème de l'explosion du gradient en limitant artificiellement (rogner) la valeur maximale des gradients lorsque vous utilisez la descente de gradient pour entraîner un modèle.

descente de gradient

#fundamentals

Technique mathématique permettant de minimiser la perte. La descente de gradient ajuste de manière itérative les pondérations et les biais, afin de trouver progressivement la meilleure combinaison pour minimiser la perte.

La descente de gradient est plus ancienne (beaucoup plus ancienne) que le machine learning.

graphique

#TensorFlow

Dans TensorFlow, une spécification de calcul. Les nœuds du graphe représentent des opérations. Les bords sont orientés et représentent le passage du résultat d'une opération (un Tensor) en tant qu'opérande vers une autre opération. Utilisez TensorBoard pour visualiser un graphe.

exécution de graphe

#TensorFlow

Environnement de programmation TensorFlow dans lequel le programme commence par construire un graphe, puis exécute tout ou partie de ce graphe. L'exécution de graphe est le mode d'exécution par défaut dans TensorFlow 1.x.

À comparer à l'exécution eager.

règles gourmandes

#rl

Dans l'apprentissage par renforcement, il s'agit d'une règle qui choisit toujours l'action avec le retour attendu le plus élevé.

vérité terrain

#fundamentals

La réalité.

Ce qui s'est réellement produit.

Prenons l'exemple d'un modèle de classification binaire qui prédit si un étudiant en première année d'université obtiendra un diplôme dans les six ans. La vérité terrain de ce modèle est de savoir si cet étudiant a obtenu ou non son diplôme dans les six ans.

Cliquez sur l'icône pour afficher des remarques supplémentaires.

Nous évaluons la qualité du modèle par rapport à la vérité terrain. Cependant, la vérité terrain n'est pas toujours complètement, eh bien, véridique. Prenons l'exemple des exemples suivants d'imperfections potentielles de la vérité terrain:

Dans l'exemple de remise de diplôme, sommes-nous certain que les dossiers de remise de diplôme de chaque élève sont toujours corrects ? La tenue des dossiers de l'université est-elle irréprochable ?
Supposons que l'étiquette soit une valeur à virgule flottante mesurée par des instruments (des baromètres, par exemple). Comment être sûr que chaque instrument est calibré de manière identique ou que chaque mesure a été effectuée dans les mêmes circonstances ?
Si l'étiquette est une question d'opinion humaine, comment être sûr que chaque évaluateur humain évalue les événements de la même manière ? Pour améliorer la cohérence, des évaluateurs manuels experts interviennent parfois.

biais d'attribution de groupe

#fairness

Nous partons du principe que ce qui est vrai pour un individu l'est également pour tous les membres de ce groupe. Les effets du biais d'attribution de groupe peuvent être exacerbés si un échantillonnage de commodité est utilisé pour la collecte des données. Dans un échantillon non représentatif, des attributions qui ne reflètent pas la réalité peuvent être faites.

Voir aussi biais d'homogénéité de l'exogroupe et biais d'appartenance.

H

hallucination

#language

Production de résultats qui semblent plausibles, mais factuellement incorrects, par un modèle d'IA générative qui prétend faire une assertion concernant le monde réel. Par exemple, un modèle d'IA générative qui prétend que Barack Obama est décédé en 1865 est hallucinant.

hachage

En machine learning, un mécanisme de binning des données catégorielles, en particulier lorsque le nombre de catégories est élevé, mais que le nombre de catégories qui apparaissent réellement dans l'ensemble de données est relativement faible.

Par exemple, la Terre abrite environ 73 000 espèces d'arbres. Vous pourriez représenter chacune des 73 000 espèces d'arbres dans 73 000 buckets catégorielles distincts. Si seulement 200 de ces espèces d'arbres apparaissent dans un ensemble de données, vous pouvez utiliser le hachage pour diviser les espèces d'arbres en 500 buckets, par exemple.

Un bucket peut contenir plusieurs espèces d'arbres. Par exemple, le hachage peut placer le baobab et l'érable rouge, deux espèces génétiquement dissemblables, dans le même bucket. Quoi qu'il en soit, le hachage reste un bon moyen de mapper de grands ensembles catégoriels au nombre de buckets sélectionné. Le hachage transforme une caractéristique catégorielle ayant un grand nombre de valeurs possibles en un nombre beaucoup plus réduit de valeurs en regroupant les valeurs de manière déterministe.

heuristique

Une solution simple et rapidement mise en œuvre pour résoudre un problème. Par exemple : "Avec une heuristique, nous avons atteint une précision de 86 %. Lorsque nous sommes passés à un réseau de neurones profond, la justesse a atteint 98%."

couche cachée

#fundamentals

Une couche d'un réseau de neurones entre la couche d'entrée (les caractéristiques) et la couche de sortie (la prédiction). Chaque couche cachée est composée d'un ou de plusieurs neurones. Par exemple, le réseau de neurones suivant contient deux couches cachées, la première avec trois neurones et la seconde avec deux neurones:

Un réseau de neurones profond contient plusieurs couches cachées. Par exemple, l'illustration précédente représente un réseau de neurones profond, car le modèle contient deux couches cachées.

clustering hiérarchique

#clustering

Catégorie d'algorithmes de clustering qui créent un arbre de clusters. Le clustering hiérarchique est bien adapté aux données hiérarchiques, telles que les taxonomies botaniques. Il existe deux types d'algorithmes de clustering hiérarchique:

Le clustering agglomératif attribue d'abord chaque exemple à son propre cluster, puis fusionne de manière itérative les clusters les plus proches pour créer un arbre hiérarchique.
Le clustering divisif regroupe d'abord tous les exemples dans un cluster, puis le divise de manière itérative en un arbre hiérarchique.

À comparer au clustering basé sur centroïde.

marge maximale

Famille de fonctions de perte pour la classification conçue pour trouver la limite de décision aussi éloignée que possible de chaque exemple d'entraînement, afin de maximiser la marge entre les exemples et la limite. Les KSVMs utilisent la marge maximale (ou une fonction associée, comme le carré de la marge maximale). Dans le cas de la classification binaire, la fonction de marge maximale est définie comme suit:

$$\text{loss} = \text{max}(0, 1 - (y * y'))$$

où y est la véritable étiquette (-1 ou +1), et y' est la sortie brute du modèle du classificateur:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Par conséquent, le graphique de la marge maximale en fonction de (y * y') se présente comme suit:

Un graphique cartésien composé de deux segments de ligne joints. Le premier segment de ligne commence à (-3, 4) et se termine à (1, 0). Le deuxième segment de ligne commence à (1, 0) et se poursuit indéfiniment avec une pente de 0.

biais historique

#fairness

Type de biais qui existe déjà dans le monde et qui a été introduit dans un ensemble de données. Ces biais ont tendance à refléter les stéréotypes culturels, les inégalités démographiques et les préjugés à l'encontre de certains groupes sociaux.

Prenons l'exemple d'un modèle de classification qui prédit si un demandeur de prêt risque de manquer ou non son prêt. Il a été entraîné sur des données historiques de prêt par défaut des années 1980 par des banques locales de deux communautés différentes. Si les anciens candidats de la Communauté A étaient six fois plus susceptibles de se retrouver en défaut de paiement que ceux de la Communauté B, le modèle pourrait apprendre un biais historique et diminuer la probabilité d'approbation des prêts dans la Communauté A, même si les conditions historiques ayant entraîné des taux de défaut plus élevés pour cette communauté ne sont plus pertinentes.

données exclues

Exemples intentionnellement non utilisés ("exclus") pendant l'entraînement. L'ensemble de données de validation et l'ensemble de données de test sont des exemples de données exclues. Les données exclues vous aident à évaluer la capacité de votre modèle à se généraliser à des données autres que celles sur lesquelles il a été entraîné. La perte sur l'ensemble de données exclues donne une meilleure estimation de la perte sur un ensemble de données non vu que sur l'ensemble d'entraînement.

hôte

#TensorFlow

#GoogleCloud

Lors de l'entraînement d'un modèle de ML sur des puces accélérateurs (GPU ou TPU), la partie du système qui contrôle les deux éléments suivants:

Flux global du code.
Extraction et transformation du pipeline d'entrée

L'hôte s'exécute généralement sur un processeur et non sur une puce d'accélérateur. L'appareil manipule les Tensors sur les puces d'accélérateur.

hyperparamètre

#fundamentals

Les variables que vous ou un service de réglage d'hyperparamètresajustez lors d'exécutions successives d'entraînement d'un modèle. Par exemple, le taux d'apprentissage est un hyperparamètre. Vous pouvez définir le taux d'apprentissage sur 0,01 avant une session de formation. Si vous déterminez que 0,01 est trop élevé, vous pouvez peut-être définir le taux d'apprentissage sur 0,003 pour la prochaine session d'entraînement.

En revanche, les paramètres représentent les différentes pondérations et biais que le modèle apprend pendant l'entraînement.

hyperplan

Frontière qui sépare un espace en deux sous-espaces. Par exemple, une ligne est un hyperplan en deux dimensions, et un plan est un hyperplan en trois dimensions. Plus généralement dans le machine learning, un hyperplan est la limite qui sépare un espace de grande dimension. Les machines à vecteurs de support à noyau utilisent des hyperplans pour séparer les classes positives des classes négatives, souvent dans un espace de très grande dimension.

I

i.i.d.

Abréviation de répartition indépendante et identique.

reconnaissance d'image

#image

Processus qui classe les objets, les motifs ou les concepts d'une image. La reconnaissance d'images est également appelée classification d'images.

Pour en savoir plus, consultez Travaux pratiques sur le ML: Classification d'images.

ensemble de données déséquilibré

Synonyme d'ensemble de données avec déséquilibre des classes.

biais implicite

#fairness

Créer automatiquement une association ou une hypothèse sur la base de ses modèles intelligents et de ses mémoires. Les biais implicites peuvent avoir une incidence sur les éléments suivants:

Comment les données sont collectées et classées.
Conception et développement des systèmes de machine learning

Par exemple, lors de la création d'un classificateur pour identifier des photos de mariage, un ingénieur peut utiliser la présence d'une robe blanche sur une photo comme caractéristique. Toutefois, les robes blanches ne sont d'usage qu'à certaines époques et dans certaines cultures.

Voir aussi biais de confirmation.

imputation

Forme abrégée d'imputation de valeur.

incompatibilité des métriques d'équité

#fairness

Idée selon laquelle certaines notions d'équité sont incompatibles et ne peuvent pas être satisfaites simultanément. Par conséquent, aucune métrique universelle unique pour quantifier l'équité ne peut être appliquée à tous les problèmes de ML.

Bien que cela puisse sembler décourageant, l'incompatibilité des métriques d'équité n'implique pas que les efforts déployés en la matière ne portent pas leurs fruits. Au lieu de cela, il suggère que l'équité doit être définie en contexte pour un problème de ML donné, dans le but d'éviter les préjudices spécifiques à ses cas d'utilisation.

Consultez la section Sur la possibilité ou l'impartialité pour une discussion plus détaillée à ce sujet.

apprentissage en contexte

#language

#IAgénérative

Synonyme de requête few-shot.

indépendamment et de manière identique (i.i.d)

#fundamentals

Données tirées d'une distribution qui ne change pas et où chaque valeur dessinée ne dépend pas des valeurs précédemment dessinées. Une iid est le gaz idéal du machine learning : c'est une construction mathématique utile qui n'est quasiment jamais exacte dans le monde réel. Par exemple, la répartition des visiteurs d'une page Web peut être basée sur des variables i.id.sur une courte période. Cela signifie que la répartition ne change pas pendant cette courte période, et que la visite d'une personne est généralement indépendante de celle d'une autre. Toutefois, si vous allongez cette période, des différences saisonnières au niveau des visiteurs de la page Web peuvent apparaître.

Voir aussi nonstationarité.

équité individuelle

#fairness

Métrique d'équité qui vérifie si des personnes similaires sont classées de la même manière. Par exemple, Brobdingnagian Academy peut souhaiter respecter l'équité individuelle en s'assurant que deux élèves ayant des notes identiques et des résultats d'examen standardisés aient une chance égale d'obtenir une admission.

Notez que l'équité individuelle repose entièrement sur la façon dont vous définissez la "similarité" (dans ce cas, les notes et les résultats des tests). Vous pouvez courir le risque d'introduire de nouveaux problèmes d'équité si votre métrique de similarité manque d'informations importantes (telles que la rigueur du programme d'un étudiant).

Pour une discussion plus détaillée sur l'équité individuelle, consultez la section Équité grâce à la notoriété.

inférence

#fundamentals

En machine learning, processus de prédiction en appliquant un modèle entraîné à des exemples sans étiquette.

L'inférence a une signification quelque peu différente en termes de statistiques. Pour plus de détails, consultez l' article Wikipédia sur l'inférence statistique.

chemin d'inférence

#df

Dans un arbre de décision, lors de l'inférence, l'itinéraire d'un exemple particulier part de la racine vers d'autres conditions, se terminant par une feuille. Par exemple, dans l'arbre de décision suivant, les flèches plus épaisses indiquent le chemin d'inférence d'un exemple avec les valeurs de caractéristiques suivantes:

x = 7
y = 12
z = -3

Dans l'illustration suivante, le chemin d'inférence parcourt trois conditions avant d'atteindre la feuille (Zeta).

Les trois flèches épaisses indiquent le chemin d'inférence.

prise d'informations

#df

Dans les forêts de décision, il s'agit de la différence entre l'entropie d'un nœud et la somme pondérée (par nombre d'exemples) de l'entropie de ses nœuds enfants. L'entropie d'un nœud est l'entropie des exemples de ce nœud.

Prenons l'exemple des valeurs d'entropie suivantes:

entropie du nœud parent = 0,6
entropie d'un nœud enfant avec 16 exemples pertinents = 0,2
entropie d'un autre nœud enfant avec 24 exemples pertinents = 0,1

Ainsi, 40% des exemples se trouvent dans un nœud enfant et 60% dans l'autre nœud enfant. Par conséquent :

Somme d'entropie pondérée des nœuds enfants = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Le gain d'informations est donc:

gain d'informations = entropie du nœud parent - somme d'entropie pondérée des nœuds enfants
gain d'informations = 0,6 - 0,14 = 0,46

La plupart des séparateurs cherchent à créer des conditions qui maximisent les gains d'informations.

biais d'appartenance

#fairness

Faire preuve de partialité envers son propre groupe ou ses propres caractéristiques. Si les testeurs ou évaluateurs sont constitués d'amis, de membres de la famille ou de collègues du développeur de machine learning, alors le biais d'appartenance peut invalider les tests de produit ou l'ensemble de données.

Le biais d'appartenance est une forme de biais d'attribution de groupe. Voir aussi Biais d'homogénéité de l'exogroupe.

générateur d'entrée

Mécanisme par lequel les données sont chargées dans un réseau de neurones.

Un générateur d'entrée peut être considéré comme un composant responsable du traitement des données brutes dans des Tensors qui sont itérés pour générer des lots à des fins d'entraînement, d'évaluation et d'inférence.

couche d'entrée

#fundamentals

Couche d'un réseau de neurones contenant le vecteur de caractéristiques. Autrement dit, la couche d'entrée fournit des exemples pour l'entraînement ou l'inférence. Par exemple, la couche d'entrée du réseau de neurones suivant comporte deux caractéristiques:

Quatre couches: une couche d'entrée, deux couches cachées et une couche de sortie.

condition d'encart

#df

Dans une arborescence de décision, une condition qui teste la présence d'un élément dans un ensemble d'éléments. Par exemple, voici une condition de type "intégré" :

  house-style in [tudor, colonial, cape]

Lors de l'inférence, si la valeur de la caractéristique de style maison est tudor, colonial ou cape, cette condition est évaluée sur "Yes". Si la valeur de la caractéristique de style maison est différente (par exemple, ranch), cette condition est évaluée comme non.

Les conditions intégrées conduisent généralement à des arbres de décision plus efficaces que les conditions qui testent les caractéristiques à encodage one-hot.

instance

Synonyme d'exemple.

réglage des instructions

#IAgénérative

Forme d'ajustement qui améliore la capacité d'un modèle d'IA générative à suivre les instructions. Le réglage des instructions implique l'entraînement d'un modèle sur une série d'instructions, couvrant généralement une grande variété de tâches. Le modèle réglé sur les instructions qui en résulte a alors tendance à générer des réponses utiles aux requêtes zero-shot pour diverses tâches.

Indiquer les points communs et les différences avec:

optimisation du réglage des paramètres
réglage des invites

interprétabilité

#fundamentals

Capacité à expliquer ou à présenter le raisonnement d'un modèle de ML en termes compréhensibles à un humain.

La plupart des modèles de régression linéaire, par exemple, sont hautement interprétables. (Il vous suffit d'examiner les pondérations entraînées pour chaque caractéristique.) Les forêts de décision sont également hautement interprétables. Certains modèles, cependant, nécessitent une visualisation sophistiquée pour devenir interprétables.

Vous pouvez utiliser l'outil d'interprétation d'apprentissage (LIT) pour interpréter des modèles de ML.

accord inter-évaluateurs

Mesure de la fréquence à laquelle les évaluateurs humains sont d'accord lorsqu'ils effectuent une tâche. Si les évaluateurs ne sont pas d'accord, les instructions des tâches devront peut-être être améliorées. Parfois également appelé accord inter-annotateurs ou fiabilité inter-évaluateurs. Voir aussi le kappa de Cohen, l'une des mesures de l'accord inter-évaluateurs les plus populaires.

intersection over union, IoU (intersection sur union)

#image

Intersection de deux ensembles divisée par leur union. Dans les tâches de détection d'images par machine learning, l'IoU permet de mesurer la précision du cadre de délimitation prédit du modèle par rapport au cadre de vérité terrain. Dans ce cas, l'IoU des deux cadres correspond au rapport entre l'aire de chevauchement et la surface totale. Sa valeur est comprise entre 0 (pas de chevauchement du cadre de délimitation prédit et du cadre de délimitation de vérité terrain) à 1 (le cadre de délimitation prédit et le cadre de délimitation de vérité terrain ont exactement les mêmes coordonnées).

Par exemple, dans l'image ci-dessous:

Le cadre de délimitation prédit (les coordonnées délimitant l'endroit où le modèle prédit la position de la table de nuit dans le tableau) est encadré en violet.
Le cadre de délimitation de vérité terrain (les coordonnées délimitant l'emplacement réel de la table de nuit dans le tableau) est encadré en vert.

Ici, l'intersection des cadres de délimitation pour la prédiction et la vérité terrain (en bas à gauche) est de 1, et l'union des cadres de délimitation pour la prédiction et la vérité terrain (en bas à droite) est de 7. L'IoU est donc $\frac{1}{7}$.

Même image que ci-dessus, mais chaque cadre de délimitation est divisé en quatre quadrants. Il y a sept quadrants au total, car le quadrant inférieur droit du cadre de délimitation de vérité terrain et le quadrant supérieur gauche du cadre de délimitation prédit se chevauchent. Cette section qui se superpose (en vert) représente l'intersection et a une zone de 1.

IoU

Abréviation de l'intersection avec l'union.

matrice des éléments

#recsystems

Dans les systèmes de recommandation, une matrice de vecteurs de représentation vectorielle continue générés par la factorisation matricielle qui contient des signaux latents concernant chaque élément. Chaque ligne de la matrice éléments contient la valeur d'une seule caractéristique latente pour tous les éléments. Prenons l'exemple d'un système de recommandation de films. Chaque colonne de la matrice éléments représente un seul film. Les signaux latents peuvent représenter des genres ou être des signaux plus difficiles à interpréter qui impliquent des interactions complexes entre le genre, les stars, l'ancienneté du film ou d'autres facteurs.

La matrice éléments comporte le même nombre de colonnes que la matrice cible en cours de factorisation. Par exemple, pour un système de recommandation de films qui évalue 10 000 titres de films, la matrice éléments comportera 10 000 colonnes.

items

#recsystems

Dans un système de recommandation, il s'agit des entités recommandées par un système. Par exemple, les vidéos sont les articles recommandés par un vidéo store, tandis que les livres sont les articles recommandés par une librairie.

itération

#fundamentals

Mise à jour unique des paramètres d'un modèle (pondérations et biais du modèle) pendant l'entraînement. La taille de lot détermine le nombre d'exemples traités par le modèle en une seule itération. Par exemple, si la taille de lot est de 20, le modèle traite 20 exemples avant d'ajuster les paramètres.

Lors de l'entraînement d'un réseau de neurones, une seule itération implique les deux passes suivantes:

Transmission avant pour évaluer la perte sur un seul lot.
Une rétropropagation (rétropropagation) pour ajuster les paramètres du modèle en fonction de la perte et du taux d'apprentissage

J

JAX

Bibliothèque de calcul ARRAY combinant XLA (Accelerated Linear Algebra) et la différenciation automatique pour des calculs numériques hautes performances. JAX fournit une API simple et puissante pour écrire du code numérique accéléré avec des transformations composables. JAX fournit des fonctionnalités telles que:

grad (différenciation automatique)
jit (compilation juste à temps)
vmap (Vectorisation ou traitement par lot automatique)
pmap (parallélisation)

JAX est un langage permettant d'exprimer et de rédiger des transformations de code numérique. Ce langage est semblable à la bibliothèque NumPy de Python, mais a une portée beaucoup plus large. (En fait, la bibliothèque .numpy sous JAX est une version fonctionnellement équivalente, mais entièrement réécrite de la bibliothèque NumPy pour Python.)

JAX est particulièrement adapté pour accélérer de nombreuses tâches de machine learning en transformant les modèles et les données dans un format adapté au parallélisme sur les puces accélérateurs TPU.

Les bibliothèques Flax, Optax, Pax et de nombreuses autres reposent sur l'infrastructure JAX.

K

Keras

API de machine learning Python populaire. Keras s'exécute sur plusieurs frameworks de deep learning, y compris TensorFlow, où il est disponible via tf.keras.

machines à vecteurs de support à noyau (KSVMs)

Algorithme de classification qui cherche à maximiser la marge entre les classes positives et les classes négatives en mappant les vecteurs de données d'entrée à un espace de plus grande dimension. Prenons l'exemple d'un problème de classification dans lequel l'ensemble de données d'entrée comporte cent caractéristiques. Pour maximiser la marge entre les classes positives et négatives, un KSVM peut mapper en interne ces caractéristiques dans un espace à un million de dimensions. Les KSVMs utilisent une fonction de perte appelée marge maximale.

points clés

#image

Coordonnées d'éléments géographiques particuliers dans une image. Par exemple, pour un modèle de reconnaissance d'images qui distingue des espèces de fleurs, les points clés peuvent être le centre de chaque pétale, de la tige, de l'étoile, etc.

Validation croisée k-fold

Algorithme permettant de prédire la capacité d'un modèle à généraliser à de nouvelles données. La valeur k dans k-fold fait référence au nombre de groupes égaux dans lesquels vous divisez les exemples d'un ensemble de données, c'est-à-dire que vous entraînez et testez votre modèle k fois. Pour chaque cycle d'entraînement et de test, l'ensemble d'évaluation est constitué d'un groupe différent, et tous les groupes restants deviennent l'ensemble d'entraînement. Après k séries d'entraînement et de tests, vous calculez la moyenne et l'écart-type des métriques de test choisies.

Par exemple, supposons que votre ensemble de données comprend 120 exemples. Supposons également que vous décidiez de définir k sur 4. Par conséquent, après avoir brassé les exemples, vous divisez l'ensemble de données en quatre groupes égaux de 30 exemples et effectuez quatre séries d'entraînement/de test:

Par exemple, l'erreur quadratique moyenne (MSE) est peut-être la métrique la plus significative pour un modèle de régression linéaire. Par conséquent, vous pouvez trouver la moyenne et l'écart-type de la MSE sur les quatre cycles.

k-moyennes

#clustering

Algorithme de clustering populaire qui regroupe des exemples dans l'apprentissage non supervisé. L'algorithme de k-moyennes effectue les opérations suivantes:

Détermination de manière itérative des meilleurs k points centraux (appelés centroïdes).
Affecte chaque exemple au centroïde le plus proche. Les exemples les plus proches du même centroïde appartiennent au même groupe.

L'algorithme k-moyennes choisit l'emplacement des centroïdes afin de minimiser le carré cumulatif des distances entre chaque exemple et son centroïde le plus proche.

Prenons l'exemple du tracé suivant comparant la hauteur d'un chien à sa largeur:

Un graphique cartésien avec plusieurs dizaines de points de données.

Si k=3, l'algorithme k-moyennes déterminera trois centroïdes. Chaque exemple est attribué à son centroïde le plus proche, ce qui donne trois groupes:

Le même tracé cartésien que dans l'illustration précédente, sauf avec trois centroïdes ajoutés.
Les points de données précédents sont regroupés en trois groupes distincts, chaque groupe représentant les points de données les plus proches d'un centroïde particulier.

Imaginez qu'un fabricant veuille déterminer les tailles idéales de pulls pour chiens de petite, moyenne et grande taille. Les trois centroïdes identifient la hauteur et la largeur moyennes de chaque chien de ce groupe. Ainsi, le fabricant devrait probablement baser les tailles de pull sur ces trois centroïdes. Notez que le centroïde d'un cluster n'est généralement pas un exemple du cluster.

Les illustrations précédentes montrent des k-moyennes pour des exemples avec seulement deux caractéristiques (hauteur et largeur). Les k-moyennes peuvent regrouper des exemples pour de nombreuses caractéristiques.

k-médiane

#clustering

Algorithme de clustering étroitement lié à k-moyennes. La différence pratique entre les deux est la suivante:

Dans l'algorithme k-moyennes, les centroïdes sont déterminés en minimisant la somme des carrés de la distance entre un centroïde potentiel et chacun de ses exemples.
Dans l'algorithme k-médiane, les centroïdes sont déterminés en minimisant la somme de la distance entre un centroïde potentiel et chacun de ses exemples.

Notez que les définitions de la distance sont également différentes:

Dans l'algorithme k-moyenne, il s'appuie sur la distance euclidienne entre le centroïde et un exemple. (En deux dimensions, la distance euclidienne consiste à utiliser le théorème de Pythagore pour calculer l'hypoténuse.) Par exemple, la distance k-moyennes entre (2,2) et (5,-2) est:

$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$

Dans l'algorithme k-médiane, la notion de distance utilisée est la distance de Manhattan entre le centroïde et un exemple. Cette distance est la somme des deltas absolus dans chaque dimension. Par exemple, la distance k-médiane entre (2,2) et (5,-2) est:

$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

L

régularisation L₀

#fundamentals

Type de régularisation qui pénalise le nombre total de pondérations non nulles dans un modèle. Par exemple, un modèle ayant 11 pondérations non nulles serait plus pénalisé qu'un modèle similaire ayant 10 pondérations non nulles.

La régularisation L₀ est parfois appelée régularisation de norme L0.

Cliquez sur l'icône pour afficher des remarques supplémentaires.

La régularisation L₀ n'est généralement pas pratique dans les grands modèles, car la régularisation L₀ transforme l'entraînement en un problème d'optimisation convexe.

perte L₁

#fundamentals

Une fonction de perte qui calcule la valeur absolue de la différence entre les valeurs réelles d'étiquette et les valeurs prédites par un modèle. Voici par exemple le calcul de la perte L₁ pour un lot de cinq exemples:

Valeur réelle de l'exemple	Valeur prédite du modèle	Valeur absolue du delta
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
		8 = perte L₁

La perte L₁ est moins sensible aux anomalies que la perte L₂.

L'erreur absolue moyenne correspond à la perte L₁ moyenne par exemple.

Cliquez sur l'icône pour afficher le calcul formel.

$$ L_1 loss = \sum_{i=0}^n | y_i - \hat{y}_i |$$

où :

$n$ est le nombre d'exemples.
$y$ est la valeur réelle de l'étiquette.
$\hat{y}$ est la valeur que le modèle prédit pour $y$.

régularisation L₁

#fundamentals

Type de régularisation qui pénalise les pondérations proportionnellement à la somme de la valeur absolue des pondérations. La régularisation L₁ aide à définir les pondérations des caractéristiques non pertinentes ou à peine pertinentes sur exactement 0. Une caractéristique ayant une pondération de 0 est effectivement supprimée du modèle.

À comparer à la régularisation L₂.

perte L₂

#fundamentals

Une fonction de perte qui calcule le carré de la différence entre les valeurs d'étiquette réelles et les valeurs prédites par un modèle. Voici par exemple le calcul de la perte L₂ pour un lot de cinq exemples:

Valeur réelle de l'exemple	Valeur prédite du modèle	Carré du delta
7	6	1
5	4	1
8	11	9
4	6	4
9	8	1
		16 = perte L₂

En raison de la mise au carré, la perte L₂ amplifie l'influence des anomalies. En d'autres termes, la perte L₂ réagit plus fortement aux mauvaises prédictions que la perte L₁. Par exemple, la perte L₁ du lot précédent serait de 8 au lieu de 16. Notez qu'une seule valeur aberrante représente 9 des 16.

Les modèles de régression utilisent généralement la perte L₂ comme fonction de perte.

L'erreur quadratique moyenne correspond à la perte L₂ moyenne par exemple. La perte carrée est l'autre nom de la perte L₂.

Cliquez sur l'icône pour afficher le calcul formel.

$$ L_2 loss = \sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$

où :

$n$ est le nombre d'exemples.
$y$ est la valeur réelle de l'étiquette.
$\hat{y}$ est la valeur que le modèle prédit pour $y$.

régularisation L₂

#fundamentals

Type de régularisation qui pénalise les pondérations proportionnellement à la somme des carrés des pondérations. La régularisation L₂ permet de rapprocher les pondérations des anomalies (celles dont les valeurs positives ou négatives sont élevées) de 0, mais pas tout à fait de 0. Les caractéristiques dont les valeurs sont très proches de 0 restent dans le modèle, mais n'influencent pas beaucoup la prédiction du modèle.

La régularisation L₂ améliore toujours la généralisation dans les modèles linéaires.

À comparer à la régularisation L₁.

étiquette

#fundamentals

En machine learning supervisé, il s'agit de la partie "réponse" ou "résultat" d'un exemple.

Chaque exemple étiqueté se compose d'une ou de plusieurs caractéristiques et d'une étiquette. Par exemple, dans un ensemble de données de détection de spam, l'étiquette serait probablement "spam" ou "non-spam". Dans un ensemble de données de précipitations, l'étiquette peut indiquer la quantité de précipitations au cours d'une certaine période.

exemple étiqueté

#fundamentals

Exemple contenant une ou plusieurs caractéristiques et une étiquette. Par exemple, le tableau suivant présente trois exemples étiquetés d'un modèle d'évaluation de biens immobiliers, chacun présentant trois caractéristiques et une étiquette:

Nombre de chambres	Nombre de salles de bain	Âge de la maison	Prix de l'auto-promotion (étiquette)
3	2	15	345 000 $
2	1	72	179 000 $
4	2	34	392 000 $

Dans le machine learning supervisé, les modèles sont entraînés sur des exemples étiquetés et effectuent des prédictions sur des exemples non étiquetés.

Comparer l'exemple étiqueté avec des exemples non étiquetés

fuite d'étiquettes

Défaut de conception dans lequel une caractéristique est un proxy de l'étiquette. Prenons l'exemple d'un modèle de classification binaire qui prédit si un client potentiel achètera ou non un produit particulier. Supposons que l'une des caractéristiques du modèle soit une valeur booléenne nommée SpokeToCustomerAgent. Supposons également qu'un agent client ne soit assigné qu'après que le client potentiel a effectivement acheté le produit. Pendant l'entraînement, le modèle apprend rapidement l'association entre SpokeToCustomerAgent et l'étiquette.

lambda

#fundamentals

Synonyme de taux de régularisation.

Le lambda est un terme complexe. Ici, nous nous concentrons sur la définition de ce terme dans le cadre de la régularisation.

LaMDA (Language Model for Dialogue Applications)

#language

Un grand modèle de langage basé sur Transformer, développé par Google et entraîné sur un vaste ensemble de données de dialogue capable de générer des réponses conversationnelles réalistes

LaMDA, notre technologie conversationnelle révolutionnaire, vous offre un aperçu.

landmarks

#image

Synonyme de points clés.

modèle de langage

#language

model qui estime la probabilité qu'un model ou une séquence de jetons se présente dans une séquence de jetons plus longue.

Cliquez sur l'icône pour afficher des remarques supplémentaires.

Bien que cela puisse paraître paradoxal, de nombreux modèles qui évaluent du texte ne sont pas des modèles de langage. Par exemple, les modèles de classification de texte et les modèles d'analyse des sentiments ne sont pas des modèles de langage.

grand modèle de langage

#language

Terme informel sans définition stricte qui désigne généralement un modèle de langage comportant un grand nombre de paramètres. Certains grands modèles de langage contiennent plus de 100 milliards de paramètres.

Cliquez sur l'icône pour afficher des remarques supplémentaires.

Vous vous demandez peut-être quand un modèle de langage devient suffisamment grand pour être considéré comme un grand modèle de langage. Actuellement, il n'y a pas de ligne convenue pour le nombre de paramètres.

La plupart des grands modèles de langage actuels (par exemple, GPT) sont basés sur l'architecture Transformer.

espace latent

#language

Synonyme d'espace de représentation vectorielle continue.

cachée)

#fundamentals

Ensemble de neurones dans un réseau de neurones. Voici trois types de couches courants:

La couche d'entrée, qui fournit des valeurs pour toutes les caractéristiques
Une ou plusieurs couches cachées, qui détectent les relations non linéaires entre les caractéristiques et l'étiquette.
La couche de sortie, qui fournit la prédiction.

Par exemple, l'illustration suivante montre un réseau de neurones avec une couche d'entrée, deux couches cachées et une couche de sortie:

Réseau de neurones avec une couche d'entrée, deux couches cachées et une couche de sortie. La couche d'entrée se compose de deux caractéristiques. La première couche cachée est composée de trois neurones et la deuxième couche cachée de deux neurones. La couche de sortie se compose d'un seul nœud.

Dans TensorFlow, les couches sont également des fonctions Python qui prennent en entrée des Tensors et des options de configuration pour produire d'autres Tensors en sortie.

API Layers (tf.layers)

#TensorFlow

API TensorFlow pour construire un réseau de neurones profond à partir d'une composition de couches. L'API Layers vous permet de créer différents types de couches, par exemple:

tf.layers.Dense pour une couche entièrement connectée.
tf.layers.Conv2D pour une couche convolutive.

L'API Layers respecte les conventions de l'API Keras concernant les couches. Autrement dit, à part un préfixe différent, toutes les fonctions de l'API Layers ont des noms et des signatures identiques à ceux de leurs homologues dans l'API Keras.

feuille

#df

Tout point de terminaison d'un arbre de décision. Contrairement à une condition, une feuille n'effectue pas de test. Une feuille est plutôt une prédiction possible. Une feuille est également le nœud de terminal d'un chemin d'inférence.

Par exemple, l'arbre de décision suivant contient trois feuilles:

Arbre de décision avec deux conditions menant à trois feuilles.

Outil d'interprétation de l'apprentissage (LIT)

Un outil visuel et interactif de compréhension de modèle et de visualisation des données.

Vous pouvez utiliser la bibliothèque Open Source LIT pour interpréter des modèles ou pour visualiser du texte, des images et des données tabulaires.

taux d'apprentissage

#fundamentals

Nombre à virgule flottante qui indique à l'algorithme de descente de gradient la force d'ajustement des pondérations et des biais à chaque itération. Par exemple, un taux d'apprentissage de 0,3 ajusterait les pondérations et les biais trois fois plus efficacement qu'un taux d'apprentissage de 0,1.

Le taux d'apprentissage est un hyperparamètre clé. Si vous définissez le taux d'apprentissage trop bas, l'entraînement prendra trop de temps. Si le taux d'apprentissage est trop élevé, la descente de gradient a souvent du mal à atteindre la convergence.

Cliquez sur l'icône pour obtenir une explication mathématique.

À chaque itération, l'algorithme de descente de gradient multiplie le taux d'apprentissage par le gradient. Le produit résultant est appelé pas de gradient.

régression des moindres carrés

Modèle de régression linéaire entraîné en minimisant la perte L₂.

linear

#fundamentals

Relation entre deux variables ou plus qui peut être représentée uniquement par l'addition et la multiplication.

Le tracé d'une relation linéaire est une ligne.

À comparer à l'approche non linéaire.

modèle linéaire

#fundamentals

Un model qui attribue une model par model pour effectuer des model (Les modèles linéaires intègrent également un biais.) En revanche, la relation entre les caractéristiques et les prédictions dans les modèles profonds est généralement non linéaire.

Les modèles linéaires sont généralement plus faciles à entraîner et plus interprétables que les modèles profonds. Toutefois, les modèles profonds peuvent apprendre des relations complexes entre les caractéristiques.

La régression linéaire et la régression logistique sont deux types de modèles linéaires.

Cliquez sur l'icône pour afficher le calcul.

Un modèle linéaire suit la formule suivante:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

où :

y' correspond à la prédiction brute. (Dans certains types de modèles linéaires, cette prédiction brute sera davantage modifiée. Par exemple, consultez la section sur la régression logistique.)
b est le biais.
w est une pondération, donc w₁ est la pondération de la première caractéristique, w₂ est la pondération de la deuxième caractéristique, et ainsi de suite.
x est une caractéristique. Ainsi, x₁ est la valeur de la première caractéristique, x₂ est la valeur de la deuxième caractéristique, et ainsi de suite.

Par exemple, supposons qu'un modèle linéaire pour trois caractéristiques apprend les biais et pondérations suivants :

b = 7
w₁ = -2,5
w₂ = -1,2
w₃ = 1,4

Par conséquent, avec trois caractéristiques (x₁, x₂ et x₃), le modèle linéaire génère chaque prédiction à l'aide de l'équation suivante :

y' = 7 + (-2.5)(x₁) + (-1.2)(x₂) + (1.4)(x₃)

Supposons qu'un exemple particulier contienne les valeurs suivantes:

x₁ = 4
x₂ = -10
x₃ = 5

L'insertion de ces valeurs dans la formule génère une prédiction pour cet exemple :

y' = 7 + (-2.5)(4) + (-1.2)(-10) + (1.4)(5)
y' = 16

Les modèles linéaires incluent non seulement les modèles qui utilisent uniquement une équation linéaire pour effectuer des prédictions, mais aussi un ensemble plus large de modèles qui utilisent une équation linéaire comme une seule composante de la formule permettant de réaliser des prédictions. Par exemple, la régression logistique post-traite la prédiction brute (y') pour produire une valeur de prédiction finale comprise entre 0 et 1 exclusivement.

régression linéaire

#fundamentals

Type de modèle de machine learning dans lequel les deux conditions suivantes sont remplies:

Le modèle est un modèle linéaire.
La prédiction est une valeur à virgule flottante. (Il s'agit de la partie régression de la régression linéaire.)

Comparer la régression linéaire à la régression logistique. Comparez également la régression avec la classification.

LIT

Abréviation de l'outil d'interprétation de l'apprentissage (LIT), auparavant connu sous le nom d'outil d'interprétation du langage.

LLM

#language

Abréviation de grand modèle de langage.

régression logistique

#fundamentals

Type de modèle de régression qui prédit une probabilité. Les modèles de régression logistique présentent les caractéristiques suivantes:

Le libellé est catégorielle. Le terme de régression logistique fait généralement référence à une régression logistique binaire, c'est-à-dire à un modèle qui calcule des probabilités pour des étiquettes à deux valeurs possibles. Une variante moins courante, la régression logistique multinomiale, calcule des probabilités pour les étiquettes ayant plus de deux valeurs possibles.
La fonction de perte pendant l'entraînement est la perte logistique. (Plusieurs unités de perte logistique peuvent être placées en parallèle pour les étiquettes ayant plus de deux valeurs possibles.)
Le modèle utilise une architecture linéaire et non un réseau de neurones profond. Cependant, le reste de cette définition s'applique également aux modèles profonds qui prédisent les probabilités pour les étiquettes catégorielles.

Prenons l'exemple d'un modèle de régression logistique qui calcule la probabilité qu'un e-mail d'entrée soit indésirable ou non. Lors de l'inférence, supposons que le modèle prédit 0,72. Par conséquent, le modèle estime:

La probabilité que l'e-mail soit du spam est de 72 %.
28% de chances que l'e-mail ne soit pas un spam.

Un modèle de régression logistique utilise l'architecture en deux étapes suivante:

Le modèle génère une prédiction brute (y') en appliquant une fonction linéaire des caractéristiques d'entrée.
Le modèle utilise cette prédiction brute comme entrée d'une fonction sigmoïde, qui convertit la prédiction brute en une valeur comprise entre 0 et 1 exclus.

Comme tout modèle de régression, un modèle de régression logistique prédit un nombre. Cependant, ce nombre fait généralement partie d'un modèle de classification binaire comme suit:

Si le nombre prédit est supérieur au seuil de classification, le modèle de classification binaire prédit la classe positive.
Si le nombre prédit est inférieur au seuil de classification, le modèle de classification binaire prédit la classe négative.

fonctions logit

Vecteur de prédictions brutes (non normalisées) généré par un modèle de classification, qui est généralement transmis à une fonction de normalisation. Si le modèle résout un problème de classification à classes multiples, les fonctions logit deviennent généralement une entrée de la fonction softmax. La fonction softmax génère ensuite un vecteur de probabilités (normalisées) avec une valeur pour chaque classe possible.

Perte logistique

#fundamentals

La fonction de perte utilisée dans la régression logistique binaire.

Cliquez sur l'icône pour afficher le calcul.

La formule suivante calcule la perte logistique:

$$\text{Log Loss} = \sum_{(x,y)\in D} -y\log(y') - (1 - y)\log(1 - y')$$

où :

$(x,y)\in D$ est l'ensemble de données contenant de nombreux exemples étiquetés, qui sont des $(x,y)$ paires.
$y$ est l'étiquette dans un exemple étiqueté. Puisqu'il s'agit d'une régression logistique, chaque valeur de $y$ doit être 0 ou 1.
$y'$ est la valeur prédite (comprise entre 0 et 1, exclusive), compte tenu de l'ensemble des caractéristiques dans $x$.

logarithme des cotes

#fundamentals

Logarithme des cotes d'un événement.

Cliquez sur l'icône pour afficher le calcul.

Si l'événement est une probabilité binaire, alors la cote fait référence au ratio entre la probabilité de réussite (p) et la probabilité d'échec (1-p). Par exemple, supposons qu'un événement donné ait une probabilité de réussite de 90 % et une probabilité d'échec de 10 %. Dans ce cas, la cote est calculée comme suit:

$$ {\text{odds}} = \frac{\text{p}} {\text{(1-p)}} = \frac{.9} {.1} = {\text{9}} $$

Le logarithme des cotes est simplement le logarithme des cotes. Par convention, "logarithme" fait référence à un logarithme naturel, mais peut en réalité être n'importe quelle base supérieure à 1. En ce qui concerne la convention, le logarithme des cotes de notre exemple est donc:

$$ {\text{log-odds}} = ln(9) ~= 2.2 $$

La fonction log-odds est l'inverse de la fonction sigmoïde.

Mémoire à court terme (LSTM)

#seq

Type de cellule dans un réseau de neurones récurrent utilisé pour traiter des séquences de données dans des applications telles que la reconnaissance de l'écriture manuscrite, la traduction automatique et les sous-titres d'images. Les LSTM résolvent le problème de disparition du gradient qui survient lors de l'entraînement de RNN en raison de longues séquences de données en conservant l'historique dans un état de mémoire interne basé sur les nouvelles entrées et le contexte des cellules précédentes du RNN.

LoRA

#language

#IAgénérative

Abréviation de Adaptabilité de rang faible.

perte

#fundamentals

Pendant l'entraînement d'un modèle supervisé, mesure de l'écart entre la prédiction d'un modèle et son étiquette.

Une fonction de perte calcule la perte.

agrégateur de pertes

Type d'algorithme de machine learning qui améliore les performances d'un modèle en combinant les prédictions de plusieurs modèles et en les utilisant pour effectuer une seule prédiction. Par conséquent, un agrégateur de perte peut réduire la variance des prédictions et améliorer leur précision.

courbe de fonction de perte

#fundamentals

Graphique de la perte en fonction du nombre d'itérations d'entraînement. Le graphique suivant montre une courbe de fonction de perte typique:

Un graphique cartésien de la perte par rapport aux itérations d'entraînement, montrant une baisse rapide de la perte pour les itérations initiales, suivie d'une baisse progressive, puis d'une pente plate pendant les itérations finales.

Les courbes de fonction de perte peuvent vous aider à déterminer quand votre modèle est convergent ou en surapprentissage.

Les courbes de fonction de perte permettent de représenter tous les types de perte suivants:

perte d'entraînement
perte de validation
perte de test

Consultez également la courbe de généralisation.

fonction de perte

#fundamentals

Pendant l'entraînement ou les tests, fonction mathématique qui calcule la perte sur un lot d'exemples. Une fonction de perte renvoie une perte plus faible pour les modèles qui donnent de bonnes prédictions que pour les modèles qui produisent des prédictions incorrectes.

L'objectif de l'entraînement est généralement de minimiser la perte renvoyée par une fonction de perte.

Il existe de nombreux types de fonctions de perte. Choisissez la fonction de perte appropriée pour le type de modèle que vous créez. Exemple :

La perte L₂ (ou erreur quadratique moyenne) est la fonction de perte pour la régression linéaire.
La perte logistique est la fonction de perte pour la régression logistique.

graphe de fonction de perte

Un graphe de pondération(s) par rapport à la perte. La descente de gradient vise à trouver les pondérations pour lesquelles le graphe de fonction de perte atteint un minimum local.

Adaptabilité de bas niveau (LoRA)

#language

#IAgénérative

Algorithme permettant d'effectuer un réglage efficace des paramètres, qui affine uniquement un sous-ensemble des paramètres d'un grand modèle de langage. La fonctionnalité LoRA offre les avantages suivants:

s'adapte plus rapidement que les techniques qui nécessitent d'ajuster tous les paramètres d'un modèle ;
Réduit le coût de calcul lié à l'inférence dans le modèle affiné.

Un modèle réglé avec LoRA maintient ou améliore la qualité de ses prédictions.

LoRA permet d'utiliser plusieurs versions spécialisées d'un modèle.

LSTM

#seq

Abréviation de mémoire longue à court terme.

Lu

machine learning

#fundamentals

Programme ou système qui entraîne un modèle à partir de données d'entrée. Le modèle entraîné peut effectuer des prédictions utiles à partir de nouvelles données (jamais vues auparavant) issues de la même distribution que celle utilisée pour entraîner le modèle.

Le machine learning désigne également le domaine d'études concernant ces programmes ou systèmes.

classe majoritaire

#fundamentals

Étiquette la plus courante dans un ensemble de données avec déséquilibre des classes. Par exemple, pour un ensemble de données contenant 99% d'étiquettes négatives et 1% d'étiquettes positives, les étiquettes négatives constituent la classe majoritaire.

À comparer à la classe minoritaire.

Processus de décision de Markov (MDP)

#rl

Graphique représentant le modèle de prise de décision dans lequel des décisions (ou des actions) sont prises pour naviguer dans une séquence d'états en partant du principe que la propriété de Markov est retenue. Dans l'apprentissage par renforcement, ces transitions entre les états renvoient une récompense numérique.

propriété de Markov

#rl

Propriété de certains environnements, où les transitions d'état sont entièrement déterminées par des informations implicites dans l'état actuel et l'action de l'agent.

modèle de langage masqué

#language

Un modèle de langage qui prédit la probabilité que les jetons candidats remplissent les champs vides d'une séquence. Par exemple, un modèle de langage masqué peut calculer les probabilités que les mots candidats remplacent le soulignement dans la phrase suivante:

Le ____ dans le chapeau est revenu.

La littérature utilise généralement la chaîne "MASK" au lieu d'un trait de soulignement. Exemple :

Le "MASQUE" dans le chapeau est retourné.

La plupart des modèles de langage masqué modernes sont bidirectionnels.

matplotlib

Bibliothèque de traçage 2D Python Open Source. matplotlib vous aide à visualiser différents aspects du machine learning.

factorisation matricielle

#recsystems

En mathématiques, mécanisme permettant de trouver les matrices dont le produit scalaire se rapproche d'une matrice cible.

Dans les systèmes de recommandation, la matrice cible contient souvent les notes des utilisateurs sur les éléments. Par exemple, la matrice cible d'un système de recommandation de films peut ressembler à ce qui suit, où les entiers positifs sont les notes des utilisateurs et 0 signifie que l'utilisateur n'a pas évalué le film:

	Casablanca	L'histoire de Philadelphie	Black Panther	Wonder Woman	La Cité de la peur
Utilisateur 1	5,0	3,0	0,0	2,0	0,0
Utilisateur 2	4.0	0,0	0,0	1,0	5,0
Utilisateur 3	3,0	1,0	4.0	5,0	0,0

Le système de recommandation de films vise à prédire les notes des utilisateurs pour les films non évalués. Par exemple, l'utilisateur 1 va-t-il aimer Black Panther ?

Une approche pour les systèmes de recommandation consiste à utiliser la factorisation matricielle pour générer les deux matrices suivantes:

Une matrice utilisateurs, définie sous la forme nombre d'utilisateurs X nombre de dimensions de la représentation vectorielle continue.
Une matrice éléments, définie sous la forme nombre de dimensions de la représentation vectorielle X nombre d'éléments

Par exemple, l'utilisation de la factorisation matricielle sur nos trois utilisateurs et cinq éléments pourrait générer la matrice utilisateur et la matrice éléments suivantes:

User Matrix                 Item Matrix

1.1   2.3           0.9   0.2   1.4    2.0   1.2
0.6   2.0           1.7   1.2   1.2   -0.1   2.1
2.5   0.5

Le produit scalaire de la matrice utilisateurs et de la matrice éléments génère une matrice de recommandations qui contient non seulement les notes initiales des utilisateurs, mais également des prédictions pour les films que chaque utilisateur n'a pas vu. Prenons l'exemple de la note de l'utilisateur 1 pour Casablanca, qui était de 5, 0. Le produit scalaire correspondant à cette cellule dans la matrice de recommandations devrait normalement se situer autour de 5,0, et c'est ce qui suit:

(1.1 * 0.9) + (2.3 * 1.7) = 4.9

Plus important encore, l'utilisateur 1 va-t-il aimer Black Panther ? En prenant le produit scalaire correspondant à la première ligne et à la troisième colonne, on obtient une note prédite de 4,3:

(1.1 * 1.4) + (2.3 * 1.2) = 4.3

La factorisation matricielle produit généralement une matrice utilisateurs et une matrice éléments qui, ensemble, sont beaucoup plus compactes que la matrice cible.

Erreur absolue moyenne (EAM)

Perte moyenne par exemple lorsque la perte L₁ est utilisée. Calculez l'erreur absolue moyenne comme suit:

Calculez la perte L₁ pour un lot.
Divisez la perte L₁ par le nombre d'exemples dans le lot.

Cliquez sur l'icône pour afficher le calcul formel.

$$\text{Mean Absolute Error} = \frac{1}{n}\sum_{i=0}^n | y_i - \hat{y}_i |$$

où :

$n$ est le nombre d'exemples.
$y$ est la valeur réelle de l'étiquette.
$\hat{y}$ est la valeur que le modèle prédit pour $y$.

Prenons l'exemple du calcul de la perte L₁ sur le lot de cinq exemples suivant:

Valeur réelle de l'exemple	Valeur prédite du modèle	Perte (différence entre la valeur réelle et prévue)
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
		8 = perte L₁

Ainsi, la perte L₁ est de 8 et le nombre d'exemples est de 5. Par conséquent, l'erreur absolue moyenne est calculée comme suit:

Mean Absolute Error = L₁ loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

Comparez l'erreur absolue moyenne avec l'erreur quadratique moyenne et la racine carrée de l'erreur quadratique moyenne.

Erreur quadratique moyenne (MSE)

Perte moyenne par exemple lorsque la perte L₂ est utilisée. Calculez l'erreur quadratique moyenne comme suit:

Calculez la perte L₂ pour un lot.
Divisez la perte L₂ par le nombre d'exemples dans le lot.

Cliquez sur l'icône pour afficher le calcul formel.

$$\text{Mean Squared Error} = \frac{1}{n}\sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$ où :

$n$ est le nombre d'exemples.
$y$ est la valeur réelle de l'étiquette.
$\hat{y}$ est la prédiction du modèle pour $y$.

Prenons l'exemple de la perte pour le lot de cinq exemples suivant:

Valeur réelle	Prédiction du modèle	Perte	Perte quadratique
7	6	1	1
5	4	1	1
8	11	3	9
4	6	2	4
9	8	1	1
			16 = perte L₂

L'erreur quadratique moyenne est donc la suivante:

Mean Squared Error = L₂ loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

L'erreur quadratique moyenne est un optimiseur d'entraînement courant, en particulier pour la régression linéaire.

Comparez l'erreur quadratique moyenne avec l'erreur absolue moyenne et la racine carrée de l'erreur quadratique moyenne.

TensorFlow Playground utilise l'erreur quadratique moyenne pour calculer les valeurs de perte.

Cliquez sur l'icône pour en savoir plus sur les anomalies.

Les anomalies influencent fortement l'erreur quadratique moyenne. Par exemple, une perte de 1 correspond à une perte quadratique de 1, tandis qu'une perte de 3 correspond à une perte quadratique de 9. Dans le tableau précédent, l'exemple avec une perte de 3 représente environ 56% de l'erreur quadratique moyenne, tandis que chacun des exemples avec une perte de 1 ne représente que 6% de l'erreur quadratique moyenne.

Les anomalies n'influencent pas l'erreur absolue moyenne aussi fortement que l'erreur quadratique moyenne. Par exemple, une perte de 3 ne représente qu'environ 38% de l'erreur absolue moyenne.

Le rognage est un moyen d'éviter que des anomalies extrêmes nuisent à la capacité de prédiction de votre modèle.

Grille

#TensorFlow

#GoogleCloud

En programmation parallèle de ML, terme associé à l'attribution des données et du modèle aux puces TPU, et à la définition de la segmentation ou de la réplication de ces valeurs.

Le terme "maillage" est un concept complexe qui peut désigner l'un des éléments suivants:

Disposition physique de puces TPU.
Construction logique abstraite permettant de mapper les données et le modèle aux puces TPU.

Dans les deux cas, un maillage est spécifié en tant que shape.

méta-apprentissage

#language

Sous-ensemble du machine learning qui permet de découvrir ou d'améliorer un algorithme d'apprentissage. Un système de méta-apprentissage peut également viser à entraîner un modèle pour apprendre rapidement une nouvelle tâche à partir d'une petite quantité de données ou à partir de l'expérience acquise lors de tâches précédentes. Les algorithmes de méta-apprentissage essaient généralement d'obtenir les résultats suivants:

Améliorez ou apprenez des caractéristiques conçues manuellement (telles qu'un initialiseur ou un optimiseur).
Être plus efficace en termes de données et de calcul
Améliorez la généralisation.

Le méta-apprentissage est lié à l'apprentissage few-shot.

metric

#TensorFlow

Une statistique qui vous tient à cœur.

Un objectif est une métrique qu'un système de machine learning tente d'optimiser.

API Metrics (tf.metrics)

API TensorFlow permettant d'évaluer des modèles. Par exemple, tf.metrics.accuracy détermine la fréquence à laquelle les prédictions d'un modèle correspondent aux étiquettes.

mini-lot

#fundamentals

Petit sous-ensemble sélectionné aléatoirement d'un lot traité en une itération. La taille de lot d'un mini-lot est généralement comprise entre 10 et 1 000 exemples.

Par exemple, supposons que l'ensemble d'entraînement (le lot complet) comporte 1 000 exemples. Supposons également que vous définissiez la taille de lot de chaque mini-lot sur 20. Par conséquent, chaque itération détermine la perte sur 20 exemples aléatoires sur 1 000,puis ajuste les pondérations et les biais en conséquence.

Il est beaucoup plus efficace de calculer la perte sur un mini-lot que la perte sur tous les exemples du lot complet.

descente de gradient stochastique par mini-lots

Algorithme de descente de gradient qui utilise des mini-lots. En d'autres termes, la descente de gradient stochastique par mini-lots estime le gradient à partir d'un petit sous-ensemble de données d'entraînement. La descente de gradient stochastique standard utilise un mini-lot de taille 1.

perte minimale

Fonction de perte pour les réseaux antagonistes génératifs, basée sur l'entropie croisée entre la distribution des données générées et les données réelles.

La perte minimale maximale est utilisée dans le premier article pour décrire les réseaux antagonistes génératifs.

classe minoritaire

#fundamentals

Étiquette la moins courante dans un ensemble de données avec déséquilibre des classes. Par exemple, pour un ensemble de données contenant 99% d'étiquettes négatives et 1% d'étiquettes positives, les étiquettes positives représentent la classe minoritaire.

À comparer à la classe majoritaire.

Cliquez sur l'icône pour afficher des remarques supplémentaires.

Un ensemble d'entraînement avec un million d'exemples semble impressionnant. Toutefois, si la classe minoritaire est mal représentée, même un très grand ensemble d'entraînement peut s'avérer insuffisant. Concentrez-vous moins sur le nombre total d'exemples dans l'ensemble de données et davantage sur le nombre d'exemples dans la classe minoritaire.

Si votre ensemble de données ne contient pas suffisamment d'exemples de classes minoritaires, envisagez d'utiliser le réduction d'échantillonnage (définition du deuxième point) pour compléter la classe minoritaire.

ML

Abréviation de machine learning.

MNIST

#image

Ensemble de données du domaine public compilé par LeCun, Cortes et Burges contenant 60 000 images, chaque image montrant comment un humain a écrit manuellement un chiffre particulier compris entre 0 et 9. Chaque image est stockée sous la forme d'un tableau d'entiers 28x28, où chaque entier est une valeur en échelle de gris comprise entre 0 et 255 inclus.

MNIST est un ensemble de données canonique pour le machine learning, souvent utilisé pour tester de nouvelles approches de machine learning. Pour en savoir plus, consultez la base de données MNIST de chiffres écrits à la main.

modality

#language

Catégorie de données générale. Par exemple, les nombres, le texte, les images, la vidéo et l'audio sont cinq modalités différentes.

model

#fundamentals

En général, toute construction mathématique qui traite des données d'entrée et renvoie une sortie. En l'occurrence, un modèle est l'ensemble des paramètres et de la structure nécessaires à un système pour effectuer des prédictions. En machine learning supervisé, un modèle prend un exemple en entrée et déduit une prédiction en sortie. En machine learning supervisé, les modèles diffèrent quelque peu. Exemple :

Un modèle de régression linéaire est constitué d'un ensemble de pondérations et d'un biais.
Un modèle de réseau de neurones comprend les éléments suivants :
- Un ensemble de couches cachées, chacune contenant un ou plusieurs neurones
- Pondérations et biais associés à chaque neurone
Un modèle d'arbre de décision comprend les éléments suivants :
- Forme de l'arbre, c'est-à-dire le motif dans lequel les conditions et les feuilles sont liées.
- Les conditions et les départs.

Vous pouvez enregistrer, restaurer ou créer des copies d'un modèle.

Le machine learning non supervisé génère également des modèles, généralement une fonction capable de mapper un exemple d'entrée au cluster le plus approprié.

Cliquez sur l'icône pour comparer les fonctions algébriques et de programmation aux modèles de ML.

Une fonction algébrique comme celle-ci est un modèle:

  f(x, y) = 3x -5xy + y² + 17

La fonction précédente mappe les valeurs d'entrée (x et y) à la sortie.

De même, une fonction de programmation comme la suivante est également un modèle:

def half_of_greater(x, y):
  if (x > y):
    return(x / 2)
  else
    return(y / 2)

Un appelant transmet des arguments à la fonction Python précédente, qui génère un résultat (via l'instruction return).

Bien qu'un réseau de neurones profond ait une structure mathématique très différente de celle d'une fonction algébrique ou de programmation, un réseau de neurones profond reçoit toujours des entrées (un exemple) et renvoie une sortie (une prédiction).

Un programmeur humain code une fonction de programmation manuellement. En revanche, un modèle de machine learning apprend progressivement les paramètres optimaux lors de l'entraînement automatisé.

capacité du modèle

Complexité des problèmes qu'un modèle peut apprendre. Plus les problèmes qu'un modèle peut apprendre sont complexes, plus sa capacité est élevée. La capacité d'un modèle augmente généralement avec le nombre de ses paramètres. Pour une définition formelle de la capacité d'un classificateur, voir dimension VC.

modèle en cascade

#IAgénérative

Système qui choisit le model idéal pour une requête d'inférence spécifique.

Imaginez un groupe de modèles, allant du très grand (nombreux paramètres) à beaucoup plus petit (beaucoup moins de paramètres). Les modèles très volumineux consomment plus de ressources de calcul au moment de l'inférence que les modèles plus petits. Toutefois, les modèles très volumineux peuvent généralement déduire des requêtes plus complexes que les modèles plus petits. Le modèle en cascade détermine la complexité de la requête d'inférence, puis choisit le modèle approprié pour effectuer l'inférence. La principale motivation de la création en cascade des modèles est de réduire les coûts d'inférence en sélectionnant généralement des modèles plus petits et en ne sélectionnant qu'un modèle plus grand pour les requêtes plus complexes.

Imaginez qu'un petit modèle s'exécute sur un téléphone et qu'une version plus grande de ce modèle s'exécute sur un serveur distant. Un bon modèle en cascade réduit les coûts et la latence en permettant au plus petit modèle de traiter des requêtes simples et en appelant uniquement le modèle distant pour traiter des requêtes complexes.

Consultez également modèle de routeur.

parallélisme des modèles

#language

Moyen de scaling de l'entraînement ou de l'inférence pour placer différentes parties d'un model sur différents model. Le parallélisme des modèles permet d'utiliser des modèles trop volumineux pour tenir sur un seul appareil.

Pour implémenter le parallélisme des modèles, un système effectue généralement les opérations suivantes:

Segment (divise) le modèle en parties plus petites.
Distribue l'entraînement de ces petites pièces sur plusieurs processeurs. Chaque processeur entraîne sa propre partie du modèle.
Les résultats sont combinés pour créer un modèle unique.

Le parallélisme des modèles ralentit l'entraînement.

Consultez également la page Parallélisme des données.

modèle de routeur

#IAgénérative

Algorithme qui détermine le model idéal pour l'model dans le model. Un routeur de modèles est généralement lui-même un modèle de machine learning qui apprend progressivement à choisir le meilleur modèle pour une entrée donnée. Cependant, un routeur de modèle peut parfois être un algorithme plus simple, autre que le machine learning.

entraînement de modèle

Processus visant à déterminer le meilleur model.

Momentum

Algorithme sophistiqué de descente de gradient dans lequel une étape d'apprentissage dépend non seulement de la dérivée de l'étape actuelle, mais aussi de la dérivée des étapes qui l'ont immédiatement précédée. Il implique le calcul d'une moyenne mobile pondérée de façon exponentielle des gradients au fil du temps, semblable à la quantité de mouvement en physique. Il permet parfois d'éviter que l'apprentissage soit bloqué sur des minimums locaux.

classification à classes multiples

#fundamentals

Dans l'apprentissage supervisé, il s'agit d'un problème de classification dans lequel l'ensemble de données contient plus de deux classes d'étiquettes. Par exemple, les étiquettes de l'ensemble de données Iris doivent appartenir à l'une des trois classes suivantes:

Iris Setosa
Iris virginica
Iris versicolor

Un modèle entraîné sur l'ensemble de données Iris qui prédit le type d'Iris sur de nouveaux exemples effectue une classification à classes multiples.

En revanche, les problèmes de classification qui distinguent exactement deux classes sont les modèles de classification binaire. Par exemple, un modèle d'e-mail qui prédit spam ou non-spam est un modèle de classification binaire.

Dans les problèmes de clustering, la classification à classes multiples fait référence à plus de deux clusters.

régression logistique multiclasse

Utilisation de la régression logistique dans les problèmes de classification à classes multiples

auto-attention multi-tête

#language

Extension de l'auto-attention qui applique le mécanisme d'auto-attention plusieurs fois pour chaque position de la séquence d'entrée.

Les modèles Transformer ont introduit l'auto-attention multi-tête.

modèle multimodal

#language

Modèle dont les entrées et/ou les sorties incluent plusieurs modalités. Prenons l'exemple d'un modèle qui utilise à la fois une image et une légende de texte (deux modalités) comme caractéristiques, et qui génère un score indiquant si la légende est appropriée pour l'image. Les entrées de ce modèle sont multimodales et la sortie est unimodale.

classification multinomiale

Synonyme de classification à classes multiples.

régression multinomiale

Synonyme de régression logistique multiclasse.

mode multitâche

Technique de machine learning dans laquelle un seul model est entraîné à effectuer plusieurs model.

Les modèles multitâches sont créés en entraînant l'utilisation de données adaptées à chacune des tâches. Le modèle peut ainsi apprendre à partager des informations entre les tâches, ce qui l'aide à apprendre plus efficacement.

Un modèle entraîné pour plusieurs tâches améliore souvent les capacités de généralisation et peut être plus robuste pour gérer différents types de données.

N

piège NaN

Lorsqu'un nombre du modèle devient un NaN pendant l'entraînement, et que de nombreux autres nombres du modèle, voire tous, finissent par devenir également des NaN.

NaN est l'abréviation de Not a number.

compréhension du langage naturel

#language

Déterminer les intentions d'un utilisateur en fonction de ce qu'il a saisi ou énoncé. Par exemple, un moteur de recherche utilise la compréhension du langage naturel pour déterminer ce que l'utilisateur recherche en fonction de ce qu'il a saisi ou énoncé.

classe négative

#fundamentals

Dans la classification binaire, une classe est dite positive et l'autre négative. La classe positive est l'élément ou l'événement testé par le modèle, et la classe négative l'autre possibilité. Exemple :

La classe négative d'un test médical pourrait n'être qu'une tumeur.
La classe négative d'un classificateur d'e-mail pourrait être "non-spam".

À comparer à la classe positive.

échantillonnage négatif

Synonyme d'échantillonnage de candidats.

Neural Architecture Search (NAS)

Technique de conception automatique de l'architecture d'un réseau de neurones. Les algorithmes NAS peuvent réduire le temps et les ressources nécessaires pour entraîner un réseau de neurones.

NAS utilise généralement:

Un espace de recherche, qui est un ensemble d'architectures possibles
Une fonction de fitness, qui est une mesure des performances d'une architecture particulière pour une tâche donnée.

Les algorithmes NAS commencent souvent par un petit ensemble d'architectures possibles et étendent progressivement l'espace de recherche à mesure que l'algorithme en apprend davantage sur les architectures efficaces. La fonction de fitness est généralement basée sur les performances de l'architecture sur un ensemble d'entraînement, et l'algorithme est généralement entraîné à l'aide d'une technique d'apprentissage par renforcement.

Les algorithmes NAS ont prouvé leur efficacité dans la recherche d'architectures hautes performances pour diverses tâches, y compris la classification d'images, la classification de texte et la traduction automatique.

neurones feedforward

#fundamentals

Un model contenant au moins une model. Un réseau de neurones profond est un type de réseau de neurones contenant plusieurs couches cachées. Par exemple, le schéma suivant montre un réseau de neurones profond contenant deux couches cachées.

Réseau de neurones avec une couche d'entrée, deux couches cachées et une couche de sortie.

Chaque neurone d'un réseau de neurones se connecte à tous les nœuds de la couche suivante. Par exemple, dans le schéma précédent, notez que chacun des trois neurones de la première couche cachée est relié séparément aux deux neurones de la deuxième couche cachée.

Les réseaux de neurones mis en œuvre sur des ordinateurs sont parfois appelés réseaux de neurones artificiels, pour les différencier des réseaux de neurones présents dans le cerveau et d'autres systèmes nerveux.

Certains réseaux de neurones peuvent imiter des relations non linéaires extrêmement complexes entre différentes caractéristiques et l'étiquette.

Voir aussi réseau de neurones convolutif et réseau de neurones récurrent.

neurone

#fundamentals

En machine learning, une unité distincte dans une couche cachée d'un réseau de neurones. Chaque neurone effectue l'action en deux étapes suivante:

Calcule la somme pondérée des valeurs d'entrée multipliées par les pondérations correspondantes.
Il transmet la somme pondérée en tant qu'entrée à une fonction d'activation.

Un neurone de la première couche cachée accepte les entrées des valeurs de caractéristiques dans la couche d'entrée. Un neurone de n'importe quelle couche cachée au-delà de la première accepte les entrées des neurones de la couche cachée précédente. Par exemple, un neurone de la deuxième couche cachée accepte les entrées des neurones de la première couche cachée.

L'illustration suivante met en évidence deux neurones et leurs entrées.

Un neurone d'un réseau de neurones imite le comportement des neurones dans le cerveau et d'autres parties des systèmes nerveux.

N-gramme

#seq

#language

Séquence ordonnée de N mots. Par exemple, vraiment follement est un 2 grammes. L'ordre a une importance : follement vraiment est un 2-grammes différent de vraiment follement.

N	Nom(s) pour ce type de N-gramme	Exemples
2	bigramme ou 2-gramme	à emporter, à venir, déjeuner, dîner
3	trigramme ou 3-gramme	pas trop mangé, trois souris aveugles, la cloche sonne
4	4 grammes	marcher dans le parc, la poussière dans le vent, le garçon a mangé des lentilles

De nombreux modèles de compréhension du langage naturel s'appuient sur les N-grammes pour prédire le prochain mot que l'utilisateur saisira ou énoncera. Par exemple, supposons qu'un utilisateur saisisse three blind. Un modèle NLU basé sur des trigrammes prédirait probablement que l'utilisateur saisira ensuite mice.

Faire la différence entre les N-grammes et les sacs de mots, qui sont des ensembles de mots non ordonnés.

NLU (Natural Language Understanding, compréhension du langage naturel) - 1st occurrence only, then use "NLU".

#language

Abréviation de compréhension du langage naturel.

nœud (arbre de décision)

#df

Dans une arborescence de décision, toute condition ou feuille.

Arbre de décision avec deux conditions et trois feuilles.

nœud (réseau de neurones)

#fundamentals

Un neurone dans une couche cachée.

nœud (graphe TensorFlow)

#TensorFlow

Opération dans un graphe TensorFlow.

bruit

De manière générale, tout ce qui masque le signal dans un ensemble de données. Le bruit peut être introduit dans les données de différentes manières. Exemple :

Des évaluateurs manuels font des erreurs lors de l'étiquetage.
Des humains et des instruments ont mal enregistré ou omettent des valeurs de caractéristiques.

condition non binaire

#df

Une condition contenant plus de deux résultats possibles. Par exemple, la condition non binaire suivante contient trois résultats possibles:

Une condition (number_of_legs = ?) qui conduit à trois résultats possibles. Un résultat (number_of_legs = 8) mène à une feuille nommée "spider". Un deuxième résultat (number_of_legs = 4) mène à une feuille nommée "dog". Un troisième résultat (number_of_legs = 2) conduit à une feuille nommée "penguins".

non linéaire

#fundamentals

Relation entre deux variables ou plus qui ne peut pas être représentée uniquement par l'addition et la multiplication. Une relation linéaire peut être représentée par une ligne, tandis qu'une relation non linéaire ne peut pas être représentée par une ligne. Prenons l'exemple de deux modèles qui associent chacun une caractéristique unique à une seule étiquette. Le modèle de gauche est linéaire et celui de droite l'est non linéaire:

Deux tracés. Un tracé est une ligne, donc il s'agit d'une relation linéaire.
L'autre tracé est une courbe, il s'agit donc d'une relation non linéaire.

biais de non-réponse

#fairness

Voir biais de sélection.

nonstationnarité

#fundamentals

Caractéristique dont les valeurs changent selon une ou plusieurs dimensions, généralement dans le temps. Prenons l'exemple des nonstationnaires suivantes:

Le nombre de maillots de bain vendus dans un magasin donné varie selon la saison.
La quantité d'un fruit particulier récolté dans une région donnée est nulle pendant une grande partie de l'année, mais élevée pendant une courte période.
En raison du changement climatique, les températures moyennes annuelles évoluent.

À comparer à la stationarité.

normalisation

#fundamentals

De manière générale, il s'agit du processus de conversion de la plage de valeurs réelle d'une variable en une plage de valeurs standard, telle que:

-1 à +1
Entre 0 et 1
la distribution normale

Par exemple, supposons que la plage de valeurs réelle d'une certaine caractéristique soit comprise entre 800 et 2 400. Dans le cadre de l'extraction de caractéristiques, vous pouvez normaliser les valeurs réelles jusqu'à une plage standard, par exemple de -1 à +1.

La normalisation est une tâche courante dans l'extraction de caractéristiques. Les modèles s'entraînent généralement plus rapidement (et produisent de meilleures prédictions) lorsque chaque caractéristique numérique du vecteur de caractéristiques a à peu près la même plage.

détection de nouveautés

Processus permettant de déterminer si un nouvel exemple (nouveau) provient de la même distribution que l'ensemble d'entraînement. En d'autres termes, après l'entraînement sur l'ensemble d'entraînement, la détection de nouveauté détermine si un nouvel exemple (pendant l'inférence ou lors d'un entraînement supplémentaire) est une anomalie.

À comparer à la détection des anomalies.

données numériques

#fundamentals

Caractéristiques représentées sous forme d'entiers ou de nombres réels. Par exemple, un modèle d'évaluation d'un logement représenterait probablement la taille d'un logement (en mètres carrés) sous forme de données numériques. La représentation d'une caractéristique sous forme de données numériques indique que les valeurs de la caractéristique présentent une relation mathématique avec l'étiquette. En d'autres termes, le nombre de mètres carrés dans une maison est probablement lié à la valeur de la maison mathématique.

Les données entières ne doivent pas toutes être représentées par des données numériques. Par exemple, dans certaines parties du monde, les codes postaux sont des entiers. Toutefois, ils ne doivent pas être représentés sous forme de données numériques dans les modèles. En effet, le code postal 20000 n'est pas deux fois (ou la moitié) plus puissant que le code postal 10 000. En outre, bien que les différents codes postaux soient corrélés à différentes valeurs immobilières, nous ne pouvons pas supposer que les valeurs des logements dont le code postal est 20000 sont deux fois plus intéressantes que celles dont le code postal est 10000. Les codes postaux doivent être représentés par des données catégorielles.

Les caractéristiques numériques sont parfois appelées caractéristiques continues.

NumPy

Bibliothèque mathématique Open Source qui fournit des opérations de tableau efficaces pour Python. pandas est basé sur NumPy.

O

objectif

Métrique que votre algorithme essaie d'optimiser.

fonction objectif

Formule mathématique ou métrique qu'un modèle cherche à optimiser. Par exemple, la fonction objectif de la régression linéaire est généralement la perte quadratique moyenne. Par conséquent, lorsque vous entraînez un modèle de régression linéaire, l'entraînement vise à minimiser la perte quadratique moyenne.

Dans certains cas, l'objectif est de maximiser la fonction objectif. Par exemple, si la fonction objectif est la justesse, l'objectif est de maximiser la justesse.

Voir aussi perte.

condition oblique

#df

Dans un arbre de décision, une condition impliquant plusieurs caractéristiques. Par exemple, si la hauteur et la largeur sont toutes deux des caractéristiques, voici une condition oblique:

  height > width

À comparer à la condition alignée sur l'axe.

offline

#fundamentals

Synonyme de statique.

inférence hors ligne

#fundamentals

Processus par lequel un modèle génère un lot de prédictions, puis met en cache (enregistre) ces prédictions. Les applications peuvent ensuite accéder à la prédiction inférée à partir du cache au lieu de réexécuter le modèle.

Prenons l'exemple d'un modèle qui génère des prévisions météorologiques locales (prédictions) toutes les quatre heures. Après chaque exécution du modèle, le système met en cache toutes les prévisions météorologiques locales. Les applications météo récupèrent les prévisions dans le cache.

L'inférence hors ligne est également appelée inférence statique.

À comparer à l'inférence en ligne.

Encodage one-hot

#fundamentals

Représenter des données catégorielles sous la forme d'un vecteur dans lequel:

Un élément est défini sur 1.
Tous les autres éléments ont la valeur 0.

L'encodage one-hot est couramment utilisé pour représenter des chaînes ou des identifiants ayant un ensemble fini de valeurs possibles. Par exemple, supposons qu'une certaine caractéristique catégorielle nommée Scandinavia possède cinq valeurs possibles:

"Danemark"
"Suède"
"Norvège"
"Finlande"
"Islande"

L'encodage one-hot peut représenter chacune des cinq valeurs comme suit:

country	Vecteur
"Danemark"	1	0	0	0	0
"Suède"	0	1	0	0	0
"Norvège"	0	0	1	0	0
"Finlande"	0	0	0	1	0
"Islande"	0	0	0	0	1

Grâce à l'encodage one-hot, un modèle peut apprendre différentes connexions en fonction de chacun des cinq pays.

La représentation d'une caractéristique sous forme de données numériques est une alternative à l'encodage one-hot. Malheureusement, représenter numériquement les pays scandinaves n'est pas un bon choix. Prenons l'exemple de la représentation numérique suivante:

Le Danemark est 0
"Suède" est 1
La "Norvège" a 2 ans.
La "Finlande" a 3 ans.
"Islande" a 4 ans

Avec l'encodage numérique, un modèle peut interpréter les nombres bruts mathématiquement et s'entraîner à partir de ces nombres. Cependant, l'Islande n'est pas deux fois moins (ou la moitié) que la Norvège, de sorte que le modèle aboutira à des conclusions étranges.

apprentissage one-shot

Approche du machine learning, souvent utilisée pour la classification d'objets, conçue pour apprendre des classificateurs efficaces à partir d'un seul exemple d'entraînement.

Voir aussi apprentissage few-shot et apprentissage zero-shot.

requête one-shot

#language

#IAgénérative

Une requête contenant un exemple montrant comment le grand modèle de langage doit répondre. Par exemple, l'invite suivante contient un exemple montrant à un grand modèle de langage comment il doit répondre à une requête.

Composantes d'une requête	Remarques
`Quelle est la devise officielle du pays spécifié ?`	La question à laquelle le LLM doit répondre.
`France: EUR`	Par exemple.
`Inde:`	Requête réelle.

Comparez les requêtes one-shot avec les termes suivants:

requête zero-shot
requête few-shot

un contre tous

#fundamentals

Compte tenu d'un problème de classification avec N classes, une solution composée de N classificateurs binaires distincts (un classificateur binaire pour chaque résultat possible) Par exemple, dans le cas d'un modèle qui classe les exemples en tant qu'animaux, légumes ou minéraux, une solution un contre tous fournirait les trois classificateurs binaires distincts suivants:

animal et non animal
Légume et non végétal
"minéral" et "pas minéral"

online

#fundamentals

Synonyme de dynamique.

inférence en ligne

#fundamentals

Création de prédictions à la demande Par exemple, supposons qu'une application transmette des entrées à un modèle et envoie une requête de prédiction. Un système utilisant l'inférence en ligne répond à la requête en exécutant le modèle (et en renvoyant la prédiction à l'application).

À comparer à l'inférence hors ligne.

opération (opération)

#TensorFlow

Dans TensorFlow, toute procédure qui crée, manipule ou détruit un Tensor. Par exemple, une multiplication matricielle est une opération qui prend deux Tensors en entrée et qui génère un Tensor en sortie.

Optax

Bibliothèque de traitement et d'optimisation des gradients pour JAX. Optax facilite la recherche en fournissant des composants de base qui peuvent être recombinés de manière personnalisée afin d'optimiser les modèles paramétriques tels que les réseaux de neurones profonds. Autres objectifs:

Fournir des implémentations lisibles, bien testées et efficaces des composants principaux.
Améliorer la productivité en permettant de combiner des ingrédients de bas niveau dans des optimiseurs personnalisés (ou d'autres composants de traitement de gradient)
accélérer l'adoption de nouvelles idées en facilitant la contribution de tous.

optimiseur

Une implémentation spécifique de l'algorithme de descente de gradient Voici quelques optimiseurs courants:

AdaGrad, qui signifie "descente de gradient adaptative"
Adam, pour ADAptive with Momentum.

biais d'homogénéité de l'exogroupe

#fairness

Tendance à considérer les membres de l'exogroupe comme plus semblables que les membres de l'ensemble du groupe lorsque l'on compare les attitudes, les valeurs, les traits de personnalité et d'autres caractéristiques. Le groupe d'appartenance désigne les personnes avec lesquelles vous interagissez régulièrement, tandis que l'exogroupe désigne les personnes avec lesquelles vous n'interagissez pas régulièrement. Si vous créez un ensemble de données en demandant aux personnes de fournir des attributs concernant les exogroupes, ces attributs peuvent être moins nuancés et plus stéréotypés que ceux listés par les participants pour les personnes de leur groupe.

Par exemple, les Lilliputiens pourraient décrire les maisons d'autres Lilliputiens avec beaucoup de détails, en citant de légères différences au niveau des styles architecturaux, des fenêtres, des portes et des tailles. Cependant, les mêmes Lilliputiens pourraient simplement déclarer que les Broobdingnagians vivent tous dans des maisons identiques.

Le biais d'homogénéité de l'exogroupe est une forme de biais d'attribution de groupe.

Voir aussi biais d'appartenance.

détection des anomalies

Processus d'identification des anomalies dans un ensemble d'entraînement.

À comparer à la détection de nouveauté.

des anomalies

Valeurs éloignées de la plupart des autres valeurs. En machine learning, les valeurs suivantes sont des anomalies:

Données d'entrée dont les valeurs sont éloignées de plus de trois écarts types approximatifs de la moyenne.
Pondérations dont la valeur absolue est élevée
Les valeurs prédites sont relativement éloignées des valeurs réelles.

Par exemple, supposons que widget-price soit une caractéristique d'un certain modèle. Supposons que la moyenne widget-price est de 7 euros avec un écart type de 1 euro. Les exemples contenant une widget-price de 12 euros ou 2 euros seront donc considérés comme des anomalies, car chacun de ces prix correspond à cinq écarts types par rapport à la moyenne.

Les anomalies sont souvent causées par des fautes de frappe ou d'autres erreurs de saisie. Dans d'autres cas, les valeurs aberrantes ne sont pas des erreurs ; après tout, des valeurs éloignées de cinq écarts types par rapport à la moyenne sont rares, mais difficilement impossibles.

Les anomalies provoquent souvent des problèmes lors de l'entraînement des modèles. Le rognage est un moyen de gérer les anomalies.

Évaluation lors de la sortie du bagage (évaluation lors de la première utilisation)

#df

Mécanisme permettant d'évaluer la qualité d'une forêt de décision en testant chaque arbre de décision par rapport aux exemples non utilisés lors de l'entraînement de cet arbre de décision. Par exemple, dans le schéma suivant, notez que le système entraîne chaque arbre de décision sur environ deux tiers des exemples, puis l'évalue sur le tiers restant des exemples.

Cette évaluation est une approximation prudente et efficace du mécanisme de validation croisée. Dans la validation croisée, un modèle est entraîné pour chaque cycle de validation croisée (par exemple, 10 modèles sont entraînés lors d'une validation croisée en 10 fois). Avec l'évaluation OOB, un seul modèle est entraîné. Étant donné que le bagging héberge certaines données de chaque arbre pendant l'entraînement, l'évaluation des objets en ligne peut utiliser ces données pour estimer la validation croisée.

couche de sortie

#fundamentals

Couche "finale" d'un réseau de neurones. La couche de sortie contient la prédiction.

L'illustration suivante montre un petit réseau de neurones profond avec une couche d'entrée, deux couches cachées et une couche de sortie:

surapprentissage

#fundamentals

Créer un model qui correspond aux model de manière si précise qu'il ne parvient pas à effectuer des prédictions correctes sur les nouvelles données

La régularisation peut réduire le surapprentissage. L'entraînement sur un ensemble d'entraînement vaste et varié peut également réduire le surapprentissage.

Cliquez sur l'icône pour afficher des remarques supplémentaires.

Le surapprentissage revient à suivre scrupuleusement les conseils de votre professeur préféré. Vous réussirez probablement dans le cours de cet enseignant, mais vous risquez de "surapprentissage" par rapport aux idées de cet enseignant et de ne pas réussir dans les autres cours. En suivant les conseils de plusieurs enseignants, vous pourrez mieux vous adapter à de nouvelles situations.

suréchantillonnage

Réutiliser les exemples d'une classe minoritaire dans un ensemble de données avec déséquilibre des classes afin de créer un ensemble d'entraînement plus équilibré.

Prenons l'exemple d'un problème de classification binaire dans lequel le ratio entre la classe majoritaire et la classe minoritaire est de 5 000:1. Si l'ensemble de données contient un million d'exemples, il ne contient qu'environ 200 exemples de la classe minoritaire, ce qui peut être insuffisant pour un entraînement efficace. Pour pallier ce problème, vous pouvez suréchantillonner (réutiliser) ces 200 exemples plusieurs fois, ce qui donne potentiellement suffisamment d'exemples pour un entraînement utile.

Vous devez faire attention au surapprentissage en cas de suréchantillonnage.

À comparer au sous-échantillonnage.

P

données empaquetées

Une approche pour stocker des données plus efficacement.

Les données empaquetées stockent les données soit en utilisant un format compressé, soit d'une autre manière qui facilite l'accès à celles-ci. Les données empaquetées minimisent la quantité de mémoire et les calculs nécessaires pour y accéder, ce qui accélère l'entraînement et améliore l'efficacité de l'inférence du modèle.

Les données empaquetées sont souvent utilisées avec d'autres techniques, telles que l'augmentation des données et la régularisation, améliorant encore les performances des modèles.

pandas

#fundamentals

API d'analyse de données orientée colonnes basée sur numpy. De nombreux frameworks de machine learning, y compris TensorFlow, acceptent les structures de données pandas en tant qu'entrées. Pour en savoir plus, consultez la documentation de Pandas.

paramètre

#fundamentals

Pondérations et biais qu'un modèle apprend pendant l'entraînement. Par exemple, dans un modèle de régression linéaire, les paramètres sont constitués du biais (b) et de toutes les pondérations (w₁, w₂, etc.) figurant dans la formule suivante:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

En revanche, les hyperparamètres sont les valeurs que vous (ou un service d'activation d'hyperparamètres) fournissez au modèle. Par exemple, le taux d'apprentissage est un hyperparamètre.

optimisation du réglage des paramètres

#language

#IAgénérative

Ensemble de techniques permettant d'affiner un grand modèle de langage pré-entraîné (PLM) plus efficacement que l'affinage complet. Le réglage économe en paramètres affine généralement beaucoup moins de paramètres que l'affinage complet, mais produit généralement un grand modèle de langage qui fonctionne aussi bien (ou presque aussi) qu'un grand modèle de langage créé à partir d'un ajustement complet.

Indiquer les points communs et les différences entre le réglage efficace pour les paramètres et les éléments suivants:

réglage des instructions
réglage des invites

Le réglage utilisant efficacement les paramètres est également appelé ajustement efficace des paramètres.

Serveur de paramètres

#TensorFlow

Tâche qui effectue le suivi des paramètres d'un modèle dans un environnement distribué.

mise à jour des paramètres

Opération d'ajustement des paramètres d'un modèle pendant l'entraînement, généralement lors d'une seule itération de descente de gradient.

dérivée partielle

Dérivée dans laquelle toutes les variables sauf une sont considérées comme constantes. Par exemple, la dérivée partielle de f(x, y) par rapport à x est la dérivée de f considérée comme une fonction de x seule (c'est-à-dire en gardant y constante). La dérivée partielle de f par rapport à x se concentre uniquement sur l'évolution de x et ignore toutes les autres variables de l'équation.

biais de participation

#fairness

Synonyme de biais de non-réponse. Voir biais de sélection.

stratégie de partitionnement

Algorithme qui répartit les variables entre les serveurs de paramètres.

Pax

Framework de programmation conçu pour entraîner des modèles de réseau de neurones à grande échelle de sorte qu'ils s'étendent sur plusieurs puces accélérateur TPU ou pods TPU.

Pax est basé sur Flax, qui repose sur JAX.

Schéma indiquant la position de Pax dans la pile logicielle.
Pax repose sur JAX. Pax se compose de trois couches. La couche inférieure contient TensorStore et Flax.
La couche intermédiaire contient Optax et Flaxformer. La couche supérieure contient la bibliothèque de modélisation de Praxis. Fiddle est basé sur Pax.

perceptron

Un système (matériel ou logiciel) qui reçoit une ou plusieurs valeurs d'entrée, exécute une fonction sur la somme pondérée des entrées et calcule une seule valeur de sortie. En machine learning, la fonction n'est généralement pas linéaire, comme avec les fonctions ReLU, sigmoïde ou tanh. Par exemple, le perceptron suivant s'appuie sur la fonction sigmoïde pour traiter trois valeurs d'entrée:

$$f(x_1, x_2, x_3) = \text{sigmoid}(w_1 x_1 + w_2 x_2 + w_3 x_3)$$

Dans l'illustration suivante, le perceptron prend trois entrées, chacune modifiée par une pondération avant d'entrer dans le perceptron:

Un perceptron qui reçoit 3 entrées, chacune multipliée par des pondérations distinctes. Le perceptron renvoie une valeur unique.

Les perceptrons sont les neurones des réseaux de neurones.

performance

Terme complexe qui a la signification suivante:

Sens standard du génie logiciel. à savoir: à quelle vitesse (ou avec quelle efficacité) ce logiciel s'exécute-t-il ?
Sens dans le machine learning Ici, les performances répondent à la question suivante: dans quelle mesure ce model est-il correct ? Autrement dit, quelles sont les prédictions du modèle ?

importances des variables de permutation

#df

Type d'importance variable qui évalue l'augmentation de l'erreur de prédiction d'un modèle après la permutation des valeurs de la caractéristique. L'importance de la variable de permutation est une métrique indépendante du modèle.

perplexité

Mesure de l'efficacité d'un model à exécuter une tâche. Par exemple, supposons que votre tâche consiste à lire les premières lettres d'un mot qu'un utilisateur saisit sur le clavier d'un téléphone et à proposer une liste de mots possibles pour la saisie. "Perplexity" (P) pour cette tâche correspond approximativement au nombre d'estimations que vous devez proposer pour que votre liste contienne le mot réel que l'utilisateur tente de saisir.

La perplexité est liée à l'entropie croisée par la formule suivante:

$$P= 2^{-\text{cross entropy}}$$

pipeline

L'infrastructure entourant un algorithme de machine learning. Un pipeline comprend la collecte des données, leur placement dans des fichiers de données d'entraînement, l'entraînement d'un ou plusieurs modèles, et l'exportation des modèles en production.

pipeline

#language

Forme de parallélisme de modèle dans laquelle le traitement d'un modèle est divisé en étapes consécutives, chacune étant exécutée sur un appareil différent. Lorsqu'une étape traite un lot, l'étape précédente peut fonctionner sur le lot suivant.

Consultez également la section Entraînement par étapes.

pjit

Une fonction JAX qui divise le code pour l'exécuter sur plusieurs puces accélérateurs. L'utilisateur transmet une fonction à pjit, qui renvoie une fonction ayant la sémantique équivalente, mais compilée dans un calcul XLA qui s'exécute sur plusieurs appareils (tels que des GPU ou des cœurs TPU).

pjit permet aux utilisateurs de segmenter des calculs sans les réécrire, à l'aide du partitionneur SPMD.

En mars 2023, pjit a été fusionné avec jit. Pour en savoir plus, consultez la section Tableaux distribués et parallélisation automatique.

PLM

#language

#IAgénérative

Abréviation de modèle de langage pré-entraîné.

pmap

Fonction JAX qui exécute des copies d'une fonction d'entrée sur plusieurs périphériques matériels sous-jacents (processeurs, GPU ou TPU) avec différentes valeurs d'entrée. Pmap s'appuie sur SPMD.

policy

#rl

Dans l'apprentissage par renforcement, le mappage probabiliste d'un agent entre les états et les actions.

pooling

#image

Réduction d'une ou de plusieurs matrices créées par une couche convolutive antérieure à une matrice plus petite. Le pooling implique généralement de prendre la valeur maximale ou moyenne de la zone mise en commun. Par exemple, supposons que nous ayons la matrice 3 x 3 suivante:

Matrice 3x3 [[5,3,1], [8,2,5], [9,4,3]].

Une opération de pooling, tout comme une opération convolutive, divise cette matrice en tranches, puis fait glisser cette opération convolutive à progrès. Par exemple, supposons que l'opération de pooling divise la matrice convolutive en tranches de 2 x 2 avec un pas de 1 x 1. Comme le montre le schéma suivant, quatre opérations de pooling ont lieu. Imaginez que chaque opération de pooling sélectionne la valeur maximale des quatre valeurs de cette tranche:

Le pooling permet d'appliquer l'invariance par translation dans la matrice d'entrée.

Dans les applications de vision, le pooling est officiellement appelé pooling spatial. Dans les applications de séries temporelles, le pooling est généralement appelé pooling temporel. Plus formellement, le pooling est souvent désigné par les termes de sous-échantillonnage ou réduction d'échantillonnage.

encodage de position

#language

Technique permettant d'ajouter des informations sur la position d'un jeton dans une séquence par rapport à sa représentation vectorielle continue. Les modèles Transformer utilisent l'encodage positionnel pour mieux comprendre la relation entre les différentes parties de la séquence.

Une implémentation courante de l'encodage positionnel utilise une fonction sinusoïdale. (Plus précisément, la fréquence et l'amplitude de la fonction sinusoïdale sont déterminées par la position du jeton dans la séquence.) Cette technique permet à un modèle Transformer d'apprendre à prendre en compte différentes parties de la séquence en fonction de leur position.

classe positive

#fundamentals

Classe que vous testez.

Par exemple, la classe positive d'un modèle de cancer pourrait être "tumeur". La classe positive d'un classificateur d'e-mail pourrait être "spam".

À comparer à la classe négative.

Cliquez sur l'icône pour afficher des remarques supplémentaires.

Le terme classe positive peut prêter à confusion, car le résultat "positif" de nombreux tests est souvent un résultat indésirable. Par exemple, la classe positive de nombreux tests médicaux correspond à des tumeurs ou à des maladies. En général, vous voulez qu'un médecin vous dise : « Félicitations ! Vos résultats de test étaient négatifs." Quoi qu'il en soit, la classe positive est l'événement que le test cherche à trouver.

Certes, vous testez simultanément les classes positives et négatives.

post-traitement

#fairness

#fundamentals

Ajuster la sortie d'un modèle après son exécution. Le post-traitement peut être utilisé pour appliquer des contraintes d'équité sans modifier les modèles eux-mêmes.

Par exemple, vous pouvez appliquer le post-traitement à un classificateur binaire en définissant un seuil de classification de sorte que l'égalité des chances soit maintenue pour un attribut donné en vérifiant que le taux de vrais positifs est le même pour toutes les valeurs de cet attribut.

PR AUC (aire sous la courbe PR)

Aire sous la courbe de précision/rappel interpolée, obtenue en traçant les points (rappel, précision) pour différentes valeurs du seuil de classification. Selon le mode de calcul utilisé, l'AUC peut être équivalente à la précision moyenne du modèle.

Praxe

Bibliothèque de ML principale et hautes performances de Pax. La praxis est souvent appelée « bibliothèque de couches ».

Praxis contient non seulement les définitions de la classe Layer, mais aussi la plupart de ses composants, y compris:

entrées de données
les bibliothèques de configuration (HParam et Fiddle) ;
optimiseurs

Praxe fournit les définitions de la classe Model.

precision

Métrique des modèles de classification qui répond à la question suivante:

Lorsque le modèle a prédit la classe positive, quel pourcentage des prédictions étaient correctes ?

La formule est la suivante:

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

où :

Un vrai positif signifie que le modèle a prédit correctement la classe positive.
"false positive" signifie que le modèle a prédit à tort la classe positive.

Par exemple, supposons qu'un modèle ait effectué 200 prédictions positives. Sur ces 200 prédictions positives:

150 étaient des vrais positifs.
50 étaient des faux positifs.

Dans ce cas :

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

À comparer à la précision et au rappel.

la courbe de précision/rappel

Courbe de précision par rapport au rappel à différents seuils de classification.

prédiction

#fundamentals

Sortie d'un modèle. Exemple :

La prédiction d'un modèle de classification binaire est soit la classe positive, soit la classe négative.
La prédiction d'un modèle de classification à classes multiples correspond à une classe.
La prédiction d'un modèle de régression linéaire est un nombre.

#IAgénérative

Entraînement initial d'un modèle sur un ensemble de données volumineux. Certains modèles pré-entraînés sont des géants maladroites et doivent généralement être affinés par le biais d'un entraînement supplémentaire. Par exemple, les experts en ML peuvent pré-entraîner un grand modèle de langage sur un vaste ensemble de données de texte, comme toutes les pages en anglais de Wikipédia. À la suite du pré-entraînement, le modèle résultant peut être affiné davantage grâce à l'une des techniques suivantes:

distillation
affinage
réglage des instructions
optimisation du réglage des paramètres
réglage des invites

croyance antérieure

Ce que vous pensez des données avant de commencer l'entraînement avec celles-ci Par exemple, la régularisation L₂ repose sur la conviction préalable que les pondérations doivent être faibles et normalement distribuées autour de zéro.

modèle de régression probabiliste

Un modèle de régression qui utilise non seulement les pondérations pour chaque caractéristique, mais aussi l'incertitude de ces pondérations. Un modèle de régression probabiliste génère une prédiction et l'incertitude de cette prédiction. Par exemple, un modèle de régression probabiliste peut donner une prédiction de 325 avec un écart type de 12. Pour en savoir plus sur les modèles de régression probabilistes, consultez ce Colaba sur le site tensorflow.org.

fonction de densité de probabilité

Fonction qui identifie la fréquence des échantillons de données ayant exactement une valeur particulière. Lorsque les valeurs d'un ensemble de données sont des nombres continus à virgule flottante, les correspondances exactes se produisent rarement. Toutefois, l'integrating d'une fonction de densité de probabilité de la valeur x à la valeur y permet d'obtenir la fréquence attendue des échantillons de données entre x et y.

Prenons l'exemple d'une distribution normale ayant une moyenne de 200 et un écart type de 30. Pour déterminer la fréquence attendue des échantillons de données compris entre 211,4 et 218,7, vous pouvez intégrer la fonction de densité de probabilité pour une distribution normale comprise entre 211,4 et 218,7.

requête

#language

#IAgénérative

Tout texte saisi en tant qu'entrée dans un grand modèle de langage pour conditionner le modèle afin qu'il se comporte d'une certaine manière. Les invites peuvent être aussi courtes qu'une expression ou arbitrairement longues (par exemple, l'intégralité du texte d'un roman). Les requêtes appartiennent à plusieurs catégories, y compris celles présentées dans le tableau suivant:

Catégorie d'invite	Exemple	Remarques
Question	`À quelle vitesse un pigeon vole-t-il ?`
Instruction	`Écris un poème amusant sur les sites à contenu exclusivement publicitaire.`	Requête qui demande au grand modèle de langage d'effectuer une action.
Exemple	`Traduire le code Markdown au format HTML. Par exemple : Markdown: * élément de liste HTML: <ul> <li>élément de liste</li> </ul>`	La première phrase de cet exemple de requête est une instruction. Le reste de la requête est l'exemple.
Rôle	`Expliquer pourquoi la descente de gradient est utilisée dans l'entraînement du machine learning jusqu'à un doctorat en physique.`	La première partie de la phrase est une instruction. L'expression "to un doctorat en physique" correspond au rôle.
Entrée partielle pour la finalisation du modèle	`Le Premier ministre du Royaume-Uni vit à`	Une invite d'entrée partielle peut se terminer brusquement (comme dans cet exemple) ou se terminer par un trait de soulignement.

Un modèle d'IA générative peut répondre à une requête avec du texte, du code, des images, des représentations vectorielles continues, des vidéos, etc.

apprentissage basé sur des requêtes

#language

#IAgénérative

Capacité de certains modèles qui leur permet d'adapter leur comportement en réponse à des entrées de texte arbitraires (invites). Dans un paradigme d'apprentissage classique basé sur des requêtes, un grand modèle de langage répond à une requête en générant du texte. Par exemple, supposons qu'un utilisateur entre l'invite suivante:

Résume la troisième loi du mouvement de Newton.

Un modèle compatible avec l'apprentissage basé sur des requêtes n'est pas spécifiquement entraîné pour répondre à l'invite précédente. Le modèle "connaît" de nombreux faits en physique, beaucoup de règles générales du langage et beaucoup de choses sur ce qui constitue des réponses généralement utiles. Ces connaissances sont suffisantes pour fournir une réponse utile, espérons-le. Des commentaires humains supplémentaires ("Cette réponse était trop compliquée" ou "Qu'est-ce qu'une réaction ?") permettent à certains systèmes d'apprentissage par requête d'améliorer progressivement l'utilité de leurs réponses.

conception de requête

#language

#IAgénérative

Synonyme d'ingénierie des requêtes.

ingénierie des requêtes

#language

#IAgénérative

Création d'invites qui génèrent les réponses souhaitées à partir d'un grand modèle de langage. Les êtres humains effectuent des opérations d'ingénierie des requêtes. Rédiger des requêtes bien structurées est essentiel pour garantir des réponses utiles d'un grand modèle de langage. L'ingénierie des requêtes dépend de nombreux facteurs, y compris:

Ensemble de données utilisé pour pré-entraîner et éventuellement affiner le grand modèle de langage.
température et autres paramètres de décodage utilisés par le modèle pour générer des réponses.

Pour en savoir plus sur la rédaction de requêtes utiles, consultez Présentation de la conception de requêtes.

La conception de requête est un synonyme d'ingénierie des requêtes.

réglage des invites

#language

#IAgénérative

Un mécanisme de réglage efficace des paramètres qui apprend un "préfixe" que le système ajoute à la requête réelle

Une variante du réglage des invites, parfois appelée réglage des préfixes, consiste à ajouter le préfixe au début de chaque couche. En revanche, la plupart des réglages d'invites n'ajoutent qu'un préfixe à la couche d'entrée.

Cliquez sur l'icône pour en savoir plus sur les préfixes.

Pour le réglage des requêtes, le "préfixe" (également appelé "invite flexible") est un petit nombre de vecteurs appris, spécifiques à une tâche, ajoutés au début des représentations vectorielles continues du jeton de texte de la requête réelle. Le système apprend l'invite flexible en figeant tous les autres paramètres du modèle et en affinant une tâche spécifique.

étiquettes de substitution

#fundamentals

Données utilisées pour estimer des étiquettes qui ne sont pas directement disponibles dans un ensemble de données.

Par exemple, supposons que vous deviez entraîner un modèle pour prédire le niveau de stress des employés. Votre ensemble de données contient de nombreuses caractéristiques prédictives, mais ne comporte pas d'étiquette nommée niveau de stress. Vous choisissez "accidents du travail" comme étiquette de proxy pour le niveau de stress, sans craindre. Après tout, les employés soumis à un stress élevé subissent plus d’accidents que les employés calmes. Ou bien ? Peut-être que les accidents du travail augmentent et diminuent pour plusieurs raisons.

Voici un deuxième exemple : supposons que vous souhaitiez utiliser is it raining? comme étiquette booléenne pour votre ensemble de données, mais que celui-ci ne contient pas de données sur la pluie. Si des photos sont disponibles, vous pouvez créer des images de personnes portant des parapluies comme étiquette de substitution pour la phrase is it raining? Est-ce une bonne étiquette de proxy ? Peut-être, mais dans certaines cultures, les personnes sont plus susceptibles de porter des parapluies pour se protéger du soleil que de la pluie.

Les étiquettes intermédiaires sont souvent imparfaites. Dans la mesure du possible, privilégiez les étiquettes réelles aux étiquettes proxy. Cela dit, lorsqu'une étiquette réelle est absente, choisissez très soigneusement l'étiquette de proxy, en choisissant la moins horrible étiquette de proxy candidate.

proxy (attributs sensibles)

#fairness

Attribut utilisé en remplacement d'un attribut sensible. Par exemple, le code postal d'un individu peut être utilisé comme indicateur de ses revenus, de son origine ethnique ou de son origine ethnique.

fonction pure

Une fonction dont les sorties ne sont basées que sur ses entrées et qui n'a aucun effet secondaire. Plus précisément, une fonction pure n'utilise ni ne modifie aucun état global, tel que le contenu d'un fichier ou la valeur d'une variable en dehors de la fonction.

Les fonctions pures peuvent être utilisées pour créer du code sécurisé, ce qui est utile lors de la segmentation du code du model sur plusieurs model.

Les méthodes de transformation des fonctions de JAX nécessitent que les fonctions d'entrée soient pures.

Q

Fonction Q

#rl

Dans l'apprentissage par renforcement, il s'agit de la fonction qui prédit le retour attendu en effectuant une action dans un état, puis en suivant une stratégie donnée.

La fonction Q est également appelée fonction de valeur d'action d'état.

Q-learning

#rl

Dans l'apprentissage par renforcement, un algorithme qui permet à un agent d'apprendre la fonction Q optimale d'un processus de décision de Markov en appliquant l'équation de Bellman. Le processus de décision de Markov modélise un environnement.

quantile

Chaque bucket dans le binning en quantiles.

binning en quantiles

Distribuer les valeurs d'une caractéristique dans des ensembles de sorte que chaque bucket contienne le même nombre (ou presque) d'exemples. Par exemple, la figure suivante divise 44 points en 4 ensembles, chacun contenant 11 points. Pour que chaque bucket de la figure contienne le même nombre de points, certains ensembles couvrent une largeur différente de valeurs x.

44 points de données divisés en 4 ensembles de 11 points chacun.
Bien que chaque bucket contienne le même nombre de points de données, certains buckets contiennent une plage de valeurs de caractéristiques plus étendue que d'autres.

quantification

Terme complexe pouvant être utilisé comme suit:

Implémentation du binning en quantiles sur une caractéristique particulière.
Transformation des données en zéros et en uns pour accélérer le stockage, l'entraînement et l'inférence. Étant donné que les données booléennes résistent mieux au bruit et aux erreurs que d'autres formats, la quantification peut améliorer l'exactitude du modèle. Les techniques de quantification incluent l'arrondi, la troncation et le binning.
Réduction du nombre de bits utilisés pour stocker les paramètres d'un modèle Supposons que les paramètres d'un modèle soient stockés sous forme de nombres à virgule flottante 32 bits. La quantification convertit ces paramètres de 32 bits en 4, 8 ou 16 bits. La quantification réduit les éléments suivants:
- Utilisation du calcul, de la mémoire, du disque et du réseau
- Temps nécessaire pour inférer une prédiction
- Consommation d'énergie
Cependant, la quantification diminue parfois l'exactitude des prédictions d'un modèle.

q

#TensorFlow

Opération TensorFlow qui implémente une structure de données de file d'attente. Généralement utilisé dans les E/S.

R

RAG

#fundamentals

Abréviation de récupération-augmentée.

forêt aléatoire

#df

Ensemble d'arbres de décision dans lequel chaque arbre de décision est entraîné avec un bruit aléatoire spécifique, tel que le bagging.

Les forêts d'arbres décisionnels sont un type de forêt de décision.

règle aléatoire

#rl

Dans l'apprentissage par renforcement, une règle qui choisit une action au hasard.

classement

Type d'apprentissage supervisé dont l'objectif est d'ordonner une liste d'éléments.

rang (ordinalité)

Position ordinale d'une classe dans un problème de machine learning qui classe les classes par ordre décroissant. Par exemple, un système de classement des comportements pourrait classer les récompenses d'un chien de la récompense la plus élevée (un steak) à la plus faible (chou frisé flétri).

Rank (Tensor)

#TensorFlow

Nombre de dimensions d'un Tensor. Par exemple, une valeur scalaire a un rang de 0, un vecteur un rang de 1 et une matrice un rang de 2.

À ne pas confondre avec le rang (ordinalité).

évaluateur

#fundamentals

Un humain qui fournit des étiquettes pour les exemples. « Annotator » est l'autre nom de l'évaluateur.

recall

Métrique des modèles de classification qui répond à la question suivante:

Lorsque la vérité terrain correspondait à la classe positive, quel pourcentage de prédictions le modèle a-t-il correctement identifié en tant que classe positive ?

La formule est la suivante:

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

où :

Un vrai positif signifie que le modèle a prédit correctement la classe positive.
La valeur "faux négatif" signifie que le modèle a prédit par erreur la classe négative.

Par exemple, supposons que votre modèle ait effectué 200 prédictions sur des exemples pour lesquels la vérité terrain était la classe positive. Sur ces 200 prédictions:

180 étaient des vrais positifs.
20 étaient des faux négatifs.

Dans ce cas :

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

Cliquez sur l'icône pour afficher les remarques sur les ensembles de données avec déséquilibre des classes.

Le rappel est particulièrement utile pour déterminer les performances prédictives des modèles de classification dans lesquels la classe positive est rare. Prenons l'exemple d'un ensemble de données avec déséquilibre des classes dans lequel la classe positive pour une certaine maladie apparaît chez seulement 10 patients sur un million. Supposons que votre modèle effectue cinq millions de prédictions qui donnent les résultats suivants:

30 vrais positifs
20 faux négatifs
4 999 000 vrais négatifs
950 faux positifs

Le rappel de ce modèle est donc le suivant:

recall = TP / (TP + FN)
recall = 30 / (30 + 20) = 0.6 = 60%

En revanche, la précision de ce modèle est la suivante :

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (30 + 4,999,000) / (30 + 4,999,000 + 950 + 20) = 99.98%

Cette valeur élevée de précision semble impressionnante, mais elle est essentiellement dénuée de sens. Le rappel est une métrique beaucoup plus utile pour les ensembles de données avec déséquilibre des classes que la précision.

système de recommandation

#recsystems

Système qui sélectionne pour chaque utilisateur un ensemble relativement petit d'éléments souhaitables dans un corpus volumineux. Par exemple, un système de recommandation de vidéos peut recommander deux vidéos d'un corpus de 100 000 vidéos, en sélectionnant Casablanca et L'histoire de Philadelphie pour un utilisateur, et Wonder Woman et Black Panther pour un autre. Un système de recommandation de vidéos peut baser ses recommandations sur des facteurs tels que:

Films notés ou regardés par des utilisateurs similaires
Le genre, les réalisateurs, les acteurs, la catégorie démographique ciblée...

Unité de rectification linéaire (ReLU)

#fundamentals

Une fonction d'activation ayant le comportement suivant:

Si l'entrée est négative ou nulle, alors la sortie est 0.
Si l'entrée est positive, la sortie est égale à l'entrée.

Exemple :

Si l'entrée est -3, alors la sortie est 0.
Si l'entrée est +3, alors la sortie est 3,0.

Voici un graphique de ReLU:

La fonction d'activation ReLU est très répandue. Malgré son comportement simple, la fonction ReLU permet toujours à un réseau de neurones d'apprendre les relations non linéaires entre les caractéristiques et l'étiquette.

réseau de neurones récurrent

#seq

Réseau de neurones exécuté intentionnellement plusieurs fois, et où des parties de chaque exécution alimentent la prochaine exécution. Plus précisément, les couches cachées de l'exécution précédente fournissent une partie de l'entrée à la même couche cachée lors de l'exécution suivante. Les réseaux de neurones récurrents sont particulièrement utiles pour évaluer les séquences, de sorte que les couches cachées puissent apprendre des exécutions précédentes du réseau de neurones sur les parties antérieures de la séquence.

Par exemple, la figure suivante montre un réseau de neurones récurrent qui s'exécute quatre fois. Notez que les valeurs apprises dans les couches cachées lors de la première exécution font partie de l'entrée des mêmes couches cachées lors de la deuxième exécution. De même, les valeurs apprises dans la couche cachée lors de la deuxième exécution font partie de l'entrée de la même couche cachée lors de la troisième exécution. De cette manière, le réseau de neurones récurrent s'entraîne et prédit progressivement la signification de la séquence entière plutôt que simplement la signification des mots individuels.

Un RNN qui s'exécute quatre fois pour traiter quatre mots d'entrée.

modèle de régression

#fundamentals

de façon informelle, un modèle qui génère une prédiction numérique. En revanche, un modèle de classification génère une prédiction de classe. Par exemple, les exemples suivants représentent tous des modèles de régression:

Modèle qui prédit la valeur d'une maison en particulier, par exemple 423 000 euros.
Modèle qui prédit l'espérance de vie d'un arbre donné, par exemple 23,2 ans.
Modèle qui prédit la quantité de pluie qui tombera dans une ville donnée au cours des six prochaines heures (36 mm, par exemple).

Voici deux types courants de modèles de régression:

La régression linéaire, qui recherche la ligne qui correspond le mieux aux valeurs d'étiquettes aux caractéristiques.
La régression logistique, qui génère une probabilité comprise entre 0,0 et 1,0 qu'un système mappe ensuite généralement à une prédiction de classe.

Les modèles qui génèrent des prédictions numériques ne sont pas tous des modèles de régression. Dans certains cas, une prédiction numérique n'est en fait qu'un modèle de classification qui comporte des noms de classe numériques. Par exemple, un modèle qui prédit un code postal numérique est un modèle de classification, et non un modèle de régression.

régularisation

#fundamentals

Tout mécanisme limitant le surapprentissage. Les types de régularisation les plus courants sont les suivants:

Régularisation L₁
Régularisation L₂
régularisation par abandon
Arrêt prématuré (il ne s'agit pas d'une méthode de régularisation, mais l'arrêt prématuré peut limiter efficacement le surapprentissage)

La régularisation peut également être définie comme la pénalité liée à la complexité d'un modèle.

Cliquez sur l'icône pour afficher des remarques supplémentaires.

La régularisation est contre-intuitive. En général, l'augmentation de la régularisation augmente la perte d'entraînement, ce qui prête à confusion, car l'objectif n'est pas de minimiser la perte d'entraînement ?

En fait, non. Le but n'est pas de minimiser la perte d'entraînement. L'objectif est de faire d'excellentes prédictions sur des exemples concrets. Il est à noter que, même si l'augmentation de la régularisation augmente la perte d'entraînement, elle aide généralement les modèles à effectuer de meilleures prédictions sur des exemples réels.

taux de régularisation

#fundamentals

Nombre indiquant l'importance relative de la régularisation pendant l'entraînement. L'augmentation du taux de régularisation réduit le surapprentissage, mais peut réduire les performances prédictives du modèle. À l'inverse, réduire ou omettre le taux de régularisation augmente le surapprentissage.

Cliquez sur l'icône pour afficher le calcul.

Le taux de régularisation est généralement représenté par la lettre grecque lambda. L'équation de perte simplifiée suivante montre l'influence du lambda:

$$\text{minimize(loss function + }\lambda\text{(regularization))}$$

où la régularisation correspond à un mécanisme de régularisation, y compris :

Régularisation L₁
Régularisation L₂

apprentissage par renforcement

#rl

Famille d'algorithmes qui apprennent une règle optimale, et dont le but est de maximiser le retour lors de l'interaction avec un environnement. Par exemple, la récompense ultime dans la plupart des jeux est la victoire. Les systèmes d'apprentissage par renforcement peuvent devenir experts dans les jeux complexes en évaluant les séquences d'actions de jeu précédentes qui ont finalement conduit à des victoires et les séquences qui ont finalement conduit à des pertes.

Apprentissage automatique par renforcement qui utilise le feedback humain (RLHF)

#IAgénérative

#rl

Utiliser les commentaires d'évaluateurs manuels pour améliorer la qualité des réponses d'un modèle. Par exemple, un mécanisme RLHF peut demander aux utilisateurs d'évaluer la qualité de la réponse d'un modèle avec un emoji 👍 ou 👎. Le système peut ensuite ajuster ses futures réponses en fonction de ce feedback.

ReLU

#fundamentals

Abréviation de unité de rectification linéaire.

tampon de relecture

#rl

Dans les algorithmes de type DQN, la mémoire utilisée par l'agent pour stocker les transitions d'état à utiliser dans la rediffusion d'expérience.

Cloud SQL

Copie de l'ensemble d'entraînement ou du modèle, généralement sur une autre machine. Par exemple, un système peut utiliser la stratégie suivante pour implémenter le parallélisme des données:

Placer les instances répliquées d'un modèle existant sur plusieurs machines
Envoyez différents sous-ensembles de l'ensemble d'entraînement à chaque instance répliquée.
Agrégez les mises à jour des paramètres.

biais de fréquence

#fairness

Le fait que la fréquence à laquelle les individus écrivent sur des actions, des résultats ou des propriétés ne reflète pas leur fréquence réelle ni le degré de caractéristique d'une propriété d'une classe d'individus. Le biais de fréquence peut influencer la composition des données à partir desquelles les systèmes de machine learning apprennent.

Par exemple, dans les livres, le mot ri est plus répandu que respiré. Un modèle de machine learning qui estime la fréquence relative du rire et de la respiration à partir d'un corpus de livres déterminerait probablement que le rire est plus courant que la respiration.

vectorielle

Processus de mise en correspondance des données et des caractéristiques utiles.

reclassement

#recsystems

Étape finale d'un système de recommandation au cours duquel les éléments notés peuvent être de nouveau notés en fonction d'un autre algorithme (généralement autre que le ML). Le reclassement évalue la liste des éléments générés par la phase d'attribution de scores, en prenant des mesures telles que:

Éliminer les articles que l'utilisateur a déjà achetés.
Booster le score des éléments plus récents.

RAG (retrieval-Augd Generation)

#fundamentals

Technique permettant d'améliorer la qualité des résultats obtenus avec le grand modèle de langage (LLM) en l'aidant à mettre à profit les sources de connaissances récupérées après l'entraînement du modèle. RAG améliore la précision des réponses du LLM en fournissant au LLM entraîné un accès aux informations extraites de bases de connaissances ou de documents fiables.

Voici quelques raisons courantes qui justifient l'utilisation de la génération augmentée par récupération:

Augmenter la justesse factuelle des réponses générées par un modèle.
Donner au modèle l'accès à des connaissances sur lesquelles il n'a pas été entraîné.
Modifier les connaissances utilisées par le modèle
Permettre au modèle de citer des sources.

Par exemple, supposons qu'une application de chimie utilise l'API PaLM pour générer des résumés liés aux requêtes des utilisateurs. Lorsque le backend de l'application reçoit une requête, il:

Recherche ("récupère") des données en rapport avec la requête de l'utilisateur.
Ajoute ("agrandissements") les données chimiques pertinentes à la requête de l'utilisateur.
Il demande au LLM de créer un résumé basé sur les données ajoutées.

return

#rl

Dans l'apprentissage par renforcement, en fonction d'une certaine politique et d'un certain état, le retour est la somme de toutes les récompenses que l'agent s'attend à recevoir en suivant la règle, de l'état à la fin de l'épisode. L'agent prend en compte le caractère retardé des récompenses attendues en les dispensant en fonction des transitions d'états requises pour obtenir la récompense.

Par conséquent, si le facteur de remise est $\gamma$et que $r_0, \ldots, r_{N}$indique les récompenses jusqu'à la fin de l'épisode, le calcul du retour est le suivant:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

une récompense

#rl

Dans l'apprentissage par renforcement, résultat numérique d'une action dans un état, tel que défini par l'environnement.

régularisation de crête

Synonyme de régularisation L₂. Le terme régularisation d'arête est utilisé plus souvent dans les contextes de statistiques pures, tandis que le terme régularisation L₂ est utilisé plus souvent dans le machine learning.

RNN

#seq

Abréviation de réseaux de neurones récurrents.

Courbe ROC (Receiver Operating Characteristic)

#fundamentals

Graphique du taux de vrais positifs et du taux de faux positifs pour différents seuils de classification dans la classification binaire.

La forme d'une courbe ROC suggère la capacité d'un modèle de classification binaire à séparer les classes positives des classes négatives. Supposons, par exemple, qu'un modèle de classification binaire sépare parfaitement toutes les classes négatives de toutes les classes positives:

Un axe gradué avec 8 exemples positifs à droite et 7 exemples négatifs à gauche.

La courbe ROC du modèle précédent se présente comme suit:

Une courbe ROC L'axe des abscisses (x) correspond au taux de faux positifs et l'axe des ordonnées (y) au taux de vrais positifs. La courbe a une forme en L inversé. La courbe commence à (0.0,0.0) et va directement jusqu'à (0.0,1.0). Ensuite, la courbe va de (0.0,1.0) à (1.0,1.0).

En revanche, l'illustration suivante représente graphiquement les valeurs brutes de la régression logistique d'un mauvais modèle qui ne peut pas du tout séparer les classes négatives des classes positives:

Ligne graduée avec des exemples positifs et des classes négatives complètement mélangées.

La courbe ROC de ce modèle se présente comme suit:

Une courbe ROC, qui est en réalité une ligne droite comprise entre (0.0,0.0) et (1.0,1.0).

Dans le monde réel, la plupart des modèles de classification binaire séparent dans une certaine mesure les classes positives et négatives, mais ce n'est généralement pas le cas de manière parfaite. Ainsi, une courbe ROC typique se situe entre les deux extrêmes:

Une courbe ROC L'axe des abscisses (x) correspond au taux de faux positifs et l'axe des ordonnées (y) au taux de vrais positifs. La courbe ROC représente approximativement un arc tremblant traversant les points de la boussole d'Ouest vers le Nord.

Le point sur une courbe ROC le plus proche de (0,0,1,0) identifie théoriquement le seuil de classification idéal. Cependant, plusieurs autres problèmes concrets influent sur le choix du seuil de classification idéal. Par exemple, les faux négatifs causent peut-être beaucoup plus de difficultés que les faux positifs.

Une métrique numérique appelée AUC résume la courbe ROC en une seule valeur à virgule flottante.

requête de rôle

#language

#IAgénérative

Partie facultative d'une requête qui identifie une audience cible pour la réponse d'un modèle d'IA générative. Sans une invite de rôle, un grand modèle de langage fournit une réponse qui peut être utile ou non pour la personne qui pose les questions. Avec une invite de rôle, un grand modèle de langage peut répondre d'une manière plus appropriée et plus utile pour une audience cible spécifique. Par exemple, la partie d'invite de rôle des invites suivantes est en gras:

Résume cet article pour un doctorat en économie.
Décrire le fonctionnement des marées pour un enfant de dix ans.
Expliquer la crise financière de 2008 Parlez comme vous le feriez à un jeune enfant ou à un golden retriever.

racine

#df

Le nœud de départ (la première condition) d'une arborescence de décision. Par convention, les diagrammes placent la racine en haut de l'arbre de décision. Exemple :

Arbre de décision avec deux conditions et trois feuilles. La condition de départ (x > 2) est la racine.

répertoire racine

#TensorFlow

Répertoire que vous spécifiez pour héberger les sous-répertoires du point de contrôle TensorFlow et les fichiers d'événements de plusieurs modèles.

la racine carrée de l'erreur quadratique moyenne (RMSE, Root Mean Squared Error)

#fundamentals

Racine carrée de l'erreur quadratique moyenne.

invariance rotationnelle

#image

Dans un problème de classification d'images, capacité d'un algorithme à classer correctement des images même lorsque leur orientation change. Par exemple, l'algorithme peut toujours identifier une raquette de tennis, qu'elle pointe vers le haut, le côté ou le bas. Notez que l'invariance rotationnelle n'est pas toujours souhaitable. Par exemple, un 9 à l'envers ne doit pas être classé comme un 9.

Voir aussi invariance par translation et invariance par taille.

Coefficient de détermination

Métrique de régression indiquant la variation dans un libellé du fait d'une caractéristique individuelle ou d'un ensemble de caractéristiques. R-carré est une valeur comprise entre 0 et 1, que vous pouvez interpréter comme suit:

Un coefficient de détermination de 0 signifie qu'aucune des variations d'une étiquette n'est due à l'ensemble de caractéristiques.
Un coefficient de détermination de 1 signifie que toutes les variations d'une étiquette sont dues à l'ensemble de caractéristiques.
Un coefficient de détermination (R-carré) compris entre 0 et 1 indique dans quelle mesure la variation de l'étiquette peut être prédite à partir d'une caractéristique particulière ou de l'ensemble de caractéristiques. Par exemple, un coefficient de détermination de 0,10 signifie que 10 % de la variance de l'étiquette est due à l'ensemble de caractéristiques, un carré de 0,20 signifie que 20 % est dû à l'ensemble de caractéristiques, et ainsi de suite.

R-carré correspond au carré du coefficient de corrélation de Pearson entre les valeurs prédites par un modèle et la vérité terrain.

S

biais d'échantillonnage

#fairness

Voir biais de sélection.

échantillonnage avec remplacement

#df

Méthode de sélection d'éléments parmi un ensemble d'éléments candidats dans lequel le même élément peut être sélectionné plusieurs fois. L'expression "avec remplacement" signifie qu'après chaque sélection, l'élément sélectionné est renvoyé dans le pool d'éléments candidats. La méthode inverse, échantillonnage sans remplacement, signifie qu'un élément candidat ne peut être sélectionné qu'une seule fois.

Prenons l'exemple de l'ensemble de fruits suivant:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Supposons que le système sélectionne au hasard fig comme premier élément. Si vous utilisez l'échantillonnage avec remplacement, le système sélectionne le deuxième élément dans l'ensemble suivant:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Oui, c'est le même ensemble qu'avant. Le système peut donc potentiellement sélectionner à nouveau fig.

Si vous utilisez l'échantillonnage sans remplacement, une fois celui-ci sélectionné, un échantillon ne peut plus être sélectionné. Par exemple, si le système choisit de manière aléatoire fig comme premier échantillon, fig ne peut pas être choisi à nouveau. Par conséquent, le système sélectionne le deuxième échantillon dans l'ensemble (réduit) suivant:

fruit = {kiwi, apple, pear, cherry, lime, mango}

Cliquez sur l'icône pour afficher des remarques supplémentaires.

Dans l'échantillonnage avec remplacement, le mot remplacement peut prêter à confusion. En français, remplacement signifie "substitution". Cependant, l'échantillonnage avec remplacement utilise en fait la définition française du remplacement, ce qui signifie "remettre un élément".

Le mot anglais replacement est traduit par le mot français remplacement.

SavedModel

#TensorFlow

Format recommandé pour enregistrer et récupérer des modèles TensorFlow. SavedModel est un format de sérialisation récupérable et indépendant du langage, qui permet aux systèmes et aux outils de niveau supérieur de produire, d'utiliser et de transformer des modèles TensorFlow.

Pour plus d'informations, consultez l'article Enregistrer et récupérer du guide du programmeur TensorFlow.

Économique

#TensorFlow

Objet TensorFlow responsable de l'enregistrement des points de contrôle du modèle.

scalaire

Nombre ou chaîne unique pouvant être représenté par un Tensor de rang 0. Par exemple, les lignes de code suivantes créent chacune une valeur scalaire dans TensorFlow:

breed = tf.Variable("poodle", tf.string)
temperature = tf.Variable(27, tf.int16)
precision = tf.Variable(0.982375101275, tf.float64)

scaling

Toute transformation ou technique mathématique qui déplace la plage d'une étiquette et/ou d'une valeur de caractéristique. Certaines formes de scaling sont très utiles pour les transformations telles que la normalisation.

Voici des formes courantes de scaling utiles pour le machine learning:

la mise à l'échelle linéaire, qui utilise généralement une combinaison de soustraction et de division pour remplacer la valeur d'origine par un nombre compris entre -1 et +1 ou entre 0 et 1.
une mise à l'échelle logarithmique, qui remplace la valeur d'origine par son logarithme.
Normalisation du score Z, qui remplace la valeur d'origine par une valeur à virgule flottante représentant le nombre d'écarts types par rapport à la moyenne de cette caractéristique.

scikit-learn

Plate-forme de machine learning Open Source populaire. Consultez scikit-learn.org.

par lot

#recsystems

Partie d'un système de recommandation qui fournit une valeur ou un classement pour chaque élément produit par la phase de génération de candidats.

biais de sélection

#fairness

Erreurs dans les conclusions tirées de données échantillonnées en raison d'un processus de sélection qui génère des différences systématiques entre les échantillons observés dans les données et ceux non observés. Les formes de biais de sélection suivantes existent:

Biais de couverture: la population représentée dans l'ensemble de données ne correspond pas à la population pour laquelle le modèle de machine learning effectue des prédictions.
biais d'échantillonnage: les données ne sont pas collectées aléatoirement auprès du groupe cible.
biais de non-réponse (également appelé biais de participation): les utilisateurs de certains groupes désactivent les enquêtes à des taux différents de ceux des utilisateurs d'autres groupes.

Par exemple, supposons que vous créiez un modèle de machine learning qui prédit le plaisir d'un film par les gens. Pour recueillir des données d'entraînement, vous distribuez une enquête à toutes les personnes situées au premier rang d'une salle de cinéma projetant le film. D'un coup, cela peut sembler être un moyen raisonnable de rassembler un ensemble de données. Cependant, cette forme de collecte de données peut introduire les formes de biais de sélection suivantes:

Biais de couverture: en effectuant un échantillonnage à partir d'une population qui a choisi de voir le film, les prédictions de votre modèle peuvent ne pas se généraliser aux personnes qui n'ont pas encore exprimé ce niveau d'intérêt pour le film.
Biais d'échantillonnage: plutôt que d'effectuer un échantillonnage aléatoire de la population visée (toutes les personnes du film), vous n'avez échantillonné que les personnes du premier rang. Il est possible que les personnes assises au premier rang soient plus intéressées par le film que celles des autres rangées.
Biais de non-réponse: en général, les personnes ayant des opinions fortes ont tendance à répondre plus souvent aux enquêtes facultatives que celles ayant des opinions modérées. Comme l'enquête sur le film est facultative, les réponses sont plus susceptibles de former une distribution bimodale qu'une distribution normale (en cloche).

auto-attention (également appelée couche d'auto-attention)

#language

Couche de réseau de neurones qui transforme une séquence de représentations vectorielles continues (par exemple, de représentations vectorielles continues jeton) en une autre séquence de représentations vectorielles continues Chaque représentation vectorielle continue de la séquence de sortie est construite en intégrant les informations provenant des éléments de la séquence d'entrée via un mécanisme d'attention.

La partie self de l'auto-attention fait référence à la séquence qui s'y prête plutôt qu'à un autre contexte. L'auto-attention est l'un des principaux éléments de base des transformateurs. Elle utilise une terminologie de recherche par dictionnaire, telle que "query", "key" et "value".

Une couche d'auto-attention commence par une séquence de représentations d'entrée, une pour chaque mot. La représentation d'entrée d'un mot peut être une simple représentation vectorielle continue. Pour chaque mot d'une séquence d'entrée, le réseau attribue un score à sa pertinence par rapport à chaque élément de la séquence de mots complète. Les scores de pertinence déterminent dans quelle mesure la représentation finale du mot intègre les représentations d'autres mots.

Prenons l'exemple de la phrase suivante:

L'animal n'a pas traversé la rue car il était trop fatigué.

L'illustration suivante (tirée du livre Transformer: A Novel Neural Network Architecture for Language Understanding) montre le modèle d'attention d'une couche d'auto-attention pour le pronom it. L'obscurité de chaque ligne indique dans quelle mesure chaque mot contribue à la représentation:

La phrase suivante apparaît deux fois: l'animal n'a pas traversé la rue, car il était trop fatigué. Des lignes relient le pronom en une phrase à cinq jetons (l'animal, la rue, le point et le point) dans l'autre phrase. La ligne entre son pronom et le mot "animal" est la plus forte.

La couche d'auto-attention met en évidence les mots pertinents. Dans ce cas, la couche d'attention a appris à mettre en surbrillance les mots auxquels elle pourrait faire référence, attribuant la pondération la plus élevée à animal.

Pour une séquence de n jetons, l'auto-attention transforme une séquence de représentations vectorielles continues n fois distinctes, une fois à chaque position de la séquence.

Reportez-vous également aux fonctionnalités attention et auto-attention multi-tête.

apprentissage auto-supervisé

Famille de techniques permettant de convertir un problème de machine learning non supervisé en problème de machine learning supervisé en créant des étiquettes de substitution à partir d'exemples sans étiquette.

Certains modèles basés sur Transformer, tels que BERT, utilisent l'apprentissage auto-supervisé.

L'entraînement auto-supervisé est une approche d'apprentissage semi-supervisé.

auto-formation

Variante de l'apprentissage auto-supervisé particulièrement utile lorsque toutes les conditions suivantes sont remplies:

Le ratio entre les exemples sans étiquette et les exemples étiquetés dans l'ensemble de données est élevé.
Il s'agit d'un problème de classification.

L'auto-entraînement consiste à itérer les deux étapes suivantes jusqu'à ce que le modèle cesse de s'améliorer:

Utilisez le machine learning supervisé pour entraîner un modèle sur les exemples étiquetés.
Utilisez le modèle créé à l'étape 1 pour générer des prédictions (étiquettes) sur les exemples non étiquetés, en déplaçant ceux pour lesquels il existe un niveau de confiance élevé vers les exemples étiquetés avec l'étiquette prédite.

Notez que chaque itération de l'étape 2 ajoute des exemples étiquetés pour l'étape 1 afin d'effectuer l'entraînement.

apprentissage partiellement supervisé

Entraînement d'un modèle sur des données dont certains exemples d'entraînement ont des étiquettes, mais pas d'autres. Une technique d'apprentissage partiellement supervisé consiste à déduire les étiquettes des exemples non étiquetés, puis à effectuer l'entraînement sur les étiquettes déduites pour créer un modèle. L'apprentissage partiellement supervisé peut être utile si les étiquettes sont coûteuses à obtenir, mais que les exemples sans étiquette sont abondants.

L'auto-entraînement est l'une des techniques d'apprentissage semi-supervisé.

attribut sensible

#fairness

Attribut humain pouvant faire l'objet d'une attention particulière pour des raisons juridiques, éthiques, sociales ou personnelles.

analyse des sentiments

#language

Utilisation d'algorithmes statistiques ou de machine learning pour déterminer l'attitude globale d'un groupe (positive ou négative) vis-à-vis d'un service, d'un produit, d'une organisation ou d'un sujet. Par exemple, en utilisant la compréhension du langage naturel, un algorithme peut effectuer une analyse des sentiments sur les commentaires textuels d'un cours universitaire afin de déterminer dans quelle mesure les étudiants ont généralement aimé ou déplu le cours.

modèle de séquence

#seq

Modèle dont les entrées ont une dépendance séquentielle. Par exemple, prédire la prochaine vidéo visionnée à partir d'une séquence de vidéos précédemment regardées.

tâche "seq2seq"

#language

Tâche qui convertit une séquence d'entrée de jetons en séquence de sortie de jetons. Par exemple, deux types courants de tâches "seq2seq" sont les suivants:

Traducteurs :
- Exemple de séquence d'entrée: "Je t'aime".
- Exemple de séquence de sortie: "Je t'aime".
Systèmes de questions-réponses :
- Exemple de séquence d'entrée: "Dois-je utiliser ma voiture à New York ?"
- Exemple de séquence de sortie: "Non. Veuillez laisser votre voiture à la maison."

du modèle.

Processus de mise à disposition d'un modèle entraîné pour fournir des prédictions via l'inférence en ligne ou l'inférence hors ligne.

forme (Tensor)

Nombre d'éléments dans chaque dimension d'un Tensor. La forme est représentée par une liste d'entiers. Par exemple, le Tensor à deux dimensions suivant a la forme [3,4]:

[[5, 7, 6, 4],
 [2, 9, 4, 8],
 [3, 6, 5, 1]]

TensorFlow utilise le format "ligne principale" (style C) pour représenter l'ordre des dimensions. C'est pourquoi la forme est [3,4] plutôt que [4,3] dans TensorFlow. En d'autres termes, dans un Tensor TensorFlow bidimensionnel, la forme correspond au [nombre de lignes et au nombre de colonnes].

segment

#TensorFlow

#GoogleCloud

Division logique de l'ensemble d'entraînement ou du modèle. En règle générale, certains processus créent des segments en divisant les exemples ou les paramètres en fragments (généralement) de taille égale. Chaque segment est ensuite attribué à une machine différente.

La segmentation d'un modèle est appelée parallélisme de modèle, tandis que la segmentation des données est appelée parallélisme des données.

rétrécissement

#df

Un hyperparamètre dans l'optimisation de gradient qui contrôle le surapprentissage. La réduction de l'optimisation de gradient est analogue au taux d'apprentissage dans la descente de gradient. Le rétrécissement est une valeur décimale comprise entre 0,0 et 1,0. Une valeur de rétrécissement plus faible réduit davantage le surapprentissage qu'une valeur de rétrécissement plus élevée.

fonction sigmoïde

#fundamentals

Fonction mathématique qui "agrège" une valeur d'entrée dans une plage limitée, généralement comprise entre 0 et 1 ou entre -1 et +1. Autrement dit, vous pouvez transmettre n'importe quel nombre (deux, un million, un milliard, n'importe quoi) à une sigmoïde et la sortie se situera toujours dans la plage contrainte. Le tracé de la fonction d'activation sigmoïde se présente comme suit:

La fonction sigmoïde a plusieurs utilisations en machine learning, y compris:

Conversion de la sortie brute d'un modèle de régression logistique ou de régression multinomiale en probabilité
Sert de fonction d'activation dans certains réseaux de neurones.

Cliquez sur l'icône pour afficher le calcul.

La fonction sigmoïde sur un nombre d'entrée x a la formule suivante:

$$ sigmoid(x) = \frac{1}{1 + e^{-\text{x}}} $$

En machine learning, x est généralement une somme pondérée.

mesure de similarité

#clustering

Dans les algorithmes de clustering, la métrique permettant de déterminer le degré de similarité entre deux exemples.

un seul programme / plusieurs données (SPMD)

Technique de parallélisme où le même calcul est exécuté en parallèle sur différentes données d'entrée sur différents appareils. L'objectif de SPMD est d'obtenir des résultats plus rapidement. C'est le style de programmation parallèle le plus courant.

invariance par redimensionnement

#image

Dans un problème de classification d'images, capacité d'un algorithme à classer correctement des images même lorsque leur taille change. Par exemple, l'algorithme peut tout de même identifier un chat, qu'il utilise 2 millions de pixels ou 200 000 pixels. Notez que même les meilleurs algorithmes de classification d'images présentent des limites pratiques en termes d'invariance par taille. Par exemple, il est peu probable qu'un algorithme (ou un humain) classe correctement une image de chat de seulement 20 pixels.

Voir aussi invariance par translation et invariance rotationnelle.

croquis

#clustering

Dans le machine learning non supervisé, une catégorie d'algorithmes qui effectuent une analyse de similarité préliminaire sur les exemples. Les algorithmes de similarité approximative utilisent une fonction de hachage sensible à la localité pour identifier les points susceptibles d'être similaires, puis les regroupent dans des buckets.

L'esquisse réduit la quantité de calcul requise pour les calculs de similarité sur les grands ensembles de données. Au lieu de calculer la similarité pour chaque paire d'exemples dans l'ensemble de données, nous la calculons uniquement pour chaque paire de points dans chaque bucket.

saut-gramme

#language

n-gramme qui peut omettre (ou "ignorer") des mots du contexte d'origine, ce qui signifie que les N mots peuvent ne pas être à l'origine adjacents. Plus précisément, un "k-skip-n-gramme" est un n-gramme dont jusqu'à k mots ont pu être ignorés.

Par exemple, "le renard brun hâtif" a les 2 grammes suivants:

"rapide"
"marron rapide"
"renard brun"

Un mot "1-skip-2-gramme" est une paire de mots séparés par un mot au maximum. Par conséquent, "le petit renard brun" présente les 2 grammes suivants, qui peuvent être ignorés:

"marron"
"Quick Fox"

De plus, tous les 2 grammes sont également 1-skip-2-grammes, car moins d'un mot peut être ignoré.

Les Skip-grammes sont utiles pour mieux comprendre le contexte environnant d'un mot. Dans l'exemple, "fox" est directement associé à "quick" dans l'ensemble de 1-skip-2-grammes, mais pas dans l'ensemble de 2-grammes.

Les Skip-grammes permettent d'entraîner des modèles de représentation vectorielle continue de mots.

softmax

#fundamentals

Fonction qui détermine les probabilités pour chaque classe possible dans un modèle de classification à classes multiples. La somme des probabilités est égale à 1,0. Par exemple, le tableau suivant montre comment softmax distribue différentes probabilités:

L'image est...	Probabilité
chien	0,85
cat	0,13
cheval	0,02

Softmax est aussi appelé softmax complet.

À comparer à l'échantillonnage de candidats.

Cliquez sur l'icône pour afficher le calcul.

L'équation softmax est la suivante:

$$\sigma_i = \frac{e^{\text{z}_i}} {\sum_{j=1}^{j=K} {e^{\text{z}_j}}} $$

où :

$\sigma_i$ est le vecteur de sortie. Chaque élément du vecteur de sortie spécifie la probabilité de cet élément. La somme de tous les éléments dans le vecteur de sortie est égale à 1,0. Le vecteur de sortie contient le même nombre d'éléments que le vecteur d'entrée, $z$.
$z$ est le vecteur d'entrée. Chaque élément du vecteur d'entrée contient une valeur à virgule flottante.
$K$ est le nombre d'éléments dans le vecteur d'entrée (et le vecteur de sortie).

Par exemple, supposons que le vecteur d'entrée soit:

[1.2, 2.5, 1.8]

Par conséquent, softmax calcule le dénominateur comme suit:

$$\text{denominator} = e^{1.2} + e^{2.5} + e^{1.8} = 21.552$$

La probabilité softmax de chaque élément est donc:

$$\sigma_1 = \frac{e^{1.2}}{21.552} = 0.154 $$ $$\sigma_2 = \frac{e^{2.5}}{21.552} = 0.565 $$ $$\sigma_1 = \frac{e^{1.8}}{21.552} = 0.281 $$

Le vecteur de sortie est donc le suivant:

$$\sigma = [0.154, 0.565, 0.281]$$

La somme des trois éléments dans $\sigma$ est de 1,0. Ouf !

réglage des invites douces

#language

#IAgénérative

Technique de réglage d'un grand modèle de langage pour une tâche particulière, sans affinage, qui utilise beaucoup de ressources. Au lieu de réentraîner toutes les pondérations du modèle, le réglage des invites douces ajuste automatiquement une invite pour atteindre le même objectif.

Avec une requête textuelle, le réglage de l'invite douce ajoute généralement des représentations vectorielles continues de jetons supplémentaires à l'invite et utilise la rétropropagation pour optimiser l'entrée.

Une invite "difficile" contient des jetons réels au lieu de représentations vectorielles continues de jetons.

caractéristique creuse

#language

#fundamentals

Une caractéristique dont les valeurs sont pour la plupart nulles ou vides. Par exemple, une caractéristique contenant une seule valeur 1 et un million de valeurs 0 est creuse. En revanche, une caractéristique dense comporte des valeurs qui ne sont principalement ni nulles ni vides.

Dans le domaine du machine learning, un nombre surprenant de caractéristiques sont des caractéristiques creuses. Les caractéristiques catégorielles sont généralement creuses. Par exemple, parmi les 300 espèces d'arbres possibles d'une forêt, un seul exemple peut n'identifier qu'un érable. Ou, parmi les millions de vidéos possibles d'une bibliothèque de vidéos, un seul exemple pourrait désigner "Casablanca".

Dans un modèle, vous représentez généralement des caractéristiques creuses avec encodage one-hot. Si l'encodage one-hot est volumineux, vous pouvez placer une couche de représentation vectorielle continue au-dessus de l'encodage one-hot pour plus d'efficacité.

représentation creuse

#language

#fundamentals

Ne stocke que la position des éléments non nuls dans une caractéristique creuse.

Par exemple, supposons qu'une caractéristique catégorielle nommée species identifie les 36 espèces d'arbres d'une forêt spécifique. Supposons également que chaque exemple n'identifie qu'une seule espèce.

Vous pouvez utiliser un vecteur one-hot pour représenter les espèces d'arbres dans chaque exemple. Un vecteur one-hot contiendrait une seule valeur 1 (pour représenter l'espèce d'arbre concernée dans cet exemple) et 35 0s (pour représenter les 35 espèces d'arbres qui ne sont pas dans cet exemple). Ainsi, la représentation one-hot de maple peut se présenter comme suit:

Un vecteur dans lequel les positions 0 à 23 contiennent la valeur 0, la position 24 contient la valeur 1 et les positions 25 à 35 contiennent la valeur 0.

La représentation creuse permet également d'identifier simplement la position de l'espèce concernée. Si maple se trouve à la position 24, la représentation creuse de maple est simplement:

Notez que la représentation creuse est beaucoup plus compacte que la représentation one-hot.

Cliquez sur l'icône pour afficher un exemple un peu plus complexe.

Supposons que chaque exemple de votre modèle doive représenter les mots d'une phrase en anglais, mais pas leur ordre. L'anglais comprend environ 170 000 mots, il est donc une caractéristique catégorielle comportant environ 170 000 éléments. La plupart des phrases en anglais utilisent une fraction extrêmement infime de ces 170 000 mots. Il est donc probable que l'ensemble de mots d'un seul exemple ne soit que des données creuses.

Considérez la phrase suivante:

My dog is a great dog

Vous pouvez utiliser une variante du vecteur one-hot pour représenter les mots de cette phrase. Dans cette variante, plusieurs cellules du vecteur peuvent contenir une valeur non nulle. De plus, dans cette variante, une cellule peut contenir un entier autre qu'un. Bien que les mots "my", "is", "a" et "great" n'apparaissent qu'une seule fois dans la phrase, le mot "dog" apparaît deux fois. L'utilisation de cette variante de vecteurs one-hot pour représenter les mots de cette phrase donne le vecteur de 170 000 éléments suivant:

Une représentation creuse de la même phrase serait simplement:

Cliquez sur l'icône si vous êtes perdu.

Le terme "représentation creuse" peut perturber de nombreuses personnes, car la représentation creuse n'est en elle-même pas un vecteur creux. Il s'agit plutôt d'une représentation dense d'un vecteur creux. La représentation d'index avec des synonymes est un peu plus claire que la "représentation creuse".

vecteur creux

#fundamentals

Vecteur dont les valeurs sont pour la plupart des zéros. Voir aussi caractéristique creuse et parcimonie.

parcimonie

Nombre d'éléments définis sur zéro (ou nul) dans un vecteur ou une matrice, divisé par le nombre total d'entrées dans ce vecteur ou cette matrice. Prenons l'exemple d'une matrice de 100 éléments dans laquelle 98 cellules contiennent zéro. Le calcul de la parcimonie est le suivant:

$$ {\text{sparsity}} = \frac{\text{98}} {\text{100}} = {\text{0.98}} $$

La parcimonie des caractéristiques désigne la parcimonie d'un vecteur de caractéristiques. La parcimonie du modèle désigne la parcimonie des pondérations du modèle.

pooling spatial

#image

Consultez la section Pooling.

split

#df

Dans une arborescence de décision, autre nom d'une condition.

séparateur

#df

Lors de l'entraînement d'un arbre de décision, la routine (et l'algorithme) responsable de la recherche de la meilleure condition au niveau de chaque nœud.

SPMD

Abréviation de un seul programme / plusieurs données.

marge maximale quadratique

Carré de la marge maximale. La marge maximale quadratique pénalise les anomalies plus sévèrement que la marge maximale standard.

perte quadratique

#fundamentals

Synonyme de perte L₂.

entraînement par étapes

#language

Stratégie d'entraînement d'un modèle selon une séquence d'étapes distinctes. L'objectif peut être d'accélérer le processus d'entraînement ou d'améliorer la qualité du modèle.

Voici une illustration de l'approche d'empilement progressif:

L'étape 1 contient trois couches cachées, l'étape 2 en contient six et l'étape 3 en contient 12.
L'étape 2 commence l'entraînement avec les pondérations apprises lors des trois couches cachées de l'étape 1. L'étape 3 commence l'entraînement avec les pondérations apprises dans les six couches cachées de l'étape 2.

Trois étapes, appelées "Étape 1", "Étape 2" et "Étape 3".
Chaque étape contient un nombre différent de calques: l'étape 1 en contient trois, l'étape 2 en contient six et l'étape 3 en contient 12.
Les trois couches de l'étape 1 deviennent les trois premières couches de l'étape 2.
De même, les six couches de l'étape 2 deviennent les six premières couches de l'étape 3.

Consultez également la section Pipelines.

state

#fundamentals

Algorithme de descente de gradient dans lequel la taille de lot est égale à un. En d'autres termes, les SGD sont entraînés sur un seul exemple choisi de manière uniforme et aléatoire dans un ensemble d'entraînement.

stride

#image

Dans une opération de convolution ou de pooling, delta dans chaque dimension de la prochaine série de tranches d'entrée. Par exemple, l'animation suivante montre un pas (1,1) lors d'une opération convolutive. Par conséquent, la tranche d'entrée suivante commence une position à droite de la tranche d'entrée précédente. Lorsque l'opération atteint le bord droit, la tranche suivante est complètement à gauche, mais une position vers le bas.

L'exemple précédent montre un pas en deux dimensions. Si la matrice d'entrée est tridimensionnelle, le pas est également tridimensionnel.

minimisation du risque structurel (SRM)

Un algorithme qui équilibre deux objectifs:

La nécessité de créer le modèle le plus prédictif (par exemple, la perte la plus faible)
La nécessité de garder le modèle aussi simple que possible (par exemple, forte régularisation)

Par exemple, une fonction qui minimise la perte et la régularisation sur l'ensemble d'entraînement est un algorithme de minimisation du risque structurel.

À comparer à la minimisation du risque empirique.

sous-échantillonnage

#image

Consultez la section Pooling.

jeton de sous-mot

#language

Dans les modèles de langage, il s'agit d'un jeton qui est une sous-chaîne d'un mot, qui peut correspondre au mot entier.

Par exemple, un mot tel que "itemize" peut être divisé en plusieurs parties, "item" (un mot racine) et "ize" (un suffixe), chacune étant représentée par son propre jeton. Le fractionnement de mots peu courants en ces éléments, appelés sous-mots, permet aux modèles de langage de fonctionner sur les éléments constitutifs les plus courants du mot, tels que les préfixes et les suffixes.

À l'inverse, les mots courants tels que "participer" ne peuvent pas être décomposés et peuvent être représentés par un seul jeton.

résumé

#TensorFlow

Dans TensorFlow, valeur ou ensemble de valeurs calculées à une étape particulière, généralement utilisée pour suivre les métriques du modèle pendant l'entraînement.

machine learning supervisé

#fundamentals

Entraîner un model à partir de model et des model correspondantes Le machine learning supervisé est semblable à l'apprentissage d'un sujet en étudiant un ensemble de questions et les réponses correspondantes. Une fois qu'il maîtrise le mappage entre les questions et les réponses, un élève peut répondre à de nouvelles questions (jamais vues auparavant) sur le même sujet.

À comparer au machine learning non supervisé.

caractéristique synthétique

#fundamentals

Caractéristique absente des caractéristiques d'entrée, mais assemblée à partir d'une ou de plusieurs d'entre elles. Voici des méthodes permettant de créer des caractéristiques synthétiques:

Binning d'une caractéristique continue dans des classes de plages
Créer un croisement de caractéristiques
Multiplication (ou division) d'une caractéristique par une ou plusieurs autres caractéristiques ou par elle-même Par exemple, si a et b sont des caractéristiques d'entrée, les exemples suivants sont des caractéristiques synthétiques :
- ab
- a²
Application d'une fonction transcendante à une valeur de caractéristique Par exemple, si c est une caractéristique d'entrée, les exemples suivants sont des caractéristiques synthétiques :
- sin(c)
- ln(c)

Les caractéristiques créées uniquement par la normalisation ou la mise à l'échelle ne sont pas considérées comme des caractéristiques synthétiques.

T

T5

#language

Modèle d'apprentissage par transfert texte-vers-texte introduit par l' IA de Google en 2020. T5 est un modèle encodeur/décodeur, basé sur l'architecture Transformer, entraîné sur un ensemble de données extrêmement volumineux. Il est efficace pour diverses tâches de traitement du langage naturel, telles que la génération de texte, la traduction de langues et la réponse à des questions de manière conversationnelle.

Le T5 tire son nom des cinq T de « Transformateur de transfert de texte en texte ».

T5X

#language

Framework de machine learning Open Source conçu pour créer et entraîner des modèles de traitement du langage naturel (TLN) à grande échelle. T5 est implémenté sur le codebase T5X (basé sur JAX et Flax).

Q-learning tabulaires

#rl

Dans l'apprentissage par renforcement, il s'agit d'implémenter l'apprentissage Q en utilisant une table pour stocker les fonctions Q pour chaque combinaison d'état et d'action.

cible

Synonyme de libellé.

réseau cible

#rl

En Deep Q-Learning, réseau de neurones qui est une approximation stable du réseau de neurones principal, le réseau de neurones principal implémente une fonction Q ou une règle. Vous pouvez ensuite entraîner le réseau principal sur les valeurs Q prédites par le réseau cible. Par conséquent, vous évitez la boucle de rétroaction qui se produit lorsque le réseau principal s'entraîne sur les valeurs Q prédites par lui-même. En évitant ces commentaires, la stabilité de l'entraînement s'améliore.

opération

Problème qui peut être résolu à l'aide de techniques de machine learning, telles que:

classification
régression
clustering
détection d'anomalies

température

#language

#image

#IAgénérative

Hyperparamètre qui contrôle le degré de hasard des résultats d'un modèle. Des températures plus élevées génèrent des résultats plus aléatoires, tandis que des températures plus basses génèrent des résultats moins aléatoires.

Le choix de la température optimale dépend de l'application spécifique et des propriétés préférées de la sortie du modèle. Par exemple, vous augmenteriez probablement la température lors de la création d'une application qui génère des résultats de création. À l'inverse, vous devriez probablement baisser la température lorsque vous créez un modèle qui classe les images ou le texte afin d'améliorer la précision et la cohérence du modèle.

#TensorFlow

Nombre total de scalaires d'un Tensor. Par exemple, un Tensor [5, 10] a une taille de 50.

TensorStore

Bibliothèque permettant de lire et d'écrire efficacement de grands tableaux multidimensionnels.

condition de résiliation

#rl

Dans l'apprentissage par renforcement, conditions qui déterminent le moment où un épisode se termine, par exemple lorsque l'agent atteint un certain état ou dépasse un certain nombre de transitions d'état. Par exemple, dans le jeu tic-tac-toe (également appelé "noix et croisements"), un épisode se termine soit lorsqu'un joueur marque trois espaces consécutifs, soit lorsque tous les espaces sont marqués.

test

#df

Dans une arborescence de décision, autre nom d'une condition.

perte d'évaluation

#fundamentals

Métrique représentant la perte d'un modèle par rapport à l'ensemble de test. Lorsque vous créez un model, vous essayez généralement de minimiser la perte d'évaluation. En effet, une faible perte d'évaluation est un signal de qualité supérieure qu'une perte d'entraînement ou une perte de validation faible.

Un écart important entre la perte d'évaluation et la perte d'entraînement ou la perte de validation suggère parfois qu'il faut augmenter le taux de régularisation.

Ensemble de test

Sous-ensemble de l'ensemble de données réservé au test d'un modèle entraîné.

Traditionnellement, les exemples de l'ensemble de données sont divisés en trois sous-ensembles distincts:

Un ensemble d'entraînement
Un ensemble de validation
un ensemble de test

Chaque exemple d'un ensemble de données ne doit appartenir qu'à l'un des sous-ensembles précédents. Par exemple, un même exemple ne doit pas appartenir à la fois à l'ensemble d'entraînement et à l'ensemble de test.

L'ensemble d'entraînement et l'ensemble de validation sont tous deux étroitement liés à l'entraînement d'un modèle. Comme l'ensemble de test n'est associé qu'indirectement à l'entraînement, la perte de test est une métrique de qualité moins biaisée et supérieure à la perte d'entraînement ou à la perte de validation.

segment de texte

#language

Segment d'index de tableau associé à une sous-section spécifique d'une chaîne de texte. Par exemple, le mot good dans la chaîne Python s="Be good now" occupe l'intervalle de texte de 3 à 6.

tf.Example

#TensorFlow

Protocol Buffer standard pour la description des données d'entrée, pour l'inférence ou l'entraînement d'un modèle de machine learning.

tf.keras

#TensorFlow

Mise en œuvre de Keras intégrée à TensorFlow.

seuil (pour les arbres de décision)

#df

Dans une condition alignée sur l'axe, il s'agit de la valeur à laquelle une caractéristique est comparée. Par exemple, 75 est la valeur de seuil dans la condition suivante:

grade >= 75

analyse de séries temporelles

#clustering

Sous-domaine du machine learning et des statistiques qui analyse les données temporelles. De nombreux types de problèmes liés au machine learning nécessitent une analyse de séries temporelles, y compris la classification, le clustering, la prévision et la détection d'anomalies. Par exemple, vous pouvez utiliser l'analyse de séries temporelles pour prévoir les futures ventes de manteaux d'hiver par mois en fonction des données de ventes historiques.

timestep

#seq

Une cellule "non déployée" dans un réseau de neurones récurrent. Par exemple, la figure suivante montre trois étapes temporelles (étiquetées avec les indices t-1, t et t+1):

Trois pas dans un réseau de neurones récurrent. La sortie du premier pas de temps devient une entrée de la deuxième étape. La sortie de la deuxième étape est devenue une entrée de la troisième étape.

jeton

#language

Dans un modèle de langage, il s'agit de l'unité atomique utilisée par le modèle pour l'entraînement et la réalisation de prédictions. Un jeton correspond généralement à l'un des éléments suivants:

Un mot (par exemple, l'expression "chiens comme des chats" est composée de trois jetons de mot: "chiens", "aime" et "chats").
Un caractère (par exemple, l'expression "poisson à vélo" se compose de neuf jetons de caractères). (Notez que l'espace vide compte comme l'un des jetons.)
dans lesquels un seul mot peut être un ou plusieurs jetons. Un sous-mot se compose d'un mot racine, d'un préfixe ou d'un suffixe. Par exemple, un modèle de langage qui utilise des sous-mots comme jetons peut considérer le mot "chiens" comme deux jetons (la racine "chien" et le suffixe pluriel "s"). Ce même modèle de langage peut considérer le mot "plus grand" comme deux sous-mots (le mot racine "grand" et le suffixe "er").

#fundamentals

Processus consistant à déterminer les paramètres idéaux (pondérations et biais) d'un modèle. Pendant l'entraînement, un système lit des exemples et ajuste progressivement les paramètres. L'entraînement utilise chaque exemple de quelques fois à des milliards de fois.

perte d'entraînement

#fundamentals

Métrique représentant la perte d'un modèle lors d'une itération d'entraînement particulière. Par exemple, supposons que la fonction de perte soit l'erreur quadratique moyenne. La perte d'entraînement (erreur quadratique moyenne) pour la 10e itération est peut-être de 2,2 et la perte d'entraînement pour la 100e itération est de 1,9.

Une courbe de perte représente la perte d'entraînement en fonction du nombre d'itérations. Une courbe de fonction de perte fournit les indices suivants concernant l'entraînement:

Une pente négative indique une amélioration du modèle.
Une pente ascendante signifie que le modèle s'aggrave.
Une pente plate signifie que le modèle a atteint la convergence.

La courbe de perte idéalisée ci-dessous montre par exemple:

Une pente descendante forte lors des itérations initiales, ce qui implique une amélioration rapide du modèle
Une pente qui s'aplatit progressivement (mais toujours vers le bas) jusqu'à la fin de l'entraînement, ce qui implique une amélioration continue du modèle à un rythme légèrement plus lent que lors des itérations initiales.
Une pente plate vers la fin de l'entraînement, ce qui suggère une convergence.

Tracé de la perte d'entraînement par rapport aux itérations. Cette courbe de fonction de perte commence
par une pente descendante forte. La pente s'aplatit progressivement jusqu'à ce qu'elle passe à zéro.

Bien que la perte d'entraînement soit importante, consultez également la section consacrée à la généralisation.

décalage entraînement/inférence

#fundamentals

Différence entre les performances d'un modèle pendant l'entraînement et les performances de ce même modèle pendant l'inférence.

Ensemble d'entraînement

#fundamentals

Sous-ensemble de l'ensemble de données utilisé pour entraîner un modèle.

Traditionnellement, les exemples de l'ensemble de données sont divisés en trois sous-ensembles distincts:

un ensemble d'entraînement
Un ensemble de validation
Un ensemble de test

Idéalement, chaque exemple de l'ensemble de données ne doit appartenir qu'à l'un des sous-ensembles précédents. Par exemple, un même exemple ne doit pas appartenir à la fois à l'ensemble d'entraînement et à l'ensemble de validation.

trajectoire

#rl

Dans l'apprentissage par renforcement, une séquence de tuples représentant une séquence de transitions d'état de l'agent, où chaque tuple correspond à l'état, à l'action, à la récompense et à l'état suivant pour une transition d'état donnée.

apprentissage par transfert

Transférer des informations d'une tâche de machine learning à une autre Par exemple, dans un apprentissage multitâche, un seul modèle résout plusieurs tâches. C'est le cas d'un modèle profond, qui comporte différents nœuds de sortie pour différentes tâches. L'apprentissage par transfert peut impliquer le transfert de connaissances de la solution d'une tâche plus simple vers une tâche plus complexe, ou le transfert de connaissances d'une tâche comportant plus de données vers une tâche où il y en a moins.

La plupart des systèmes de machine learning résolvent une seule tâche. L'apprentissage par transfert est un petit pas vers l'intelligence artificielle grâce auquel un seul programme peut résoudre plusieurs tâches.

Transformer

#language

Architecture de réseau de neurones développée par Google et reposant sur des mécanismes d'auto-attention, pour transformer une séquence de représentations vectorielles continues d'entrée en une séquence de représentations vectorielles continues de sortie sans s'appuyer sur des convolutions ou des réseaux de neurones récurrents. Un Transformer peut être considéré comme une pile de couches d'auto-attention.

Un transformateur peut inclure l'un des éléments suivants:

Un encodeur
Un décodeur
un encodeur et un décodeur,

Un encodeur transforme une séquence de représentations vectorielles continues en une nouvelle séquence de même longueur. Un encodeur comprend N couches identiques, chacune contenant deux sous-couches. Ces deux sous-couches sont appliquées à chaque position de la séquence de représentations vectorielles continues d'entrée, transformant chaque élément de la séquence en une nouvelle représentation vectorielle continue. La première sous-couche d'encodeur regroupe les informations de la séquence d'entrée. La deuxième sous-couche d'encodeur transforme les informations agrégées en une représentation vectorielle continue de sortie.

Un décodeur transforme une séquence de représentations vectorielles continues d'entrée en séquence de représentations vectorielles continues de sortie, éventuellement d'une longueur différente. Un décodeur comprend également N couches identiques avec trois sous-couches, dont deux sont similaires aux sous-couches de l'encodeur. La troisième sous-couche de décodeur prend la sortie de l'encodeur et applique le mécanisme d'auto-attention pour recueillir des informations à partir de celle-ci.

L'article de blog Transformer: A Novel Neural Network Architecture for Language Understanding (Transformer : architecture de réseau de neurones pour la compréhension du langage) constitue une bonne introduction à Transformer.

invariance par translation

#image

Dans un problème de classification d'images, capacité d'un algorithme à classer correctement des images même lorsque la position des objets dans l'image change. Par exemple, l'algorithme peut toujours identifier un chien, qu'il se trouve au centre ou à gauche de l'image.

Voir aussi invariance par redimensionnement et invariance rotationnelle.

trigramme

#seq

#fundamentals

Produire un model avec une faible capacité de prédiction, car le modèle n'a pas totalement capturé la complexité des données d'entraînement De nombreux problèmes peuvent entraîner un sous-apprentissage, y compris les suivants:

Entraînement sur le mauvais ensemble de fonctionnalités.
Entraînement sur trop peu d'époques ou avec un taux d'apprentissage trop faible.
Entraînement avec un taux de régularisation trop élevé.
Fournir trop peu de couches cachées dans un réseau de neurones profond.

sous-échantillonnage

Suppression des exemples de la classe majoritaire dans un ensemble de données avec déséquilibre des classes afin de créer un ensemble d'entraînement plus équilibré.

Prenons l'exemple d'un ensemble de données dans lequel le ratio de la classe majoritaire par rapport à la classe minoritaire est de 20:1. Pour remédier à ce déséquilibre des classes, vous pouvez créer un ensemble d'entraînement composé de tous les exemples de classes minoritaires, mais seulement d'un dixième des exemples de classes majoritaires, ce qui créerait un ratio de classes de l'ensemble d'entraînement de 2:1. Grâce au sous-échantillonnage, cet ensemble d'entraînement plus équilibré peut produire un meilleur modèle. Cet ensemble d'entraînement plus équilibré peut également contenir des exemples insuffisants pour entraîner un modèle efficace.

À comparer au suréchantillonnage.

unidirectionnel

#language

Système qui évalue uniquement le texte qui précède une section de texte cible. En revanche, un système bidirectionnel évalue à la fois le texte qui passe et suit une section de texte cible. Pour en savoir plus, consultez la section Bidirectionnelle.

modèle de langage unidirectionnel

#language

Un modèle de langage qui base ses probabilités uniquement sur les jetons qui apparaissent avant, et non après, le ou les jetons cibles. À comparer au modèle de langage bidirectionnel.

exemple sans étiquette

#fundamentals

Exemple contenant des caractéristiques, mais pas de libellé. Par exemple, le tableau suivant présente trois exemples non étiquetés provenant d'un modèle d'évaluation d'une maison, chacun avec trois caractéristiques, mais aucune valeur de logement:

Nombre de chambres	Nombre de salles de bain	Âge de la maison
3	2	15
2	1	72
4	2	34

Dans le machine learning supervisé, les modèles sont entraînés sur des exemples étiquetés et effectuent des prédictions sur des exemples non étiquetés.

Dans l'apprentissage semi-supervisé et non supervisé, des exemples sans étiquette sont utilisés pendant l'entraînement.

Comparer l'exemple sans étiquette à l'exemple étiqueté

machine learning non supervisé

#clustering

#fundamentals

Entraînement d'un model pour détecter des schémas dans un ensemble de données, généralement sans étiquette.

L'utilisation la plus courante du machine learning non supervisé consiste à grouper les données en groupes d'exemples similaires. Par exemple, un algorithme de machine learning non supervisé peut regrouper des chansons en fonction de diverses propriétés de celles-ci. Les clusters obtenus peuvent devenir une entrée d'autres algorithmes de machine learning (par exemple, un service de recommandation de musique). Le clustering peut être utile lorsque les étiquettes utiles sont rares ou absentes. Par exemple, dans des domaines tels que la lutte contre les abus et la fraude, les clusters peuvent aider les humains à mieux comprendre les données.

À comparer au machine learning supervisé.

Cliquez sur l'icône pour afficher des remarques supplémentaires.

Un autre exemple de machine learning non supervisé est l'analyse en composantes principales (PCA). Par exemple, l'application de l'ACP sur un ensemble de données contenant le contenu de millions de paniers d'achat peut révéler que ceux contenant des citrons contiennent souvent également des antiacides.

modélisation de l'amélioration

Technique de modélisation, couramment utilisée en marketing, qui modélise l'"effet causal" (également appelé "impact incrémentiel") d'un "traitement" sur un "individu". Voici deux exemples :

Les médecins peuvent utiliser la modélisation de l'amélioration pour prédire la diminution de la mortalité (effet causal) d'une procédure médicale (traitement) en fonction de l'âge et des antécédents médicaux d'un patient (individu).
Les marketeurs peuvent utiliser la modélisation de l'amélioration pour prédire l'augmentation de la probabilité d'un achat (effet causal) en raison d'une publicité (traitement) sur une personne (individu).

La modélisation de l'amélioration diffère de la classification ou de la régression, car certaines étiquettes (par exemple, la moitié des étiquettes des traitements binaires) sont toujours manquantes. Par exemple, un patient peut recevoir ou non un traitement. Par conséquent, nous ne pouvons observer si le patient va guérir ou non dans une seule de ces deux situations (mais jamais les deux). Le principal avantage d'un modèle d'amélioration est qu'il peut générer des prédictions pour la situation non observée (le contrefactuelle) et l'utiliser pour calculer l'effet causal.

surpondération

Appliquer à la classe sous-échantillonnée une pondération égale au facteur de sous-échantillonnage.

matrice utilisateurs

#recsystems

Dans les systèmes de recommandation, un vecteur de représentation vectorielle continue généré par la factorisation matricielle qui contient des signaux latents sur les préférences utilisateur. Chaque ligne de la matrice utilisateurs contient des informations sur la force relative de divers signaux latents pour un seul utilisateur. Prenons l'exemple d'un système de recommandation de films. Dans ce système, les signaux latents de la matrice utilisateurs peuvent représenter l'intérêt de chaque utilisateur pour des genres particuliers, ou il peut s'agir de signaux plus difficiles à interpréter impliquant des interactions complexes entre plusieurs facteurs.

La matrice utilisateurs comporte une colonne pour chaque caractéristique latente et une ligne pour chaque utilisateur. Autrement dit, la matrice utilisateurs a le même nombre de lignes que la matrice cible qui est factorisée. Par exemple, avec un système de recommandation de films pour 1 000 000 d'utilisateurs, la matrice utilisateurs comportera 1 000 000 de lignes.

V

en automatisant la validation des règles ;

#fundamentals

Évaluation initiale de la qualité d'un modèle. La validation vérifie la qualité des prédictions d'un modèle par rapport à l'ensemble de validation.

Étant donné que l'ensemble de validation diffère de l'ensemble d'entraînement, la validation permet d'éviter le surapprentissage.

Vous pouvez considérer l'évaluation du modèle par rapport à l'ensemble de validation comme la première série de tests et l'évaluation par rapport à l'ensemble de test comme la deuxième.

perte de validation

#fundamentals

Métrique représentant la perte d'un modèle sur l'ensemble de validation au cours d'une itération particulière d'entraînement.

Consultez également la courbe de généralisation.

Ensemble de validation

#fundamentals

Sous-ensemble de l'ensemble de données qui effectue l'évaluation initiale par rapport à un modèle entraîné. En règle générale, vous évaluez le modèle entraîné plusieurs fois avec l'ensemble de validation avant de l'évaluer avec l'ensemble de test.

Traditionnellement, les exemples de l'ensemble de données sont divisés en trois sous-ensembles distincts:

Un ensemble d'entraînement
un ensemble de validation
Un ensemble de test

imputation de valeur

Processus de remplacement d'une valeur manquante par un substitut acceptable. S'il manque une valeur, vous pouvez supprimer l'exemple entier ou le récupérer à l'aide de l'imputation de la valeur.

Prenons l'exemple d'un ensemble de données contenant une caractéristique temperature censée être enregistrée toutes les heures. Cependant, la température relevée était indisponible pendant une heure particulière. Voici une section du jeu de données:

Code temporel	Température
1680561000	10
1680564600	12
1680568200	missing
1680571800	20
1680575400	21
1680579000	21

Un système peut soit supprimer l'exemple manquant, soit imputer la température manquante à 12, 16, 18 ou 20, en fonction de l'algorithme d'imputation.

problème de disparition du gradient

#seq

Tendance des gradients des premières couches cachées de certains réseaux de neurones profonds à devenir étonnamment plats (faibles). Des gradients de plus en plus bas entraînent des modifications de plus en plus mineures des pondérations sur les nœuds d'un réseau de neurones profond, ce qui entraîne un apprentissage faible ou inexistant. Les modèles qui souffrent du problème de disparition du gradient deviennent difficiles, voire impossibles à entraîner. Les cellules de mémoire longue à court terme permettent de résoudre ce problème.

À comparer au problème de gradient exponentiel.

importances variables

#df

Ensemble de scores qui indiquent l'importance relative de chaque caractéristique pour le modèle.

Prenons l'exemple d'un arbre de décision qui estime le prix d'une maison. Supposons que cet arbre de décision utilise trois caractéristiques: la taille, l'âge et le style. Si un ensemble d'importances variables pour les trois caractéristiques est calculé comme étant {size=5.8, age=2.5, style=4.7}, la taille est plus importante pour l'arbre de décision que l'âge ou le style.

Il existe différentes métriques d'importance variable, qui peuvent informer les experts en ML sur différents aspects des modèles.

Auto-encodeur variationnel (VAE, variational auto-encoder)

#language

Type d'auto-encodeur qui exploite l'écart entre les entrées et les sorties pour générer des versions modifiées des entrées. Les auto-encodeurs variationnels sont utiles pour l'IA générative.

Les VAE sont basées sur l'inférence variationnelle, une technique d'estimation des paramètres d'un modèle de probabilité.

vecteur

Terme très complexe dont la signification varie selon les domaines mathématiques et scientifiques. En machine learning, un vecteur possède deux propriétés:

Type de données: dans le machine learning, les vecteurs contiennent généralement des nombres à virgule flottante.
Nombre d'éléments: il s'agit de la longueur ou de sa dimension du vecteur.

Prenons l'exemple d'un vecteur de caractéristiques contenant huit nombres à virgule flottante. Ce vecteur de caractéristiques a une longueur ou une dimension de huit. Notez que les vecteurs de machine learning présentent souvent un grand nombre de dimensions.

Vous pouvez représenter de nombreux types d'informations différents sous forme de vecteur. Exemple :

Toute position à la surface de la Terre peut être représentée par un vecteur bidimensionnel, où une dimension est la latitude et l'autre la longitude.
Les cours actuels de chacune des 500 actions peuvent être représentés par un vecteur à 500 dimensions.
Une distribution de probabilité sur un nombre fini de classes peut être représentée sous forme de vecteur. Par exemple, un système de classification à classes multiples qui prédit l'une des trois couleurs de sortie (rouge, vert ou jaune) peut générer le vecteur (0.3, 0.2, 0.5) représentant P[red]=0.3, P[green]=0.2, P[yellow]=0.5.

Les vecteurs peuvent être concaténés. Par conséquent, divers médias différents peuvent être représentés comme un seul vecteur. Certains modèles fonctionnent directement sur la concaténation de nombreux encodages one-hot.

Les processeurs spécialisés tels que les TPU sont optimisés pour effectuer des opérations mathématiques sur des vecteurs.

Un vecteur est un Tensor de rang 1.

L

Perte de Wasserstein

L'une des fonctions de perte couramment utilisées dans les réseaux antagonistes génératifs, basée sur la distance du mobile de la Terre entre la distribution des données générées et les données réelles.

weight

#fundamentals

Valeur qu'un modèle multiplie par une autre valeur. L'entraînement consiste à déterminer les pondérations idéales d'un modèle, tandis que l'inférence consiste à utiliser ces pondérations apprises pour effectuer des prédictions.

Cliquez sur l'icône pour afficher un exemple de pondérations dans un modèle linéaire.

Imaginez un modèle linéaire avec deux caractéristiques. Supposons que l'entraînement détermine les pondérations (et les biais) suivantes :

Le biais, b, a une valeur de 2,2
La pondération w₁ associée à une caractéristique est de 1, 5.
La pondération w₂ associée à l'autre caractéristique est de 0, 4.

Imaginons maintenant un exemple avec les valeurs de caractéristiques suivantes:

La valeur d'une caractéristique, x₁, est de 6.
La valeur de l'autre caractéristique, x₂, est 10.

Ce modèle linéaire utilise la formule suivante pour générer une prédiction, y':

$$y' = b + w_1x_1 + w_2x_2$$

La prédiction se présente donc comme suit:

$$y' = 2.2 + (1.5)(6) + (0.4)(10) = 15.2$$

Si une pondération est de 0, la caractéristique correspondante ne contribue pas au modèle. Par exemple, si w₁ est égal à 0, la valeur de x₁ n'est pas pertinente.

moindres carrés alternés pondérés (WALS)

#recsystems

Algorithme permettant de minimiser la fonction objectif lors de la factorisation matricielle dans les systèmes de recommandation, ce qui permet de sous-pondérer les exemples manquants La méthode WALS minimise l'erreur quadratique pondérée entre la matrice d'origine et la reconstruction en corrigeant la factorisation des lignes et la factorisation des colonnes. Chacune de ces optimisations peut être résolue par l'optimisation convexe des moindres carrés. Pour en savoir plus, consultez le cours sur les systèmes de recommandation.

Somme pondérée

#fundamentals

Somme de toutes les valeurs d'entrée pertinentes multipliée par leurs pondérations correspondantes. Par exemple, supposons que les entrées pertinentes soient les suivantes:

valeur d'entrée	poids d'entrée
2	-1,3
-1	0,6
3	0,4

La somme pondérée est donc la suivante:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Une somme pondérée correspond à l'argument d'entrée d'une fonction d'activation.

modèle wide learning

Modèle linéaire qui comporte généralement de nombreuses caractéristiques d'entrée creuses. Ce modèle est appelé "large", car il s'agit d'un type particulier de réseau de neurones comportant un grand nombre d'entrées connectées directement au nœud de sortie. Les modèles larges sont souvent plus faciles à déboguer et à inspecter que les modèles profonds. Bien que les modèles larges ne puissent pas exprimer la non-linéarité via des couches cachées, ils peuvent utiliser des transformations telles que le croisement de caractéristiques et le binning pour modéliser les non-linéarités de différentes manières.

À comparer au modèle profond.

largeur

Nombre de neurones dans une couche particulière d'un réseau de neurones.

la sagesse de la foule

#df

L'idée que la moyenne des opinions ou estimations d'un grand groupe de personnes ("la foule") produit souvent des résultats étonnamment bons. Prenons l'exemple d'un jeu dans lequel les utilisateurs devinent le nombre de bonbons emballés dans un grand bocal. Bien que la plupart des estimations individuelles soient inexactes, il a été empiriquement démontré que la moyenne de toutes les suppositions est étonnamment proche du nombre réel de bonbons en pot.

Les ensembles sont une analogie logicielle du savoir de la population. Même si des modèles individuels effectuent des prédictions très imprécises, la moyenne des prédictions de nombreux modèles génère souvent des prédictions étonnamment bonnes. Par exemple, bien qu'un arbre de décision individuel puisse fournir des prédictions médiocres, une forêt de décision fournit souvent de très bonnes prédictions.

représentation vectorielle continue de mots

#language

Représentation de chaque mot d'un ensemble de mots dans un vecteur de représentation vectorielle continue, c'est-à-dire représenter chaque mot comme un vecteur de valeurs à virgule flottante comprises entre 0,0 et 1,0. Les mots ayant des significations similaires ont des représentations plus similaires que les mots ayant des significations différentes. Par exemple, carottes, céramique et concombres auraient tous des représentations relativement similaires, très différentes de celles correspondant à avion, lunettes de soleil et dentifrice.

X

XLA (Accelerated Linear Algebra)

Compilateur de machine learning Open Source pour les GPU, les CPU et les accélérateurs de ML.

Le compilateur XLA exploite des modèles de frameworks de ML populaires tels que PyTorch, TensorFlow et JAX, et les optimise pour une exécution hautes performances sur différentes plates-formes matérielles, y compris les GPU, les processeurs et les accélérateurs de ML.

Z

apprentissage zero-shot

Type d'entraînement de machine learning dans lequel le modèle déduit une prédiction pour une tâche pour laquelle il n'a pas été spécifiquement entraîné. En d'autres termes, le modèle ne reçoit aucun exemple d'entraînement spécifique à une tâche, mais lui demande d'effectuer des inférences.

requête zero-shot

#language

#IAgénérative

Une requête qui ne fournit pas d'exemple de la manière dont vous souhaitez que le grand modèle de langage réponde. Exemple :

Composantes d'une requête	Remarques
`Quelle est la devise officielle du pays spécifié ?`	La question à laquelle le LLM doit répondre.
`Inde:`	Requête réelle.

Le grand modèle de langage peut répondre avec l'un des éléments suivants:

Roupie
INR
₹
Roupie indienne
La roupie
Roupie indienne

Toutes les réponses sont correctes, mais vous préférerez peut-être un format en particulier.

Comparez les requêtes zero-shot avec les termes suivants:

requêtes one-shot
requête few-shot

Normalisation du score Z

#fundamentals

Technique de mise à l'échelle qui remplace une valeur brute de caractéristique par une valeur à virgule flottante représentant le nombre d'écarts types par rapport à la moyenne de cette caractéristique. Prenons l'exemple d'une caractéristique dont la moyenne est de 800 et dont l'écart-type est de 100. Le tableau suivant montre comment la normalisation du score Z mappe la valeur brute à son score Z:

Valeur brute	Score Z
800	0
950	+1,5
575	-2,25

Le modèle de machine learning s'entraîne ensuite avec les scores Z de cette caractéristique plutôt qu'avec les valeurs brutes.