Cette page a été traduite par l'API Cloud Translation.

Glossaire du machine learning

Ce glossaire définit des termes généraux liés au machine learning, ainsi que des termes spécifiques à TensorFlow.

A

ablation

Technique d'évaluation de l'importance d'une caractéristique ou un composant en les supprimant temporairement d'un modèle. Vous réentraînez ensuite le modèle sans cette caractéristique ou ce composant. Si les performances du modèle réentraîné sont nettement moins bonnes, la caractéristique ou le composant supprimés étaient probablement importants.

Par exemple, supposons que vous entraîniez un modèle de classification sur 10 caractéristiques et que vous obteniez une précision de 88 % sur l'ensemble de test. Pour vérifier l'importance de la première caractéristique, vous pouvez réentraîner le modèle en n'utilisant que les neuf autres caractéristiques. Si les performances du modèle réentraîné sont nettement inférieures une précision de 55 %), la caractéristique supprimée était probablement importante. À l'inverse, si le modèle réentraîné fonctionne tout aussi bien, cette caractéristique n'était probablement pas si importante.

L'ablation peut également aider à déterminer l'importance de:

Composants plus volumineux, comme le sous-système complet d'un système de ML plus vaste
Processus ou techniques, comme une étape de prétraitement des données

Dans les deux cas, vous observerez comment les performances du système changent (ou ne change pas) après avoir supprimé le composant.

Tests A/B

Façon statistique de comparer deux (ou plus) techniques : le A et le B. En règle générale, le A est une technique existante, et le La technique B est une nouvelle technique. Les tests A/B permettent non seulement de déterminer quelle technique est la plus performante, mais aussi si la différence est statistiquement pertinente.

Les tests A/B comparent généralement une seule métrique sur deux techniques. par exemple, quelle est la différence entre la justesse techniques? Toutefois, les tests A/B permettent également de comparer n'importe quel nombre fini de métriques.

chip d'accélération

#GoogleCloud

Catégorie de composants matériels spécialisés conçus pour offrir des performances clés nécessaires aux algorithmes de deep learning.

Les puces d'accélération (ou accélérateurs, en abrégé) peuvent considérablement augmenter la vitesse et l'efficacité des tâches d'entraînement et d'inférence ; par rapport à un CPU à usage général. Elles sont idéales pour l'entraînement les réseaux de neurones et d'autres tâches similaires utilisant beaucoup de ressources de calcul.

Voici quelques exemples de puces d'accélération:

TPU (Tensor Processing Units) de Google avec du matériel dédié pour le deep learning.
Les GPU NVIDIA qui, bien qu'ils aient été initialement conçus pour le traitement graphique, sont conçus pour permettre le traitement en parallèle, ce qui peut considérablement d'augmenter la vitesse de traitement.

accuracy

#fundamentals

Nombre de prédictions de classification correcte divisé par le nombre total de prédictions. Par exemple :

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Par exemple, un modèle ayant effectué 40 prédictions correctes et 10 prédictions incorrectes la précision des prédictions est de:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

La classification binaire fournit des noms spécifiques pour connaître les différentes catégories de prédictions correctes prédictions incorrectes. La formule de précision pour la classification binaire est donc la suivante :

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

où :

Le TP correspond au nombre de vrais positifs (prédictions correctes).
TN correspond au nombre de vrais négatifs (prédictions correctes).
Le FP correspond au nombre de faux positifs (prédictions incorrectes).
"FN" correspond au nombre de faux négatifs (prédictions incorrectes).

Comparez la justesse à la précision et au rappel.

Cliquez sur l'icône pour afficher des notes supplémentaires.

Même s'il s'agit d'une métrique utile dans certaines situations, la justesse prêtant à confusion. Notamment, la justesse est généralement une métrique médiocre pour évaluer les modèles de classification qui traitent des ensembles de données déséquilibrés par classe.

Par exemple, supposons que la neige ne tombe que 25 jours par siècle dans une certaine ville subtropicale. Étant donné que les jours sans neige (classe négative) sont beaucoup plus nombreux que les jours avec neige (classe positive), l'ensemble de données sur la neige de cette ville est déséquilibré. Imaginez un modèle de classification binaire censé prédire s'il y aura de la neige ou non chaque jour, mais qui prédit simplement "pas de neige" chaque jour. Ce modèle est très précis, mais n'a aucune capacité prédictive. Le tableau suivant récapitule les résultats obtenus pour un siècle de prédictions:

Catégorie	Nombre
VP	0
TN	36499
FP	0
FN	25

La justesse de ce modèle est donc:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (0 + 36499) / (0 + 36499 + 0 + 25) = 0.9993 = 99.93%

Bien que la précision de 99,93 % semble être un pourcentage très impressionnant, le modèle n'a en réalité aucune capacité prédictive.

La précision et le rappel sont généralement des métriques plus utiles que la précision pour évaluer les modèles entraînés sur des ensembles de données déséquilibrés.

Pour en savoir plus, consultez Classification : précision, rappel, précision et métriques associées dans le cours d'initiation au machine learning.

action

#rl

Dans l'apprentissage par renforcement, le mécanisme par lequel l'agent des transitions entre les états environnement. L'agent choisit l'action à l'aide d'une règle.

fonction d'activation

#fundamentals

Fonction qui permet aux réseaux de neurones d'apprendre Relations nonlinear (complexes) entre les caractéristiques et l'étiquette.

Les fonctions d'activation les plus courantes sont les suivantes:

ReLU
Sigmoïde

Les tracés des fonctions d'activation ne sont jamais des lignes droites. Par exemple, le tracé de la fonction d'activation ReLU se compose de deux lignes droites :

Graphique cartésien de deux lignes. La première ligne a une valeur y constante de 0, qui s'étend le long de l'axe X de -infini,0 à 0,-0.
La deuxième ligne commence à 0,0. Cette ligne a une pente de +1, donc
elle va de 0,0 à +infini,+infini.

Un graphique de la fonction d'activation sigmoïde se présente comme suit :

Graphique en courbes bidimensionnelles avec des valeurs x couvrant le domaine
de -infini à +positive, tandis que les valeurs y couvrent une plage proche de 0 à
presque 1. Lorsque x est égal à 0, y est égal à 0,5. La pente de la courbe est toujours
positive, avec la pente la plus élevée à 0,0,5 et une diminution progressive
pentes à mesure que la valeur absolue de x augmente.

Cliquez sur l'icône pour voir un exemple.

Dans un réseau de neurones, les fonctions d'activation manipulent somme pondérée de toutes les entrées d'une neurone. Pour calculer une somme pondérée, le neurone additionne les produits des valeurs et des poids pertinents. Par exemple, supposons que l'entrée pertinente d'un neurone se compose des éléments suivants :

valeur d'entrée	pondération d'entrée
2	-1,3
-1	0,6
3	0,4

La somme pondérée est donc:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Supposons que le concepteur de ce réseau de neurones choisisse la fonction sigmoïde est la fonction d'activation. Dans ce cas, le neurone calcule la fonction sigmoïde de -2,0, qui est d'environ 0,12. Par conséquent, le le neurone transmet 0,12 (au lieu de -2,0) à la couche suivante du réseau de neurones. La figure suivante illustre la partie pertinente du processus:

Voir la section Réseaux de neurones: activation Fonctions dans le Cours d'initiation au Machine Learning.

apprentissage actif

Méthode d'entraînement dans laquelle l'algorithme sélectionne une partie des données qui servent à son apprentissage. Apprentissage actif est particulièrement utile pour les exemples étiquetés sont rares ou coûteux à obtenir. Au lieu de chercher aveuglément à accéder d'exemples étiquetés, un algorithme d'apprentissage actif recherche de manière sélective la gamme particulière d'exemples dont il a besoin pour apprendre.

AdaGrad

Algorithme sophistiqué de descente de gradient qui redimensionne les gradients de chaque paramètre, ce qui permet d'attribuer chaque paramètre un taux d'apprentissage indépendant ; Pour une explication complète, consultez cet article d'AdaGrad.

agent

#rl

Dans le machine learning par renforcement, entité qui utilise une stratégie pour maximiser le rendement attendu obtenu en passant d'un état à un autre de l'environnement.

Plus généralement, un agent est un logiciel qui planifie et exécute de manière autonome série d'actions pour atteindre un objectif, avec la capacité de s'adapter aux changements dans son environnement. Par exemple, un agent basé sur LLM peut utiliser un LLM pour générer un plan, plutôt que d'appliquer une politique d'apprentissage par renforcement.

clustering agglomératif

#clustering

Voir clustering hiérarchique.

détection d'anomalies

Processus d'identification des anomalies. Par exemple, si la moyenne d'une certaine fonctionnalité est de 100 avec une déviation standard de 10, la détection des anomalies doit signaler une valeur de 200 comme suspecte.

AR

Abréviation de réalité augmentée.

aire sous la courbe PR

Consultez AUC PR (aire sous la courbe PR).

aire sous la courbe ROC

Consultez la section AUC (aire sous la courbe ROC).

intelligence générale artificielle

Mécanisme non humain qui démontre un vaste éventail de résolutions de problèmes la créativité et l'adaptabilité. Par exemple, un programme démontrant des l'intelligence générale pouvait traduire du texte, composer des symphonies et exceller dans des jeux qui n'ont pas encore été inventés.

intelligence artificielle

#fundamentals

Programme ou modèle non humain capable d'exécuter des tâches complexes. Par exemple, un programme ou un modèle qui traduit du texte, ou un programme ou un modèle identifie les maladies à partir d'images radiologiques souffrent toutes deux d'intelligence artificielle.

Officiellement, le machine learning est un sous-domaine de l'intelligence artificielle et l'intelligence artificielle. Cependant, ces dernières années, certaines entreprises ont commencé à utiliser les termes intelligence artificielle et machine learning sont interchangeables.

"Attention",

#language

Mécanisme utilisé dans un réseau de neurones qui indique l'importance d'un mot ou d'une partie de mot spécifique. L'attention se compresse la quantité d'informations dont un modèle a besoin pour prédire le jeton ou le mot suivant. Un mécanisme d'attention typique peut consister en une somme pondérée sur un ensemble d'entrées, où le poids de chaque entrée est calculé par une autre partie du réseau de neurones.

Consultez également la auto-attention et l'auto-attention multitête, qui sont les éléments de base des Transformers.

Voir l'article LLM: Qu'est-ce qu'un grand langage modèle ? dans le Cours d'initiation au Machine Learning pour en savoir plus sur l'auto-attention.

attribut

#fairness

Synonyme de caractéristique.

Dans l'équité du machine learning, les attributs font souvent référence aux caractéristiques des individus.

échantillonnage d'attributs

#df

Une tactique d'entraînement d'une forêt de décision dans laquelle chaque L'arbre de décision ne considère qu'un sous-ensemble aléatoire de possibilités features lors de l'apprentissage de la condition. En règle générale, un sous-ensemble différent de caractéristiques est échantillonné pour chaque node. En revanche, lors de l'entraînement d'un arbre de décision sans échantillonnage d'attributs, toutes les caractéristiques possibles sont prises en compte pour chaque nœud.

AUC (aire sous la courbe ROC)

#fundamentals

Un nombre compris entre 0,0 et 1,0 représentant une modèle de classification binaire possibilité de séparer les classes positives des classes négatives. Plus l'AUC est proche de 1,0, meilleure est la capacité du modèle à séparer les uns des autres.

Par exemple, l'illustration suivante montre un modèle de classificateur qui sépare parfaitement les classes positives (ovales verts) des classes négatives (rectangles violets). Ce modèle irréaliste parfaitement un AUC de 1,0:

Un axe gradué avec 8 exemples positifs d'un côté et
9 exemples négatifs de l'autre côté.

À l'inverse, l'illustration suivante montre les résultats d'un modèle de classificateur qui a généré des résultats aléatoires. Ce modèle a une AUC de 0,5 :

Une ligne numérique avec six exemples positifs et six exemples négatifs.
La séquence des exemples est positive, négative, positive, négative, positive, négative, positive, négative, positive, négative, positive, négative.

Oui, le modèle précédent a une AUC de 0,5, et non de 0,0.

La plupart des modèles se situent entre les deux extrêmes. Par exemple, le paramètre permet de séparer quelque peu les positifs et les négatifs. a un AUC compris entre 0,5 et 1,0:

Une ligne numérique avec six exemples positifs et six exemples négatifs.
La séquence d'exemples est négative, négative, négative, négative
positif, négatif, positif, positif, négatif, positif, positif,
positif.

L'AUC ignore toute valeur définie pour seuil de classification. Au lieu de cela, l'AUC prend en compte tous les seuils de classification possibles.

Cliquez sur l'icône pour en savoir plus sur la relation entre les courbes AUC et ROC.

L'AUC représente l'aire sous une Courbe ROC. Par exemple : la courbe ROC pour obtenir un modèle qui sépare parfaitement les positifs à exclure se présente comme suit:

L'AUC correspond à la zone de la région grise dans l'illustration précédente. Dans ce cas inhabituel, la zone correspond simplement à la longueur de la zone grise. (1,0) multiplié par la largeur de la zone grise (1,0). Donc, le produit de 1,0 et de 1,0 donnent un AUC exactement égal à 1,0, ce qui est la valeur la plus élevée Score AUC.

À l'inverse, la courbe ROC d'un classificateur qui ne peut pas séparer les classes est le suivant. L'aire de cette zone grise est de 0,5.

Une courbe ROC plus typique se présente approximativement comme suit :

Il serait fastidieux de calculer manuellement l'aire sous cette courbe, C'est pourquoi un programme calcule généralement la plupart des valeurs AUC.

Cliquez sur l'icône pour obtenir une définition plus formelle de l'AUC.

L'AUC correspond à la probabilité que le niveau de confiance d'un classificateur soit supérieur pour un exemple positif choisi aléatoirement comparé à un exemple négatif choisi aléatoirement.

Pour en savoir plus, consultez la section Classification : ROC et AUC du cours d'initiation au machine learning.

réalité augmentée

#image

Technologie qui superpose une image générée par ordinateur à la vue d'un utilisateur de le monde réel, fournissant ainsi une vue composite.

auto-encodeur

#language

#image

Un système qui apprend à extraire les informations les plus importantes du saisie. Les auto-encodeurs sont la combinaison d'un encodeur et décodeur. Les autoencodeurs reposent sur le processus en deux étapes suivant :

L'encodeur mappe l'entrée sur un format (intermédiaire) à faible dimension (généralement avec perte).
Le décodeur crée une version avec perte de l'entrée d'origine en mappant le format à dimension inférieure sur le format d'entrée d'origine à dimension supérieure.

Les auto-encodeurs sont entraînés de bout en bout, reconstruire l'entrée d'origine à partir du format intermédiaire de l'encodeur aussi près que possible. Comme le format intermédiaire est plus petit, (dimensions inférieures) par rapport au format d'origine, l'auto-encodeur est forcé pour savoir quelles informations de l'entrée sont essentielles, doit être parfaitement identique à l'entrée.

Exemple :

Si les données d'entrée sont des graphiques, la copie non exacte sera semblable à l'image d'origine, mais quelque peu modifiée. Il se peut que la copie non exacte élimine le bruit de l'image d'origine ou remplit il manque des pixels.
Si les données d'entrée sont du texte, un auto-encodeur génère un nouveau texte imite (mais n'est pas identique) le texte d'origine.

Voir également les auto-encodeurs variationnels.

biais d'automatisation

#fairness

Lorsqu'un décisionnaire humain favorise les recommandations émises par une solution de prise de décision basée sur les informations prises sans automatisation, lorsque le système automatisé de prise de décision fait des erreurs.

Pour en savoir plus, consultez la section Équité : types de biais dans le cours d'initiation au machine learning.

AutoML

Tout processus automatisé de création de modèles de machine learning . AutoML peut effectuer automatiquement des tâches telles que les suivantes :

Recherchez le modèle le plus approprié.
Réglez les hyperparamètres.
Préparer les données (y compris effectuer l'ingénierie des caractéristiques)
Déployez le modèle obtenu.

AutoML est utile pour les data scientists, car il peut leur faire gagner du temps et développement de pipelines de machine learning et améliorer les prédictions précision. Il est également utile aux non-experts, car il rend les tâches de machine learning complexes plus accessibles.

Voir Machine automatisée Apprentissage (AutoML) dans le Cours d'initiation au Machine Learning.

modèle autorégressif

#language

#image

#generativeAI

Un modèle qui déduit une prédiction à partir de ses propres prédictions des prédictions. Par exemple, les modèles de langage autorégressifs prédisent jeton basé sur les jetons précédemment prédits. Tous les grands modèles de langage basés sur Transformer sont autorégressifs.

En revanche, les modèles d'images basés sur GAN ne sont généralement pas autorégressifs. car ils génèrent une image en un seul passage avant et non de manière itérative dans étapes. Cependant, certains modèles de génération d'images sont autorégressifs, car ils génèrent une image par étapes.

perte auxiliaire

Une fonction de perte, utilisée conjointement avec la fonction de perte principale du modèle de réseau de neurones, qui permet d'accélérer l'entraînement lors des premières itérations, lorsque les poids sont initialisés de manière aléatoire.

Les fonctions de perte auxiliaires transfèrent les gradients efficaces vers les couches précédentes. Cela facilite la convergence lors de l'entraînement en luttant contre le problème de gradient qui disparaît.

précision moyenne

Métrique permettant de résumer les performances d'une séquence de résultats classée. La précision moyenne est calculée en prenant la moyenne des valeurs de précision pour chaque résultat pertinent (chaque résultat de la liste triée où le rappel augmente par rapport au résultat précédent).

Consultez également Aire sous la courbe PR.

condition alignée sur l'axe

#df

Dans un arbre de décision, condition ne concernant qu'une seule fonctionnalité. Par exemple, si la zone est une fonctionnalité, la condition suivante est une condition alignée sur l'axe :

area > 200

À comparer à la condition oblique.

B

rétropropagation

#fundamentals

L'algorithme qui implémente descente de gradient dans réseaux de neurones.

L'entraînement d'un réseau de neurones implique de nombreuses itérations du cycle en deux étapes suivant :

Lors de la passée avant, le système traite un lot d'exemples pour générer une ou plusieurs prédictions. Le système compare chaque à chaque valeur d'étiquette. La différence entre la prédiction et la valeur de l'étiquette correspond à la perte pour cet exemple. Le système agrège les pertes pour tous les exemples afin de calculer le total pour le lot actuel.
Lors de la rétropropagation, le système réduit la perte de ajuster les pondérations de tous les neurones de toutes les couche(s) cachée(s).

Les réseaux de neurones contiennent souvent de nombreux neurones sur de nombreuses couches cachées. Chacun de ces neurones contribue à la perte globale de différentes manières. La rétropropagation détermine s'il faut augmenter ou diminuer les pondérations appliquées à certains neurones.

Le taux d'apprentissage est un multiplicateur qui contrôle degré auquel chaque rétrogradation augmente ou diminue chaque pondération. Un taux d'apprentissage élevé augmente ou diminue chaque pondération un faible taux d'apprentissage.

En termes de calcul, la rétropropagation implémente le règle de la chaîne. du calcul. Autrement dit, la rétropropagation calcule dérivée partielle de l'erreur avec pour chaque paramètre.

Il y a quelques années, les professionnels du ML devaient écrire du code pour implémenter la rétropropagation. Les API de ML modernes comme Keras implémentent désormais la rétropropagation pour vous. Ouf !

Pour en savoir plus, consultez la section Réseaux de neurones du cours d'initiation au machine learning.

bagging

#df

Méthode pour entraîner un ensemble où chaque Le modèle constitutif est entraîné sur un sous-ensemble aléatoire de l'entraînement exemples échantillonné avec remplacement. Par exemple, une forêt d'arbres décisionnels est une collection d'arbres de décision entraînés avec le bagging.

Le terme bagging est l'abréviation de bootstrap aggrégat.

Pour en savoir plus, consultez la section Forêts d'arbres aléatoires du cours "Forêts d'arbres décisionnels".

sac de mots

#language

Représentation des mots d'une expression ou d'un extrait, quel que soit leur ordre. Par exemple, un sac de mots représente trois expressions de manière identique:

le chien saute
saute le chien
dog jumps the

Chaque mot est mappé à un indice dans un vecteur sparse, où le vecteur a un indice pour chaque mot du vocabulaire. Par exemple, la phrase the dog jumps est mappée dans un vecteur de caractéristiques dont les trois indices correspondant aux mots the, dog et jumps auront des valeurs non nulles. La valeur non nulle peut être l'une des suivantes :

1 pour indiquer la présence d'un mot.
Nombre d'apparitions d'un mot dans le sac. Par exemple, si l'expression est the maroon dog is a dog with maroon fur, les mots maroon et dog seront représentés par la valeur 2, tandis que les autres mots seront représentés par la valeur 1.
Une autre valeur, comme le logarithme du nombre de fois qu’un mot apparaît dans le sac.

Valeur de référence

Modèle utilisé comme point de référence pour comparer les performances (généralement un modèle plus complexe) est performant. Par exemple, un modèle de régression logistique peut servir de référence pour un modèle profond.

Pour un problème particulier, la référence aide les développeurs de modèles à quantifier les performances minimales attendues qu'un nouveau modèle doit atteindre pour du modèle d'IA générative.

lot

#fundamentals

Ensemble d'exemples utilisés dans une itération d'entraînement. La taille de lot détermine le nombre d'exemples dans un lot.

Consultez la section epoch pour comprendre comment un lot se rapporte à une époque.

Pour en savoir plus, consultez la section Régression linéaire : hyperparamètres du cours d'initiation au machine learning.

inférence par lot

#TensorFlow

#GoogleCloud

Déduire des prédictions sur plusieurs exemples non étiquetés divisés en plus petits sous-ensembles ("lots").

L'inférence par lot peut exploiter les fonctionnalités de parallélisation de puces accélérateurs. Autrement dit, plusieurs accélérateurs peuvent inférer simultanément des prédictions sur différents lots de données non étiquetées ce qui augmente considérablement le nombre d'inférences par seconde.

Pour en savoir plus, consultez la section Systèmes de ML en production : inférence statique ou dynamique dans le cours d'initiation au machine learning.

normalisation des lots

Normalisation de l'entrée ou de la sortie des fonctions d'activation dans une couche cachée. La normalisation des lots peut offrir les avantages suivants :

Renforcez la stabilité des réseaux de neurones en les protégeant contre les pondérations correspondant à des anomalies.
Activer des taux d'apprentissage plus élevés, ce qui peut l'entraînement rapide.
Réduire le surapprentissage.

taille de lot

#fundamentals

Nombre d'exemples dans un lot. Par exemple, si la taille de lot est de 100, le modèle traite 100 exemples par itération.

Voici quelques stratégies de taille de lot populaires :

Descente de gradient stochastique (SGD), dans laquelle la taille de lot est de 1.
Lot complet, dans lequel la taille de lot correspond au nombre d'exemples de l'ensemble d'entraînement. Par exemple, si l'ensemble d'entraînement contient un million d'exemples, la taille de lot sera de un million d'exemples. Le traitement par lot complet est généralement une stratégie inefficace.
mini-lot, dont la taille est généralement comprise entre 10 et 1 000. La stratégie de mini-lot est généralement la plus efficace.

Pour en savoir plus, lisez les informations ci-après.

Systèmes de ML de production: statique et dynamique inférence du cours d'initiation au machine learning.
Playbook de réglage du deep learning

Réseau de neurones bayésien

Réseau de neurones probabiliste qui prend en compte les incertitudes liées aux pondérations et aux résultats. Un réseau de neurones standard le modèle de régression prédit généralement une valeur scalaire ; Par exemple, un modèle standard prédit le prix d'une maison de 853 000. En revanche, un réseau de neurones bayésien prédit la distribution values; par exemple, un modèle bayésien prédit le prix d'une maison de 853 000 un écart type de 67 200.

Un réseau de neurones bayésien repose sur <ph type="x-smartling-placeholder"></ph> Bayes Theorem pour calculer les incertitudes dans les pondérations et les prédictions. Un réseau de neurones bayésien peut être utile lorsqu'il est important de quantifier l'incertitude, comme dans les modèles liés aux produits pharmaceutiques. Les réseaux de neurones bayésiens peuvent également aider empêchent le surapprentissage.

Optimisation bayésienne

Technique de modèle de régression probabiliste permettant d'optimiser des fonctions objectives coûteuses en calcul en optimisant plutôt un substitut qui quantifie l'incertitude à l'aide d'une technique d'apprentissage bayésien. Depuis L'optimisation bayésienne est elle-même très onéreuse, elle sert généralement à optimiser les tâches coûteuses à évaluer qui comportent un petit nombre de paramètres, comme en sélectionnant hyperparamètres.

Équation de Bellman

#rl

Dans l'apprentissage par renforcement, l'identité suivante est satisfaite par la fonction Q optimale :

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

Les algorithmes d'apprentissage par renforcement appliquent cette identité pour créer un apprentissage par Q-learning via la règle de mise à jour suivante :

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

Au-delà de l'apprentissage par renforcement, l'équation de Bellman s'applique à la programmation dynamique. Consultez le <ph type="x-smartling-placeholder"></ph> Article Wikipédia sur l'équation de Bellman.

BERT (Bidirectional Encoder) Représentations de transformateurs)

#language

Architecture de modèle pour la représentation de texte. Un technicien BERT peut s'intégrer à un modèle plus vaste de classification de texte d'autres tâches de ML.

BERT présente les caractéristiques suivantes:

Utilise l'architecture Transformer et s'appuie donc sur l'auto-attention.
Utilise la partie encodeur du Transformer. La tâche de l'encodeur est de créer de bonnes représentations de texte, plutôt que d'effectuer une une tâche comme la classification.
est bidirectionnel ;
Utilise le masquage pour l'entraînement non supervisé.

Voici quelques variantes de BERT:

ALBERT, l'acronyme de A Light BERT (BERT).
LaBSE

(voir l'article Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language) Traitement en cours pour découvrir une présentation de BERT.

biais (éthique/impartialité)

#fairness

#fundamentals

1. Stéréotypage, préjugé ou favoritisme envers certaines choses, des personnes, ou des groupes plutôt que d'autres. Ces biais peuvent avoir une incidence sur la collecte et l'interprétation des données, ainsi que sur la conception d'un système et la manière dont les utilisateurs interagissent avec celui-ci. Les formes de ce type de préjugé comprennent:

biais d'automatisation
biais de confirmation
biais de l'expérimentateur
biais de représentativité
biais implicite
biais d'appartenance
biais d'homogénéité de l'exogroupe

2. Erreur systématique introduite par une procédure d'échantillonnage ou de création de rapports. Les formes de ce type de préjugé comprennent:

biais de couverture
biais de non-réponse
biais de participation
biais de fréquence
biais d'échantillonnage
biais de sélection

À ne pas confondre avec le biais des modèles de machine learning ou le biais de prédiction.

Voir la section Équité: types de biais pour plus d'informations.

biais (mathématiques) ou terme de biais

#fundamentals

Interception ou décalage par rapport à une origine. Le biais est un paramètre dans de machine learning, symbolisé par l'un ou l'autre suivantes:

B
w₀

Par exemple, b représente le biais dans la formule suivante :

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Dans une ligne bidimensionnelle simple, le biais signifie simplement "ordonnée". Par exemple, dans l'illustration suivante, le biais de la ligne est de 2.

Graphique d'une ligne avec une pente de 0,5 et un biais (ordonnée à l'origine) de 2.

Il existe un biais, car tous les modèles ne partent pas de l'origine (0,0). Par exemple : supposons que l'entrée d'un parc d'attractions coûte 2 euros et 0,5 euro par heure de séjour. Par conséquent, un modèle mappant le coût total a un biais de 2, car le coût le plus bas est de 2 euros.

Il ne faut pas confondre les préjugés avec les biais en matière d'éthique et d'équité. ou biais de prédiction.

Pour en savoir plus, consultez la section Régression linéaire du cours d'initiation au machine learning.

bidirectionnelle

#language

Terme utilisé pour décrire un système qui évalue le texte qui précède et suit une section cible de texte. En revanche, système unidirectionnel uniquement évalue le texte qui précède une section de texte cible.

Prenons l'exemple d'un modèle de langage masqué qui doit déterminer les probabilités pour le ou les mots représentant le soulignement dans la question suivante:

Qu'est-ce que _____ avec vous ?

Un modèle de langage unidirectionnel ne doit baser ses probabilités sur le contexte fourni par les mots "Quoi", "est" et "le". En revanche, un modèle de langage bidirectionnel peut aussi obtenir du contexte en partant du principe et "vous", ce qui peut aider le modèle à générer de meilleures prédictions.

modèle de langage bidirectionnel

#language

Modèle de langage qui détermine la probabilité qu'un jeton donné soit présent à un emplacement donné dans un extrait de texte en fonction du texte précédent et suivant.

bigramme

#seq

#language

Un N-gramme dans lequel N=2.

classification binaire

#fundamentals

Type de tâche de classification qui prédit l'une des deux classes mutuellement exclusives :

la classe positive ;
la classe négative

Par exemple, les deux modèles de machine learning suivants effectuent chacun une classification binaire :

Un modèle qui détermine si les e-mails sont spam (classe positive) ou non spam (classe négative).
Un modèle qui évalue les symptômes médicaux pour déterminer si une personne souffre d'une maladie particulière (la classe positive) ou n'en souffre pas ; (classe négative).

À comparer à la classification à classes multiples.

Consultez également les articles régression logistique et seuil de classification.

Voir Classification dans le Cours d'initiation au Machine Learning.

condition binaire

#df

Dans un arbre de décision, une condition qui n'a que deux résultats possibles, généralement oui ou non. Par exemple, voici une condition binaire:

temperature >= 100

À comparer à la condition non binaire.

Pour en savoir plus, consultez la section Types de conditions du cours sur les forêts décisionnelles.

binning

Synonyme de binning.

BLEU (Bilingual Evaluation Understudy)

#language

Un score compris entre 0.0 et 1.0, inclus, indiquant la qualité d'une traduction entre deux langues (par exemple, entre l'anglais et le russe). UN BLEU un score de 1,0 indique une traduction parfaite. un score BLEU de 0,0 indique mauvaise traduction.

boosting

Technique de machine learning qui combine de manière itérative un ensemble de classificateurs simples et peu précis (appelés classificateurs "faibles") en un classificateur très précis (classificateur "fort") en surpondérant les exemples que le modèle classifie actuellement de manière erronée.

Voir Décision avec boosting de gradient Des arbres ? dans le cours sur les forêts d'arbres décisionnels.

cadre de délimitation

#image

Dans une image, les coordonnées (x, y) d'un rectangle autour d'une zone de centres d'intérêt, comme le chien dans l'image ci-dessous.

Photographie d'un chien assis sur un canapé. Cadre de délimitation vert
avec les coordonnées en haut à gauche (275, 1271) et en bas à droite
coordonnées de (2954, 2761) entourent le corps du chien

diffusion

Développer la forme d'un opérande dans une opération mathématique matricielle à dimensions compatibles pour cette opération. Par exemple : l'algèbre linéaire nécessite que les deux opérandes dans une opération d'addition matricielle doivent avoir les mêmes dimensions. Par conséquent, vous ne pouvez pas ajouter une matrice de forme (m, n) à un vecteur de longueur n. Le broadcasting permet d'effectuer cette opération en développant virtuellement le vecteur de longueur n en une matrice de forme (m, n) en répliquant les mêmes valeurs dans chaque colonne.

Par exemple, compte tenu des définitions suivantes, l'algèbre linéaire interdit A+B, car A et B ont des dimensions différentes:

A = [[7, 10, 4],
     [13, 5, 9]]
B = [2]

Cependant, le broadcasting permet d'effectuer l'opération A+B en développant virtuellement B en:

 [[2, 2, 2],
  [2, 2, 2]]

Ainsi, A+B est maintenant une opération valide:

[[7, 10, 4],  +  [[2, 2, 2],  =  [[ 9, 12, 6],
 [13, 5, 9]]      [2, 2, 2]]      [15, 7, 11]]

Reportez-vous à la description suivante broadcasting dans NumPy.

le binning

#fundamentals

Convertir une seule caractéristique en plusieurs caractéristiques binaires appelés buckets ou bins, généralement en fonction d'une plage de valeurs. La caractéristique hachée est généralement caractéristique continue.

Par exemple, au lieu de représenter la température comme une seule caractéristique à virgule flottante continue, vous pouvez diviser les plages de températures en buckets distincts, par exemple :

Une température inférieure ou égale à 10 degrés Celsius correspond au "froid" bucket.
Entre 11 et 24 degrés Celsius correspond à la température "tempérée" bucket.
Une température supérieure ou égale à 25 degrés Celsius correspond à la température "chaude". bucket.

Le modèle traitera toutes les valeurs du même bucket de la même manière. Pour Par exemple, les valeurs 13 et 22 se trouvent toutes deux dans le bucket tempéré. traite les deux valeurs de manière identique.

Cliquez sur l'icône pour afficher des notes supplémentaires.

Si vous représentez la température comme une caractéristique continue, le modèle traite la température comme une seule caractéristique. Si vous représentez la température comme trois buckets, le modèle traite chaque bucket comme une caractéristique distincte. Autrement dit, un modèle peut apprendre les relations distinctes de chaque bucket étiquette. Par exemple, un modèle de régression linéaire peut apprendre des pondérations distinctes pour chaque bucket.

Augmenter le nombre de buckets rend votre modèle plus complexe en augmentant le nombre de relations qu'il doit apprendre. Par exemple, les buckets "froid", "tempéré" et "chaud" sont essentiellement trois caractéristiques distinctes sur lesquelles votre modèle peut s'entraîner. Si vous décidez d'ajouter deux autres buckets (par exemple, "freezing" et "hot"), votre modèle devra désormais s'entraîner sur cinq caractéristiques distinctes.

Comment savoir combien de buckets créer ou quelles plages doit être ? Les réponses nécessitent généralement une bonne dose d'expérimentation.

Voir Données numériques: Binning dans le Cours d'initiation au Machine Learning.

C

couche de calibrage

Ajustement réalisé après la prédiction, généralement pour prendre en compte le biais de prédiction. Les prédictions ajustées et les probabilités doivent correspondre à la distribution d'un ensemble observé d'étiquettes.

génération de candidats

#recsystems

Il s'agit de l'ensemble initial de recommandations choisi système de recommandation. Prenons l'exemple proposant 100 000 titres. La phase de génération de candidats crée une liste bien plus petite de livres adaptés à un utilisateur particulier, disons 500. Mais même 500 livres, c'est bien trop à recommander à un utilisateur. Les phases ultérieures, plus coûteuses, d'un système de recommandation (telles que l'évaluation et le reclassement) réduisent ces 500 recommandations à un ensemble beaucoup plus petit et plus utile.

Pour en savoir plus, consultez la section Présentation de la génération de candidats dans le cours sur les systèmes de recommandation.

échantillonnage de candidats

Optimisation réalisée lors de l'entraînement, qui calcule une probabilité pour toutes les étiquettes positives, en utilisant par exemple softmax, mais seulement pour un échantillon aléatoire d'étiquettes négatives. Prenons un exemple étiqueté beagle et dog, l'échantillonnage de candidats calcule les probabilités prédites et les termes de perte correspondants pour:

beagle
chien
un sous-ensemble aléatoire des classes négatives restantes (par exemple, cat, lollipop ou fence).

L'idée est que les classes négatives peuvent apprendre à partir d'un renforcement négatif moins fréquent tant que les classes positives reçoivent toujours un renforcement positif approprié, ce qui est effectivement observé empiriquement.

L'échantillonnage de candidats est plus efficace en termes de calcul que les algorithmes d'entraînement. qui calculent les prédictions pour toutes les classes négatives, en particulier lorsque le le nombre de classes négatives est très élevé.

données catégorielles

#fundamentals

Caractéristiques avec un ensemble spécifique de valeurs possibles. Par exemple : considérez une caractéristique catégorielle nommée traffic-light-state, qui ne peut ont l'une des trois valeurs suivantes:

red
yellow
green

En représentant traffic-light-state comme une caractéristique catégorielle, un modèle peut apprendre impacts différents de red, green et yellow sur le comportement des conducteurs.

Les caractéristiques catégorielles sont parfois appelées caractéristiques discrètes.

À comparer aux données numériques.

Reportez-vous à la section Utiliser des métriques données dans le Cours d'initiation au Machine Learning.

modèle de langage causal

#language

Synonyme de modèle de langage unidirectionnel.

Consultez modèle de langage bidirectionnel pour comparer les différentes approches directionnelles dans le modèle de langage.

centroid

#clustering

Centre d'un cluster déterminé par un algorithme k-moyennes ou k-médiane. Par exemple, si k est égal à 3, alors l'algorithme k-moyennes ou k-médiane trouve 3 centroïdes.

Consultez la page Algorithmes de clustering. dans le cours sur le clustering.

clustering basé sur centroïde

#clustering

Catégorie d'algorithmes de clustering qui organise les données en clusters non hiérarchiques. k-moyennes est l'algorithme de clustering basé sur le centroïde le plus utilisé.

À comparer au clustering hiérarchique algorithmes.

Consultez la page Algorithmes de clustering. dans le cours sur le clustering.

requêtes en chaîne de pensée

#language

#generativeAI

Technique d'ingénierie des requêtes qui encourage un grand modèle de langage (LLM) pour expliquer le raisonnement, étape par étape. Prenons l'exemple de l'invite suivante, en accordant une attention particulière à la deuxième phrase :

Combien de forces g un conducteur vivrait-il dans une voiture sur une échelle de 0 à 60 ? de miles par heure en 7 secondes ? Dans la réponse, montrez tous les calculs pertinents.

Il est probable que la réponse du LLM:

Afficher une séquence de formules de physique, en insérant les valeurs 0, 60 et 7 aux endroits appropriés.
Expliquez pourquoi il a choisi ces formules et ce que signifient les différentes variables.

Les requêtes de chaîne de pensée obligent le LLM à effectuer tous les calculs, ce qui pourrait conduire à une réponse plus correcte. De plus, les invites de la chaîne de pensée permettent à l'utilisateur d'examiner les étapes de la LLM pour déterminer si la réponse est logique ou non.

chat

#language

#generativeAI

Le contenu d'un dialogue avec un système de ML, généralement grand modèle de langage. L'interaction précédente dans une discussion (ce que vous avez saisi et la réponse du grand modèle de langage) devient le contexte des parties suivantes de la discussion.

Un chatbot est une application d'un grand modèle de langage.

point de contrôle

Données qui capturent l'état des paramètres d'un modèle pendant l'entraînement ou après la fin de l'entraînement. Par exemple, pendant l'entraînement, vous pouvez:

Arrêter l'entraînement, peut-être intentionnellement ou après certaines erreurs.
Capturez le point de contrôle.
Plus tard, rechargez le point de contrôle, éventuellement sur un autre matériel.
Redémarrez l'entraînement.

classe

#fundamentals

Catégorie à laquelle un libellé peut appartenir. Exemple :

Dans un modèle de classification binaire qui détecte le spam, les deux classes peuvent être spam et non spam.
Dans un modèle de classification à classes multiples identifiant la race des chiens, les classes peuvent être caniche, beagle, carlin, et ainsi de suite.

Un modèle de classification prédit une classe. En revanche, un modèle de régression prédit un nombre et non une classe.

Voir Classification dans le Cours d'initiation au Machine Learning.

modèle de classification

#fundamentals

Modèle dont la prédiction est une classe. Par exemple, les modèles suivants sont tous des modèles de classification :

Un modèle qui prédit la langue d'une phrase d'entrée (le français ? Espagnol ? italien ?).
Un modèle qui prédit les espèces d'arbres Chêne ? Baobab?).
Modèle qui prédit la classe positive ou négative pour une affection médicale particulière.

En revanche, les modèles de régression prédisent des nombres plutôt que des classes.

Voici deux types courants de modèles de classification:

classification binaire
classification à classes multiples

seuil de classification

#fundamentals

Dans une classification binaire, entre 0 et 1, qui convertit la sortie brute d'une modèle de régression logistique ; en une prédiction de la classe positive ou la classe négative. Notez que le seuil de classification est une valeur choisie par un humain, et non par l'entraînement du modèle.

Un modèle de régression logistique génère une valeur brute comprise entre 0 et 1. Ensuite :

Si cette valeur brute est supérieure au seuil de classification, la classe positive est prédite.
Si cette valeur brute est inférieure au seuil de classification, la classe négative est prédite.

Par exemple, supposons que le seuil de classification soit de 0,8. Si la valeur brute égale à 0,9, le modèle prédit la classe positive. Si la valeur brute est de 0,7, le modèle prédit la classe négative.

Le choix du seuil de classification a une forte influence sur le nombre faux positifs et faux négatifs.

Cliquez sur l'icône pour ajouter des notes.

À mesure que les modèles ou les ensembles de données évoluent, les ingénieurs modifient parfois également le seuil de classification. Lorsque le seuil de classification change, les prédictions de classe positive peuvent devenir soudainement des classes négatives et inversement.

Prenons l'exemple d'un modèle de classification binaire de prédiction de maladie. Supposons que lorsque le système s'exécute la première année:

La valeur brute pour un patient particulier est de 0,95.
Le seuil de classification est de 0,94.

Par conséquent, le système diagnostique la classe positive. (Le patient s'exclame : "Oh non ! Je suis malade !")

Un an plus tard, les valeurs se présentent peut-être comme suit :

La valeur brute du même patient reste à 0,95.
Le seuil de classification passe à 0,97.

Par conséquent, le système reclassifie à présent ce patient dans la classe négative. ("Bonne journée ! Je ne suis pas malade.") Même patient. Diagnostic différent.

Voir la section Seuils et confusion matricielle dans le Cours d'initiation au Machine Learning.

ensemble de données avec déséquilibre des classes

#fundamentals

Ensemble de données pour un problème de classification dans lequel le nombre total d'étiquettes de chaque classe diffère considérablement. Prenons l'exemple d'un ensemble de données de classification binaire dont deux étiquettes sont divisés comme suit:

1 000 000 de libellés négatifs
10 libellés positifs

Le ratio entre les étiquettes négatives et positives est de 100 000 pour 1. est un ensemble de données avec déséquilibre des classes.

En revanche, l'ensemble de données suivant n'est pas déséquilibré par classe, car le ratio entre les libellés négatifs et les libellés positifs est relativement proche de 1 :

517 étiquettes à exclure
483 étiquettes positives

Les ensembles de données à classes multiples peuvent également présenter un déséquilibre entre les classes. Par exemple : un ensemble de données de classification à classes multiples présente également un déséquilibre entre classes, car une étiquette contient beaucoup plus d'exemples que les deux autres:

1 000 000 libellés de la classe "vert"
200 étiquettes avec la classe "violet"
350 libellés de la classe "orange"

Voir également entropie, classe majoritaire et classe minoritaire.

rognage

#fundamentals

Une technique de gestion des valeurs aberrantes : l'un des éléments suivants, ou les deux:

Réduire les valeurs de caractéristiques supérieures à une valeur maximale jusqu'à ce seuil maximal.
Augmenter les valeurs des caractéristiques inférieures à un seuil minimal jusqu'à cette seuil minimal.

Par exemple, supposons que moins de 0,5 % des valeurs d'une caractéristique particulière ne sont pas comprises entre 40 et 60. Dans ce cas, vous pouvez procéder comme suit:

Borner toutes les valeurs supérieures à 60 (seuil maximal) pour obtenir exactement 60.
Borner toutes les valeurs inférieures à 40 (seuil minimal) pour obtenir exactement 40.

Les anomalies peuvent endommager les modèles et entraîner parfois des pondérations pendant l'entraînement. Certaines valeurs aberrantes peuvent aussi considérablement gâcher des métriques telles que la précision. Le rognage est une technique courante pour limiter les dommages.

Force le bornement de gradient des valeurs de gradient dans une plage désignée pendant l'entraînement.

Voir Données numériques: Normalisation dans le Cours d'initiation au Machine Learning.

Cloud TPU

#TensorFlow

#GoogleCloud

Accélérateur matériel spécialisé conçu pour accélérer les charges de travail de machine learning sur Google Cloud.

clustering

#clustering

Regroupement des exemples associés, en particulier lors de l'apprentissage non supervisé. Une fois que toutes les les exemples sont regroupés, un humain peut éventuellement donner un sens à chaque cluster.

Il existe de nombreux algorithmes de clustering. Par exemple, l'algorithme k-moyennes regroupe les exemples en fonction de leur proximité avec un centroïde, comme dans le diagramme suivant :

Un chercheur humain pourrait alors examiner les groupes et, par exemple, étiqueter le groupe 1 comme "arbres nains" et le groupe 2 comme « arbres de taille réelle ».

Autre exemple, celui d'un algorithme de clustering basé sur la distance entre un exemple et un point central, illustré comme suit :

Des dizaines de points de données sont disposés en cercles concentriques, presque
comme des trous au centre d'un jeu de fléchettes. L'anneau le plus intérieur des points de données est classé comme cluster 1, l'anneau du milieu comme cluster 2 et l'anneau le plus extérieur comme cluster 3.

Consultez le cours sur le clustering pour en savoir plus.

coadaptation

Lorsque des neurones prédisent des schémas dans les données d'entraînement en s'appuyant presque exclusivement sur les sorties d'autres neurones spécifiques, au lieu de s'appuyer sur le comportement du réseau dans son ensemble. Lorsque les schémas à l'origine de la coadaptation ne sont pas présents dans les données de validation, la coadaptation entraîne alors un surapprentissage. La régularisation par abandon réduit l'occurrence de la coadaptation, car l'abandon empêche les neurones de ne s'appuyer que sur d'autres neurones spécifiques.

filtrage collaboratif

#recsystems

Prédictions sur les centres d'intérêt d'un utilisateur en fonction de ceux de nombreux autres utilisateurs. Le filtrage collaboratif est souvent utilisé dans les systèmes de recommandation.

Voir la section filtrage dans le cours sur les systèmes de recommandation.

dérive conceptuelle

Changement de la relation entre les caractéristiques et l'étiquette. Au fil du temps, la dérive conceptuelle réduit la qualité d'un modèle.

Pendant l'entraînement, le modèle apprend la relation entre les caractéristiques et leurs étiquettes dans l'ensemble d'entraînement. Si les étiquettes de l'ensemble d'entraînement de bons proxys pour le monde réel, le modèle devrait s'adapter les prédictions du monde réel. Toutefois, en raison de la dérive conceptuelle, les prédictions du modèle ont tendance à se dégrader au fil du temps.

Prenons l'exemple d'un modèle de classification binaire qui prédit si un certain modèle de voiture est "économe en carburant" ou non. Les fonctionnalités peuvent être les suivantes :

poids de la voiture
compression du moteur
transmission type

tandis que le libellé est :

économes en carburant
pas économe en carburant

Toutefois, le concept de "voiture économe en carburant" conserve en constante évolution. En 1994, un modèle de voiture portant la mention Consommation en carburant sera marquée comme non économe en carburant en 2024. Un modèle présentant une dérive conceptuelle tend à faire des prédictions de moins en moins utiles au fil du temps.

Comparez et contrastez avec la non-stationnarité.

Cliquez sur l'icône pour afficher des notes supplémentaires.

Pour compenser la dérive conceptuelle, réentraînez les modèles plus rapidement que le taux de dérive conceptuelle. Par exemple, si la dérive conceptuelle réduit la précision du modèle d'un une marge significative tous les deux mois, puis réentraînez votre modèle plus souvent que tous les deux mois.

état

#df

Dans un arbre de décision, tout nœud qui évalue une expression. Par exemple, la partie suivante d'un arbre de décision contient deux conditions :

Un arbre de décision composé de deux conditions: (x > 0) et
(y > 0).

Une condition est également appelée "split" ou "test".

Condition de contraste avec la feuille.

Voir également :

condition binaire
condition non binaire.
condition-alignée sur l'axe
condition-oblique

Pour en savoir plus, consultez la section Types de conditions du cours sur les forêts décisionnelles.

confabulation

#language

Synonyme de hallucination.

Confabulation est probablement un terme plus précis d'un point de vue technique que l'hallucination. Cependant, l'hallucination est devenue populaire en premier.

configuration

Processus d'attribution des valeurs de propriété initiales utilisées pour entraîner un modèle, y compris :

les couches de composition du modèle ;
l'emplacement des données ;
hyperparamètres tels que :

Dans les projets de machine learning, la configuration peut être effectuée via un fichier de configuration spécial ou à l'aide de bibliothèques de configuration telles que les suivantes :

biais de confirmation

#fairness

Tendance à rechercher, interpréter, favoriser et rappeler des informations d'une manière qui confirme ses croyances ou hypothèses préexistantes. Les développeurs en machine learning peuvent collecter ou étiqueter par inadvertance des données d’une manière qui influence un résultat soutenant leur croyances. Le biais de confirmation est une forme de biais implicite.

Le biais de l'expérimentateur est une forme de préjugé de confirmation dans lequel l'expérimentateur continue d'entraîner des modèles jusqu'à ce qu'un testeur l'hypothèse est confirmée.

matrice de confusion

#fundamentals

Tableau NxN qui résume le nombre de prédictions correctes et incorrectes effectuées par un modèle de classification. Prenons l'exemple de la matrice de confusion suivante pour un modèle de classification binaire :

	Tumeur (prédiction)	Pas de tumeur (prédiction)
Tumeur (vérité terrain)	18 (VP)	1 (FN)
Non-tumeur (vérité terrain)	6 (FP)	452 (VN)

La matrice de confusion précédente montre les éléments suivants:

Sur les 19 prédictions pour lesquelles la vérité terrain était "Tumor", le modèle a classé 18 correctement et 1 de manière incorrecte.
Sur les 458 prédictions pour lesquelles la vérité terrain était "Non-tumeur", le modèle en a correctement classé 452 et 6 de manière incorrecte.

Matrice de confusion pour une classification à classes multiples peut vous aider à identifier des modèles d'erreurs. Prenons par exemple la matrice de confusion suivante pour un modèle de classification multiclasse à trois classes qui catégorise trois types d'iris différents (Virginica, Versicolor et Setosa). Lorsque la vérité terrain était Virginica, la matrice de confusion montre que le modèle était beaucoup plus susceptible de se tromper pour prédire des couleurs Versicolor plutôt que Setosa:

	Setosa (prévision)	Versicolor (prédiction)	Virginica (prévision)
Setosa (vérité terrain)	88	12	0
Versicolor (vérité terrain)	6	141	7
Virginie (vérité terrain)	2	27	109

Autre exemple, une matrice de confusion peut révéler qu'un modèle entraîné à reconnaître les chiffres manuscrits tend à prédire à tort 9 au lieu de 4, ou prédit à tort 1 au lieu de 7.

Les matrices de confusion contiennent suffisamment d'informations pour calculer diverses métriques de performances, y compris la précision et le rappel.

analyse des circonscriptions

#language

Diviser une phrase en structures grammaticales plus petites ("composants"). Une autre partie du système de ML, de compréhension du langage naturel, peut analyser les éléments constitutifs plus facilement que la phrase d'origine. Par exemple : considérez la phrase suivante:

Mon ami a adopté deux chats.

L'analyseur de circonscription peut diviser cette phrase comme suit : deux composants:

Mon ami est un syntagme nominal.
a adopté deux chats est un groupe verbal.

Ces constituants peuvent être subdivisés en constituants plus petits. Par exemple, l'expression verbale

a adopté deux chats ;

peut être subdivisé en:

adopté est un verbe.
deux chats est un autre syntagme nominal.

représentation vectorielle continue du langage contextualisé

#language

#generativeAI

Embedding qui se rapproche de la "compréhension" des mots et des expressions comme le font les locuteurs natifs. Les représentations vectorielles continues du langage contextualisées peuvent comprendre la syntaxe, la sémantique et le contexte complexes.

Prenons l'exemple de représentations vectorielles continues du mot anglais cow. Les anciens représentations vectorielles continues, telles que word2vec, peuvent représenter des mots anglais de sorte que la distance dans l'espace d'embedding entre cow (vache) et bull (taureau) soit semblable à celle entre ewe (brebis) et ram (bélier) ou entre female (femelle) et male (mâle). Les représentations vectorielles continues de langage contextualisées peuvent aller plus loin en reconnaissant que les anglophones utilisent parfois le mot cow pour désigner une vache ou un taureau.

fenêtre de contexte

#language

#generativeAI

Nombre de jetons qu'un modèle peut traiter dans une invite donnée. Plus la fenêtre de contexte est grande, plus le modèle peut utiliser d'informations pour fournir des réponses cohérentes et cohérentes à la requête.

fonctionnalité continue

#fundamentals

Caractéristique à virgule flottante avec une plage infinie de valeurs possibles, telles que la température ou le poids.

À comparer à la caractéristique discrète.

échantillonnage de commodité

Utiliser un jeu de données non collecté de manière scientifique afin d’exécuter rapidement tests. Par la suite, il est essentiel de passer à un ensemble de données collecté de manière scientifique.

convergence

#fundamentals

État atteint lorsque les valeurs de perte changent très peu ou pas du tout à chaque itération. Par exemple, la courbe de perte suivante suggère une convergence vers 700 itérations :

Graphique cartésien. L'axe X correspond à la perte. L'axe Y correspond au nombre d'entraînements
itérations. La perte est très élevée
lors des premières itérations, mais
diminue fortement. Après environ 100 itérations, la perte est toujours
décroissant, mais beaucoup
plus progressivement. Après environ 700 itérations,
reste stable.

Un modèle converge lorsque l'entraînement supplémentaire ne l'améliore pas.

Dans le deep learning, les valeurs de perte restent parfois constantes ou presque pendant de nombreuses itérations avant de finalement diminuer. Sur une longue période de valeurs de perte constantes, vous pouvez temporairement avoir une fausse impression de convergence.

Voir aussi arrêt prématuré.

Voir Convergence et perte du modèle courbes dans le Cours d'initiation au Machine Learning.

fonction convexe

Fonction dans laquelle la région au-dessus du graphique est un ensemble convexe. La fonction convexe prototypique a une forme qui ressemble à la lettre U. Par exemple : sont toutes des fonctions convexes:

Courbes en forme de U, chacune avec un seul point minimal.

À l'inverse, la fonction suivante n'est pas convexe. Notez que la région au-dessus du graphique diffère d'un ensemble convexe :

Courbe en W avec deux points minimaux locaux différents.

Une fonction strictement convexe comporte exactement un point minimum local, qui est également le point minimum global. Les fonctions classiques en U sont strictement convexes. Ce n'est pas le cas de certaines fonctions convexes, comme les droites.

Cliquez sur l'icône pour en savoir plus sur le calcul.

De nombreuses fonctions de perte courantes, telles que les fonctions suivantes, sont convexes :

Perte L₂
Perte logistique
Régularisation L₁
Régularisation L₂

Nombreuses variations de la descente de gradient sont assurés de trouver un point proche du minimum strictement convexe. De même, de nombreuses variations de Les descentes de gradient stochastique ont une probabilité élevée (mais ce n'est pas une garantie) de trouver un point proche du minimum strictement convexe.

La somme de deux fonctions convexes (par exemple, la perte L₂ + la régularisation L₁) est une fonction convexe.

Les modèles profonds ne sont jamais des fonctions convexes. Il est à noter que les algorithmes conçus pour l'optimisation convexe tendent de toute façon à trouver des solutions raisonnablement satisfaisantes pour les réseaux profonds, même s'il n'est pas certain que ces solutions soient des minimums globaux.

Pour en savoir plus, consultez la section Convergence et fonctions convexes dans le cours d'initiation au machine learning.

optimisation convexe

Le processus d'utilisation de techniques mathématiques telles que la descente de gradient pour trouver la valeur minimale d'une fonction convexe. De nombreuses recherches dans le domaine du machine learning se sont concentrées sur la formulation des problèmes sous forme de problèmes d'optimisation convexes efficacement.

Pour des détails complets, voir Boyd et Vandenberghe, Convex Optimisation :

ensemble convexe

Sous-ensemble de l'espace euclidien tel qu'une ligne tracée entre deux points quelconques du reste entièrement dans le sous-ensemble. Par exemple, les deux les formes sont des ensembles convexes:

Une illustration d'un rectangle. Autre illustration d'un ovale.

En revanche, les deux formes suivantes ne sont pas des ensembles convexes:

Une illustration d’un graphique circulaire avec un secteur manquant.
Autre illustration d'un polygone extrêmement irrégulier.

Convolution

#image

En mathématiques, de manière informelle, mélange de deux fonctions. Dans le machine learning, une convolution mélange le filtre convolutif et la matrice d'entrée afin d'entraîner les pondérations.

En machine learning, le terme "convolution" est souvent utilisé pour désigner une opération de convolution ou une couche de convolution.

Sans convolution, un algorithme de machine learning devrait apprendre une pondération différente pour chaque cellule d'un grand tensor. Par exemple, un algorithme de machine learning dont l'entraînement s'effectue sur des images de 2K x 2K serait forcé de trouver 4 millions de pondérations. Grâce aux convolutions, un algorithme de machine learning ne doit trouver des pondérations que pour chaque cellule du filtre convolutif, ce qui réduit considérablement la mémoire nécessaire à l'entraînement du modèle. Lorsque le filtre convolutif est appliqué, il est simplement répliqué entre les cellules, de sorte que chacune d'elles est multipliée par le filtre.

Pour en savoir plus, consultez la section Présentation des réseaux de neurones convolutifs du cours sur la classification d'images.

filtre convolutif

#image

L'un des deux acteurs Opération convolutive. (L'autre acteur est une tranche d'une matrice d'entrée.) Un filtre convolutif est une matrice de même rang que la matrice d'entrée, mais de forme plus petite. Par exemple, étant donné une matrice d'entrée 28 x 28, le filtre peut être n'importe quelle matrice 2D de taille inférieure à 28 x 28.

Dans la manipulation photographique, toutes les cellules d'un filtre de convolution sont généralement définies sur un motif constant d'uns et de zéros. En machine learning, les filtres convolutifs sont généralement ensemencés avec des nombres aléatoires, puis le entraîne les valeurs idéales.

Pour en savoir plus, consultez la section Convolution du cours sur la classification des images.

couche convolutive

#image

Couche d'un réseau de neurones profond dans laquelle un Le filtre convolutif transmet une entrée matricielle. Soit, par exemple, le filtre convolutif 3 x 3 suivant :

Une matrice 3x3 avec les valeurs suivantes : [[0,1,0], [1,0,1], [0,1,0]]

L'animation suivante montre une couche convolutive composée de neuf opérations convolutives impliquant la matrice d'entrée 5 x 5. Notez que chaque l'opération convolutive fonctionne sur une tranche 3x3 différente de la matrice d'entrée. La matrice 3 x 3 résultante (à droite) est constituée des résultats des 9 opérations convolutives :

Pour en savoir plus, consultez la section Couches entièrement connectées du cours sur la classification des images.

réseau de neurones convolutif

#image

Réseau de neurones dans lequel au moins une couche est un couche convolutive. Une couche convolutive classique Le réseau de neurones est constitué d'une combinaison des couches suivantes:

couches convolutives
couches de pooling
couches denses

Les réseaux de neurones convolutifs ont eu beaucoup de succès pour certains types de problèmes, notamment la reconnaissance d'images.

opération convolutive

#image

L'opération mathématique en deux étapes suivante :

La multiplication élément par élément des filtre convolutif et une tranche d'une la matrice d'entrée. La tranche de la matrice d'entrée est de même rang et de même taille que le filtre convolutif.
Somme de toutes les valeurs de la matrice de produits obtenue.

Prenons l'exemple de la matrice d'entrée 5 x 5 suivante:

Matrice 5x5 : [[128,97,53,201,198], [35,22,25,200,195],
[37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]].

Imaginons maintenant le filtre convolutif 2 x 2 suivant:

Matrice 2x2: [[1, 0], [0, 1]]

Chaque opération convolutif implique une seule tranche 2x2 de la matrice d'entrée. Par exemple, supposons que nous utilisions la tranche 2 x 2 en haut à gauche de la matrice d'entrée. L'opération de convolution ce segment se présente comme suit:

Application du filtre convolutif [[1, 0], [0, 1]] en haut à gauche
Section 2x2 de la matrice d'entrée, qui est [[128,97], [35,22]].
Le filtre convolutif laisse les cellules 128 et 22 intactes, mais les zéros
97 et 35. L'opération de convolution permet donc
la valeur 150 (128+22).

Une couche convolutive consiste en série d'opérations convolutives, chacune agissant sur une tranche différente de la matrice d'entrée.

coût

Synonyme de perte.

co-formation

Approche d'apprentissage semi-supervisé particulièrement utile lorsque toutes les conditions suivantes sont remplies:

Ratio entre le nombre d'exemples sans étiquette et exemples étiquetés dans l'ensemble de données est élevé.
Il s'agit d'un problème de classification (binaire ou multiclasse).
L'ensemble de données contient deux ensembles différents de fonctionnalités prédictives, qui sont indépendants les uns des autres et complémentaires.

La co-formation consiste essentiellement à amplifier des signaux indépendants pour obtenir un signal plus fort. Prenons l'exemple d'un modèle de classification qui classe les voitures d'occasion individuelles dans la catégorie Bon ou Mauvais. Un ensemble de Les caractéristiques prédictives peuvent se concentrer sur des caractéristiques agrégées telles que l'année, la marque et le modèle de la voiture ; un autre ensemble de caractéristiques prédictives le dossier de conduite du propriétaire précédent et l'historique d'entretien de la voiture.

L'article phare sur le co-entraînement est intitulé Combiner des données étiquetées et non étiquetées avec Co-formation par Blum et Mitchell.

équité contrefactuelle

#fairness

Métrique d'équité qui vérifie si un classificateur produit le même résultat pour un individu que pour un autre qui est identique au premier, sauf en ce qui concerne un ou plusieurs attributs sensibles. Évaluer un classificateur pour L’impartialité contrefactuelle est une méthode pour révéler les sources potentielles de les biais d'un modèle.

Pour en savoir plus, consultez l'une des ressources suivantes :

Équité : équité contrefactuelle dans le cours d'initiation au machine learning.
When Worlds Collide: Integrating Different Counterfactual Assumptions in Fairness

biais de couverture

#fairness

Voir biais de sélection.

pépinière d'accident

#language

Phrase ou expression au sens ambigu. Les phrases équivoques posent un problème majeur pour la compréhension du langage naturel. Par exemple, l'expression au pied de la lettre est une phrase équivoque, car un modèle NLU peut l'interpréter littéralement ou figurativement.

Cliquez sur l'icône pour afficher des notes supplémentaires.

Juste pour clarifier ce titre mystérieux: <ph type="x-smartling-placeholder">

La paperasse peut désigner l'un des éléments suivants :
- Un adhésif
- Bureaucratie excessive
Les termes Hold Up peuvent faire référence à l'un des éléments suivants:
- Soutien structurel
- Retards

critique

#rl

Synonyme de réseau Deep Q.

entropie croisée

La perte logistique est une généralisation problèmes de classification à classes multiples. Entropie croisée quantifie l'écart entre deux distributions de probabilité. Voir aussi perplexité.

validation croisée

Mécanisme permettant d'estimer la capacité d'un modèle à généraliser de nouvelles données en testant le modèle sur un ou plusieurs sous-ensembles de données qui ne se chevauchent pas. non inclus dans l'ensemble d'entraînement.

fonction de distribution cumulée (CDF)

Fonction qui définit la fréquence des échantillons inférieure ou égale à une la valeur cible. Prenons l'exemple d'une distribution normale des valeurs continues. Une CDF vous indique qu'environ 50% des échantillons doivent être inférieurs ou égaux à la moyenne et qu'environ 84% des échantillons doivent être inférieurs ou égaux à un écart type au-dessus de la moyenne.

D

analyse de données

Procédure visant à comprendre des données en en étudiant les échantillons, les mesures et les visualisations. L'analyse de données peut être particulièrement utile ensemble de données est reçu en premier, avant de créer le premier modèle. Elle est également cruciale pour interpréter les expériences et déboguer les problèmes affectant le système.

augmentation des données

#image

Augmenter artificiellement l'éventail et le nombre d'exemples d'entraînement en transformant les exemples existants afin d'en créer de nouveaux. Par exemple : supposons que les images features, mais pas votre ensemble de données. contenir suffisamment d'exemples d'images pour que le modèle apprend les associations utiles. Idéalement, vous ajouteriez suffisamment des images étiquetées à votre ensemble de données pour pour que votre modèle puisse s'entraîner correctement. Si cela n'est pas possible, l'augmentation des données faire pivoter, étirer et réfléchir chaque image pour obtenir de nombreuses variantes avec une image d'origine, en générant peut-être suffisamment de données étiquetées pour obtenir de machine learning.

DataFrame

#fundamentals

Type de données pandas populaire, qui permet de représenter ensembles de données en mémoire.

Un DataFrame est analogue à un tableau ou à une feuille de calcul. Chaque colonne d'un DataFrame porte un nom (un en-tête) et chaque ligne est identifiée par un numéro unique.

Chaque colonne d'un DataFrame est structurée comme un tableau 2D, à l'exception du fait que chaque colonne peut être associée à son propre type de données.

Consultez également la page de référence officielle de pandas.DataFrame.

parallélisme des données

Un moyen de faire évoluer l'entraînement ou l'inférence qui réplique l'intégralité d'un modèle sur plusieurs appareils, puis transmet un sous-ensemble des données d'entrée à chaque appareil. Le parallélisme de données peut permettre l'entraînement et l'inférence sur de très grandes tailles de lot. Toutefois, le parallélisme de données nécessite que le modèle soit suffisamment petit pour tenir sur tous les appareils.

Le parallélisme des données accélère généralement l'entraînement et l'inférence.

Voir aussi le parallélisme des modèles.

ensemble de données

#fundamentals

Ensemble de données brutes, généralement (mais pas exclusivement) organisées de façon à des formats suivants:

une feuille de calcul
Un fichier au format CSV (valeurs séparées par des virgules)

API Dataset (tf.data)

#TensorFlow

une API TensorFlow de haut niveau pour la lecture de données et en les transformant dans une forme requise par un algorithme de machine learning. Un objet tf.data.Dataset représente une séquence d'éléments, dans laquelle chaque élément contient un ou plusieurs Tensors. tf.data.Iterator permet d'accéder aux éléments d'un Dataset.

frontière de décision

Le séparateur entre classes apprises par une modèle dans un classe binaire ou problèmes de classification à classes multiples. Par exemple : Dans l'image suivante, qui représente un problème de classification binaire, la frontière de décision est la frontière entre la classe orange la classe bleue:

Limite bien définie entre une classe et une autre.

Forêt de décision

#df

Modèle créé à partir de plusieurs arbres de décision Une forêt de décision effectue une prédiction en agrégation des prédictions de ses arbres de décision. Les types de forêts de décision les plus courants incluent forêts aléatoires et arbres à boosting de gradient.

Pour en savoir plus, consultez la section Forêts de décision du cours sur les forêts de décision.

seuil de décision

Synonyme de seuil de classification.

arbre de décision

#df

Un modèle d'apprentissage supervisé composé d'un ensemble Les conditions et les feuilles sont organisées de façon hiérarchique. Voici un exemple d'arbre de décision :

Arbre de décision composé de quatre conditions disposées hiérarchiquement, qui mènent à cinq feuilles.

décodeur

#language

En général, tout système de ML qui convertit une base de données une représentation interne en une représentation plus brute, dispersée ou externe.

Les décodeurs sont souvent un composant d'un modèle plus vaste, où ils sont souvent associés à un encodeur.

Dans les tâches séquence à séquence, un décodeur commence par l'état interne généré par l'encodeur pour prédire séquence.

Consultez Transformer pour connaître la définition d'un décodeur dans l'architecture Transformer.

Pour en savoir plus, consultez la section Grands modèles de langage dans le cours d'initiation au machine learning.

modèle deep learning

#fundamentals

Réseau de neurones contenant plusieurs couches cachées.

Un modèle profond est également appelé réseau de neurones profond.

À comparer au modèle large.

de réseau de neurones profond

Synonyme de modèle profond.

Deep Q-Network (DQN)

#rl

Dans l'apprentissage par renforcement, un réseau de neurones profond prédit des fonctions Q.

Critic est l'équivalent de Deep Q-Network.

parité démographique

#fairness

Métrique d'équité qui est satisfaite si les résultats de la classification d'un modèle ne dépendent pas d'un attribut sensible donné.

Par exemple, si des Lilliputiens et des Brobdingnagiens postulent à l'université Glubbdubdrib, la parité démographique est atteinte si le pourcentage de Lilliputiens admis est le même que celui des Brobdingnagiens, que l'un des groupes soit en moyenne plus qualifié que l'autre ou non.

Contrairement aux probabilités égales et à l'égalité des chances, qui permettent aux résultats de classification agrégés de dépendre d'attributs sensibles, les résultats de classification pour certains libellés de vérité terrain spécifiés ne peuvent pas dépendre d'attributs sensibles. Consultez Lutter contre les discriminations grâce à un machine learning plus intelligent pour découvrir une visualisation des compromis à prendre en compte lors de l'optimisation pour la parité démographique.

Pour en savoir plus, consultez la section Équité : parité démographique du cours d'initiation au machine learning.

suppression du bruit

#language

Une approche courante de l'apprentissage auto-supervisé dans lequel:

Du bruit est ajouté artificiellement à l'ensemble de données.
Le modèle s'efforce de supprimer le bruit.

La suppression du bruit permet d'apprendre à partir d'exemples sans étiquette. L'dataset d'origine sert de cible ou label et les données comportant du bruit comme entrée.

Certains modèles de langage masqués utilisent le débruitage comme suit :

Du bruit est ajouté artificiellement à une phrase sans étiquette en masquant certaines les jetons.
Le modèle tente de prédire les jetons d'origine.

caractéristique dense

#fundamentals

Fonctionnalité dont la plupart des valeurs ou toutes sont non nulles, généralement un Tensor de valeurs à virgule flottante. Par exemple, le tenseur à 10 éléments suivant est dense, car neuf de ses valeurs sont non nulles :

À comparer à la caractéristique creuse.

couche dense

Synonyme de couche entièrement connectée.

profondeur

#fundamentals

Somme des éléments suivants dans un réseau de neurones :

le nombre de couches cachées ;
le nombre de couches de sortie, qui est généralement de 1
le nombre de couches d'intégration ;

Par exemple, un réseau de neurones avec cinq couches cachées et une couche de sortie a une profondeur de 6.

Notez que la couche d'entrée n'a aucune incidence sur la profondeur.

Réseau de neurones convolutifs séparables en profondeur (sepCNN)

#image

Un réseau de neurones convolutif basée sur l'architecture Inception, mais où les modules Inception sont remplacés par des modules séparables en profondeur. et les convolutions. Également appelé Xception.

Une convolution séparable en profondeur (également abrégée en "convolution séparable") factorise une convolution 3D standard en deux opérations de convolution distinctes plus efficaces en termes de calcul : d'abord, une convolution en profondeur, avec une profondeur de 1 (n ✕ n ✕ 1), puis une convolution ponctuelle, avec une longueur et une largeur de 1 (1 ✕ 1 ✕ n).

Pour en savoir plus, consultez l'article Xception: Deep Learning with Depthwise Separable. Convolutions

étiquette dérivée

Synonyme d'étiquette de proxy.

appareil

#TensorFlow

#GoogleCloud

Terme complexe ayant deux définitions possibles :

Catégorie de matériel pouvant exécuter une session TensorFlow, y compris Processeurs, GPU et TPU.
Lors de l'entraînement d'un modèle de ML sur des chips d'accélérateur (GPU ou TPU), partie du système qui manipule réellement les tensors et les embeddings. L'appareil s'exécute sur des puces d'accélération. En revanche, l'hôte s'exécute généralement sur un processeur.

confidentialité différentielle

Dans le machine learning, une approche d'anonymisation pour protéger les données sensibles (par exemple, les informations personnelles d'une personne) incluses dans le ensemble d'entraînement d'être exposé. Cette approche garantit que le modèle n'apprend ni ne se souvient pas beaucoup d'un individu spécifique. Pour cela, il convient d'échantillonner et d'ajouter du bruit pendant pour masquer les points de données individuels, ce qui réduit des données d'entraînement sensibles.

La confidentialité différentielle est également utilisée en dehors du machine learning. Par exemple, les data scientists utilisent parfois la confidentialité différentielle pour protéger la confidentialité individuelle lors du calcul des statistiques d'utilisation des produits pour différentes données démographiques.

réduction de la dimensionnalité

Diminution du nombre de dimensions utilisées pour représenter une caractéristique particulière dans un vecteur de caractéristiques, généralement par conversion en un vecteur d'encapsulation.

dimensions

Terme complexe ayant l'une des définitions suivantes:

Nombre de niveaux de coordonnées dans un Tensor. Exemple :
- Un scalaire a zéro dimension, par exemple ["Hello"].
- Un vecteur a une dimension ; Exemple : [3, 5, 7, 11].
- Une matrice a deux dimensions : par exemple, [[2, 4, 18], [5, 7, 14]]. Vous pouvez spécifier de manière unique une cellule particulière dans un vecteur unidimensionnel avec une seule coordonnée ; vous avez besoin de deux coordonnées une cellule spécifique d'une matrice bidimensionnelle.
Nombre d'entrées dans un vecteur de caractéristiques.
Nombre d'éléments dans une couche de représentation vectorielle continue.

requête directe

#language

#generativeAI

Synonyme de requête zero-shot.

caractéristique discrète

#fundamentals

Caractéristique avec un ensemble fini de valeurs possibles. Par exemple : une caractéristique dont les valeurs peuvent uniquement être animal, légume ou minéral est une caractéristique discrète (ou catégorielle).

À comparer à la caractéristique continue.

modèle discriminatif

Modèle qui prédit des libellés à partir d'un ensemble d'une ou plusieurs caractéristiques. Plus formellement, les modèles discriminatifs définissent probabilité conditionnelle d'un résultat en fonction des caractéristiques weights; c'est-à-dire:

p(output | features, weights)

Par exemple, un modèle qui prédit si un e-mail est un spam à partir de caractéristiques et les pondérations est un modèle discriminatif.

La grande majorité des modèles d'apprentissage supervisé, y compris la classification, et de régression sont des modèles discriminatifs.

À comparer au modèle génératif.

discriminateur

Système qui détermine si les exemples sont réels ou faux.

Le sous-système d'une attaque générative réseau qui détermine si les exemples créés par le générateur sont réels ou faux.

Pour en savoir plus, consultez la section Le discriminateur du cours sur les GAN.

impact différencié

#fairness

Prendre des décisions concernant des personnes qui ont un impact disproportionné sur différents sous-groupes de population Il s'agit généralement de situations où un processus de prise de décision algorithmique nuit ou profite davantage à certains sous-groupes qu'à d'autres.

Par exemple, supposons qu'un algorithme qui détermine l'éligibilité d'un Lilliputien à un prêt immobilier miniature soit plus susceptible de le classer comme "inéligible" si son adresse postale contient un certain code postal. Si les Lilliputiens big-endian sont plus susceptibles d'avoir des adresses postales avec ce code postal que les Lilliputiens little-endian, cet algorithme peut avoir un impact disparate.

À comparer au traitement disparate, qui se concentre sur les disparités qui se produisent lorsque les caractéristiques d'un sous-groupe sont des entrées explicites d'un processus de prise de décision basé sur des algorithmes.

traitement disparate

#fairness

Factorisation des sujets attributs sensibles dans un processus de prise de décision basé sur un algorithme, de sorte que différents sous-groupes des personnes sont traitées différemment.

Prenons l'exemple d'un algorithme détermine le score l'éligibilité à un prêt immobilier miniature en fonction du les données qu'ils fournissent dans leur demande de prêt. Si l'algorithme utilise L’affiliation de Lilliputian en tant que Big-Endian ou Little-Endian en tant qu’entrée, il consiste à appliquer un traitement disparate selon cette dimension.

À comparer à l'impact disparate, qui met l'accent sur les disparités dans l'impact sociétal des décisions algorithmiques sur les sous-groupes, que ces sous-groupes constituent ou non des entrées du modèle.

distillation

#generativeAI

Processus consistant à réduire la taille d'un modèle (appelé enseignant) en un modèle plus petit (appelé élève) qui émule les prédictions du modèle d'origine aussi fidèlement que possible. La distillation est utile, car le modèle plus petit présente deux avantages clés par rapport au modèle plus grand (l'enseignant) :

Temps d'inférence plus rapide
Réduction de la consommation de mémoire et d'énergie

Toutefois, les prédictions de l'élève ne sont généralement pas aussi bonnes que les prédictions de l'enseignant.

La distillation entraîne le modèle élève pour minimiser une fonction de perte en fonction de la différence entre les sorties des prédictions des modèles élève et enseignant.

Indiquer les points communs et les différences entre la distillation et les termes suivants:

optimisation
apprentissage par requête

Pour en savoir plus, consultez LLM : ajustement fin, distillation et ingénierie des requêtes dans le cours d'initiation au machine learning.

distribution

Fréquence et plage des différentes valeurs pour une fonctionnalité ou un libellé donnés. Une distribution indique la probabilité d'une valeur donnée.

L'image suivante montre des histogrammes de deux distributions différentes:

À gauche, distribution de la richesse en fonction de la loi de puissance par rapport au nombre de personnes qui la possèdent.
À droite, distribution normale de la taille par rapport au nombre de personnes ayant cette taille.

Comprendre la distribution de chaque caractéristique et de chaque étiquette peut vous aider à déterminer comment normaliser les valeurs et détecter les valeurs aberrantes.

L'expression out of distribution (hors distribution) fait référence à une valeur qui n'apparaît pas dans le ou est très rare. Par exemple, une image de la planète Saturne serait considérée comme hors distribution pour un ensemble de données composé d'images de chats.

clustering divisif

#clustering

Voir clustering hiérarchique.

sous-échantillonnage

#image

Terme complexe pouvant signifier l'un des éléments suivants:

Réduction de la quantité d'informations dans une fonctionnalité afin d'entraîner un modèle plus efficacement. Par exemple : avant d'entraîner un modèle de reconnaissance d'image, en sous-échantillonnant dans un format de résolution inférieure.
Entraînement sur un pourcentage disproportionné des personnes surreprésentées classe afin d'améliorer l'entraînement du modèle sur les classes sous-représentées. Par exemple, dans une classe avec déséquilibre des classes d'un ensemble de données, les modèles ont tendance à en apprendre beaucoup sur majorité et pas assez classe minoritaire. Le sous-échantillonnage aide équilibrer la quantité de formation sur les classes majoritaires et minoritaires.

Consultez la page Ensembles de données: déséquilibre ensembles de données dans le Cours d'initiation au Machine Learning.

DQN

#rl

Abréviation de Deep Q-Network.

régularisation par abandon

Forme de régularisation utile pour l'entraînement réseaux de neurones. La régularisation par abandon supprime de manière aléatoire un nombre fixe d'unités dans une couche du réseau pour un pas de gradient unique. Plus il y a d'unités abandonnées, plus la régularisation. Cette méthode est analogue à l'entraînement du réseau pour l'émulation un ensemble exponentiellement grand de réseaux plus petits. Pour en savoir plus, consultez l'article Dropout: A Simple Way to Prevent Neural Networks from Overfitting (en anglais).

dynamic

#fundamentals

Activité effectuée fréquemment ou en continu. Les termes dynamique et en ligne sont des synonymes en machine learning. Voici des utilisations courantes de l'apprentissage dynamique et de l'apprentissage en ligne dans l'apprentissage automatique :

Un modèle dynamique (ou modèle en ligne) est un modèle qui est réentraîné fréquemment ou en continu.
L'entraînement dynamique (ou l'entraînement en ligne) est le processus d'entraînement. fréquemment ou en continu.
L'inférence dynamique (ou inférence en ligne) est un processus générer des prédictions à la demande.

modèle dynamique

#fundamentals

Un modèle fréquemment (peut-être continu) réentraîné. Un modèle dynamique apprend tout au long de sa vie que s'adapte constamment à l'évolution des données. Un modèle dynamique est également appelé modèle en ligne.

À comparer au modèle statique.

E

exécution eager

#TensorFlow

Environnement de programmation TensorFlow dans lequel les opérations s'exécuter immédiatement. En revanche, les opérations appelées les exécutions de graphe ne sont pas exécutées tant qu'elles n'ont pas été explicitement évalué. L'exécution eager est une interface impérative, à l'instar du code de la plupart des langages de programmation. Les programmes d'exécution eager sont généralement bien plus faciles à déboguer que les programmes d'exécution de graphe.

arrêt prématuré

#fundamentals

Méthode de régularisation qui consiste à mettre fin à l'entraînement avant que la perte d'entraînement ne finisse de diminuer. Lors de l'arrêt prématuré, vous arrêtez intentionnellement l'entraînement du modèle Lorsque la perte d'un ensemble de données de validation commence à increase; c'est-à-dire, quand les performances en généralisation se dégradent.

Cliquez sur l'icône pour afficher des notes supplémentaires.

L'arrêt prématuré peut sembler paradoxal. Après tout, demander au modèle de s'arrêter entraînement alors que la perte continue de baisser peut donner l’impression à un cuisinier de arrêter de cuire avant que le dessert ne soit complètement fourré. Toutefois, entraîner un modèle pendant trop longtemps peut entraîner un surapprentissage. Autrement dit, si vous entraînez un modèle trop longtemps, il est possible qu'il s'adapte si étroitement aux données d'entraînement qu'il ne fasse pas de bonnes prédictions avec de nouveaux exemples.

distance du déménageur (EMD)

Mesure de la similarité relative de deux distributions. Plus la distance du transporteur de terre est faible, plus les distributions sont similaires.

modifier la distance

#language

Mesure du degré de similarité entre deux chaînes de texte. En machine learning, la modification de la distance est utile, car elle permet le calcul, et c'est un moyen efficace de comparer deux chaînes connues pour être similaires ou pour trouver des chaînes similaires à une chaîne donnée.

Il existe plusieurs définitions de la distance d'édition, chacune utilisant des opérations de chaîne différentes. Par exemple, la distance de Levenshtein prend en compte le moins d'opérations de suppression, d'insertion et de substitution.

Par exemple, la distance de Levenshtein entre les mots "cœur" et "fléchettes" est de trois, car les trois modifications suivantes sont les moins nombreuses à transformer un mot en l'autre :

cœur → deart (remplacez "h" par "d")
deart → fléchette (supprime "e")
fléchette → fléchettes (insert "s")

Notation Einsum

Une notation efficace pour décrire comment deux tensors doivent être combinés. Les Tensors sont combinés en multipliant les éléments d'un Tensor par les éléments de l'autre Tensor, puis en additionnant les produits. La notation Einsum utilise des symboles pour identifier les axes de chaque Tensor, lesquels les mêmes symboles sont réorganisés pour spécifier la forme du nouveau Tensor qui en résulte.

NumPy fournit une implémentation courante d'Einsum.

couche d'embedding

#language

#fundamentals

Couche cachée spéciale qui s'entraîne sur une caractéristique catégorique à haute dimension pour apprendre progressivement un vecteur d'embedding de dimension inférieure. Une la couche de représentation vectorielle continue permet à un réseau de neurones d'entraîner plus efficace que l'entraînement avec la caractéristique catégorielle de grande dimension.

Par exemple, la Terre compte actuellement environ 73 000 espèces d'arbres. Supposons espèce d'arbre est une caractéristique de votre modèle. Par conséquent, la couche d'entrée inclut un vecteur one-hot 73 000 les éléments de long. Par exemple, baobab serait peut-être représenté comme ceci:

Tableau de 73 000 éléments. Les 6 232 premiers éléments contiennent la valeur 0. L'élément suivant contient la valeur 1. Les 66 767 derniers éléments contiennent la valeur 0.

Un tableau de 73 000 éléments est très long. Si vous n'ajoutez pas de couche de représentation vectorielle continue au modèle, l'entraînement prend beaucoup de temps, car en multipliant 72 999 zéros. Vous pouvez choisir que la couche d'embedding se compose de 12 dimensions. Par conséquent, la couche d'embedding apprendra progressivement un nouveau vecteur d'embedding pour chaque espèce d'arbre.

Dans certains cas, le hachage constitue une alternative raisonnable à une couche d'encapsulation.

Pour en savoir plus, consultez la section Embeddings dans le cours d'initiation au machine learning.

espace de représentation vectorielle continue

#language

L'espace vectoriel à d dimensions qui provient d'une dimension de plus grande dimension l’espace vectoriel auxquels sont mappés. Dans l'idéal, l'espace de représentation vectorielle contient une structure qui génère des résultats mathématiques significatifs ; par exemple, dans un espace de représentation vectorielle optimal, l'addition et la soustraction de représentations vectorielles continues peuvent résoudre des tâches d'analogie de mots.

Le produit scalaire de deux espaces de représentation vectorielle est une mesure de leur similarité.

vecteur d'embedding

#language

De manière générale, un tableau de nombres à virgule flottante tirés de n'importe lequel couche cachée qui décrivent les entrées de cette couche cachée. Souvent, un vecteur d'embedding est le tableau de nombres à virgule flottante entraîné dans une couche d'embedding. Par exemple, supposons qu'une couche de représentation vectorielle continue doit apprendre une pour chacune des 73 000 espèces d'arbres sur Terre. Le tableau suivant est peut-être le vecteur d'embedding d'un baobab :

Tableau de 12 éléments, chacun contenant un nombre à virgule flottante
entre 0,0 et 1,0.

Un vecteur de représentation vectorielle continue n'est pas un groupe de nombres aléatoires. Une couche d'embedding détermine ces valeurs via l'entraînement, comme un réseau de neurones apprend d'autres poids pendant l'entraînement. Chaque élément du est une notation associée aux caractéristiques d'une espèce d'arbre. Quel élément représente la caractéristique de quelle espèce d'arbre ? C'est très difficile pour que les humains puissent le déterminer.

La partie mathématiquement remarquable d'un vecteur d'embedding est que les éléments similaires ont des ensembles de nombres à virgule flottante similaires. Par exemple, des espèces d'arbres ont un jeu de nombres à virgule flottante plus proche que des espèces d'arbres différentes. Les séquoias et les séquoias géants sont des espèces d'arbres apparentées. Ils auront donc un ensemble de nombres à virgule flottante plus similaire que les séquoias géants et les cocotiers. Les nombres du vecteur de représentation vectorielle continue chaque fois que vous réentraînez le modèle, même si vous le réentraînez avec une entrée identique.

Fonction de distribution cumulative empirique (eCDF ou EDF)

Une fonction de distribution cumulative à partir de mesures empiriques provenant d'un ensemble de données réel. La valeur de la fonction à n'importe quel point de l'axe X correspond à la fraction des observations de l'ensemble de données qui sont inférieures ou égales à la valeur spécifiée.

minimisation du risque empirique (ERM)

Choisir la fonction qui minimise la perte pour l'ensemble d'entraînement. À comparer à la minimisation du risque structurel.

encodeur

#language

En général, tout système de ML qui effectue une conversion à partir d'un système de ML brut, creux ou externe la représentation en une représentation plus traitée, plus dense ou plus interne.

Les encodeurs sont souvent un composant d'un modèle plus vaste, où ils sont souvent associés à un décodeur. Quelques modèles Transformer associer des encodeurs à des décodeurs, bien que les autres modèles Transformer n'utilisent que l'encodeur ou uniquement le décodeur.

Certains systèmes utilisent la sortie de l'encodeur comme entrée d'un réseau de classification ou de régression.

Dans les tâches séquence à séquence, un encodeur prend une séquence d'entrée et renvoie un état interne (un vecteur). Ensuite, le décodeur utilise cet état interne pour prédire la séquence suivante.

Consultez Transformer pour connaître la définition d'un encodeur dans l'architecture Transformer.

Voir l'article LLM: Qu'est-ce qu'un grand langage modèle dans le Cours d'initiation au Machine Learning.

ensemble

Ensemble de modèles entraînés indépendamment et dont les prédictions la moyenne ou agrégée. Dans de nombreux cas, un ensemble produit de meilleurs des prédictions qu'avec un seul modèle. Par exemple, une forêt d'arbres aléatoires est un ensemble construit à partir de plusieurs arbres de décision. Notez que tous les Les forêts de décision sont des ensembles.

Pour en savoir plus, consultez la section Forêt aléatoire du cours d'initiation au machine learning.

entropie

#df

Dans <ph type="x-smartling-placeholder"></ph> théorie de l'information, une description de l'imprévisibilité d'une probabilité la distribution. L'entropie est également définie comme la quantité informations contenues dans chaque exemple. Une distribution comporte l'entropie la plus élevée possible lorsque toutes les valeurs d'une variable aléatoire sont tout aussi probable.

Entropie d'un ensemble avec deux valeurs possibles "0" et "1" (par exemple, étiquettes d'un problème de classification binaire) utilise la formule suivante:

H = -p log p - q log q = -p log p - (1-p) * log (1-p)

où :

H est l'entropie.
p correspond à la fraction des exemples "1".
q est la fraction de "0". exemples. Notez que q = (1 - p).
log est généralement log₂. Dans ce cas, l'entropie est un peu.

Par exemple, supposons les éléments suivants :

100 exemples contiennent la valeur "1"
300 exemples contiennent la valeur "0"

La valeur d'entropie est donc la suivante :

p = 0,25
q = 0,75
H = (-0,25)log₂(0,25) - (0,75)log₂(0,75) = 0,81 bit par exemple

Un ensemble parfaitement équilibré (par exemple, 200 "0" et 200 "1") aurait une entropie de 1,0 bit par exemple. À mesure qu'un ensemble devient plus déséquilibré, son entropie tend vers 0,0.

Dans les arbres de décision, l'entropie permet de formuler le gain d'information pour aider le séparateur à sélectionner les conditions au cours de la croissance d'un arbre de décision de classification.

Comparez l'entropie à :

impurité du gini
Fonction de perte de l'entropie croisée

L'entropie est souvent appelée entropie de Shannon.

Pour en savoir plus, consultez la section Diviseur exact pour la classification binaire avec des caractéristiques numériques dans le cours sur les forêts de décision.

de production

#rl

Dans le renforcement, monde qui contient l'agent et qui lui permet d'observer l'état de ce monde. Par exemple : le monde représenté peut être un jeu comme les échecs, ou un monde physique comme un dans ce labyrinthe. Lorsque l'agent applique une action à l'environnement, puis l'environnement passe d'un état à l'autre.

épisode

#rl

Dans l'apprentissage par renforcement, chacune des tentatives répétées de l'agent pour apprendre un environnement.

epoch

#fundamentals

Cycle d'entraînement complet sur l'ensemble de l'ensemble d'entraînement de manière à ce que chaque exemple ait été traité une fois.

Une époque représente N/taille de lot itérations d'entraînement, où N est le le nombre total d'exemples.

Par exemple, supposons les éléments suivants:

L'ensemble de données se compose de 1 000 exemples.
La taille de lot est de 50 exemples.

Par conséquent, une seule époque nécessite 20 itérations :

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

Voir la section Régression linéaire: Hyperparamètres dans le Cours d'initiation au Machine Learning.

règle égoiste epsilon

#rl

Dans l'apprentissage par renforcement, une règle qui suit un règle aléatoire avec une probabilité epsilon ou une règle gloutonne dans les autres cas. Par exemple, si epsilon est égal à 0,9, la règle suit une règle aléatoire 90 % du temps et une règle avide 10 % du temps.

Au fil des épisodes successifs, l'algorithme réduit la valeur d'épsilon afin de passer d'une politique aléatoire à une politique avide. Par en changeant la règle, l'agent explore d'abord l'environnement et exploite les résultats de l'exploration aléatoire.

égalité des chances

#fairness

Une métrique d'équité pour évaluer si un modèle prédire aussi bien le résultat souhaitable pour toutes les valeurs d'une attribut sensible. En d'autres termes, si le le résultat souhaité pour un modèle est la classe positive, l'objectif est que le taux de vrais positifs soit même pour tous les groupes.

L'égalité des chances est liée aux probabilités égales, ce qui nécessite que les deux taux de vrais positifs et les taux de faux positifs soient les mêmes pour tous les groupes.

Supposons que l'université Glubbdubdrib admette à un programme de mathématiques rigoureux des Lilliputiens et des Brobdingnagiens. Lilliputiens les établissements d'enseignement secondaire proposent de mathématiques et que la grande majorité des élèves sont qualifié pour le programme universitaire. Les établissements d'enseignement secondaire des Brobdingnagiens n'offrent pas du tout de cours de mathématiques. Par conséquent, beaucoup moins de leurs élèves sont qualifiés. L'égalité des chances est satisfaite pour l'étiquette préférée de "admis" en fonction de la nationalité (liliputienne ou brobdingnagienne) : les étudiants qualifiés ont les mêmes chances d'être admis, qu'ils soient c'est un Lilliputien ou un Brobdingnag.

Par exemple, supposons que 100 Lilliputiens et 100 Brobdingnagiens postulent à l'université Glubbdubdrib, et que les décisions d'admission soient prises comme suit :

Tableau 1. Candidats Lilliputiens (90 % sont éligibles)

	Qualifié	Non défini
Admis	45	3
Refusé	45	7
Total	90	10
Pourcentage d'étudiants qualifiés admis : 45/90 = 50 % Pourcentage d'étudiants non qualifiés refusés : 7/10 = 70 % Pourcentage total d'étudiants Lilliputiens admis : (45 + 3)/100 = 48 %

Tableau 2. Candidats boursiers (10% sont qualifiés):

	Qualifié	Non défini
Admis	5	9
Refusé	5	81
Total	10	90
Pourcentage d'étudiants qualifiés admis: 5/10 = 50% Pourcentage d'élèves non qualifiés refusés: 81/90 = 90% Pourcentage total d'étudiants de Brobdingnagian acceptés: (5+9)/100 = 14%

Les exemples précédents satisfont à l'égalité des chances pour l'acceptation de d'étudiants qualifiés parce que les Lilliputiens et les Brobdingnagiens sont qualifiés ont 50% de chances d'être admis.

Bien que l'égalité des chances soit satisfaite, les deux métriques d'impartialité suivantes ne sont pas satisfaits:

Parité démographique: les lilliputiens et Les brobdingnagiens sont admis à l'université à des tarifs différents. 48% des étudiants lilliputiens sont acceptés, mais seulement 14 % Les étudiants brobdingnagiens sont acceptés.
Chances égales : même si les élèves Lilliputiens et Brobdingnagiens qualifiés ont les mêmes chances d'être admis, la contrainte supplémentaire selon laquelle les Lilliputiens et les Brobdingnagiens non qualifiés ont les mêmes chances d'être refusés n'est pas satisfaite. Les Lilliputiens non qualifiés ont un taux de refus de 70 %, tandis que les Brobdingnagiens non qualifiés ont un taux de refus de 90 %.

Pour en savoir plus, consultez la section Équité : égalité des chances dans le cours d'initiation au machine learning.

cotes égales

#fairness

Métrique d'équité pour évaluer si un modèle prédit les résultats de manière égale convient à toutes les valeurs d'un attribut sensible avec à la fois par rapport à la classe positive et classe négative, pas seulement à l'une ou l'autre des classes exclusivement. En d'autres termes, le taux de vrais positifs et le taux de faux négatifs doivent être les mêmes pour tous les groupes.

Les chances égalisées sont liées à l'égalité des chances, qui ne se concentre que sur les taux d'erreur d'une seule classe (positive ou négative).

Par exemple, supposons que l'université Glubbdubdrib admette à la fois des Lilliputiens et des Brobdingnagiens dans un programme de mathématiques rigoureux. Lilliputiens secondaire proposent un programme rigoureux de cours de mathématiques et la grande majorité des les étudiants sont qualifiés pour le programme universitaire. Les écoles secondaires des Brobdingnagiens n'offrent pas du tout de cours de mathématiques. Par conséquent, beaucoup moins de leurs élèves sont qualifiés. Les chances égales sont respectées, que le demandeur soit un Lilliputien ou un Brobdingnagien. S'il est qualifié, il a autant de chances d'être admis au programme que s'il ne l'est pas.

Supposons que 100 Lilliputiens et 100 Brobdingnagiens s'appliquent à Glubbdubdrib Les décisions concernant les universités et les admissions sont prises comme suit:

Tableau 3 : Candidats lilliputiens (90% sont qualifiés)

	Qualifié	Non défini
Admis	45	2
Refusé	45	8
Total	90	10
Pourcentage d'étudiants qualifiés acceptés : 45/90 = 50 % Pourcentage d'étudiants non qualifiés refusés : 8/10 = 80 % Pourcentage total d'étudiants Lilliputiens acceptés : (45 + 2)/100 = 47 %

Tableau 4. Candidats Brobdingnagiens (10 % sont éligibles) :

	Qualifié	Non défini
Admis	5	18
Refusé	5	72
Total	10	90
Pourcentage d'étudiants qualifiés admis: 5/10 = 50% Pourcentage d'élèves non qualifiés refusés: 72/90 = 80% Pourcentage total d'étudiants de Brobdingnagian acceptés: (5+18)/100 = 23%

La probabilité est égale à égalité, car les qualifications lilliputiennes et brobdingnagiennes qualifiées sont les élèves ont 50% de chances d'être admis, et les lilliputiens non qualifiés et Brobdingnagian ont 80% de chances d'être rejetés.

Les probabilités égalisées sont définies officiellement dans "Equality of Opportunity in Supervised Learning" (Égalité des chances dans l'apprentissage supervisé) comme suit : "Le prédicteur Ŷ satisfait les probabilités égalisées par rapport à l'attribut protégé A et au résultat Y si Ŷ et A sont indépendants, sous réserve de Y."

Estimator

#TensorFlow

API TensorFlow obsolète. Utilisez tf.keras à la place. des Estimators.

evals

#language

#generativeAI

Abréviation principalement utilisée pour les évaluations de LLM. Plus généralement, evals est l'abréviation de toute forme Évaluation.

hors connexion

#language

#generativeAI

Processus consistant à mesurer la qualité d'un modèle ou à comparer différents modèles l'un à l'autre.

Pour évaluer un modèle de machine learning supervisé, vous le comparez généralement à un ensemble de validation et à un ensemble de test. Évaluer un LLM implique généralement des évaluations plus larges de la qualité et de la sécurité.

exemple

#fundamentals

Valeurs d'une ligne de éléments géographiques et éventuellement d'un libellé. Les exemples d'apprentissage supervisé se divisent en deux catégories générales :

Un exemple étiqueté se compose d'une ou plusieurs caractéristiques et d'un libellé. Les exemples étiquetés sont utilisés pendant l'entraînement.
Un exemple sans étiquette comprend un ou plusieurs plus de caractéristiques, mais pas d'étiquette. Les exemples sans étiquette sont utilisés pendant l'inférence.

Par exemple, supposons que vous entraînez un modèle pour déterminer l'influence sur les conditions météorologiques sur les résultats des élèves. Voici trois exemples avec des libellés :

Fonctionnalités			Libellé
Température	Humidité	Pression	Résultat du test
15	47	998	Bonne
19	34	1020	Excellente
18	92	1012	Médiocre

Voici trois exemples sans étiquette:

Température	Humidité	Pression
12	62	1014
21	47	1017
19	41	1021

La ligne d'un ensemble de données est généralement la source brute d'un exemple. Autrement dit, un exemple se compose généralement d'un sous-ensemble des colonnes de l'ensemble de données. De plus, les éléments d'un exemple peuvent également inclure des éléments synthétiques, tels que des croisements de caractéristiques.

Pour en savoir plus, consultez la section Apprentissage supervisé du cours "Introduction au machine learning".

Replay de l'expérience

#rl

Dans le renforcement appris, une technique DQN utilisée pour réduire les corrélations temporelles dans les données d'entraînement. L'agent stocke les transitions d'état dans un tampon de relecture, puis échantillonne les transitions à partir du tampon de relecture pour créer des données d'entraînement.

effet expérimentateur

#fairness

Voir biais de confirmation.

problème de gradient explosif

#seq

La tendance des gradients dans les réseaux de neurones profonds (en particulier les réseaux de neurones récurrents) afin qu'ils deviennent étonnamment raide (élevé). Les gradients raides entraînent souvent des mises à jour très importantes des pondérations de chaque nœud dans un réseau de neurones profond.

Les modèles souffrant du problème d'explosion du gradient deviennent difficiles ou impossibles à entraîner. La coupe du dégradé peut atténuer ce problème.

Comparez-le au problème de gradient qui disparaît.

F

F₁

Métrique de classification binaire "récapitulative" qui repose à la fois sur la précision et le rappel. Voici la formule:

$$F{_1} = \frac{\text{2 * precision * recall}} {\text{precision + recall}}$$

Par exemple, supposons les éléments suivants :

precision = 0,6
rappel = 0,4

$$F{_1} = \frac{\text{2 * 0.6 * 0.4}} {\text{0.6 + 0.4}} = 0.48$$

Lorsque la précision et le rappel sont assez similaires (comme dans l'exemple précédent), le score F₁ est proche de leur moyenne. Lorsque la précision et le rappel diffèrent de manière significative, F₁ est plus proche de la valeur la plus basse. Exemple :

precision = 0,9
rappel = 0,1

$$F{_1} = \frac{\text{2 * 0.9 * 0.1}} {\text{0.9 + 0.1}} = 0.18$$

contrainte d'équité

#fairness

Appliquer une contrainte à un algorithme pour garantir une ou plusieurs définitions de l’impartialité sont satisfaits. Voici quelques exemples de contraintes d'équité:

Post-traitement de la sortie de votre modèle.
Modifier la fonction de perte pour intégrer une pénalité en cas de non-respect d'une métrique d'équité.
Ajouter directement une contrainte mathématique à un problème d'optimisation.

métrique d'équité

#fairness

Une définition mathématique de l'équité qui est mesurable Voici quelques métriques d’équité couramment utilisées:

cotes égales
parité prédictive
impartialité contrefactuelle
parité démographique

De nombreuses métriques d'équité s'excluent mutuellement. voir incompatibilité des métriques d'équité.

faux négatif (FN)

#fundamentals

Exemple dans lequel le modèle prédit à tort classe négative. Par exemple, le modèle prédit qu'un e-mail particulier n'est pas du spam (classe négative), alors qu'en réalité il l'est.

taux de faux négatifs

Proportion d'exemples positifs réels pour lesquels le modèle a prédit à tort la classe négative. La formule suivante calcule le taux de faux négatifs :

$$\text{false negative rate} = \frac{\text{false negatives}}{\text{false negatives} + \text{true positives}}$$

Voir la section Seuils et confusion matricielle dans le Cours d'initiation au Machine Learning.

faux positif (FP)

#fundamentals

Exemple dans lequel le modèle prédit à tort classe positive. Par exemple, le modèle prédit qu'un e-mail donné est considéré comme du spam (classe positive), mais que l'e-mail n'est en réalité pas un spam.

Pour en savoir plus, consultez la section Seuils et matrice de confusion du cours d'initiation au machine learning.

taux de faux positifs (TFP)

#fundamentals

Proportion d'exemples négatifs réels pour lesquels le modèle a prédit à tort la classe positive. La formule suivante calcule le taux de faux positifs :

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

Le taux de faux positifs correspond à l'abscisse d'une courbe ROC.

Voir la section Classification: ROC et AUC dans le Cours d'initiation au Machine Learning.

fonctionnalité

#fundamentals

Variable d'entrée d'un modèle de machine learning. Exemple comprend une ou plusieurs caractéristiques. Par exemple, supposons que vous entraîniez un pour déterminer l'influence des conditions météorologiques sur les résultats des élèves aux tests. Le tableau suivant présente trois exemples, chacun contenant trois éléments géographiques et un libellé :

Fonctionnalités			Libellé
Température	Humidité	Pression	Résultat du test
15	47	998	92
19	34	1020	84
18	92	1012	87

À comparer au libellé.

Consultez la section Apprentissage supervisé. dans le cours "Introduction to Machine Learning".

croisement de caractéristiques

#fundamentals

Caractéristique synthétique résultant du "croisement" de caractéristiques catégorielles ou binées.

Prenons l'exemple d'un modèle de "prédiction de l'humeur" qui représente la température dans l'un des quatre buckets suivants :

freezing
chilly
temperate
warm

Il représente la vitesse du vent dans l'un des trois buckets suivants :

still
light
windy

Sans croisements de caractéristiques, le modèle linéaire s'entraîne de façon indépendante sur chacune des qui précède sept buckets différents. Ainsi, le modèle s'entraîne sur, par exemple, freezing indépendamment de l'entraînement sur, par exemple, windy.

Vous pouvez également créer un croisement de caractéristiques entre la température et la vitesse du vent. Cette caractéristique synthétique aurait les 12 possibilités suivantes : :

freezing-still
freezing-light
freezing-windy
chilly-still
chilly-light
chilly-windy
temperate-still
temperate-light
temperate-windy
warm-still
warm-light
warm-windy

Grâce aux croisements de caractéristiques, le modèle peut apprendre les différences d'humeur entre un jour freezing-windy et un jour freezing-still.

Si vous créez une caractéristique synthétique à partir de deux caractéristiques qui comportent chacune de nombreux buckets différents, le croisement de caractéristiques qui en résultera aura un nombre énorme de combinaisons possibles. Par exemple, si une caractéristique comporte 1 000 buckets l'autre comporte 2 000 buckets, le croisement de caractéristiques obtenu comporte 2 000 000 Cloud Storage.

Officiellement, une croix est une Produit cartésien.

Les croisements de caractéristiques sont principalement utilisés avec les modèles linéaires et sont rarement utilisés avec les réseaux de neurones.

Pour en savoir plus, consultez la section Données catégorielles : croisements de fonctionnalités dans le cours d'initiation au machine learning.

l'ingénierie des caractéristiques.

#fundamentals

#TensorFlow

Un processus qui comprend les étapes suivantes:

Déterminer les fonctionnalités qui pourraient être utiles lors de l'entraînement d'un modèle.
Conversion des données brutes de l'ensemble de données en versions efficaces ces caractéristiques.

Par exemple, vous pouvez déterminer que temperature peut être utile . Vous pouvez ensuite tester le binning afin d'optimiser ce que le modèle peut apprendre à partir des différentes plages temperature.

L'ingénierie des caractéristiques est parfois appelée extraction de caractéristiques ou featurisation.

Cliquez sur l'icône pour obtenir des informations supplémentaires sur TensorFlow.

Dans TensorFlow, l'ingénierie des caractéristiques implique souvent de convertir les entrées des fichiers journaux bruts en Protocol Buffers tf.Example. Voir aussi tf.Transform.

Consultez la page Données numériques: comment un modèle ingère des données à l'aide des caractéristiques. des vecteurs dans le Cours d'initiation au Machine Learning.

extraction de caractéristiques

Terme complexe qui a une des définitions suivantes :

Récupérer des représentations de caractéristiques intermédiaires calculées par une modèle non supervisé ou pré-entraîné (par exemple, les valeurs de la couche cachée d'une réseau de neurones) pour les utiliser en entrée dans un autre modèle.
Synonyme d'ingénierie des caractéristiques.

importance des caractéristiques

#df

Synonyme de importance des variables.

ensemble de fonctionnalités

#fundamentals

Groupe des caractéristiques utilisées pour l'entraînement de votre modèle de machine learning. Par exemple, le code postal, la taille et l'état du bien peuvent comprend un ensemble de caractéristiques simple pour un modèle qui prédit le prix des logements.

spécification des caractéristiques

#TensorFlow

Décrit les informations requises pour extraire les données de caractéristiques à partir du tampon de protocole tf.Example. Étant donné que le tampon de protocole tf.Example n'est qu'un conteneur de données, vous devez spécifier les éléments suivants :

Les données à extraire (c'est-à-dire les clés des caractéristiques)
Type de données (par exemple, float ou int)
La longueur (fixe ou variable)

vecteur de caractéristiques

#fundamentals

Tableau des valeurs de caractéristiques constituant un exemple. L'entrée du vecteur de caractéristiques pendant l'entraînement et pendant l'inférence. Par exemple, le vecteur de caractéristiques d'un modèle avec deux caractéristiques discrètes peut être le suivant :

[0.92, 0.56]

Quatre couches : une couche d'entrée, deux couches cachées et une couche de sortie.
La couche d'entrée contient deux nœuds, l'un contenant la valeur 0,92 et l'autre la valeur 0,56.

Chaque exemple fournit des valeurs différentes pour le vecteur de caractéristiques. pour l'exemple suivant, le vecteur de caractéristiques pourrait ressembler à ceci:

[0.73, 0.49]

L'ingénierie des caractéristiques détermine comment représenter les caractéristiques dans le vecteur de caractéristiques. Par exemple, une caractéristique catégorielle binaire avec cinq valeurs possibles peut être représentée par un encodage one-hot. Dans ce cas, la partie le vecteur de caractéristiques pour un exemple particulier se compose de quatre zéros et un seul 1.0 en troisième position, comme suit:

[0.0, 0.0, 1.0, 0.0, 0.0]

Autre exemple : supposons que votre modèle se compose de trois caractéristiques :

une caractéristique catégorielle binaire avec cinq valeurs possibles représentées par un codage one-hot (par exemple : [0.0, 1.0, 0.0, 0.0, 0.0])
une autre caractéristique catégorielle binaire avec trois valeurs possibles représentées avec encodage one-hot, Exemple: [0.0, 0.0, 1.0]
une caractéristique à virgule flottante ; Exemple: 8.3.

Dans ce cas, le vecteur de caractéristiques de chaque exemple serait représenté par neuf valeurs. Compte tenu des exemples de valeurs de la liste précédente, le vecteur de caractéristiques serait le suivant :

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

Consultez la page Données numériques: comment un modèle ingère des données à l'aide des caractéristiques. des vecteurs dans le Cours d'initiation au Machine Learning.

featurization

Processus d'extraction de caractéristiques à partir d'une source d'entrée, telle qu'un document ou une vidéo, et de mappage de ces caractéristiques dans un vecteur de caractéristiques.

Certains experts en ML utilisent la featurization comme synonyme de l'ingénierie des caractéristiques ou extraction de caractéristiques.

apprentissage fédéré

Une approche de machine learning distribué qui entraîne modèles de machine learning à l'aide de modèles exemples stockés sur des appareils tels que des smartphones. Dans l'apprentissage fédéré, un sous-ensemble d'appareils télécharge le modèle actuel. à partir d'un serveur central de coordination. Les appareils utilisent les exemples stockés sur eux pour améliorer le modèle. Les appareils importent ensuite les améliorations du modèle (mais pas les exemples d'entraînement) sur le serveur de coordination, où elles sont agrégées avec d'autres mises à jour pour générer un modèle global amélioré. Après l'agrégation, le modèle met à jour les calculs effectués par les appareils ne sont plus nécessaires et peuvent être supprimés.

Comme les exemples d'entraînement ne sont jamais importés, l'apprentissage fédéré suit le des principes de confidentialité en matière de collecte ciblée et de minimisation des données.

Pour en savoir plus sur l'apprentissage fédéré, consultez ce tutoriel.

boucle de rétroaction

#fundamentals

En machine learning, situation dans laquelle les prédictions d'un modèle influencent les données d'entraînement du même modèle ou d'un autre modèle. Par exemple, un modèle qui recommande des films influence les films que les utilisateurs regardent, ce qui influence ensuite les modèles de recommandation de films suivants.

Pour en savoir plus, consultez la section Systèmes de ML en production : questions à se poser dans le cours d'initiation au machine learning.

Réseau de neurones feedforward (FFN)

Réseau de neurones sans connexions cycliques ou récursives. Par exemple : Les réseaux de neurones profonds traditionnels sont les réseaux de neurones feedforward. À comparer au neurone réseaux VPC, qui sont cycliques.

apprentissage few-shot

Approche du machine learning, souvent utilisée pour la classification d'objets, conçue pour entraîner des classificateurs efficaces à partir d'un petit nombre d'exemples d'entraînement.

Voir aussi apprentissage one-shot et Apprentissage zero-shot :

requêtes few-shot

#language

#generativeAI

Une requête contenant plusieurs exemples montrant comment le grand modèle de langage doit répondre. Par exemple, la longue requête suivante contient deux Exemples montrant à un grand modèle de langage comment répondre à une requête.

Composants d'une requête	Remarques
`Quelle est la devise officielle du pays spécifié ?`	Question à laquelle le LLM doit répondre.
`France : EUR`	Prenons un exemple.
`Royaume-Uni : GBP`	Autre exemple.
`Inde` :	Requête réelle.

Les requêtes few-shot génèrent généralement des résultats plus intéressants que les requêtes zero-shot et les requêtes one-shot. Toutefois, les requêtes few-shot nécessitent une requête plus longue.

Les requêtes few-shot sont une forme d'apprentissage few-shot appliquée à l'apprentissage basé sur les requêtes.

Pour en savoir plus, consultez la section Ingénierie des requêtes du cours d'initiation au machine learning.

Violon

#language

Bibliothèque de configuration Python first qui définit les valeurs des fonctions et des classes sans code ni infrastructure intrusifs. Dans le cas de Pax (et d'autres codebases de ML), ces fonctions et classes représentent des modèles et des hyperparamètres d'entraînement.

Violon suppose que les codebases de machine learning sont généralement divisés en:

Le code de bibliothèque, qui définit les couches et les optimiseurs.
Ensemble de données "glue" qui appelle les bibliothèques et les câbles ensemble.

Fiddle capture la structure d'appel du code de liaison sous une forme non évaluée et modifiable.

optimisation

#language

#image

#generativeAI

Un deuxième parcours de formation spécifique à une tâche, effectué sur un modèle pré-entraîné pour affiner ses paramètres pour pour un cas d'utilisation spécifique. Par exemple, la séquence d'entraînement complète Les grands modèles de langage se présentent comme suit:

Pré-entraînement:entraînez un grand modèle de langage sur un vaste ensemble de données général. comme toutes les pages Wikipédia en anglais.
Ajustement : entraînez le modèle pré-entraîné pour qu'il effectue une tâche spécifique, comme répondre à des requêtes médicales. Le réglage fin implique généralement des centaines ou des milliers d'exemples axés sur la tâche spécifique.

Autre exemple : la séquence d'entraînement complète d'un grand modèle d'image se présente comme suit :

Pré-entraînement : entraînez un grand modèle d'image sur un vaste ensemble de données d'images générales, comme toutes les images de Wikimedia Commons.
Affinement : entraînez le modèle pré-entraîné pour qu'il effectue une tâche spécifique, comme générer des images d'orques.

L'affinage peut nécessiter n'importe quelle combinaison des stratégies suivantes:

Modifier tous les paramètres existants du modèle pré-entraîné. On parle parfois de réglage fin complet.
Modifier seulement certains des paramètres existants du modèle pré-entraîné (généralement, les couches les plus proches de la couche de sortie), tout en laissant les autres paramètres existants inchangés (généralement, les couches les plus proches de la couche d'entrée). Voir réglage efficace des paramètres.
Ajouter des calques, généralement au-dessus des calques existants les plus proches du couche de sortie.

L'optimisation est une forme d'apprentissage par transfert. Par conséquent, l'affinage peut utiliser une fonction de perte différente ou un modèle différent que celui utilisé pour entraîner le modèle pré-entraîné. Par exemple, vous pouvez affinez un grand modèle d'images pré-entraînés pour produire un modèle de régression renvoie le nombre d'oiseaux dans une image d'entrée.

Indiquer les points communs et les différences entre l'affinage avec les termes suivants:

distillation
apprentissage par requête

Pour en savoir plus, consultez la section Réglage dans le Cours d'initiation au Machine Learning.

Lin

#language

Bibliothèque Open Source hautes performances pour le deep learning, basée sur JAX. Flax fournit des fonctions pour entraîner des réseaux de neurones, ainsi que des méthodes pour évaluer leurs performances.

Lin

#language

Transformer Open Source bibliothèque basé sur Flax et conçu principalement pour le traitement du langage naturel et la recherche multimodale.

porte de suppression

#seq

La partie d'une mémoire à long terme à court terme. cellule qui régule le flux d'informations dans la cellule. Les portes à oublier conservent le contexte en décidant quelles informations supprimer de l'état de la cellule.

softmax complet

Synonyme de softmax.

À comparer à l'échantillonnage de candidats.

Pour en savoir plus, consultez la section Réseaux de neurones : classification à classes multiples du cours d'initiation au machine learning.

couche entièrement connectée

Couche cachée dans laquelle chaque nœud est connecté à tous les nœuds de la couche cachée suivante.

Une couche entièrement connectée est également appelée couche dense.

transformation de fonction

Fonction qui reçoit une fonction en entrée et renvoie une fonction transformée en sortie. JAX utilise les transformations de fonction.

G

GAN

Abréviation de réseaux antagonistes génératifs.

généralisation

#fundamentals

Capacité d'un modèle à effectuer des prédictions correctes pour des données nouvelles, qui n'ont encore jamais été vues. Un modèle qui peut généraliser est l'inverse d'un modèle en surapprentissage.

Cliquez sur l'icône pour afficher des notes supplémentaires.

Vous entraînez un modèle avec les exemples de l'ensemble d'entraînement. Par conséquent, le apprend les particularités des données dans l'ensemble d'entraînement. Généralisation demande essentiellement si votre modèle peut faire de bonnes prédictions à partir d'exemples qui ne figurent pas dans l'ensemble d'entraînement.

Pour encourager la généralisation, La régularisation permet d'entraîner un modèle moins exactement aux particularités des données de l'ensemble d'entraînement.

Consultez la page Généralisation. dans le Cours d'initiation au Machine Learning.

Gemini

#language

#image

#generativeAI

Écosystème composé de l'IA la plus avancée de Google. Voici quelques éléments de cet écosystème :

différents modèles Gemini ;
Interface de conversation interactive pour un modèle Gemini Les utilisateurs saisissent des requêtes, et Gemini y répond.
Diverses API Gemini
Divers produits d'entreprise basés sur les modèles Gemini ; Exemple : Gemini pour Google Cloud.

Modèles Gemini

#language

#image

#generativeAI

Les modèles multimodaux de pointe de Google basés sur Transformer Les modèles Gemini sont spécifiquement conçus pour s'intégrer aux agents.

Les utilisateurs peuvent interagir avec les modèles Gemini de différentes manières, y compris via une interface de boîte de dialogue interactive et via des SDK.

courbe de généralisation

#fundamentals

Graphique de la perte d'entraînement et de la perte de validation en fonction du nombre d'itérations.

Une courbe de généralisation peut vous aider à détecter un éventuel surapprentissage. Par exemple, la courbe de généralisation suivante suggère un surapprentissage, car la perte de validation devient finalement beaucoup plus élevée que la perte d'entraînement.

Graphique cartésien dans lequel l'axe des ordonnées est étiqueté "perte" et l'axe des abscisses est étiqueté "itérations". Deux graphiques s'affichent. Un tracé montre le
la perte d'entraînement, et l'autre
indique la perte de validation.
Les deux graphiques se ressemblent au début, mais la perte d'entraînement finit par descendre beaucoup plus bas que la perte de validation.

Pour en savoir plus, consultez la section Généralisation du cours d'initiation au machine learning.

modèle linéaire généralisé

Généralisation des modèles de régression des moindres carrés, qui sont basés sur le bruit gaussien, à d'autres types de modèles basés sur d'autres types de bruit, tels que le bruit de Poisson ou le bruit catégoriel. Voici quelques exemples de modèles linéaires généralisés :

régression logistique
régression à classes multiples
régression des moindres carrés

Les paramètres d'un modèle linéaire généralisé peuvent être déterminés via optimisation convexe.

Les modèles linéaires généralisés présentent les propriétés suivantes :

La prédiction moyenne du modèle de régression des moindres carrés optimal est égale à l'étiquette moyenne des données d'entraînement.
La probabilité moyenne prédite par le modèle de régression logistique optimal est égale à l'étiquette moyenne des données d'entraînement.

La puissance d'un modèle linéaire généralisé est limitée par ses caractéristiques. Retirer le "J’aime" un modèle profond, un modèle linéaire généralisé ne peut pas "apprendre de nouvelles caractéristiques".

réseau antagoniste génératif (GAN)

Système permettant de créer des données, dans lequel un générateur crée et un discriminateur détermine les données créées sont valides ou non valides.

Pour en savoir plus, consultez le cours sur les réseaux génératifs antagonistes.

IA générative

#language

#image

#generativeAI

Un domaine qui se transforme en émergence sans définition formelle. Cela dit, la plupart des experts s'accordent à dire que les modèles d'IA générative créer ("générer") un contenu qui correspond à tous les éléments suivants:

complexe
cohérent
originale

Par exemple, un modèle d'IA générative peut créer des modèles des dissertations ou des images.

Certaines technologies plus anciennes, y compris les LSTMs et des RNN, peuvent également générer des du contenu cohérent. Certains experts considèrent ces technologies antérieures comme l'IA générative, tandis que d'autres estiment qu'une véritable IA générative nécessite que ce que ces technologies précédentes peuvent produire.

À comparer au ML prédictif.

modèle génératif

En pratique, un modèle qui effectue l'une des opérations suivantes:

Crée (génère) de nouveaux exemples à partir de l'ensemble de données d'entraînement. Par exemple, un modèle génératif peut créer de la poésie après l'entraînement sur un jeu de données de poèmes. La partie générateur d'un réseau antagoniste génératif entrent dans cette catégorie.
Détermine la probabilité qu'un nouvel exemple provienne de l'ensemble d'entraînement, ou ait été créé à partir du même mécanisme à l'origine de l'ensemble d'entraînement. Par exemple, après l'entraînement un ensemble de données composé de phrases en anglais, un modèle génératif déterminer la probabilité que la nouvelle entrée soit une phrase anglaise valide.

Un modèle génératif peut théoriquement discerner la distribution des exemples ou des caractéristiques particulières d'un ensemble de données. Par exemple :

p(examples)

Les modèles d'apprentissage non supervisés sont génératifs.

À comparer aux modèles discriminatifs.

générateur

Sous-système d'un réseau antagoniste génératif qui crée de nouveaux exemples.

À comparer au modèle discriminatif.

impurité du gini

#df

Métrique semblable à l'entropie. Les séparateurs utilisent des valeurs dérivées de l'impureté de Gini ou de l'entropie pour composer des conditions de classification des arbres de décision. Le gain d'information est dérivé de l'entropie. Il n'existe pas de terme équivalent universellement accepté pour la métrique dérivée de l'impureté de Gini. Toutefois, cette métrique sans nom est tout aussi importante que le gain d'informations.

L'impureté de Gini est également appelée indice gini, ou tout simplement gini.

Cliquez sur l'icône pour en savoir plus sur l'impureté de Gini.

L'impureté de Gini est la probabilité de mal classer une nouvelle donnée issue de la même distribution. L'impureté de Gini d'un ensemble avec deux valeurs possibles, "0" et "1" (par exemple, les libellés d'un problème de classification binaire) est calculée à partir de la formule suivante :

<ph type="x-smartling-placeholder"></ph> I = 1 - (p² + q²) = 1 - (p² + (1-p)²)

où :

I correspond à l'impureté du gini.
p est la fraction de "1". exemples.
q est la fraction de "0". exemples. Notez que q = 1-p

Prenons l'exemple de l'ensemble de données suivant :

100 étiquettes (0,25 de l'ensemble de données) contiennent la valeur "1"
300 libellés (0,75 de l'ensemble de données) contiennent la valeur "0".

Par conséquent, l'impureté de Gini est la suivante :

p = 0,25
q = 0,75
I = 1 - (0,25² + 0,75²) = 0,375

Par conséquent, une étiquette aléatoire de l'ensemble de données aura 37,5 % de chances d'être mal classée et 62,5 % de chances d'être correctement classée.

Un libellé parfaitement équilibré (par exemple, 200 "0" et 200 "1") aurait une impureté de Gini de 0,5. Une le libellé déséquilibré aurait une impurité de gini proche de 0,0.

ensemble de données clé

Ensemble de données sélectionnées manuellement qui capture la vérité terrain. Les équipes peuvent évaluer la qualité d'un modèle à l'aide d'un ou de plusieurs ensembles de données clés.

Certains ensembles de données clés capturent différents sous-domaines de la vérité terrain. Par exemple : Un ensemble de données fiable pour la classification d'images peut capturer les conditions d'éclairage et la résolution de l'image.

GPT (Generative Pre-trained Transformer)

#language

Famille de modèles basés sur Transformer grands modèles de langage développés par OpenAI :

Les variantes de GPT peuvent s'appliquer à plusieurs modalités, y compris les suivantes :

la génération d'images (par exemple, ImageGPT) ;
la génération d'images à partir de texte (par exemple, DALL-E).

gradient

Vecteur des dérivées partielles calculées pour l'ensemble des variables indépendantes. Dans le machine learning, le gradient correspond au vecteur des dérivées partielles de la fonction du modèle. Les points de dégradé dans la direction de la montée la plus forte.

accumulation de gradients

Technique de propagation inverse qui ne met à jour les paramètres qu'une fois par époque au lieu d'une fois par itération. Après le traitement de chaque mini-lot, le gradient met à jour un total cumulé de gradients. Ensuite, après avoir traité le dernier mini-lot de l'époque, le système met finalement à jour les paramètres en fonction du total de toutes les modifications de gradient.

L'accumulation de gradients est utile lorsque la taille de lot est très importante par rapport à la quantité de mémoire disponible pour l'entraînement. Lorsque la mémoire est un problème, la tendance naturelle est de réduire la taille de lot. Cependant, la réduction de la taille de lot lors d'une rétropropagation normale augmente le nombre de mises à jour des paramètres. L'accumulation de gradients permet au modèle d'éviter les problèmes de mémoire, tout en s'entraînant efficacement.

Arbres de décision à boosting de gradient (GBT)

#df

Type de forêt de décision dans laquelle:

L'entraînement repose sur le boosting par gradient.
Le modèle faible est un arbre de décision.

Pour en savoir plus, consultez la section Arbres de décision à boosting de gradient du cours sur les forêts de décision.

boosting de gradient

#df

Algorithme d'entraînement dans lequel des modèles faibles sont entraînés pour améliorer de manière itérative la qualité (réduire la perte) d'un modèle fort. Par exemple : Il peut s'agir d'un modèle linéaire ou de petit arbre de décision. Le modèle fort devient la somme de tous les modèles faibles précédemment entraînés.

Dans la forme la plus simple du renforcement par gradient, à chaque itération, un modèle faible est entraîné pour prédire le gradient de perte du modèle fort. Ensuite, la sortie du modèle fort est mise à jour en soustrayant le gradient prédit semblable à la descente de gradient.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

où :

$F_{0}$ est le modèle fort de départ.
$F_{i+1}$ est le prochain modèle fort.
$F_{i}$ est le modèle efficace actuel.
$\xi$ est une valeur comprise entre 0,0 et 1,0 appelée rétrécissement, qui est analogue au taux d'apprentissage en la descente de gradient.
$f_{i}$ est le modèle faible entraîné à prédire le gradient de perte de $F_{i}$.

Les variations modernes du boosting de gradient incluent également la dérivée secondaire (Hesses) de la perte dans leur calcul.

Les arbres de décision sont souvent utilisés comme modèles peu fiables l'optimisation du gradient. Voir arbres de décision à boosting de gradient.

bornement de la norme du gradient

#seq

Un mécanisme communément utilisé pour atténuer problème de gradient explosif en fournissant artificiellement qui limite (bornement) la valeur maximale des gradients lors de l'utilisation la descente de gradient pour entraîner un modèle.

descente de gradient

#fundamentals

Technique mathématique permettant de minimiser la perte. La descente de gradient s'ajuste de façon itérative. les pondérations et les biais, trouver progressivement la meilleure combinaison pour minimiser la perte.

La descente de gradient est beaucoup plus ancienne que le machine learning.

Reportez-vous à la section Régression linéaire: gradient descent dans le Cours d'initiation au Machine Learning.

graphique

#TensorFlow

Dans TensorFlow, une spécification de calcul. Les nœuds du graphe représentent des opérations. Les bords sont orientés et représentent le passage du résultat d'une opération (un Tensor) en tant qu'opérande vers une autre opération. Pour visualiser un graphe, utilisez TensorBoard.

exécution de graphe

#TensorFlow

Environnement de programmation TensorFlow dans lequel le programme commence par construire un graphe, puis exécute tout ou partie de ce graphe. L'exécution de graphe est le mode d'exécution par défaut dans TensorFlow 1.x.

À comparer à l'exécution eager.

règlement gourmand

#rl

Dans l'apprentissage par renforcement, stratégie qui choisit toujours l'action dont le rendement attendu est le plus élevé.

vérité terrain

#fundamentals

La réalité.

Ce qui s'est passé réellement.

Prenons l'exemple d'un modèle de classification binaire qui prédit si un étudiant en première année d'université obtiendra son diplôme dans un délai de six ans. La vérité terrain de ce modèle est de savoir si cet étudiant a effectivement obtenu son diplôme dans les six ans.

Cliquez sur l'icône pour ajouter des notes.

Nous évaluons la qualité du modèle par rapport à la vérité terrain. Cependant, la vérité terrain n'est pas toujours complète, bien, véridique. Prenons l'exemple du Voici quelques exemples d'imperfections potentielles dans la vérité terrain:

Dans l'exemple de la remise de diplôme, sommes-nous certain que l'obtention du diplôme les enregistrements de chaque élève sont-ils toujours corrects ? La tenue des registres de l'université est-elle impeccable ?
Supposons que le libellé soit une valeur à virgule flottante mesurée par des instruments (par exemple, des baromètres). Comment pouvons-nous être sûrs que chaque instrument est calibré de la même manière ou que chaque mesure a été effectuée dans les mêmes conditions ?
Si l'étiquetage est une question d'opinion humaine, comment pouvons-nous être sûrs que chaque évaluateur évalue les événements de la même manière ? Pour améliorer la cohérence, des évaluateurs humains experts interviennent parfois.

biais de représentativité

#fairness

Supposer que ce qui est vrai pour un individu s'applique aussi à tout le monde dans ce groupe. Les effets du biais de représentativité peuvent être exacerbés si un échantillonnage de convenance est utilisé pour la collecte de données. Dans un échantillon non représentatif, il est possible de faire des attributions qui ne reflètent pas la réalité.

Voir aussi le biais d'homogénéité de l'exogroupe et le biais d'appartenance. Pour en savoir plus, consultez également la section Équité : types de biais du cours d'initiation au machine learning.

H

hallucination

#language

La production de résultats qui semblent plausibles, mais qui sont en fait incorrects par une modèle d'IA générative qui vise à créer sur le monde réel. Par exemple, un modèle d'IA générative affirmant que Barack Obama est mort en 1865. est en hallucination.

hachage

Dans le machine learning, mécanisme qui permet de faire un binning des données catégorielles, en particulier lorsque le nombre de catégories est grand, mais que le nombre de catégories figurant réellement dans l'ensemble de données est comparativement faible.

Par exemple, la Terre abrite environ 73 000 espèces d'arbres. Vous pourriez représentent chacune des 73 000 espèces d'arbres réparties dans 73 000 catégories Cloud Storage. Ou bien, si seulement 200 de ces espèces d'arbres figurent réellement dans un ensemble de données, vous pouvez utiliser le hachage pour diviser les espèces d'arbres en 500 ensembles, par exemple.

Un ensemble peut contenir plusieurs espèces d'arbres. Par exemple, le hachage pourrait placer le baobab et l'érable rouge dans le même ensemble, même si ces deux espèces sont génétiquement dissemblables. Quoi qu'il en soit, le hachage reste un bon moyen de mapper de grands ensembles catégoriels au nombre sélectionné d'ensembles. Le hachage devient caractérisée par un grand nombre de valeurs possibles un plus petit nombre de valeurs en regroupant les valeurs dans déterministe.

Voir Données catégorielles: vocabulaire et one-hot encodage dans le Cours d'initiation au Machine Learning.

heuristique

Solution simple et rapide à un problème. Par exemple : "Avec une heuristique, nous avons atteint une précision de 86 %. Lorsque nous avons opté pour un réseau de neurones profond, la précision a atteint 98 %."

couche cachée

#fundamentals

Couche d'un réseau de neurones entre les couche d'entrée (les caractéristiques) et couche de sortie (la prédiction). Chaque couche cachée comprend un ou plusieurs neurones. Par exemple, le réseau de neurones suivant contient deux couches cachées, la première avec trois neurones et la seconde avec deux neurones :

Un réseau de neurones profond contient plus d'une couche cachée. Par exemple, l'illustration précédente montre un schéma neuronal profond car il contient deux couches cachées.

Pour en savoir plus, consultez la section Réseaux de neurones : nœuds et couches cachées du cours d'initiation au machine learning.

clustering hiérarchique

#clustering

Catégorie d'algorithmes de clustering qui créent un arbre de clusters. Le clustering hiérarchique est parfaitement adapté aux données hiérarchiques, telles que les catégories botaniques. Il existe deux types de tâches hiérarchiques algorithmes de clustering:

Le clustering agglomératif attribue d'abord chaque exemple à son propre cluster, et fusionne de façon itérative les clusters les plus proches pour créer arbre.
Le clustering divisif regroupe d'abord tous les exemples en un cluster, puis divise le cluster de manière itérative en un arbre hiérarchique.

À comparer au clustering basé sur centroïde.

Reportez-vous à la section Clustering algorithmes dans le cours sur le clustering.

marge maximale

Une famille de fonctions de perte pour classification conçue pour trouver frontière de décision la plus éloignée possible de chaque exemple d'entraînement, ce qui maximise la marge entre les exemples et la limite. Les KSVMs utilisent la marge maximale (ou une fonction associée, comme quadratique de la marge maximale). Pour la classification binaire, la fonction de marge maximale est défini comme suit:

$$\text{loss} = \text{max}(0, 1 - (y * y'))$$

Où y est l'étiquette réelle, soit -1 ou +1, et y' est la sortie brute du modèle du classificateur :

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Par conséquent, le graphique de la marge maximale en fonction de (y * y') se présente comme suit:

Graphique cartésien composé de deux segments de droite reliés. Le premier
commence à (-3, 4) et se termine à (1, 0). Le deuxième segment de ligne commence à (1, 0) et se poursuit indéfiniment avec une pente de 0.

biais historique

#fairness

Type de biais qui existe déjà dans le monde et s'est glissé dans un ensemble de données. Ces biais ont tendance à refléter stéréotypes culturels, inégalités démographiques et préjugés à l'encontre de certaines groupes sociaux.

Prenons l'exemple d'un modèle de classification qui prédit si un demandeur de prêt fera défaut sur son prêt. Il a été entraîné sur des données historiques sur les défauts de paiement des prêts des années 1980 provenant de banques locales de deux communautés différentes. Si les précédents candidats de la communauté A étaient six fois plus nombreux risquent de manquer de crédit que les candidats de la communauté B, peut apprendre un biais historique, ce qui rendrait le modèle moins susceptible à approuver des prêts dans la communauté A, même si les conditions historiques qui en résultent les taux par défaut plus élevés de cette communauté n'étaient plus pertinentes.

Voir la section Équité: types de biais dans le Cours d'initiation au Machine Learning.

données exclues

Exemples intentionnellement non utilisés ("exclus") pendant l'entraînement. L'ensemble de données de validation et Les ensembles de données de test sont des exemples de données exclues. Données exclues permet d'évaluer la capacité de votre modèle à se généraliser à des données autres que des données avec lesquelles il a été entraîné. La perte de l'ensemble de données exclues offre une meilleure de la perte sur un ensemble de données inconnu ensemble d'entraînement.

hôte

#TensorFlow

#GoogleCloud

Lors de l'entraînement d'un modèle de ML sur des puces accélérateurs (GPU ou TPU), la partie du système qui contrôle les deux éléments suivants:

Flux global du code
L'extraction et la transformation du pipeline d'entrée.

L'hôte s'exécute généralement sur un processeur, et non sur une puce d'accélération. la device manipule les tensors sur le les puces d'accélération.

hyperparamètre

#fundamentals

Les variables que vous ou un service de réglage lors des exécutions successives de l'entraînement d'un modèle. Par exemple : Le taux d'apprentissage est un hyperparamètre. Vous pourriez définir le taux d'apprentissage sur 0,01 avant une session d'entraînement. Si vous déterminez que 0,01 est trop élevé, vous pouvez peut-être définir le taux d'apprentissage sur 0,003 pour la prochaine session d'entraînement.

En revanche, les paramètres sont les différents pondérations et biais que le modèle apprend pendant l'entraînement.

Pour en savoir plus, consultez la section Régression linéaire : hyperparamètres du cours d'initiation au machine learning.

hyperplan

Limite qui sépare un espace en deux sous-espaces. Par exemple, une ligne est un hyperplan en deux dimensions, et un plan est un hyperplan en trois dimensions. Plus généralement, en machine learning, un hyperplan est la limite qui sépare un espace à haute dimension. Kernel Support Vector Machines (Machines à vecteurs de support à noyau) utilisent les hyperplans pour séparer les classes positives des classes négatives, souvent de manière très dans un espace de grande dimension.

I

iid

Abréviation de variables indépendantes et identiquement distribuées.

reconnaissance d'image

#image

Processus de classification des objets, des formes ou des concepts dans une image. La reconnaissance d'image est également appelée classification d'images.

Pour en savoir plus, consultez Travaux pratiques sur le ML: Classification d'images.

Pour en savoir plus, consultez le cours Travaux pratiques sur le machine learning : Classification d'images.

ensemble de données déséquilibré

Synonyme de ensemble de données avec déséquilibre des classes.

biais implicite

#fairness

Faire automatiquement une association ou une hypothèse basée sur son esprit les modèles et les mémoires. Le biais implicite peut avoir une incidence sur les points suivants :

Manière dont les données sont collectées et classées.
Découvrez comment les systèmes de machine learning sont conçus et développés.

Par exemple, lorsque vous créez un classificateur pour identifier les photos de mariage, un ingénieur peut utiliser la présence d'une robe blanche dans une photo comme caractéristique. Cependant, les robes blanches ne sont d'usage que dans certaines cultures et, de surcroît, seulement à certaines époques.

Voir aussi biais de confirmation.

imputation

Abréviation de imputation de valeur.

Incompatibilité des critères d'équité

#fairness

Idée selon laquelle certaines notions d'équité sont mutuellement incompatibles et ne peuvent pas être satisfaites simultanément. Par conséquent, il n'existe pas de métrique universelle unique pour quantifier l'équité qui puisse être appliquée à tous les problèmes de ML.

Bien que cela puisse sembler décourageant, l'incompatibilité des métriques d'équité n'implique pas que les efforts d'équité soient infructueux. Au lieu de cela, il suggère l'équité doit être définie en fonction du contexte pour un problème de ML donné, dans le but d'empêcher les dommages spécifiques à ses cas d'utilisation.

Reportez-vous à la section "Sur le (im)possibilité d'équité" pour une discussion plus détaillée à ce sujet.

apprentissage en contexte

#language

#generativeAI

Synonyme de requête few-shot.

variables indépendantes et identiquement distribuées (i.i.d)

#fundamentals

Données tirées d'une distribution qui ne change pas, et où chaque valeur ne dépend pas des valeurs qui ont été dessinées précédemment. Une variable iid. est le gaz idéal de machine learning d'apprentissage : il s'agit d'une construction mathématique utile qui n'a quasiment jamais été trouvée dans le monde réel. Par exemple, la distribution des visiteurs d'une page Web peut être une variable idd sur une courte période, c'est-à-dire que la distribution ne change pas pendant cette période et que la visite d'un internaute est généralement indépendante de la visite d'un autre. Toutefois, si vous élargissez cette période, des différences saisonnières peuvent apparaître dans les visiteurs de la page Web.

Voir également non-stationnarité.

impartialité individuelle

#fairness

Métrique d'équité qui vérifie si des individus similaires sont classés de manière similaire. Par exemple, l'Académie des Brobdingnagian peut souhaiter satisfaire l’impartialité individuelle en veillant à ce que deux élèves ayant des notes identiques et les résultats aux tests normalisés ont le même niveau de probabilité d'être admis.

Notez que l'impartialité individuelle repose entièrement sur la définition du terme "similarité" (dans ce cas, les notes et les résultats aux tests), et vous pouvez courir le risque de l'introduction de nouveaux problèmes d'équité si votre métrique de similarité passe à côté d'importantes (par exemple, la rigueur du programme d'un élève).

Voir l'article "L'équité à travers Notoriété pour une discussion plus détaillée sur l'impartialité des individus.

inférence

#fundamentals

Dans le machine learning, le processus de réalisation de prédictions Application d'un modèle entraîné à des exemples sans étiquette

L'inférence a une signification quelque peu différente en statistiques. Consultez le <ph type="x-smartling-placeholder"></ph> Article Wikipédia sur l'inférence statistique.

Consultez la section Apprentissage supervisé. du cours d'introduction au ML pour voir le rôle de l'inférence dans un environnement de machine learning.

chemin d'inférence

#df

Dans un arbre de décision, lors de l'inférence, l'itinéraire emprunté par un exemple donné à partir du root à d'autres conditions, se terminant par une feuille. Par exemple, dans l'arborescence de décision suivante, les flèches plus épaisses indiquent le chemin d'inférence pour un exemple avec les valeurs de caractéristique suivantes :

x = 7
y = 12
z = -3

Le chemin d'inférence de l'illustration suivante passe par trois conditions avant d'atteindre la feuille (Zeta).

Les trois flèches épaisses représentent le chemin d'inférence.

Voir Arbres de décision dans le cours sur les forêts d'arbres décisionnels.

acquisition d'informations

#df

Dans les forêts de décision, différence entre l'entropie d'un nœud et la somme pondérée (par le nombre d'exemples) de l'entropie de ses nœuds enfants. L'entropie d'un nœud correspond à l'entropie des exemples de ce nœud.

Prenons l'exemple des valeurs d'entropie suivantes :

Entropie du nœud parent = 0,6
entropie d'un nœud enfant avec 16 exemples pertinents = 0,2
Entropie d'un autre nœud enfant avec 24 exemples pertinents = 0,1

Ainsi, 40 % des exemples se trouvent dans un nœud enfant et 60 % dans l'autre. Par conséquent :

Somme pondérée de l'entropie des nœuds enfants = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Le gain d'information est donc le suivant :

Gain d'information = entropie du nœud parent - somme pondérée de l'entropie des nœuds enfants
gain d'informations = 0,6 - 0,14 = 0,46

La plupart des spliters cherchent à créer des conditions. qui maximisent l'acquisition d'informations.

biais d'appartenance

#fairness

Faire preuve de partialité envers son propre groupe ou ses propres traits caractéristiques. Si les testeurs ou les évaluateurs sont des amis du développeur de machine learning, votre famille ou vos collègues, alors le préjugé d'appartenance peut invalider le test du produit ou le jeu de données.

Le biais d'appartenance est une forme de biais de représentativité. Voir aussi le biais d'homogénéité de l'exogroupe.

Pour en savoir plus, consultez la section Équité : types de biais du cours d'initiation au machine learning.

générateur d'entrée

Un mécanisme par lequel les données sont chargées dans un réseau de neurones.

Un générateur d'entrée peut être considéré comme un composant chargé de traiter les données brutes en tenseurs, qui sont itérés pour générer des lots à des fins d'entraînement, d'évaluation et d'inférence.

couche d'entrée

#fundamentals

Couche d'un réseau de neurones qui contient le vecteur de caractéristiques. Autrement dit, la couche d'entrée fournit des exemples pour l'entraînement ou inférence. Par exemple, la couche d'entrée du réseau de neurones suivant se compose de deux caractéristiques :

Quatre couches: une couche d'entrée, deux couches cachées et une couche de sortie.

condition dans l'ensemble

#df

Dans un arbre de décision, une condition qui teste la présence d'un élément dans un ensemble d'éléments. Par exemple, voici une condition intégrée:

  house-style in [tudor, colonial, cape]

Pendant l'inférence, si la valeur de la caractéristique de style maison est tudor, colonial ou cape, la condition renvoie la valeur Oui. Si la valeur de la fonctionnalité de style de maison est différente (par exemple, ranch), cette condition renvoie la valeur "Non".

Les conditions du jeu de données génèrent généralement des arbres de décision plus efficaces que les conditions qui testent des caractéristiques encodées en one-hot.

instance

Synonyme d'exemple.

réglage des instructions

#generativeAI

Forme d'ajustement qui améliore un la capacité du modèle d'IA générative à suivre instructions. Le réglage des instructions consiste à entraîner un modèle sur une série d'invites d'instructions, qui couvrent généralement une grande variété de tâches. Le modèle optimisé par instruction qui en résulte tend ensuite à générer des réponses utiles aux invites sans entraînement pour diverses tâches.

Comparez et contrastez avec :

réglage efficace des paramètres
Réglage de la requête

interprétabilité

#fundamentals

Capacité à expliquer ou à présenter le raisonnement d'un modèle de ML à un humain en termes compréhensibles.

La plupart des modèles de régression linéaire, par exemple, sont fortement et interprétables. (Il vous suffit d'examiner les pondérations entraînées pour chaque caractéristique.) Les forêts de décision sont également hautement interprétables. Toutefois, certains modèles nécessitent des visualisations complexes pour pouvoir être interprétés.

Vous pouvez utiliser Learning Interpretability Tool (LIT) pour interpréter des modèles de ML.

accord inter-évaluateurs

Mesure de la fréquence à laquelle les évaluateurs humains sont d'accord lorsqu'ils effectuent une tâche. Si les évaluateurs ne sont pas d'accord, il est possible que les instructions de la tâche doivent être améliorées. Parfois également appelé accord inter-annotateurs ou fiabilité inter-évaluateurs. Voir aussi Cohen's Kappa, qui est l'une des mesures de l'accord inter-évaluateurs les plus populaires.

Voir Données catégorielles: commun problèmes dans le Cours d'initiation au Machine Learning.

Intersection over Union (IoU)

#image

Intersection de deux ensembles divisée par leur union. Dans les tâches de détection d'images de machine learning, l'IoU permet de mesurer la justesse du cadre de délimitation prédit du modèle par rapport au cadre de délimitation de la vérité terrain. Dans ce cas, l'IoU des deux cadres correspond au ratio entre la zone de chevauchement et la zone totale. Sa valeur varie de 0 (pas de chevauchement entre le cadre de délimitation prédit et le cadre de délimitation de la vérité terrain) à 1 (le cadre de délimitation prédit et le cadre de délimitation de la vérité terrain ont exactement les mêmes coordonnées).

Par exemple, dans l'image ci-dessous:

Le cadre de délimitation prévu (les coordonnées délimitant l'emplacement de la table de chevet dans le tableau, selon le modèle) est entouré en violet.
Le cadre de délimitation de vérité terrain (les coordonnées délimitant l'emplacement réel de la table de chevet dans le tableau) est encadré en vert.

Ici, l'intersection des cadres de délimitation pour la prédiction et la vérité terrain (en bas à gauche) est 1, et l'union des cadres de délimitation pour la prédiction et la vérité terrain (en bas à droite) est de 7. L'IoU est donc de $\frac{1}{7}$.

Même image que ci-dessus, mais chaque cadre de délimitation est divisé en quatre quadrants. Il y a sept quadrants au total, car le quadrant inférieur droit du cadre de délimitation de la vérité terrain et le quadrant supérieur gauche du cadre de délimitation prédit se chevauchent. Ce
(en vert) représente la section
avec une intersection de 1.

Même image que ci-dessus, mais chaque cadre de délimitation étant divisé en quatre
quadrants. Il y a sept quadrants au total, en bas à droite
quadrant du cadre de délimitation de la vérité terrain et le coin supérieur gauche
quadrants du cadre de délimitation prédit se chevauchent.
L'intégralité de l'intérieur, encadré par les deux cadres de délimitation
(surlignée en vert) représente l'union.
une aire de 7.

IoU

Abréviation de intersection sur union.

matrice éléments

#recsystems

Dans les systèmes de recommandation, matrice de vecteurs d'embedding générés par la factorisation matricielle qui contient des signaux latents sur chaque élément. Chaque ligne de la matrice éléments contient la valeur d'une seule caractéristique latente pour tous les éléments. Prenons l'exemple d'un système de recommandation de films. Chaque colonne dans la matrice éléments représente un seul film. Les signaux latents peuvent représenter des genres ou être des signaux plus difficiles à interpréter impliquant des interactions complexes entre des facteurs comme le genre, la note ou l'ancienneté du film.

La matrice éléments a le même nombre de colonnes que la matrice cible qui est factorisée. Par exemple, dans le cas d'un système de recommandation de films évaluant 10 000 titres de films, la matrice éléments comportera 10 000 colonnes.

éléments

#recsystems

Dans un système de recommandation, les entités recommandées par un système. Par exemple, les vidéos sont les éléments recommandés par un vidéo club, alors que les livres sont les éléments recommandés par une librairie.

itération

#fundamentals

Mise à jour unique des paramètres d'un modèle : ses pondérations et biais, formation. La taille de lot détermine le nombre d'exemples que le modèle traite en une seule itération. Par exemple, si la taille de lot est de 20, le modèle traite 20 exemples avant d'ajuster les paramètres.

Lors de l'entraînement d'un réseau de neurones, une seule itération implique les deux passes suivantes :

Une propagation avant pour évaluer la perte d'un seul lot.
Une passe arrière (backpropagation) pour ajuster les paramètres du modèle en fonction de la perte et du taux d'apprentissage.

J

JAX

Bibliothèque de calcul matriciel combinant XLA (Accelerated Linear Algebra) et la différenciation automatique pour le calcul numérique hautes performances. JAX fournit une API simple et puissante pour écrire du code numérique accéléré avec des transformations composables. JAX propose des fonctionnalités telles que :

grad (différenciation automatique)
jit (compilation juste à temps)
vmap (vecteur vertical ou traitement par lot automatique)
pmap (parallélisation)

JAX est un langage permettant d'exprimer et de composer des transformations de données semblable à la bibliothèque NumPy de Python, mais avec un champ d'application beaucoup plus large bibliothèque. (En fait, la bibliothèque .numpy sous JAX est fonctionnellement équivalente, mais entièrement réécrite de la bibliothèque Python NumPy.)

JAX est particulièrement adapté pour accélérer de nombreuses tâches de machine learning en transformant les modèles et les données en une forme adaptée au parallélisme entre les GPU et les puces d'accélérateur TPU.

Flax, Optax, Pax et de nombreuses autres bibliothèques sont basées sur l'infrastructure JAX.

K

Keras

API de machine learning Python populaire. Keras s'exécute sur plusieurs frameworks de deep learning, dont TensorFlow, disponible en tant que tf.keras

machines à vecteurs de support à noyau (KSVM)

Un algorithme de classification qui cherche à maximiser la marge entre positive et classes négatives en mappant des vecteurs de données d'entrée. dans un espace de plus grande dimension. Prenons l'exemple d'une classification dans lequel l'ensemble de données d'entrée propose une centaine de fonctionnalités. Afin de maximiser la marge entre les classes positives et négatives, un KVSM pourrait associer, en interne, chaque vecteur de caractéristiques à un vecteur dans un espace à un million de dimensions. Les KSVM utilisent une fonction de perte appelée marge maximale.

points clés

#image

Coordonnées de caractéristiques particulières d'une image. Par exemple, pour un modèle de reconnaissance d'image qui distingue les espèces de fleurs, les points clés peuvent être le centre de chaque pétale, la tige, les étamines, etc.

validation croisée de k-fold

Algorithme permettant de prédire la capacité d'un modèle à généraliser à de nouvelles données. Le k dans la méthode k-fold fait référence au nombre de groupes égaux dans lesquels vous divisez les exemples d'un ensemble de données. Autrement dit, vous entraînez et testez votre modèle k fois. Pour chaque série d'entraînement et de test, un groupe différent est l'ensemble de test, et tous les groupes restants deviennent l'ensemble d'entraînement. Après k séries d'entraînement et de test, vous calculez la moyenne et écart type des métriques de test choisies.

Par exemple, supposons que votre ensemble de données comporte 120 exemples. Supposons à présent que vous décidez de définir k sur 4. Par conséquent, après brassage des exemples, vous divisez le jeu de données en quatre groupes égaux de 30 exemples et effectuez quatre d'entraînement et de test:

Par exemple, l'erreur quadratique moyenne (MSE) pourrait est la métrique la plus significative pour un modèle de régression linéaire. Par conséquent, vous trouver la moyenne et l'écart type de la MSE sur les quatre cycles.

k-moyennes

#clustering

Algorithme de clustering populaire qui regroupe des exemples dans l'apprentissage non supervisé. L'algorithme k-moyennes effectue les opérations suivantes :

Détermination de manière itérative des meilleurs k points centraux (connus centroids).
Affecte chaque exemple au centroïde le plus proche. Les exemples les plus proches d'un même centroïde appartiennent au même groupe.

L'algorithme k-moyennes choisit l'emplacement des centroïdes pour minimiser la valeur carré des distances entre chaque exemple et son centroïde le plus proche.

Supposons le graphe suivant représentant la taille de chiens en fonction de leur largeur :

Graphique cartésien avec plusieurs dizaines de points de données.

Si k=3, l'algorithme k-moyennes détermine trois centroïdes. Chaque exemple est assigné à son centroïde le plus proche, ce qui donne trois groupes :

Le même graphique cartésien que dans l'illustration précédente, sauf
avec trois centroïdes ajoutés.
Les points de données précédents sont regroupés en trois groupes distincts, chacun représentant les points de données les plus proches d'un centroïde particulier.

Imaginez qu’un fabricant veuille déterminer les tailles idéales pour les petites, des pulls moyens et grands pour chiens. Les trois centroïdes identifient la moyenne la hauteur et la largeur moyenne de chaque chien dans ce cluster. Le fabricant devrait donc probablement baser les tailles de pulls sur ces trois centroïdes. Notez que le centroïde d'un cluster n'est généralement pas un exemple dans le cluster.

Les illustrations précédentes montrent les k-moyennes pour des exemples avec seulement deux caractéristiques (hauteur et largeur). Notez que k-means peut regrouper des exemples sur de nombreuses caractéristiques.

k-médiane

#clustering

Algorithme de clustering étroitement lié à k-moyennes. La différence pratique entre les deux est la suivante :

Dans l'algorithme k-moyennes, les centroïdes sont déterminés en minimisant la somme des carrés de la distance entre un centroïde potentiel et chacun des ses exemples.
Dans l'algorithme k-médiane, les centroïdes sont déterminés en minimisant la somme de la distance entre un centroïde potentiel et chacun de ses exemples.

Notez que la définition du terme "distance" est également différente :

Dans l'algorithme k-moyenne, la notion de distance utilisée est la distance euclidienne entre un centroïde et un exemple. (Dans deux dimensions, la structure euclidienne la distance signifie utiliser le théorème de Pythagore pour calculer l'hypoténuse.) Par exemple, la distance k-moyennes entre (2,2) et (5,-2) est :

$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$

Dans l'algorithme k-médiane, la notion de distance utilisée est la distance de Manhattan entre le centroïde et un exemple. Cette distance est la somme des deltas absolus dans chaque dimension. Par exemple, la distance k-médiane entre (2,2) et (5,-2) est :

$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

L

Régularisation L₀

#fundamentals

Type de régularisation qui pénalise le nombre total de pondérations non nulles ; dans un modèle. Par exemple, un modèle avec 11 pondérations non nulles serait pénalisé plus cher qu'un modèle similaire ayant 10 paires de pondérations non nulles.

La régularisation L₀ est parfois appelée régularisation de la norme L0.

Cliquez sur l'icône pour ajouter des notes.

La régularisation L₀ est généralement peu pratique pour les grands modèles, car La régularisation L₀ transforme l'entraînement en convexe problème d'optimisation.

perte L₁

#fundamentals

Une fonction de perte qui calcule la valeur absolue de la différence entre les valeurs d'étiquette réelles et les valeurs prédites par un modèle. Par exemple, voici le calcul de la perte L₁ pour un lot de cinq exemples :

Valeur réelle de l'exemple	Valeur prédite du modèle	Valeur absolue de la valeur delta
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
		8 = perte L₁

La perte L₁ est moins sensible aux anomalies. que la perte L₂.

L'erreur absolue moyenne correspond à la moyenne perte L₁ par exemple.

Cliquez sur l'icône pour afficher les mathématiques formelles.

$$ L_1 loss = \sum_{i=0}^n | y_i - \hat{y}_i |$$

où :

$n$ correspond au nombre d'exemples.
$y$ est la valeur réelle du libellé.
$\hat{y}$ est la valeur que le modèle prédit pour $y$.

Régularisation L₁

#fundamentals

Type de régularisation qui pénalise les pondérations proportionnellement à la somme de la valeur absolue des pondérations. La régularisation L₁ permet de pondérer des données non pertinentes ou les caractéristiques peu pertinentes à exactement 0. Une fonctionnalité avec une pondération de 0 est effectivement retirée du modèle.

À comparer à la régularisation L₂.

perte L₂

#fundamentals

Fonction de perte qui calcule le carré de la différence entre les valeurs réelles des étiquettes et les valeurs prédites par un modèle. Par exemple, voici le calcul de la perte L₂ pour un lot de cinq exemples :

Valeur réelle de l'exemple	Valeur prédite du modèle	Carré d'un delta
7	6	1
5	4	1
8	11	9
4	6	4
9	8	1
		16 = perte L₂

En raison de la mise au carré, la perte L₂ amplifie l'influence des valeurs aberrantes. En d'autres termes, la perte L₂ réagit plus fortement aux mauvaises prédictions que la perte L₁. Par exemple, la perte L₁ pour le lot précédent serait de 8 au lieu de 16. Notez qu'un seul les anomalies représentent 9 sur 16.

Les modèles de régression utilisent généralement la perte L₂ comme fonction de perte.

L'erreur quadratique moyenne correspond à la moyenne perte L₂ par exemple. La perte quadratique est un autre nom de la perte L₂.

Cliquez sur l'icône pour afficher les mathématiques formelles.

$$ L_2 loss = \sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$

où :

$n$ correspond au nombre d'exemples.
$y$ est la valeur réelle du libellé.
$\hat{y}$ est la valeur que le modèle prédit pour $y$.

Régularisation L₂

#fundamentals

Type de régularisation qui pénalise pondérations proportionnellement à la somme des carrés des pondérations. La régularisation L₂ permet de générer les pondérations des anomalies (c'est-à-dire avec des valeurs positives ou négatives élevées) plus proches de 0, mais pas tout à fait égales à 0. Les caractéristiques dont les valeurs sont très proches de 0 restent dans le modèle mais n'influencent pas beaucoup la prédiction du modèle.

La régularisation L₂ améliore toujours la généralisation modèles linéaires.

À comparer à la régularisation L₁.

étiquette

#fundamentals

En machine learning supervisé, "réponds" ou "résultat" partie d'un exemple.

Chaque exemple étiqueté se compose d'une ou de plusieurs caractéristiques et d'un libellé. Par exemple, dans un dossier de spam l'ensemble de données de détection, l'étiquette serait probablement "spam" ou "non-spam". Dans un ensemble de données sur les précipitations, l'étiquette peut être la quantité qui est tombée pendant une certaine période.

exemple étiqueté

#fundamentals

Exemple contenant une ou plusieurs caractéristiques et une étiquette. Par exemple, le tableau suivant présente trois exemples avec étiquette issus d'un modèle d'évaluation de maison, chacun avec trois caractéristiques et un libellé :

Nombre de chambres	Nombre de salles de bain	Âge de la maison	Prix maison (libellé)
3	2	15	345 000 $
2	1	72	179 000 $
4	2	34	392 000 $

En machine learning supervisé, les modèles sont entraînés à partir d'exemples étiquetés et effectuent des prédictions exemples sans étiquette.

Comparer l'exemple étiqueté et les exemples sans étiquette.

fuite d'étiquettes

Un défaut de conception du modèle, pour lequel une caractéristique est un proxy étiquette. Prenons l'exemple d'un modèle de classification binaire qui prédit si un client potentiel achètera ou non un produit particulier. Supposons que l'une des caractéristiques du modèle soit une valeur booléenne nommée SpokeToCustomerAgent. Supposons en outre qu'un agent client ne soit attribué qu'après que le client potentiel ait effectivement acheté le produit. Lors de l'entraînement, le modèle apprendra rapidement l'association entre SpokeToCustomerAgent et l'étiquette.

lambda

#fundamentals

Synonyme de taux de régularisation.

Lambda est un terme surchargé. Ici, nous nous concentrons définition dans le cadre de la régularisation.

LaMDA (Language Model for Dialogue Applications)

#language

Grand modèle de langage basé sur un transformateur développé par Google et entraîné sur un grand ensemble de données de dialogue capable de générer des réponses conversationnelles réalistes.

LaMDA: notre conversation révolutionnaire technologie fournit un aperçu.

landmarks

#image

Synonyme de points clés.

modèle de langage

#language

Un modèle qui estime la probabilité d'un jeton ou séquence de jetons se produisant dans une séquence plus longue de jetons.

Cliquez sur l'icône pour ajouter des notes.

Même si cela peut paraître paradoxal, de nombreux modèles qui évaluent du texte ne sont pas modèles de langage. Par exemple, les modèles de classification de texte et les modèles d'analyse des sentiments ne sont pas des modèles de langage.

grand modèle de langage

#language

Au minimum, un modèle de langage comportant un très grand nombre de paramètres. De façon plus informelle, modèle de langage basé sur Transformer, Gemini ou GPT.

espace latent

#language

Synonyme d'espace d'intégration.

cachée)

#fundamentals

Ensemble de neurones dans un réseau de neurones. Voici trois types de calques courants :

La couche d'entrée, qui fournit les valeurs de toutes les fonctionnalités.
Une ou plusieurs couches cachées, qui permettent de retrouver des relations non linéaires entre les caractéristiques et l'étiquette.
La couche de sortie, qui fournit la prédiction.

Par exemple, l'illustration suivante montre un réseau de neurones avec une couche d'entrée, deux couches cachées et une couche de sortie :

Un réseau de neurones avec une couche d'entrée, deux couches cachées et une couche de sortie. La couche d'entrée se compose de deux caractéristiques. Le premier
La couche cachée est composée de trois neurones et la seconde couche cachée
est constituée de deux neurones. La couche de sortie se compose d'un seul nœud.

Dans TensorFlow, les couches sont également des fonctions Python qui prennent des Tensors et des options de configuration en entrée pour générer d'autres Tensors en sortie.

API Layers (tf.layers)

#TensorFlow

API TensorFlow pour créer un réseau de neurones profond comme une composition de couches. L'API Layers vous permet de créer différents types de couches, par exemple :

tf.layers.Dense pour une couche entièrement connectée.
tf.layers.Conv2D pour une couche convolutive.

L'API Layers respecte les conventions de l'API Keras concernant les couches. Autrement dit, à l'exception d'un préfixe différent, toutes les fonctions de l'API Layers ont les mêmes noms et signatures que leurs homologues de l'API Keras Layers.

feuille

#df

Tout point de terminaison dans un arbre de décision. À la différence d'un condition, une feuille n'effectue pas de test. Il s'agit plutôt d'une prédiction possible. Une feuille est également le nœud terminal d'un chemin d'inférence.

Par exemple, l'arbre de décision suivant contient trois feuilles :

Arbre de décision à deux conditions menant à trois feuilles.

Learning Interpretability Tool (LIT)

Un outil visuel et interactif de compréhension des modèles et de visualisation des données.

Vous pouvez utiliser la bibliothèque LIT Open Source pour interpréter des modèles ou visualiser du texte, des images des données tabulaires.

taux d'apprentissage

#fundamentals

Nombre à virgule flottante qui indique à l'algorithme de descente de gradient l'intensité avec laquelle ajuster les pondérations et les biais à chaque itération. Par exemple, un taux d'apprentissage de 0,3 ajuster les pondérations et les biais trois fois plus efficacement qu'un taux d'apprentissage de 0,1.

Le taux d'apprentissage est un hyperparamètre clé. Si vous définissez le taux d'apprentissage trop bas, l'entraînement prendra trop de temps. Si vous définissez le taux d'apprentissage trop élevé, la descente de gradient a souvent du mal à atteindre la convergence.

Cliquez sur l'icône pour obtenir une explication mathématique.

À chaque itération, descente de gradient multiplie par l'algorithme du taux d'apprentissage par le gradient. Le produit résultant est appelé pas de dégradé.

régression des moindres carrés

Modèle de régression linéaire entraîné en minimisant la perte L₂.

linear

#fundamentals

Relation entre deux ou plusieurs variables pouvant être représentée uniquement par addition et multiplication.

Le tracé d'une relation linéaire est une ligne.

À comparer à l'nonlinear.

modèle linéaire

#fundamentals

Un modèle qui attribue une pondération par fonctionnalité pour effectuer des prédictions. (Les modèles linéaires intègrent également un biais.) En revanche, la relation entre les caractéristiques et les prédictions dans les modèles profonds est généralement non linéaire.

Les modèles linéaires sont généralement plus faciles à entraîner et plus interprétables que les modèles profonds. Toutefois, les modèles profonds peuvent apprendre des relations complexes entre caractéristiques.

Régression linéaire et La régression logistique est deux types de modèles linéaires.

Cliquez sur l'icône pour afficher le calcul.

Un modèle linéaire suit la formule suivante :

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

où: <ph type="x-smartling-placeholder">

y est la prédiction brute. (Dans certains types de modèles linéaires, la prédiction brute sera modifiée davantage. (par exemple, la régression logistique).
"b" représente le biais.
w est un facteur de pondération. Par conséquent, w₁ est le facteur de pondération de la première caractéristique, w₂ est le facteur de pondération de la deuxième caractéristique, et ainsi de suite.
x est une fonctionnalité. Par conséquent, x₁ est la valeur de la première fonctionnalité, x₂ est la valeur de la deuxième fonctionnalité, et ainsi de suite.

Par exemple, supposons qu'un modèle linéaire pour trois caractéristiques apprenne les biais et pondérations suivants :

b = 7
w₁ = -2,5
w₂ = -1,2
w₃ = 1,4

Par conséquent, étant donné trois caractéristiques (x₁, x₂ et x₃), le modèle linéaire utilise l'équation suivante pour générer chaque prédiction :

y' = 7 + (-2.5)(x₁) + (-1.2)(x₂) + (1.4)(x₃)

Supposons qu'un exemple particulier contienne les valeurs suivantes :

x₁ = 4
x₂ = -10
x₃ = 5

En remplaçant ces valeurs dans la formule, vous obtenez la prédiction suivante pour cet exemple :

y' = 7 + (-2.5)(4) + (-1.2)(-10) + (1.4)(5)
y' = 16

Les modèles linéaires incluent non seulement les modèles qui n'utilisent qu'une équation linéaire pour effectuer des prédictions, mais aussi un ensemble plus large de modèles qui utilisent une équation linéaire comme une seule composante de la formule qui effectue les prédictions. Par exemple, la régression logistique post-traite la prédiction brute (y') pour produire une valeur de prédiction finale comprise entre 0 et 1, exclusivement.

régression linéaire

#fundamentals

Type de modèle de machine learning dans lequel les deux conditions suivantes sont remplies:

Il s'agit d'un modèle linéaire.
La prédiction est une valeur à virgule flottante. (Il s'agit de la partie régression de la régression linéaire.)

Comparer la régression linéaire à la régression logistique. Vous devez aussi comparer la régression à la classification.

LIT

Abréviation de Learning Interpretability Tool (LIT), qui était auparavant connu sous le nom d’Outil d’interprétabilité du langage.

LLM

#language

#generativeAI

Abréviation de grand modèle de langage.

Évaluations LLM (évaluations)

#language

#generativeAI

Ensemble de métriques et de benchmarks permettant d'évaluer les performances des grands modèles de langage (LLM). Dans les grandes lignes, Évaluations LLM:

Aidez les chercheurs à identifier les domaines dans lesquels les LLM doivent être améliorés.
Ils sont utiles pour comparer différents LLM et identifier le meilleur LLM pour une tâche spécifique.
Assurez-vous que les LLM sont sûrs et éthiques à utiliser.

régression logistique

#fundamentals

Type de modèle de régression qui prédit une probabilité. Les modèles de régression logistique présentent les caractéristiques suivantes:

L'étiquette est catégorielle. Le terme "régression logistique" désigne généralement la régression logistique binaire, c'est-à-dire un modèle qui calcule les probabilités pour les étiquettes ayant deux valeurs possibles. Une variante moins courante, la régression logistique multinomiale, calcule probabilités pour les étiquettes ayant plus de deux valeurs possibles.
La fonction de perte pendant l'entraînement est la perte logistique. (Plusieurs unités de perte logistique peuvent être placées en parallèle pour les étiquettes avec plus de deux valeurs possibles.)
Le modèle est doté d'une architecture linéaire et non d'un réseau de neurones profond. Toutefois, le reste de cette définition s'applique également aux modèles profonds qui prédisent les probabilités pour les libellés catégoriels.

Prenons l'exemple d'un modèle de régression logistique qui calcule la probabilité qu'un e-mail soit du spam ou non. Lors de l'inférence, supposons que le modèle prédit 0,72. Par conséquent, le est en train d'estimer:

Une probabilité que l'e-mail soit du spam est de 72 %.
Une probabilité de 28% que l'e-mail ne soit pas un spam

Un modèle de régression logistique utilise l'architecture en deux étapes suivante :

Le modèle génère une prédiction brute (y') en appliquant une fonction linéaire de caractéristiques d'entrée.
Le modèle utilise cette prédiction brute comme entrée pour une fonction sigmoïde, qui convertit la prédiction brute en une valeur comprise entre 0 et 1, exclusive.

Comme tout modèle de régression, un modèle de régression logistique prédit un nombre. Cependant, ce nombre fait généralement partie d'une classification binaire modèle comme suit:

Si le nombre prédit est supérieur à la valeur seuil de classification, le le modèle de classification binaire prédit la classe positive.
Si le nombre prédit est inférieur au seuil de classification, le modèle de classification binaire prédit la classe négative.

fonctions logit

Vecteur de prédictions brutes (non normalisées) générées par un modèle de classification, qui est généralement ensuite transmis à une fonction de normalisation. Si le modèle résout un problème de classification multiclasse, les logits deviennent généralement une entrée de la fonction softmax. La fonction softmax génère ensuite un vecteur de les probabilités avec une valeur pour chaque classe possible.

Perte logistique

#fundamentals

Fonction de perte utilisée dans la régression logistique binaire.

Cliquez sur l'icône pour afficher le calcul.

La formule suivante calcule la perte logarithmique :

$$\text{Log Loss} = \sum_{(x,y)\in D} -y\log(y') - (1 - y)\log(1 - y')$$

où :

$(x,y)\in D$ est l'ensemble de données contenant de nombreux exemples étiquetés, qui sont des paires $(x,y)$ .
$y$ est l'étiquette dans un exemple étiqueté. Puisqu'il s'agit de régression logistique, chaque valeur de $y$ doit être 0 ou 1.
$y'$ est la valeur prédite (comprise entre 0 et 1, exclus) ; compte tenu de l'ensemble de caractéristiques de $x$.

logarithme de cote

#fundamentals

Logarithme des cotes d'un événement donné.

Cliquez sur l'icône pour afficher le calcul.

Si l'événement est une probabilité binaire, les cotes font référence au rapport entre la probabilité de succès (p) et la probabilité d'échec (1-p). Par exemple, supposons qu'un événement donné ait une probabilité de succès de 90 % et une probabilité d'échec de 10 %. Dans ce cas, la probabilité est calculée comme suit:

$$ {\text{odds}} = \frac{\text{p}} {\text{(1-p)}} = \frac{.9} {.1} = {\text{9}} $$

Le logarithme des cotes est simplement le logarithme des cotes. Par convention, "logarithme" fait référence à logarithme naturel, mais le logarithme peut être n'importe quelle base supérieure à 1. En s'en tenant à la convention, le logarithme de cote de notre exemple est donc:

$$ {\text{log-odds}} = ln(9) ~= 2.2 $$

La fonction logarithme des cotes est l'inverse de la fonction sigmoïde.

Mémoire à long terme (LSTM)

#seq

Type de cellule dans un réseau de neurones récurrent utilisé pour traiter des séquences de données dans des applications telles que la reconnaissance de l'écriture manuscrite, la traduction automatique et le sous-titrage d'images. Les LSTM résolvent le problème de gradient qui disparaît qui se produit lors de l'entraînement des RNN en raison de longues séquences de données en conservant l'historique dans un état de mémoire interne basé sur la nouvelle entrée et le contexte des cellules précédentes du RNN.

LoRA

#language

#generativeAI

Abréviation de adaptabilité à faible rang.

perte

#fundamentals

Lors de l'entraînement d'un modèle supervisé, mesure de l'écart entre la prédiction d'un modèle et son libellé.

La fonction de perte calcule la perte.

agrégateur de perte

Un type d'algorithme de machine learning qui améliore les performances d'un modèle en combinant les prédictions de plusieurs modèles et utiliser ces prédictions pour faire une seule prédiction. Par conséquent, un agrégateur de pertes peut réduire la variance des prédictions et améliorer leur précision.

courbe de fonction de perte

#fundamentals

Tracé de la perte en tant que fonction du nombre d'entraînements itérations. Le graphique suivant montre une perte typique à la courbe:

Graphique cartésien de la perte par rapport aux itérations d'entraînement, montrant une baisse rapide de la perte pour les itérations initiales, suivie d'une baisse progressive, puis d'une pente plate lors des itérations finales.

Les courbes de perte peuvent vous aider à déterminer si votre modèle est en convergence ou en surapprentissage.

Les courbes de perte peuvent représenter tous les types de pertes suivants :

perte d'entraînement
perte de validation
perte de test

Voir également la courbe de généralisation.

fonction de perte

#fundamentals

Pendant l'entraînement ou les tests, un fonction mathématique qui calcule sur un lot d'exemples. Une fonction de perte renvoie une perte plus faible pour les modèles qui effectuent de bonnes prédictions que pour ceux qui effectuent de mauvaises prédictions.

L'objectif de l'entraînement est généralement de minimiser la perte renvoyée par une fonction de perte.

Il existe de nombreux types de fonctions de perte. Choisir la perte appropriée pour le type de modèle que vous créez. Exemple :

La perte L₂ (ou erreur quadratique moyenne) est la fonction de perte de la régression linéaire.
La perte logistique est la fonction de perte de la régression logistique.

graphe de fonction de perte

Un graphe de pondération(s) par rapport à la perte. Objectifs de la descente de gradient afin de trouver la ou les pondérations pour lesquelles le graphe de fonction de perte a un minimum local.

Adaptabilité de faible rang (LoRA)

#language

#generativeAI

Technique efficace en termes de paramètres pour l'ajustement fin qui "gèle" les poids pré-entraînés du modèle (de sorte qu'ils ne puissent plus être modifiés), puis insère un petit ensemble de poids enregistrables dans le modèle. Cet ensemble de pondérations pouvant être entraînées de type "matrices de mise à jour") est considérablement plus petite que le modèle de base et donc beaucoup plus rapide à entraîner.

LoRA offre les avantages suivants :

Améliore la qualité des prédictions d'un modèle pour le domaine concerné est appliqué.
Il effectue un ajustement plus rapide que les techniques qui nécessitent d'ajuster tous les paramètres d'un modèle.
Réduit le coût de calcul de l'inférence en permettant la diffusion simultanée de plusieurs modèles spécialisés partageant le même modèle de base.

Cliquez sur l'icône pour en savoir plus sur les matrices de mise à jour dans LoRA.

Les matrices de mise à jour utilisées dans LoRA sont constituées de matrices de décomposition de rang, qui sont dérivées du modèle de base pour aider à filtrer le bruit et à concentrer l'entraînement sur les caractéristiques les plus importantes du modèle.

LSTM

#seq

Abréviation de mémoire à court terme.

M

machine learning

#fundamentals

Programme ou système qui entraîne un modèle à partir de données d'entrée. Le modèle entraîné peut faire des prédictions utiles à partir de données inédites issues de la même distribution que celle utilisée pour entraîner le modèle.

Le machine learning désigne aussi le domaine d'étude avec ces programmes ou systèmes.

classe majoritaire

#fundamentals

L'étiquette la plus courante ensemble de données avec déséquilibre des classes. Par exemple, pour un ensemble de données contenant 99 % d'étiquettes négatives et 1 % d'étiquettes positives, les étiquettes négatives constituent la classe majoritaire.

À comparer à la classe minoritaire.

Processus de décision de Markov (MDP)

#rl

Graphique représentant le modèle de prise de décision dans lequel les décisions (ou actions) sont effectuées pour parcourir une séquence de déclare en partant du principe que Propriété de Markov. Dans le apprentissage par renforcement, ces transitions entre les états renvoient une récompense numérique.

Propriété de Markov

#rl

Propriété de certains environnements, où les transitions d'état sont entièrement déterminées par les informations implicites dans l'état actuel et l'action de l'agent.

modèle de langage masqué

#language

Modèle de langage qui prédit la probabilité que des jetons candidats remplissent des espaces vides dans une séquence. Par exemple, un modèle de langage masqué peut calculer les probabilités des mots candidats pour remplacer le texte souligné dans la phrase suivante :

Le ____ qu'il avait dans votre chapeau est revenu.

La littérature utilise généralement la chaîne « MASK » au lieu d'un soulignement. Exemple :

Le "MASK" qui se trouvait dans le chapeau.

La plupart des modèles de langage masqués modernes sont bidirectionnels.

matplotlib

Bibliothèque de traçage 2D open-source écrite en Python. matplotlib vous aide à visualiser différents aspects du machine learning.

factorisation matricielle

#recsystems

En mathématiques, mécanisme pour trouver les matrices dont le produit scalaire se rapproche d'une matrice cible.

Dans les systèmes de recommandation, la matrice cible contient souvent les notes des utilisateurs sur les éléments. Par exemple, la cible pour un système de recommandation de films peut ressembler suivantes, où les entiers positifs correspondent aux notes des utilisateurs et à 0 signifie que l'utilisateur n'a pas évalué le film:

	Casablanca	Indiscrétions	Black Panther	Wonder Woman	Pulp Fiction
Utilisateur 1	5.0	3,0	0,0	2.0	0,0
Utilisateur 2	4.0	0,0	0,0	1.0	5.0
Utilisateur 3	3,0	1.0	4.0	5,0	0,0

Le système de recommandation de films vise à prédire les notes des utilisateurs pour films non évalués. Par exemple, l'utilisateur 1 va-t-il aimer Black Panther ?

Une approche pour les systèmes de recommandation consiste à utiliser la factorisation matricielle afin de générer les deux matrices suivantes :

Une matrice utilisateurs, définie sous la forme nombre d'utilisateurs X nombre de dimensions de la représentation vectorielle.
Une matrice éléments, définie comme le nombre de représentations vectorielles continues (dimensions X) le nombre d'éléments.

Par exemple, en utilisant la factorisation matricielle sur nos trois utilisateurs et cinq éléments pourrait donner la matrice utilisateurs et la matrice éléments suivantes:

User Matrix                 Item Matrix

1.1   2.3           0.9   0.2   1.4    2.0   1.2
0.6   2.0           1.7   1.2   1.2   -0.1   2.1
2.5   0.5

Le produit scalaire de la matrice utilisateurs et de la matrice éléments donne une recommandation qui contient non seulement les notes d'origine des utilisateurs, mais aussi les prédictions pour les films que les utilisateurs n'ont pas encore vus. Prenons par exemple la note de l'utilisateur 1 pour Casablanca, qui était de 5,0. Le produit scalaire correspondant à cette cellule dans la matrice de recommandations devrait normalement se situer autour de 5,0, et c'est bien le cas :

(1.1 * 0.9) + (2.3 * 1.7) = 4.9

Plus important encore, l'utilisateur 1 va-t-il aimer Black Panther ? En prenant le produit scalaire correspondant à la première ligne et à la troisième colonne, on obtient une note de 4,3 :

(1.1 * 1.4) + (2.3 * 1.2) = 4.3

La factorisation matricielle produit généralement une matrice utilisateurs et une matrice éléments qui, ensemble, sont nettement plus compactes que la matrice cible.

Erreur absolue moyenne (EAM)

Perte moyenne par exemple lorsque la perte L₁ est utilisée. Calculez l'erreur absolue moyenne comme suit:

Calculez la perte L₁ pour un lot.
Divisez la perte L₁ par le nombre d'exemples du lot.

Cliquez sur l'icône pour afficher les calculs mathématiques.

$$\text{Mean Absolute Error} = \frac{1}{n}\sum_{i=0}^n | y_i - \hat{y}_i |$$

où :

$n$ correspond au nombre d'exemples.
$y$ est la valeur réelle du libellé.
$\hat{y}$ est la valeur que le modèle prédit pour $y$.

Prenons l'exemple du calcul de la perte L₁ sur le lot suivant de cinq exemples :

Valeur réelle de l'exemple	Valeur prédite du modèle	Perte (différence entre la valeur réelle et la valeur prévue)
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
		8 = perte L₁

Ainsi, la perte L₁ est de 8 et le nombre d'exemples est de 5. Par conséquent, l'erreur absolue moyenne est donc:

Mean Absolute Error = L₁ loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

Comparez l'erreur absolue moyenne à l'erreur quadratique moyenne et à la racine carrée de l'erreur quadratique moyenne.

Erreur quadratique moyenne (MSE)

Perte moyenne par exemple lorsque la perte L₂ est utilisée. Calculez l'erreur quadratique moyenne comme suit:

Calculez la perte L₂ pour un lot.
Divisez la perte L₂ par le nombre d'exemples du lot.

Cliquez sur l'icône pour afficher les calculs mathématiques.

$$\text{Mean Squared Error} = \frac{1}{n}\sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$ où :

$n$ est le nombre d'exemples.
$y$ est la valeur réelle du libellé.
$\hat{y}$ est la prédiction du modèle pour $y$.

Prenons l'exemple de la perte sur le lot suivant de cinq exemples:

Valeur réelle	Prédiction du modèle	Perte	Perte quadratique
7	6	1	1
5	4	1	1
8	11	3	9
4	6	2	4
9	8	1	1
			16 = perte L₂

L'erreur quadratique moyenne est donc la suivante :

Mean Squared Error = L₂ loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

L'erreur quadratique moyenne est un optimiseur d'entraînement populaire, en particulier pour la régression linéaire.

Comparer l'erreur quadratique moyenne avec erreur absolue moyenne et Racine carrée de l'erreur quadratique moyenne.

TensorFlow Playground utilise l'erreur quadratique moyenne pour calculer les valeurs de perte.

Cliquez sur l'icône pour en savoir plus sur les valeurs aberrantes.

Les valeurs aberrantes ont une forte influence sur l'erreur quadratique moyenne. Par exemple, une perte de 1 correspond à une perte au carré de 1, mais une perte de 3 correspond à une perte au carré de 9. Dans le tableau précédent, l'exemple avec une perte de 3 représente environ 56% de l'erreur quadratique moyenne, tandis que chacun des exemples avec une perte de 1 ne représente que 6% de l'erreur quadratique moyenne.

Les anomalies n'influencent pas autant l'erreur absolue moyenne que Erreur quadratique moyenne. Par exemple, une perte de 3 ne représente qu'environ 38% du Erreur absolue moyenne.

Le bornement permet d'éviter des problèmes les valeurs aberrantes qui nuisent aux capacités prédictives de votre modèle.

Grille

#TensorFlow

#GoogleCloud

En programmation parallèle de ML, un terme associé à l'attribution des données aux puces TPU, et définir la manière dont ces valeurs seront segmentées ou répliquées.

Le terme "réseau maillé" est un terme complexe qui peut signifier l'un des éléments suivants:

Disposition physique des puces TPU.
Construction logique abstraite permettant de mapper les données et le modèle au TPU les chips.

Dans les deux cas, un maillage est spécifié en tant que forme.

méta-apprentissage

#language

Sous-ensemble du machine learning qui découvre ou améliore un algorithme d'apprentissage. Un système de méta-apprentissage peut aussi viser à entraîner un modèle à apprendre rapidement tâche à partir d’une petite quantité de données ou de l’expérience acquise lors de tâches précédentes. Les algorithmes de méta-apprentissage tentent généralement d'obtenir les résultats suivants:

Améliorer ou apprendre des fonctionnalités conçues manuellement (telles qu'un initialiseur ou un optimiseur)
optimiser l'efficacité en termes de données et de calcul ;
Améliorez la généralisation.

Le méta-apprentissage est lié à l'apprentissage few-shot.

métrique

#TensorFlow

Statistique qui vous tient à cœur.

Un objectif est une métrique qu'un système de machine learning tente d'optimiser.

API Metrics (tf.metrics)

Une API TensorFlow permettant d'évaluer des modèles. Par exemple, tf.metrics.accuracy détermine la fréquence à laquelle les prédictions d'un modèle correspondent aux étiquettes.

mini-lot

#fundamentals

Petit sous-ensemble, sélectionné aléatoirement, d'un lot traité en une seule itération. La taille de lot d'un mini-lot est généralement entre 10 et 1 000 exemples.

Par exemple, supposons que l'ensemble d'entraînement complet (le lot complet) comprend 1 000 exemples. Supposons ensuite que vous définissiez taille de lot de chaque mini-lot à 20. Par conséquent, chaque itération détermine la perte sur 20 exemples aléatoires parmi les 1 000 exemples, puis ajuste les poids et les biais en conséquence.

Il est beaucoup plus efficace de calculer la perte pour un mini-lot que pour l'ensemble entier des exemples du lot complet.

descente de gradient stochastique par mini-lots

Algorithme de descente de gradient qui utilise des mini-lots. En d'autres termes, la descente de gradient stochastique par mini-lot estime le gradient à partir d'un petit sous-ensemble des données d'entraînement. La descente de gradient stochastique standard utilise un mini-lot de taille 1.

perte minimax

Fonction de perte pour les réseaux génératifs antagonistes, basée sur la entropie croisée entre la distribution des données générées et les données réelles.

La perte minimax est utilisée dans premier article pour décrire les réseaux antagonistes génératifs.

classe minoritaire

#fundamentals

L'étiquette la moins courante ensemble de données avec déséquilibre des classes. Par exemple : avec un ensemble de données contenant 99% d'étiquettes négatives et 1% d'étiquettes positives, la les étiquettes positives constituent la classe minoritaire.

À comparer à la classe majoritaire.

Cliquez sur l'icône pour afficher des notes supplémentaires.

Un ensemble d'entraînement avec plus d'un million d'exemples de sons impressionnant. En revanche, si la classe minoritaire est mal représentée, alors même un très grand ensemble d'entraînement peut s'avérer insuffisant. Moins de concentration sur le nombre total d'exemples dans l'ensemble de données et plus encore sur le nombre dans la classe minoritaire.

Si votre ensemble de données ne contient pas suffisamment d'exemples de classes minoritaires, envisagez à l'aide du sous-échantillonnage (définition dans le deuxième point) pour compléter la classe minoritaire.

une combinaison d'experts

#language

#generativeAI

Méthode permettant d'augmenter l'efficacité d'un réseau de neurones en n'utilisant qu'un sous-ensemble de ses paramètres (appelé expert) pour traiter un jeton ou un exemple d'entrée donné. A Le réseau de contrôle achemine chaque jeton ou exemple d'entrée vers le ou les experts appropriés.

Pour en savoir plus, consultez l'un des articles suivants:

ML

Abréviation de machine learning (apprentissage automatique).

MMIT

#language

#image

#generativeAI

Abréviation de multimodal instruction-tuned (multimodal tuned instruction).

MNIST

#image

Ensemble de données du domaine public compilé par LeCun, Cortes et Burges qui contient 60 000 images montrant chacune un chiffre manuscrit compris entre 0 et 9. Chaque image est stockée sous forme de tableau d'entiers 28x28, chaque entier représentant une valeur d'échelle de gris comprise entre 0 et 255 inclus.

MNIST est un ensemble de données canonique pour le machine learning, souvent utilisé pour tester approches de machine learning. Pour en savoir plus, consultez la Base de données MNIST de chiffres écrits à la main.

modality

#language

Catégorie de données de haut niveau. (par exemple, des chiffres, du texte, des images, des vidéos et audio sont cinq modalités différentes.

modèle

#fundamentals

En général, toute construction mathématique qui traite les données d'entrée et renvoie une sortie. Autrement dit, un modèle est l'ensemble de paramètres et de structures nécessaires pour qu'un système effectue des prédictions. En machine learning supervisé, un modèle prend un exemple en entrée et en déduit une prédiction en sortie. Dans le machine learning supervisé, sont quelque peu différents. Exemple :

Un modèle de régression linéaire est constitué d'un ensemble de pondérations. et un biais.
Un modèle de réseau de neurones se compose des éléments suivants:
- Ensemble de couches cachées, chacune contenant un ou plusieurs neurones.
- Pondérations et biais associés à chaque neurone
Un modèle d'arbre de décision se compose des éléments suivants :
- Forme de l'arborescence, c'est-à-dire le schéma dans lequel les conditions et les feuilles sont connectées.
- Les conditions et les départs.

Vous pouvez enregistrer, restaurer ou copier un modèle.

Le machine learning non supervisé génère des modèles, généralement une fonction pouvant mapper un exemple d'entrée à le cluster le plus approprié.

Cliquez sur l'icône pour comparer les fonctions algébriques et de programmation aux modèles de ML.

Une fonction algébrique telle que la suivante est un modèle :

  f(x, y) = 3x -5xy + y² + 17

La fonction précédente mappe les valeurs d'entrée (x et y) aux de sortie.

De même, une fonction de programmation comme celle-ci est également un modèle :

def half_of_greater(x, y):
  if (x > y):
    return(x / 2)
  else
    return(y / 2)

Un appelant transmet des arguments à la fonction Python précédente, et la fonction Python génère une sortie (via l'instruction return).

Bien qu'un réseau de neurones profond possède une structure mathématique très différente de celle d'une propriété algébrique ou un réseau de neurones profond reçoit une entrée (exemple) de sortie (une prédiction).

Un programmeur humain code manuellement une fonction de programmation. À l'inverse, un modèle de machine learning apprend progressivement les paramètres optimaux lors de l'entraînement automatisé.

capacité du modèle

Complexité des problèmes à travers lesquels un modèle est capable d'apprendre. Plus les qu'un modèle peut apprendre, plus sa capacité est élevée. La capacité d'un modèle augmente généralement avec le nombre de ses paramètres. Pour une définition formelle de la capacité d'un classificateur, voir dimension VC.

modèle en cascade

#generativeAI

Système qui sélectionne le modèle idéal pour une requête d'inférence spécifique.

Imaginez un groupe de modèles, allant de très grands (avec de nombreux paramètres) à beaucoup plus petits (avec beaucoup moins de paramètres). Les modèles très volumineux consomment plus de ressources de calcul au moment de l'inférence que les modèles plus petits. Cependant, les très grands les modèles peuvent généralement déduire des requêtes plus complexes que des modèles plus petits. La cascade de modèles détermine la complexité de la requête d'inférence, puis sélectionne le modèle approprié pour effectuer l'inférence. La principale motivation de la mise en cascade des modèles est de réduire les coûts d'inférence de en sélectionnant généralement des modèles plus petits, et en choisissant un modèle plus grand des requêtes complexes.

Imaginons qu'un petit modèle s'exécute sur un téléphone et qu'une version plus grande de ce modèle s'exécute sur un serveur distant. Un bon modèle en cascade réduit les coûts et la latence en permettant au plus petit modèle de gérer des requêtes simples et en n'appelant que pour traiter des requêtes complexes.

Voir aussi routeur modèle.

parallélisme de modèle

#language

Méthode permettant de faire évoluer l'entraînement ou l'inférence en répartissant les différentes parties d'un modèle sur différents appareils. Le parallélisme des modèles permet d'utiliser des modèles trop volumineux pour être traités par un seul appareil.

Pour implémenter le parallélisme des modèles, un système procède généralement comme suit:

Il partitionne (divise) le modèle en parties plus petites.
Répartit l'entraînement de ces petites parties sur plusieurs processeurs. Chaque processeur entraîne sa propre partie du modèle.
Combine les résultats pour créer un seul modèle.

Le parallélisme des modèles ralentit l'entraînement.

Voir aussi parallélisme des données.

modèle de routeur

#generativeAI

Algorithme qui détermine le modèle idéal pour l'inférence dans la cascade de modèles. Un routeur de modèle est lui-même généralement un modèle de machine learning qui apprend progressivement à choisir le meilleur modèle pour une entrée donnée. Cependant, un routeur de modèle peut parfois être un algorithme plus simple, sans machine learning.

entraînement de modèle

Processus visant à déterminer le meilleur modèle.

Momentum

Algorithme de descente de gradient sophistiqué dans lequel une étape d'apprentissage dépend non seulement de la dérivée de l'étape en cours, mais également des dérivées de l'étape ou des étapes qui l'ont immédiatement précédée. Momentum implique de calculer moyenne mobile pondérée de manière exponentielle des gradients au fil du temps, analogue du mouvement en physique. La dynamique empêche parfois l'apprentissage de se bloquer dans des minima locaux.

ME

#language

#image

#generativeAI

Abréviation de mélange d'experts.

classification à classes multiples

#fundamentals

Dans l'apprentissage supervisé, problème de classification dans lequel l'ensemble de données contient plus de deux classes d'étiquettes. Par exemple, les libellés de l'ensemble de données Iris doivent appartenir à l'une des trois classes suivantes :

Iris setosa
Iris virginica
Iris versicolor

Synonyme de régression logistique multiclasse.

multitâche

Technique de machine learning dans laquelle un seul modèle est entraîné pour effectuer plusieurs tâches.

Les modèles multitâches sont créés en les entraînant sur des données adaptées à chacune des différentes tâches. Cela permet au modèle d'apprendre à partager des informations entre les tâches, ce qui l'aide à apprendre plus efficacement.

Un modèle entraîné pour plusieurs tâches a souvent amélioré ses capacités de généralisation et peuvent être plus robustes pour traiter différents types de données.

N

piège NaN

Lorsqu'un nombre du modèle devient un NaN pendant l'entraînement et que, à la suite de ce changement, de nombreux autres nombres du modèle, voire tous, finissent par devenir également des NaN.

NaN est l'abréviation de Not a Number (Ce n'est pas un nombre).

compréhension du langage naturel

#language

Déterminer les intentions d'un utilisateur en fonction de ce qu'il a saisi ou dit. Par exemple, un moteur de recherche utilise la compréhension du langage naturel pour déterminer ce que l'utilisateur recherche en fonction de ce qu'il a saisi ou dit.

classe négative

#fundamentals

Dans la classification binaire, une classe est dite positive et l'autre négative. La classe positive est l'élément ou l'événement que le modèle teste, et la classe négative est l'autre possibilité. Exemple :

La classe négative d'un test médical pourrait être "pas une tumeur".
La classe négative d'un classificateur d'e-mail pourrait être "non-spam".

À comparer à la classe positive.

échantillonnage négatif

Synonyme d'échantillonnage de candidats.

Neural Architecture Search (NAS)

Une technique de conception automatique de l'architecture d'un réseau de neurones. Les algorithmes NAS peuvent réduire la quantité de temps et de ressources nécessaires à l'entraînement d'un réseau de neurones.

Un NAS utilise généralement :

Un espace de recherche, c'est-à-dire un ensemble d'architectures possibles
Une fonction de fitness, qui est une mesure de l'efficacité sur une tâche donnée.

Les algorithmes NAS commencent souvent par un petit ensemble d'architectures possibles et élargissent progressivement l'espace de recherche à mesure que l'algorithme en apprend davantage sur les architectures efficaces. La fonction de fitness est généralement basée sur les performances de l'architecture sur un ensemble d'entraînement, généralement entraîné à l'aide d'un d'apprentissage par renforcement.

Les algorithmes du NAS ont prouvé leur efficacité pour identifier pour des tâches diverses, y compris des images la classification, la classification de texte, et la traduction automatique.

neurones feedforward

#fundamentals

Un modèle contenant au moins un couche cachée. Un réseau de neurones profond est un type de réseau de neurones contenant plusieurs couches cachées. Par exemple, le schéma suivant montre un réseau de neurones profond contenant deux couches cachées.

Un réseau de neurones avec une couche d'entrée, deux couches cachées et une couche de sortie.

Chaque neurone d'un réseau de neurones se connecte à tous les nœuds de la couche suivante. Par exemple, dans le diagramme précédent, vous remarquerez que chacun des trois neurones se connecter séparément aux deux neurones de la première couche cachée une deuxième couche cachée.

Les réseaux de neurones implémentés sur les ordinateurs sont parfois appelés réseaux de neurones artificiels afin de les différencier les réseaux de neurones présents dans le cerveau et d'autres systèmes nerveux.

Certains réseaux de neurones peuvent imiter des relations non linéaires extrêmement complexes entre différentes caractéristiques et l'étiquette.

Consultez également les articles Réseau de neurones convolutif et Réseau de neurones récurrent.

neurone

#fundamentals

En machine learning, unité distincte d'une couche cachée d'un réseau de neurones. Chaque neurone effectue les opérations suivantes : action en deux étapes:

Calcule la somme pondérée des valeurs d'entrée multipliées par par les pondérations correspondantes.
Transmet la somme pondérée en entrée à une fonction d'activation.

Un neurone de la première couche cachée accepte les entrées des valeurs des caractéristiques dans la couche d'entrée. Un neurone de toute couche cachée au-delà de la première accepte les entrées des neurones de la couche cachée précédente. Par exemple, un neurone de la deuxième couche cachée accepte les entrées dans la première couche cachée.

L'illustration suivante met en évidence deux neurones et leur d'entrée.

Un neurone dans un réseau de neurones imite le comportement des neurones dans le cerveau et d'autres parties des systèmes nerveux.

N-gramme

#seq

#language

Séquence ordonnée de N mots. Par exemple, vraiment follement correspond à un gramme de 2 grammes. L'ordre a une importance : follement vraiment est un 2-grammes différent de vraiment follement.

N	Noms pour ce type de N-gramme	Exemples
2	bigramme ou 2-gramme	to go, go to, eat lunch, eat dinner
3	trigramme ou 3-gramme	ate too much, three blind mice, the bell tolls
4	4-gramme	walk in the park, dust in the wind, the boy ate lentils

De nombreux modèles de compréhension du langage naturel reposent sur les N-grammes pour prédire le prochain mot que l'utilisateur saisira ou énoncera. Par exemple, supposons qu'un utilisateur tape three blind. Un modèle de NLU basé sur des trigrammes prédira probablement l'utilisateur saisira ensuite mice.

Faire la distinction entre les N-grammes et les sacs de mots, qui sont des listes de mots non ordonnées.

NLU (Natural Language Understanding, compréhension du langage naturel) - 1st occurrence only, then use "NLU".

#language

Abréviation de compréhension du langage naturel.

nœud (arbre de décision)

#df

Dans un arbre de décision, toute condition ou leaf.

Arbre de décision avec deux conditions et trois feuilles.

nœud (réseau de neurones)

#fundamentals

Neurone dans une couche cachée.

nœud (graphe TensorFlow)

#TensorFlow

Opération dans un graphe TensorFlow.

bruit

De manière générale, tout ce qui masque le signal dans un ensemble de données. Bruit peuvent être introduits dans les données de différentes manières. Exemple :

Des évaluateurs humains font des erreurs concernant l'ajout d'étiquettes.
Des instruments sont mal enregistrés ou des humains omettent des valeurs de caractéristiques.

condition non binaire

#df

Condition contenant plus de deux résultats possibles. Par exemple, la condition non binaire suivante contient trois résultats possibles :

Condition (number_of_legs = ?) qui conduit à trois résultats possibles. Un résultat (number_of_legs = 8) conduit à une araignée nommée feuille. Un deuxième résultat (number_of_legs = 4) mène à
une feuille nommée « chien ». Un troisième résultat (number_of_legs = 2) conduit à une feuille nommée "pingouin".

non linéaire

#fundamentals

Relation entre deux variables ou plus qui ne peut pas être représentée uniquement par l'addition et la multiplication. Une relation linéaire peut être représentée par une ligne, tandis qu'une relation non linéaire ne peut pas l'être. Prenons l'exemple de deux modèles qui associent chacun une seule caractéristique à un seul libellé. Le modèle de gauche est linéaire et celui de droite est non linéaire :

Deux tracés. Un tracé est une droite, il s'agit donc d'une relation linéaire.
L'autre graphique est une courbe. Il s'agit donc d'une relation non linéaire.

biais de non-réponse

#fairness

Voir biais de sélection.

non-stationnarité

#fundamentals

Caractéristique dont les valeurs changent selon une ou plusieurs dimensions, généralement le temps. Prenons l'exemple des exemples suivants de non-stationarité:

Le nombre de maillots de bain vendus dans un magasin donné varie selon la saison.
La quantité d'un fruit particulier récolté dans une région donnée est nulle pendant une grande partie de l'année, mais importante pendant une courte période.
En raison du changement climatique, les températures moyennes annuelles évoluent.

À comparer à la stationnarité.

normalisation

#fundamentals

De manière générale, le processus de conversion de la plage réelle d'une variable de valeurs dans une plage de valeurs standard, telle que:

-1 à +1
Entre 0 et 1
Score Z (environ -3 à +3)

Par exemple, supposons que la plage de valeurs réelle d'une caractéristique donnée soit comprise entre 800 et 2 400. Dans le cadre de l'ingénierie des caractéristiques, vous pouvez normaliser les valeurs réelles dans une plage standard, par exemple de -1 à +1.

La normalisation est une tâche courante dans la création de caractéristiques. Les modèles sont généralement entraînés plus rapidement (et produisent de meilleures prédictions) lorsque chaque caractéristique numérique du vecteur de caractéristiques a à peu près la même plage.

Pour en savoir plus, consultez le module sur l'utilisation des données numériques du cours d'initiation au machine learning. Consultez également la page Normalisation du score Z.

détection de nouveauté

Processus consistant à déterminer si un nouvel exemple provient de la même distribution que l'ensemble d'entraînement. En d'autres termes, après l'entraînement sur l'ensemble d'entraînement, la détection de nouveauté détermine si un exemple nouveau (lors de l'inférence ou de l'entraînement supplémentaire) est une anomalie.

À comparer à la détection des anomalies.

données numériques

#fundamentals

Caractéristiques représentées par des nombres entiers ou réels. Par exemple, un modèle d'évaluation de maison représenterait probablement la taille d'une maison (en pieds carrés ou en mètres carrés) sous forme de données numériques. Représenter une caractéristique sous forme de données numériques indique que les valeurs de la caractéristique ont une relation mathématique avec l'étiquette. Autrement dit, le nombre de mètres carrés dans une maison a probablement relation mathématique avec la valeur de la maison.

Les données entières ne doivent pas toutes être représentées sous forme de données numériques. Par exemple : les codes postaux dans certaines parties du monde sont des entiers ; En revanche, les adresses IP (nombre entier) les codes ne doivent pas être représentés sous forme de données numériques dans les modèles. En effet, un code postal 20000 n'est pas deux fois (ou moitié) plus efficace qu'un code postal 10000. De plus, même si les codes postaux différents correspondent à des valeurs immobilières différentes, nous ne pouvons pas supposer que les valeurs immobilières au code postal 20 000 sont deux fois plus élevées que celles au code postal 10 000. Les codes postaux doivent être représentés sous forme de données catégorielles. à la place.

Les caractéristiques numériques sont parfois appelées caractéristiques continues.

NumPy

Un <ph type="x-smartling-placeholder"></ph> bibliothèque mathématique Open Source qui fournit des opérations de tableau efficaces en Python. pandas est basé sur NumPy.

O

objectif

Métrique que votre algorithme tente d'optimiser.

fonction objectif

Formule mathématique ou métrique qu'un modèle cherche à optimiser. Par exemple, la fonction objectif La régression linéaire est généralement Perte quadratique moyenne. Par conséquent, lors de l'entraînement d'un modèle de régression linéaire, l'entraînement vise à minimiser la perte quadratique moyenne.

Dans certains cas, l'objectif est de maximiser la fonction objectif. Par exemple, si la fonction objectif est la précision, l'objectif est de maximiser la précision.

Voir aussi perte.

condition oblique

#df

Dans un arbre de décision, condition impliquant plusieurs caractéristiques. Par exemple, si la hauteur et la largeur sont toutes deux des caractéristiques, la condition suivante est oblique :

  height > width

À comparer à la condition d'alignement sur l'axe.

hors connexion

#fundamentals

Synonyme de statique.

inférence hors ligne

#fundamentals

Processus par lequel un modèle génère un lot de prédictions, puis met en cache (enregistre) ces prédictions. Les applications peuvent alors accéder à partir du cache au lieu de réexécuter le modèle.

Prenons l'exemple d'un modèle qui génère les prévisions météo locales (prédictions) toutes les quatre heures. Après chaque exécution du modèle, le système met en cache toutes les prévisions météo locales. Les applis météo récupèrent les prévisions du cache.

L'inférence hors ligne est également appelée inférence statique.

À comparer à l'inférence en ligne.

Encodage one-hot

#fundamentals

Représenter des données catégorielles sous forme de vecteur dans lequel:

Un élément est défini sur 1.
Tous les autres éléments sont définis sur 0.

L'encodage one-hot est couramment utilisé pour représenter des chaînes ou des identifiants qui ont un ensemble fini de valeurs possibles. Par exemple, supposons qu'une caractéristique catégorique nommée Scandinavia ait cinq valeurs possibles :

"Danemark"
"Suède"
"Norvège"
"Finlande"
"Islande"

L'encodage en valeurs uniques peut représenter chacune des cinq valeurs comme suit :

country	Vecteur
"Danemark"	1	0	0	0	0
"Suède"	0	1	0	0	0
"Norvège"	0	0	1	0	0
"Finlande"	0	0	0	1	0
"Islande"	0	0	0	0	1

Grâce à l'encodage one-hot, un modèle peut apprendre différentes connexions pour chacun des cinq pays.

Représenter une caractéristique sous forme de données numériques correspond à comme alternative à l'encodage one-hot. Malheureusement, représenter Le nombre de pays scandinaves n'est pas un bon choix. Par exemple : Prenons la représentation numérique suivante:

"Danemark" est 0
"Suède" est 1
"Norvège" est 2
"Finlande" est de 3
"Islande" est de 4

Avec l'encodage numérique, le modèle interpréterait les nombres bruts mathématiquement, et essayer de s'entraîner avec ces nombres. Toutefois, l'Islande n'est pas deux fois plus que pour la Norvège, le modèle tirerait donc des conclusions étranges.

apprentissage one-shot

Approche du machine learning, souvent utilisée pour la classification d'objets, conçue pour apprendre des classificateurs efficaces à partir d'un seul exemple d'entraînement.

Voir aussi apprentissage few-shot et Apprentissage zero-shot :

requête one-shot

#language

#generativeAI

Une invite contenant un exemple montrant comment le grand modèle de langage doit répondre. Par exemple : la requête suivante contient un exemple qui montre à un grand modèle de langage il doit répondre à une requête.

Composants d'une requête	Remarques
`Quelle est la devise officielle du pays spécifié ?`	Question à laquelle le LLM doit répondre.
`France : EUR`	Voici un exemple.
`Inde :`	Requête réelle.

Comparez la invite ponctuelle aux termes suivants :

requêtes zero-shot
requête few-shot

one-vs.-all

#fundamentals

Pour un problème de classification avec N classes, solution composée de N distincts Les classificateurs binaires : un classificateur binaire pour chaque résultat possible. Soit, par exemple, un modèle qui classe les exemples en animal, végétal ou minéral. Une solution un contre tous fournirait les trois classificateurs binaires distincts suivants :

animal ou non
légume par rapport à non-légume
minéraux et non minéraux

online

#fundamentals

Synonyme de dynamique.

inférence en ligne

#fundamentals

Génération de prédictions à la demande. Par exemple : Supposons qu'une application transmette des entrées à un modèle et envoie une requête pour obtenir la prédiction. Un système utilisant l'inférence en ligne répond à la requête en exécutant le modèle (et en renvoyant la prédiction à l'application).

À comparer à l'inférence hors connexion.

opération (op)

#TensorFlow

Dans TensorFlow, toute procédure qui crée, manipule ou détruit un Tensor. Par exemple, une multiplication matricielle est une opération qui prend deux tenseurs en entrée et génère un tenseur en sortie.

Optax

Bibliothèque d'optimisation et de traitement du gradient pour JAX. Optax facilite la recherche en fournissant des éléments de base combinés de façon personnalisée afin d'optimiser des modèles paramétriques les réseaux de neurones profonds. Voici d'autres objectifs :

Fournir des implémentations lisibles, bien testées et efficaces composants de base.
Amélioration de la productivité en permettant de combiner des ingrédients de bas niveau dans des optimiseurs personnalisés (ou d'autres composants du traitement du gradient).
Accélérer l'adoption de nouvelles idées en simplifiant le processus à contribuer.

optimizer

Implémentation particulière de l'algorithme de descente de gradient. Voici quelques optimiseurs courants:

AdaGrad, qui signifie "descente de gradient adaptative".
Adam, qui signifie ADAptive with Momentum.

biais d'homogénéité de l'exogroupe

#fairness

Tendance à percevoir les membres d'un exogroupe comme plus semblables que les membres de son groupe d'appartenance lorsque l'on compare les attitudes, les valeurs, les traits de personnalité et d'autres caractéristiques. Le groupe d'appartenance désigne les personnes avec lesquelles vous interagissez régulièrement, tandis que l'exogroupe désigne les personnes avec lesquelles vous n'interagissez pas régulièrement. Si vous créer un jeu de données en demandant aux gens de fournir des attributs sur hors groupes, ces attributs peuvent être moins nuancés et plus stéréotypés que les attributs que les participants listent pour les personnes de leur groupe.

Par exemple, des Lilliputiens pourraient décrire de manière très détaillée les maisons d'autres Lilliputiens, en mentionnant de légères différences dans les styles architecturaux, les fenêtres, les portes et les dimensions. Cependant, ces mêmes Lilliputiens pourraient se contenter de déclarer que Les Brobdingnagiens vivent tous dans des maisons identiques.

Le biais d'homogénéité de l'exogroupe est une forme de biais de représentativité.

Voir aussi biais d'appartenance.

détection des anomalies

Processus consistant à identifier les valeurs aberrantes dans un ensemble d'entraînement.

À comparer à la détection de nouveauté.

des anomalies

Valeurs éloignées de la plupart des autres valeurs. Dans le machine learning, toutes les valeurs suivantes sont des anomalies :

Données d'entrée dont les valeurs sont éloignées de plus de trois écarts types environ de la moyenne
Pondérations dont la valeur absolue est élevée
Valeurs prédites relativement éloignées des valeurs réelles.

Par exemple, supposons que widget-price soit une caractéristique d'un certain modèle. Supposons que la moyenne widget-price soit de 7 euros avec un écart type de 1 euro. Les exemples contenant un widget-price de 12 euros ou de 2 euros seraient donc considérés comme des valeurs aberrantes, car chacun de ces prix est à cinq écarts-types de la moyenne.

Les valeurs aberrantes sont souvent causées par des fautes de frappe ou d'autres erreurs de saisie. Dans d'autres cas, les valeurs aberrantes ne sont pas des erreurs. Après tout, les valeurs éloignées de cinq écarts types de la moyenne sont rares, mais pas impossibles.

Les anomalies entraînent souvent des problèmes lors de l'entraînement du modèle. Extraits est une façon de gérer les anomalies.

évaluation hors du sac

#df

Mécanisme d'évaluation de la qualité d'une forêt de décision en testant chaque d'un arbre de décision exemples non utilisés pendant entraînement de cet arbre de décision. Par exemple, dans dans le schéma suivant, le système entraîne chaque arbre de décision sur environ deux tiers des exemples, puis évalue le tiers restant des exemples.

Forêt de décision composée de trois arbres de décision.
Un arbre de décision entraîne l'entraînement sur deux tiers des exemples
puis utilise le tiers restant
pour l'évaluation finale.
Un deuxième arbre de décision s'entraîne sur deux tiers différents des exemples que l'arbre de décision précédent, puis utilise un tiers différent pour l'évaluation hors bande que l'arbre de décision précédent.

L'évaluation hors échantillon est une approximation efficace et conservatrice du mécanisme de validation croisée. Dans la validation croisée, un modèle est entraîné pour chaque cycle de validation croisée (par exemple, 10 modèles sont entraînés dans une validation croisée à 10 fois). Avec l'évaluation OOB, un seul modèle est entraîné. Comme le bagage retient certaines données de chaque arbre pendant l'entraînement, l'évaluation OOB peut utiliser pour se rapprocher de la validation croisée.

couche de sortie

#fundamentals

La "finale" d'un réseau de neurones. La couche de sortie contient la prédiction.

L'illustration suivante montre un petit réseau de neurones profond avec une couche d'entrée, deux couches cachées et une couche de sortie :

Un réseau de neurones avec une couche d'entrée, deux couches cachées et une
couche de sortie. La couche d'entrée se compose de deux éléments. La première couche cachée se compose de trois neurones et la deuxième de deux neurones. La couche de sortie se compose d'un seul nœud.

surapprentissage

#fundamentals

Création d'un modèle correspondant si étroitement aux données d'entraînement qu'il ne parvient pas à effectuer des prédictions correctes avec de nouvelles données.

La régularisation peut réduire le surapprentissage. L'entraînement sur un ensemble d'entraînement vaste et varié peut également réduire le surapprentissage.

Cliquez sur l'icône pour ajouter des notes.

Le surapprentissage, c'est comme suivre les conseils de vos interlocuteurs préférés un enseignant. Vous réussirez probablement dans le cours de cet enseignant, mais vous risquez de vous "adapter trop" à ses idées et de ne pas réussir dans d'autres cours. En suivant les conseils d'enseignants, vous pourrez : mieux s'adapter à de nouvelles situations.

suréchantillonnage

Réutilisation des exemples d'une classe minoritaire dans un ensemble de données avec déséquilibre des classes afin de créer un ensemble d'entraînement plus équilibré.

Par exemple, considérons un problème de classification binaire dans lequel le ratio de la classe majoritaire sur la classe minoritaire est de 5 000 : 1. Si le jeu de données contient un million d'exemples, alors l'ensemble de données ne contient qu'environ 200 exemples de la classe minoritaire, ce qui peut pas assez d'exemples pour un entraînement efficace. Pour remédier à ce problème, vous vous risquez de suréchantillonner (réutiliser) plusieurs fois ces 200 exemples, ce qui peut suffisamment d'exemples pour un entraînement utile.

Vous devez faire attention à ne pas trop suradapter votre modèle lorsque vous effectuez un suréchantillonnage.

À comparer à l'échantillonnage sous-représentatif.

P

données compactes

Une approche permettant de stocker des données plus efficacement.

Les données compressées stockent les données dans un format compressé ou dans d'une autre manière qui permet d'y accéder plus efficacement. Elles réduisent la quantité de mémoire et de calcul requise pour y accéder, ce qui accélère l'entraînement et améliore l'efficacité de l'inférence de modèle.

Les données compressées sont souvent utilisées avec d'autres techniques, telles que l'augmentation des données et la régularisation, ce qui améliore encore les performances des modèles.

pandas

#fundamentals

API d'analyse de données orientée colonnes basée sur numpy. De nombreux frameworks de machine learning, y compris TensorFlow, acceptent les structures de données pandas comme entrées. Pour en savoir plus, consultez la documentation de pandas.

paramètre

#fundamentals

Les pondérations et les biais qu'un modèle apprend lors de l'entraînement. Par exemple, dans un modèle de régression linéaire, les paramètres consistent en le biais (b) et toutes les pondérations (w₁, w₂, etc.) dans la formule suivante :

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

À l'inverse, les hyperparamètres sont les valeurs que vous (ou un service de réglage d'hyperparamètres) fournissez au modèle. Par exemple, le taux d'apprentissage est un hyperparamètre.

réglage efficace des paramètres

#language

#generativeAI

Ensemble de techniques permettant d'affiner un grand modèle de langage pré-entraîné (PLM) plus efficacement qu'un affinage complet. L'optimisation des paramètres affine généralement beaucoup moins de paramètres que l'affinage complet, mais produit généralement un grand modèle de langage qui fonctionne aussi bien (ou presque) qu'un grand modèle de langage créé à partir d'un affinage complet.

Indiquer les points communs et les différences entre les réglages efficaces avec les paramètres suivants:

réglage des instructions
réglage des requêtes

Le réglage des paramètres avec optimisation est également appelé optimisation du réglage des paramètres.

Serveur de paramètres

#TensorFlow

Un job qui effectue le suivi des paramètres d'un modèle dans un distribué.

mise à jour des paramètres

Ajuster les paramètres d'un modèle pendant l'entraînement, généralement en une seule itération descente de gradient.

dérivée partielle

Dérivée dans laquelle toutes les variables, sauf une, sont considérées comme des constantes. Par exemple, la dérivée partielle de f(x, y) par rapport à x est la dérivée de f considérée uniquement comme une fonction de x (c'est-à-dire en gardant y constante). La dérivée partielle de f par rapport à x se concentre uniquement sur comment x change et ignore toutes les autres variables de l'équation.

biais de participation

#fairness

Synonyme de biais de non-réponse. Voir biais de sélection.

stratégie de partitionnement

Algorithme qui répartit les variables entre les serveurs de paramètres.

Pax

Framework de programmation conçu pour l'entraînement de modèles de réseaux de neurones à grande échelle, si grands qu'ils couvrent plusieurs tranches ou pods de puce d'accélérateur TPU.

Pax est basé sur Flax, qui est basé sur JAX.

Schéma illustrant la position de Pax dans la pile logicielle.
Pax est basé sur JAX. Pax se compose de trois couches. La couche inférieure contient TensorStore et Flax.
La couche médiane contient Optax et Flaxformer. La couche supérieure contient la bibliothèque de modélisation Praxis. Fiddle est basé sur Pax.

perceptron

Un système (matériel ou logiciel) qui prend une ou plusieurs valeurs d'entrée, exécute une fonction sur la somme pondérée des entrées et calcule une valeur unique valeur de sortie. Dans le machine learning, la fonction est généralement non linéaire, comme ReLU, sigmoïde ou tanh. Par exemple, le perceptron suivant repose sur la fonction sigmoïde pour traiter trois valeurs d'entrée :

$$f(x_1, x_2, x_3) = \text{sigmoid}(w_1 x_1 + w_2 x_2 + w_3 x_3)$$

Dans l'illustration suivante, le perceptron prend trois entrées chacune modifiée par une pondération avant d'entrer dans le perceptron :

Un perceptron qui prend 3 entrées, chacune multipliée par des pondérations différentes. Le perceptron génère une seule valeur.

Les perceptrons sont les neurones de réseaux de neurones.

performance

Terme complexe ayant les significations suivantes:

Signification standard en ingénierie logicielle. Namely: à quelle vitesse (ou efficacement) ce logiciel fonctionne-t-il ?
Signification dans le machine learning. Ici, les performances répondent à la question suivante : quel est le degré d'exactitude de ce modèle ? En d'autres termes, les prédictions du modèle sont-elles de qualité ?

importances des variables de permutation

#df

Type d'importance de la variable qui évalue l'augmentation de l'erreur de prédiction d'un modèle après avoir permuté la les valeurs de la caractéristique. L'importance de la variable de permutation est une variable la métrique.

perplexité

Mesure de l'efficacité d'un modèle à accomplir une tâche. Par exemple, supposons que votre tâche consiste à lire les premières lettres d'un mot qu'un utilisateur saisit sur le clavier d'un téléphone et à proposer une liste de mots de fin possibles. Dans cette tâche, la perplexité (P) correspond approximativement au nombre que vous devez proposer pour que votre liste contienne les véritables mot que l'utilisateur essaie de taper.

La perplexité est liée à l'entropie croisée comme suit:

$$P= 2^{-\text{cross entropy}}$$

pipeline

Infrastructure sur laquelle repose un algorithme de machine learning. Un pipeline comprend la collecte des données, leur intégration dans des fichiers de données d'entraînement, entraîner un ou plusieurs modèles et exporter les modèles en production.

pipeline

#language

Forme de parallélisme de modèle dans laquelle le traitement d'un modèle est divisé en étapes consécutives, et chaque étape est exécutée sur un appareil différent. Pendant qu'une étape traite un lot, l'étape précédente peut fonctionner sur le lot suivant.

Voir aussi Entraînement par étapes.

pjit

Une fonction JAX qui divise le code pour qu'il soit exécuté sur plusieurs puces accélérateurs. L'utilisateur transmet une fonction à pjit, qui renvoie une fonction ayant une sémantique équivalente, mais compilée dans un calcul XLA exécuté sur plusieurs appareils (tels que des GPU ou des cœurs TPU).

pjit permet aux utilisateurs de partitionner des calculs sans les réécrire en utilisant le partitionnement SPMD.

Depuis mars 2023, pjit a été fusionné avec jit. Consultez Les tableaux distribués et l'automatisation chargement en parallèle pour en savoir plus.

PLM

#language

#generativeAI

Abréviation de modèle de langage pré-entraîné.

pmap

Une fonction JAX qui exécute des copies d'une fonction d'entrée sur plusieurs périphériques matériels sous-jacents (CPU, GPU ou TPU) avec différentes valeurs d'entrée. pmap s'appuie sur SPMD.

policy

#rl

Dans l'apprentissage par renforcement, le mappage probabiliste d'agent des états aux actions.

pooling

#image

Réduction d'une matrice (ou matrices) créée par une fonction couche convolutive vers une matrice plus petite. Le pooling implique généralement de prendre la valeur maximale ou moyenne à travers l'espace commun. Soit, par exemple, la matrice 3 x 3 suivante :

La matrice 3x3 [[5,3,1], [8,2,5], [9,4,3]].

Une opération de pooling, tout comme une opération convolutive, divise ce en tranches, puis fait glisser cette opération convolutive pas. Par exemple, supposons que l'opération de pooling divise la matrice convolutive en tranches 2x2 avec un pas de 1x1. Comme illustré dans le diagramme suivant, quatre opérations de pooling ont lieu. Imaginons que chaque opération de pooling sélectionne la valeur maximale des quatre valeurs de cette tranche :

Le pooling permet d'appliquer l'invariance par translation dans la matrice d'entrée.

Pour les applications de vision, le pooling est officiellement appelé pooling spatial. Les applications de séries temporelles appellent généralement le regroupement regroupement temporel. De manière moins formelle, le pooling est souvent appelé sous-échantillonnage ou rééchantillonnage.

encodage positionnel

#language

Technique permettant d'ajouter des informations sur la position d'un jeton dans une séquence pour la représentation vectorielle continue du jeton. Les modèles Transformer utilisent l'encodage de position pour mieux comprendre la relation entre les différentes parties de la séquence.

Une implémentation courante de l'encodage positionnel utilise une fonction sinusoïdale. (Plus précisément, la fréquence et l'amplitude de la fonction sinusoïdale sont déterminées par la position du jeton dans la séquence.) Cette technique permet à un modèle Transformer d'apprendre à traiter les différentes parties en fonction de leur position.

classe positive

#fundamentals

Classe pour laquelle vous effectuez le test.

Par exemple, la classe positive d'un modèle de cancer pourrait être "tumeur". La classe positive d'un classificateur d'e-mails pourrait être "spam".

À comparer à la classe négative.

Cliquez sur l'icône pour afficher des notes supplémentaires.

Le terme classe positive peut prêter à confusion, car le terme "positif" résultat des tests est souvent indésirable. Par exemple, la classe positive dans de nombreux tests médicaux correspondent à des tumeurs ou des maladies. En général, vous voulez qu'un médecin pour vous dire : « Félicitations ! Vos résultats de test ont été négatifs." Quoi qu'il en soit, la classe positive est l'événement que le test cherche à identifier.

Certes, vous testez simultanément les classes positives et négatives.

post-traitement

#fairness

#fundamentals

Ajustement de la sortie d'un modèle après son exécution. Le post-traitement peut être utilisé pour appliquer des contraintes d'équité sans modifier les modèles eux-mêmes.

Par exemple, on peut appliquer un post-traitement à un classificateur binaire en définissant un seuil de classification l'égalité des chances est maintenue. pour un attribut en vérifiant que le taux de vrais positifs est identique pour toutes les valeurs de cet attribut.

AUC PR (aire sous la courbe PR)

Aire sous la courbe de précision/rappel interpolée, obtenue en traçant des points (rappel, précision) pour différentes valeurs du seuil de classification. Selon la méthode de calcul, l'AUC PR peut être équivalent à la précision moyenne du modèle.

Praxis

Bibliothèque principale de ML hautes performances de Pax. La praxis est souvent appelée "bibliothèque de calques".

Praxis ne contient pas seulement les définitions de la classe Layer, mais également la plupart de ses composants associés, y compris :

données saisies
bibliothèques de configuration (HParam et Fiddle)
les optimiseurs

La praxis fournit les définitions de la classe Model.

precision

Statistique des modèles de classification qui répond à la question suivante :

Lorsque le modèle a prédit la classe positive, quel est le pourcentage de prédictions correctes ?

Voici la formule:

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

où :

vrai positif signifie que le modèle a prédit correctement la classe positive.
Un faux positif signifie que le modèle a incorrectement prédit la classe positive.

Par exemple, supposons qu'un modèle ait effectué 200 prédictions positives. Sur ces 200 prédictions positives:

150 sont des vrais positifs.
50 d'entre eux étaient des faux positifs.

Dans ce cas :

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

À comparer à la précision et au rappel.

Pour en savoir plus, consultez Classification : précision, rappel, précision et métriques associées.

la courbe de précision/rappel

Courbe de précision et de rappel à différents des seuils de classification.

prédiction

#fundamentals

Résultat d'un modèle. Exemple :

La prédiction d'un modèle de classification binaire correspond à la classe positive ou à la classe négative.
La prédiction d'un modèle de classification multiclasse est une classe.
La prédiction d'un modèle de régression linéaire est un nombre.

#generativeAI

Entraînement initial d'un modèle sur un ensemble de données volumineux. Certains modèles pré-entraînés sont des géants maladroites qui doivent généralement être affinés par un entraînement supplémentaire. Par exemple, les experts en ML peuvent pré-entraîner un grand modèle de langage sur un vaste ensemble de données textuelles, comme toutes les pages en anglais de Wikipédia. Après une formation préalable, le modèle qui en résulte peut être affiné grâce à l'une des méthodes suivantes : techniques:

distillation
ajustement
réglage des instructions
Réglage des paramètres avec optimisation
prompt-tuning

croyance antérieure

Ce que vous croyez à propos des données avant de commencer l'entraînement avec celles-ci. Par exemple, la régularisation L₂ repose sur une conviction préalable selon laquelle les pondérations doivent être faibles et normalement répartis autour de zéro.

modèle de régression probabiliste

Un modèle de régression qui utilise non seulement le pondérations pour chaque caractéristique, mais aussi l'incertitude de ces pondérations. Un modèle de régression probabiliste génère une prédiction et l'incertitude de cette prédiction. Par exemple, un modèle de régression probabiliste peut donner une prédiction de 325 avec une un écart type de 12. Pour en savoir plus sur la régression probabiliste, consultez ce document Colab sur tensorflow.org.

fonction de densité de probabilité

Fonction qui identifie la fréquence des échantillons de données ayant exactement une valeur particulière. Lorsque les valeurs d'un ensemble de données sont des valeurs continues à virgule flottante chiffres, il est rare que des correspondances exactes soient disponibles. Toutefois, l'intégration d'une fonction de densité de probabilité de la valeur x à la valeur y donne la fréquence attendue des échantillons de données entre x et y.

Prenons l'exemple d'une distribution normale ayant une moyenne de 200 et une un écart type de 30. Pour déterminer la fréquence attendue des échantillons de données compris entre 211,4 et 218,7, vous pouvez intégrer la fonction de densité de probabilité pour une distribution normale de 211,4 à 218,7.

Requête

#language

#generativeAI

Tout texte saisi en entrée d'un grand modèle de langage pour conditionner le modèle afin qu'il se comporte d'une certaine manière. Les requêtes peuvent être aussi courtes qu'un expression exacte ou arbitrairement longue (par exemple, l'intégralité du texte d'un roman). Requêtes appartiennent à plusieurs catégories, dont celles indiquées dans le tableau suivant:

Catégorie d'invite	Exemple	Remarques
Question	`À quelle vitesse un pigeon vole-t-il ?`
Instruction	`Écris un poème amusant sur l'arbitrage.`	Requête qui demande au grand modèle de langage de faire quelque chose.
Exemple	`Traduire le code Markdown en HTML. Par exemple: Markdown: * élément de liste HTML : <ul> <li>élément de liste</li> </ul>`	La première phrase de cet exemple de requête est une instruction. Le reste de la requête est l'exemple.
Rôle	`Expliquez pourquoi la descente de gradient est utilisée dans l'entraînement de machine learning à un doctorat en physique.`	La première partie de la phrase est une instruction ; l'expression "à un doctorat en physique" est la partie rôle.
Entrée partielle que le modèle doit compléter	`Le Premier ministre du Royaume-Uni réside à`	Une requête d'entrée partielle peut se terminer brusquement (comme le fait cet exemple). ou se terminer par un trait de soulignement.

Un modèle d'IA générative peut répondre à une requête avec du texte, du code, des images, des représentations vectorielles continues, des vidéos… presque n'importe quoi.

apprentissage basé sur des requêtes

#language

#generativeAI

Capacité de certains modèles qui leur permet d'adapter leur comportement en réponse à une entrée de texte arbitraire (invites). Dans un paradigme classique d'apprentissage basé sur des requêtes, grand modèle de langage répond à une requête en la génération de texte. Par exemple, supposons qu'un utilisateur saisisse la requête suivante :

Résume la troisième loi du mouvement de Newton.

Un modèle capable d'apprendre à partir d'invites n'est pas spécifiquement entraîné pour répondre à l'invite précédente. Le modèle "sait" plutôt beaucoup de choses sur la physique, les règles générales du langage et ce qui constitue des réponses généralement utiles. Ces connaissances sont suffisantes pour fournir une réponse (espérons-le) utile. Un commentaire humain supplémentaire ("Cette réponse était trop compliquée." ou "Qu'est-ce qu'une réaction ?") permet à certains systèmes d'apprentissage basés sur des requêtes de améliorer l'utilité de leurs réponses.

conception de requête

#language

#generativeAI

Synonyme d'ingénierie des requêtes.

ingénierie des requêtes

#language

#generativeAI

Art de créer des requêtes qui suscitent les réponses souhaitées d'un grand modèle de langage. Les humains effectuent une ingénierie rapide. Pour obtenir des réponses utiles à partir d'un grand modèle de langage, il est essentiel de rédiger des requêtes bien structurées. L'ingénierie des requêtes dépend de nombreux facteurs, y compris:

Ensemble de données utilisé pour le pré-entraînement et éventuellement fine-tune le grand modèle de langage
La température et d'autres paramètres de décodage utilisé par le modèle pour générer des réponses.

Voir Présentation de la conception de requête pour en savoir plus sur la rédaction de requêtes utiles.

La conception d'invites est synonyme d'ingénierie des requêtes.

réglage des requêtes

#language

#generativeAI

Un mécanisme de réglage efficace des paramètres qui apprend un "préfixe" que le système ajoute au requête réelle.

Une variante du réglage des invites, parfois appelée réglage de préfixe, consiste à ajouter le préfixe à chaque couche. En revanche, la plupart du réglage des requêtes ajoute un préfixe à la couche d'entrée.

Cliquez sur l'icône pour en savoir plus sur les préfixes.

Pour l'ajustement de la requête, le "préfixe" (également appelé "requête douce") est un petit nombre de vecteurs appris, spécifiques à la tâche, ajoutés au début des représentations vectorielles continues du jeton de texte de la requête réelle. Le système apprend l'invite douce en bloquant tous les autres paramètres du modèle et en effectuant un affinage sur une tâche spécifique.

étiquettes de substitution

#fundamentals

Données utilisées pour estimer les étiquettes qui ne sont pas directement disponibles dans un ensemble de données.

Par exemple, supposons que vous deviez entraîner un modèle pour prédire les données de stress. Votre ensemble de données contient de nombreuses fonctionnalités prédictives, mais ne contient pas d'étiquette nommée niveau de stress. Intrépide, vous choisissez "Accidents sur le lieu de travail" comme étiquette de proxy de stress. Après tout, les employés soumis à un stress élevé sont plus sujets aux accidents que les employés calmes. Ou est-ce que ce n'est pas le cas ? Il est possible que les accidents du travail augmentent et diminuent pour plusieurs raisons.

Prenons un deuxième exemple. Supposons que vous souhaitiez que est-ce qu'il pleut ? soit un libellé booléen pour votre ensemble de données, mais que celui-ci ne contienne pas de données sur la pluie. Si des photos sont disponibles, vous pouvez créer des photos de personnes portant des parapluies comme étiquette de substitution pour la phrase is it raining? S'agit-il d'un bon libellé de proxy ? C’est possible, mais les personnes dans certaines cultures peuvent être plus susceptibles de porter des parapluies pour se protéger du soleil que de la pluie.

Les étiquettes de proxy sont souvent imparfaites. Si possible, privilégiez les étiquettes réelles étiquettes de proxy. Cela dit, en l'absence d'une étiquette réelle, l'étiquette très soigneusement, en choisissant l'étiquette de proxy la moins horrible.

proxy (attributs sensibles)

#fairness

Attribut utilisé en remplacement d'une attribut sensible. Par exemple, un le code postal d'un individu peut être utilisé comme indicateur de ses revenus, de leur origine ethnique.

fonction pure

Une fonction dont les sorties ne sont basées que sur ses entrées et qui n'a pas de côté les effets. Plus précisément, une fonction pure n'utilise ni ne modifie aucun état global, comme le contenu d'un fichier ou la valeur d'une variable en dehors de la fonction.

Les fonctions pures peuvent être utilisées pour créer du code thread-safe, ce qui est utile lors du fractionnement du code du modèle sur plusieurs chips d'accélérateur.

Les méthodes de transformation de fonction de JAX exigent que les fonctions d'entrée soient des fonctions pures.

Q

Fonction Q

#rl

Dans l'apprentissage par renforcement, fonction qui prédit le rendement attendu de l'exécution d'une action dans un état, puis en suivant une stratégie donnée.

La fonction Q est également appelée fonction de valeur d'action état.

Q-learning

#rl

Dans le machine learning par renforcement, algorithme qui permet à un agent d'apprendre la fonction Q optimale d'un processus de décision de Markov en appliquant l'équation de Bellman. Les modèles de processus de décision de Markov un environnement.

quantile

Chaque ensemble dans le binning en quantiles.

binning en quantiles

Distribuer les valeurs d'une caractéristique dans des buckets de sorte que chaque bucket contient le même nombre d'exemples (ou presque le même). Par exemple : la figure suivante divise 44 points en 4 buckets, chacun d'entre eux contient 11 points. Pour que chaque ensemble de la figure contienne le même nombre de points, certains ensembles couvrent une largeur différente de valeurs x.

44 points de données répartis en 4 ensembles de 11 points chacun.
Bien que chaque segment contienne le même nombre de points de données,
certains buckets contiennent une plage de valeurs de caractéristiques plus large que d'autres
Cloud Storage.

quantification

Terme complexe qui peut être utilisé de différentes manières :

Implémenter le binning en quantiles sur une fonctionnalité donnée.
Transformer les données en zéros et en uns pour un stockage, un entraînement et une inférence plus rapides Étant donné que les données booléennes sont plus robustes au bruit et aux erreurs que les autres formats, la quantification peut améliorer l'exactitude du modèle. Les techniques de quantification incluent l'arrondi, la troncature et la binning.
Réduction du nombre de bits utilisés pour stocker les paramètres d'un modèle. Par exemple, supposons que les paramètres d'un modèle soient stockés sous forme de nombres à virgule flottante 32 bits. La quantification convertit ces paramètres de 32 bits en 4, 8 ou 16 bits. La quantification réduit les éléments suivants :
- Utilisation du calcul, de la mémoire, du disque et du réseau
- Délai d'inférence d'une prédication
- Consommation d'énergie
Cependant, la quantification réduit parfois l'exactitude de la réponse des prédictions.

q

#TensorFlow

Opération TensorFlow qui implémente des données de file d'attente structure. Généralement utilisé dans les E/S.

R

RAG

#fundamentals

Abréviation de génération augmentée par récupération.

forêt d'arbres décisionnels

#df

Un ensemble d'arbres de décision chaque arbre de décision est entraîné avec un bruit aléatoire spécifique. comme le bagging.

Les forêts d'arbres décisionnels sont un type de forêt de décision.

stratégie aléatoire

#rl

Dans l'apprentissage par renforcement, règle qui détermine action aléatoire.

classement

Type d'apprentissage supervisé dont l'objectif est de classer une liste d'éléments.

rang (ordinalité)

Position ordinale d'une classe dans un problème de machine learning qui hiérarchise des classes par ordre décroissant. Par exemple, un classement de comportement système pourrait classer les récompenses d'un chien de la plus élevée (un steak) à le plus bas (chou frisé flétri).

rang (Tensor)

#TensorFlow

Nombre de dimensions d'un Tensor. Par exemple, une grandeur scalaire a un rang de 0, un vecteur un rang de 1 et une matrice un rang de 2.

À ne pas confondre avec le rang (ordinalité).

évaluateur

#fundamentals

Personne qui fournit des libellés pour des exemples. "Annotateur" est un autre nom pour l'évaluateur.

recall (rappel)

Métrique des modèles de classification qui répond la question suivante:

Lorsque la vérité terrain était la classe positive, quel pourcentage de prédictions le modèle a-t-il correctement identifié comme étant la classe positive ?

Voici la formule :

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

où :

Un vrai positif signifie que le modèle a correctement prédit la classe positive.
"faux négatif" signifie que le modèle a prédit à tort classe négative.

Par exemple, supposons que votre modèle ait effectué 200 prédictions sur des exemples pour lesquels la vérité terrain était la classe positive. Sur ces 200 prédictions:

180 sont des vrais positifs.
20 étaient des faux négatifs.

Dans ce cas :

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

Cliquez sur l'icône pour afficher les remarques concernant les ensembles de données avec déséquilibre des classes.

Le rappel est particulièrement utile pour déterminer modèles de classification dans lesquels la classe positive est rare. Par exemple : Un ensemble de données avec déséquilibre des classes dans laquelle la classe positive d'une certaine maladie concerne seulement 10 patients sur un million. Supposons que votre modèle effectue cinq millions de prédictions les résultats suivants:

30 vrais positifs
20 faux négatifs
4 999 000 vrais négatifs
950 faux positifs

Le rappel de ce modèle est donc le suivant:

recall = TP / (TP + FN)
recall = 30 / (30 + 20) = 0.6 = 60%

En revanche, la précision de ce modèle est la suivante:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (30 + 4,999,000) / (30 + 4,999,000 + 950 + 20) = 99.98%

Ce niveau de précision élevé semble impressionnant, mais n'a pratiquement aucun sens. Le rappel est une métrique beaucoup plus utile pour les ensembles de données avec déséquilibre des classes que la justesse.

Voir Classification: justesse, rappel, précision et données associées métriques pour en savoir plus.

système de recommandation

#recsystems

Système qui sélectionne pour chaque utilisateur un ensemble relativement petit d'éléments souhaitables dans un corpus volumineux. Par exemple, un système de recommandation de vidéos peut recommander à partir d'un corpus de 100 000 vidéos,en sélectionnant Casablanca, puis The Philadelphia Story (The Philadelphia Story) pour un utilisateur, et Wonder Woman et Black Panther pour une autre. Un système de recommandation de vidéos peut baser ses recommandations sur des facteurs tels que:

Des films notés ou vus par des utilisateurs similaires ;
Genre, réalisateurs, acteurs, catégorie démographique ciblée...

Unité de rectification linéaire (ReLU)

#fundamentals

Fonction d'activation dont le comportement est le suivant :

Si l'entrée est négative ou égale à zéro, la sortie est 0.
Si l'entrée est positive, la sortie est égale à l'entrée.

Exemple :

Si l'entrée est -3, le résultat est 0.
Si l'entrée est +3, la sortie est 3,0.

Voici un graphique de la fonction ReLU:

ReLU est une fonction d'activation très populaire. Malgré son comportement simple, La fonction ReLU permet tout de même à un réseau de neurones d'apprendre un langage nonlinear. les relations entre les caractéristiques et l'étiquette.

réseau de neurones récurrent

#seq

Un réseau de neurones qui exécute intentionnellement plusieurs où des parties de chaque exécution alimentent la prochaine exécution. Plus précisément, les couches cachées de l'exécution précédente fournissent une partie de l'entrée dans la même couche cachée lors de l'exécution suivante. Les réseaux de neurones récurrents sont particulièrement utiles pour évaluer les séquences, afin que les couches cachées puissent apprendre des exécutions précédentes du réseau de neurones sur les parties précédentes de la séquence.

Par exemple, la figure suivante montre un réseau de neurones récurrent qui s'exécute quatre fois. Notez que les valeurs apprises dans les couches cachées lors de la première exécution font partie de l'entrée des mêmes couches cachées lors de la deuxième exécution. De même, les valeurs apprises dans la couche caché lors de la deuxième exécution font partie de l'entrée de la même couche caché lors de la troisième exécution. De cette manière, le réseau de neurones récurrent s'entraîne progressivement et prédit la signification de la séquence complète plutôt que simplement la signification des mots individuels.

Un RNN qui s'exécute quatre fois pour traiter quatre mots d'entrée.

modèle de régression

#fundamentals

De manière informelle, modèle qui génère une prédiction numérique. (À l'inverse, un modèle de classification génère une prédiction de classe.) Par exemple, les modèles de régression suivants sont tous des modèles de régression :

Un modèle qui prédit la valeur d'une maison spécifique, par exemple 423 000 euros.
Un modèle qui prédit l'espérance de vie d'un arbre spécifique (23,2 ans, par exemple).
Un modèle qui prédit la quantité de pluie qui va tomber dans une ville donnée au cours des six prochaines heures, par exemple 0,18 pouce.

Les deux types de modèles de régression les plus courants sont les suivants:

Régression linéaire, qui trouve la ligne qui s'adapte le mieux aux valeurs de libellé aux éléments géographiques.
La régression logistique, qui génère une une probabilité comprise entre 0,0 et 1,0 qu'un système mappe ensuite à une classe la prédiction.

Tous les modèles qui génèrent des prédictions numériques ne sont pas des modèles de régression. Dans certains cas, une prédiction numérique n'est en réalité qu'un modèle de classification qui se trouve avoir des noms de classe numériques. Par exemple, un modèle qui prédit un code postal numérique est un modèle de classification, et non un modèle de régression.

régularisation

#fundamentals

Tout mécanisme qui réduit le surapprentissage Voici quelques-uns des types de régularisation les plus courants :

Régularisation L₁
Régularisation L₂
régularisation par abandon
Arrêt prématuré (Il ne s'agit pas vraiment d'une méthode de régularisation, mais l'arrêt prématuré peut limiter efficacement le surapprentissage.)

La régularisation peut également être définie comme la pénalité appliquée à la complexité d'un modèle.

Cliquez sur l'icône pour ajouter des notes.

La régularisation est contre-intuitive. L'augmentation de la régularisation augmente généralement la perte d'entraînement, ce qui est déroutant, car l'objectif est de minimiser la perte d'entraînement.

En fait, non. L'objectif n'est pas de minimiser la perte d'entraînement. L'objectif est de réaliser d'excellentes prédictions sur des exemples concrets. Fait remarquable, même si l'augmentation de la régularisation augmente la perte d'entraînement, elle aide généralement les modèles à effectuer de meilleures prédictions sur des exemples concrets.

taux de régularisation

#fundamentals

Nombre qui spécifie l'importance relative de la régularisation lors de l'entraînement. Le fait de soulever le le taux de régularisation réduit le surapprentissage, mais peut les performances prédictives du modèle. À l'inverse, réduire ou omettre le taux de régularisation augmente le surapprentissage.

Cliquez sur l'icône pour afficher le calcul.

Le taux de régularisation est généralement représenté par la lettre grecque lambda. L'équation de perte simplifiée suivante montre l'influence de lambda :

$$\text{minimize(loss function + }\lambda\text{(regularization))}$$

où la régularisation correspond à un mécanisme de régularisation, y compris :

Régularisation L₁
Régularisation L₂

apprentissage par renforcement (RL)

#rl

Famille d'algorithmes qui apprennent une stratégie optimale, dont l'objectif est de maximiser le rendement lors de l'interaction avec un environnement. Par exemple, la récompense ultime dans la plupart des jeux est la victoire. Les systèmes d'apprentissage par renforcement peuvent devenir des experts dans la gestion en évaluant des séquences d'actions précédentes qui, au final, a conduit à des victoires et à des séquences qui ont finalement conduit à des pertes.

Apprentissage automatique par renforcement qui utilise le feedback humain (RLHF, Reinforcement Learning from Human Feedback)

#generativeAI

#rl

Utilisation des commentaires de réviseurs humains pour améliorer la qualité des réponses d'un modèle Par exemple, un mécanisme RLHF peut demander aux utilisateurs d'évaluer la qualité de la réponse d'un modèle à l'aide d'un emoji 👍 ou 👎. Le système peut ensuite ajuster ses futures réponses en fonction de ces commentaires.

ReLU

#fundamentals

Abréviation de unité de rectification linéaire.

tampon de relecture

#rl

Dans les algorithmes de type DQN, la mémoire utilisée par l'agent pour stocker les transitions d'état à utiliser dans la relecture d'expérience.

Cloud SQL

Copie de l'ensemble d'entraînement ou du modèle, généralement sur une autre machine. Par exemple, un système peut utiliser les éléments suivants : stratégie d'implémentation du parallélisme des données:

Placer des répliques d'un modèle existant sur plusieurs machines
Envoyez différents sous-ensembles de l'ensemble d'entraînement à chaque réplica.
Agrégez les mises à jour des paramètres.

biais de fréquence

#fairness

Fait que le rythme auquel les personnes écrivent à propos d'actions, de résultats ou de propriétés ne reflète pas leur rythme dans le monde réel ou le degré selon lequel une propriété est caractéristique d'une classe d'individus. Le biais de fréquence peut influer sur la composition des données à partir desquelles les systèmes de machine learning apprennent.

Par exemple, dans les livres, le mot ri est plus répandu que respiré. Un modèle de machine learning conçu pour estimer à partir d'un corpus de livres la fréquence relative du fait de rire et du fait de respirer déterminerait probablement que le premier est plus courant que le second.

vectorielle

Processus de mise en correspondance des données avec des caractéristiques utiles.

reclassement

#recsystems

La dernière étape d'un système de recommandation, au cours de laquelle les éléments notés peuvent être réévalués en fonction d'autres (généralement non ML). Le reclassement évalue la liste des éléments générés par la phase d'attribution de scores, en prenant des mesures telles que :

Éliminer les articles que l'utilisateur a déjà achetés.
Booster le score des éléments les plus récents.

génération augmentée de récupération (RAG)

#fundamentals

Technique permettant d'améliorer la qualité de la sortie d'un grand modèle de langage (LLM) en l'ancrant à des sources de connaissances récupérées après l'entraînement du modèle. Le RAG améliore la précision des réponses du LLM en lui donnant accès aux informations récupérées à partir de bases de connaissances ou de documents fiables.

Voici quelques motivations courantes à utiliser la génération augmentée par récupération :

Améliorer la justesse factuelle des réponses générées par un modèle
Donner au modèle accès à des connaissances sur lesquelles il n'a pas été entraîné
Modifier les connaissances utilisées par le modèle
Activer la citation des sources par le modèle

Par exemple, supposons qu'une application de chimie utilise le modèle PaLM API pour générer des résumés liées aux requêtes des utilisateurs. Lorsque le backend de l'application reçoit une requête, il :

Recherche (ou "récupère") des données pertinentes par rapport à la requête de l'utilisateur.
Ajoute ("augmente") les données chimiques pertinentes à la requête de l'utilisateur.
Demande au LLM de créer un résumé basé sur les données ajoutées.

retour

#rl

Dans l'apprentissage par renforcement, selon une certaine stratégie et un certain état, renvoyé est la somme de toutes les récompenses que l'agent a reçues s'attend à recevoir en respectant le règlement du state à la fin de l'épisode. L'agent tient compte de la nature différée des récompenses attendues en les remettant en fonction des changements d'état requis pour obtenir la récompense.

Par conséquent, si le facteur de remise est $\gamma$et que $r_0, \ldots, r_{N}$désigne les récompenses jusqu'à la fin de l'épisode, le calcul du rendement est le suivant :

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

récompense

#rl

Dans l'apprentissage par renforcement, le résultat numérique action dans un état, tel que défini par l'environnement.

régularisation d'arête

Synonyme de régularisation L₂. Le terme La régularisation d'arête est plus fréquemment utilisée dans les statistiques pures alors que la régularisation L₂ est plus souvent utilisée en machine learning.

RNN

#seq

Abréviation de réseaux de neurones récurrents.

Courbe ROC (Receiver Operating Characteristic)

#fundamentals

Graphique du taux de vrais positifs par rapport à taux de faux positifs pour différentes des seuils de classification en binaire la classification.

La forme d'une courbe ROC suggère la capacité d'un modèle de classification binaire à séparer les classes positives des classes négatives. Supposons, par exemple, qu'un modèle de classification binaire sépare parfaitement toutes les classes négatives de toutes les classes positives :

Une ligne de nombres avec huit exemples positifs à droite et sept exemples négatifs à gauche.

La courbe ROC du modèle précédent se présente comme suit:

Une courbe ROC. L'axe des x correspond au taux de faux positifs, et l'axe des y
est le taux de vrais positifs. La courbe a la forme d'un L inversé. La courbe commence à (0,0,0) et monte directement jusqu'à (0,0,1). La courbe passe ensuite de (0,0,1,0) à (1,0,1,0).

À l'inverse, l'illustration suivante représente graphiquement les valeurs de régression logistique brutes d'un modèle terrible qui ne peut pas du tout séparer les classes négatives des classes positives :

Une ligne numérique avec des exemples positifs et des classes négatives complètement mélangées.

La courbe ROC de ce modèle se présente comme suit:

Une courbe ROC, qui est en fait une ligne droite issue de (0.0,0.0)
à (1.0,1.0).

Dans le monde réel, la plupart des modèles de classification binaire séparent positives et négatives dans une certaine mesure, mais généralement pas parfaitement. Ainsi, une courbe ROC typique se situe quelque part entre les deux extrêmes :

Courbe ROC. L'axe des x correspond au taux de faux positifs, et l'axe des y
est le taux de vrais positifs. La courbe ROC est proche d'un arc irrégulier qui traverse les points cardinaux de l'ouest au nord.

Le point d'une courbe ROC le plus proche de (0,0,1,0) identifie théoriquement le seuil de classification idéal. Cependant, plusieurs autres problèmes concrets influencent la sélection du seuil de classification idéal. Par exemple, les faux négatifs sont peut-être beaucoup plus pénibles que les faux positifs.

Une métrique numérique appelée AUC résume la courbe ROC en une seule valeur à virgule flottante.

requête de rôle

#language

#generativeAI

Partie facultative d'une requête qui identifie une audience cible pour obtenir la réponse d'un modèle d'IA générative. Sans requête de rôle, un grand modèle de langage fournit une réponse qui peut ou non être utile à la personne qui pose les questions. Avec une requête de rôle, un grand modèle de langage peut répondre de manière plus appropriée et plus utile pour une audience cible spécifique. Par exemple, la partie de l'invite de rôle des requêtes suivantes est en gras :

Résume cet article pour un doctorat en économie.
Décrivez le fonctionnement des marées pour un enfant de dix ans.
Expliquer la crise financière de 2008. Parlez comme vous le feriez à un jeune enfant, ou golden retriever.

racine

#df

Le nœud de départ (le premier condition) dans un arbre de décision. Par convention, les diagrammes placent la racine en haut de l'arbre de décision. Exemple :

Arbre de décision avec deux conditions et trois feuilles. La
la condition de départ (x > 2) est la racine.

répertoire racine

#TensorFlow

Répertoire que vous spécifiez pour l'enregistrement des sous-répertoires du point de contrôle TensorFlow et des fichiers d'événements de plusieurs modèles.

la racine carrée de l'erreur quadratique moyenne (RMSE, Root Mean Squared Error)

#fundamentals

Racine carrée de l'erreur quadratique moyenne.

invariance rotationnelle

#image

Dans un problème de classification d'images, la capacité d'un algorithme à classer les images même lorsque leur orientation change. Par exemple, l'algorithme peut toujours identifier une raquette de tennis, qu'elle soit orientée vers le haut, sur le côté ou vers le bas. Notez que l'invariance rotationnelle n'est pas toujours souhaitable ; Par exemple, un 9 à l'envers ne devrait pas être classé comme un 9.

Consultez également les sections invariance par translation et invariance par redimensionnement.

Coefficient de détermination

Une métrique de régression indiquant la variation libellé est dû à une caractéristique individuelle ou à un ensemble de caractéristiques. Le coefficient de détermination est une valeur comprise entre 0 et 1, que vous pouvez interpréter comme suit :

Un R au carré de 0 signifie qu'aucune variation d'une étiquette n'est due ensemble de caractéristiques.
Un R-squared de 1 signifie que toute la variation d'un libellé est due à l'ensemble de caractéristiques.
Un R au carré compris entre 0 et 1 indique dans quelle mesure le la variation peut être prédite à partir d'une caractéristique particulière ou de l'ensemble de caractéristiques. Par exemple, un R au carré de 0,10 signifie que 10 % de la variance de l'étiquette est dû à l'ensemble de caractéristiques, un coefficient de détermination de 0,20 signifie que 20 % sont dus à l'ensemble de caractéristiques, et ainsi de suite.

Le coefficient de détermination (r-carré) est le carré du Corrélation de Pearson coefficients entre les valeurs prédites par un modèle et la vérité terrain.

S

biais d'échantillonnage

#fairness

Voir biais de sélection.

Échantillonnage avec remplacement

#df

Méthode de sélection d'éléments à partir d'un ensemble d'éléments candidats dans laquelle le même l'article peut être sélectionné plusieurs fois. L'expression "avec remplacement" signifie qu'après chaque sélection, l'élément sélectionné est renvoyé dans l'ensemble d'éléments candidats. La méthode inverse, échantillonnage sans remplacement, signifie qu'un élément candidat ne peut être sélectionné qu'une seule fois.

Prenons l'exemple suivant :

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Supposons que le système choisisse de manière aléatoire fig comme premier élément. Si vous utilisez l'échantillonnage avec remplacement, le système sélectionne le deuxième élément de l'ensemble suivant :

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Oui, c'est le même ensemble qu'avant, le système pourrait donc potentiellement sélectionnez à nouveau fig.

Si vous utilisez l'échantillonnage sans remplacement, un échantillon ne peut pas être choisi à nouveau. Par exemple, si le système choisit fig de manière aléatoire comme premier échantillon, fig ne pourra pas être sélectionné à nouveau. Par conséquent, le système choisit le deuxième échantillon parmi l'ensemble suivant (réduit) :

fruit = {kiwi, apple, pear, cherry, lime, mango}

Cliquez sur l'icône pour afficher des notes supplémentaires.

Le mot remplacement dans échantillonnage avec remplacement prête à confusion de nombreuses personnes. En anglais, replacement signifie "substitution". Toutefois, l'échantillonnage avec remplacement utilise en fait la définition française de remplacement, qui signifie "remplacer quelque chose".

Le mot anglais replacement est traduit par le mot français remplacement.

SavedModel

#TensorFlow

Format recommandé pour enregistrer et récupérer des modèles TensorFlow. SavedModel est un format de sérialisation récupérable, de langage neutre, qui permet aux systèmes et aux outils de plus haut niveau de produire, consommer et transformer des modèles TensorFlow.

Consultez le chapitre "Enregistrement et restauration". dans le guide du programmeur TensorFlow.

Économique

#TensorFlow

Un objet TensorFlow de l'enregistrement des points de contrôle du modèle.

scalaire

Un seul nombre ou une seule chaîne pouvant être représentée sous forme de tensor de rank 0. Par exemple, les lignes de code suivantes créent chacune un scalaire dans TensorFlow :

breed = tf.Variable("poodle", tf.string)
temperature = tf.Variable(27, tf.int16)
precision = tf.Variable(0.982375101275, tf.float64)

scaling

Toute transformation ou technique mathématique qui modifie la plage d'un libellé et/ou d'une valeur d'élément géographique. Certaines formes de scaling sont très utiles pour les transformations telles que la normalisation.

Voici quelques formes courantes de scaling utile en machine learning:

mise à l'échelle linéaire, qui utilise généralement une combinaison de soustractions et division pour remplacer la valeur d'origine par un nombre compris entre -1 et +1, ou compris entre 0 et 1.
Échelle logarithmique, qui remplace la valeur d'origine par son logarithme.
La normalisation du score Z, qui remplace la valeur d'origine avec une valeur à virgule flottante représentant le nombre de des écarts types par rapport à la moyenne de cette caractéristique.

scikit-learn

Plate-forme de machine learning Open Source populaire. Voir scikit-learn.org.

notation

#recsystems

La partie d'un système de recommandation qui fournit une valeur ou un classement pour chaque élément produit par génération de candidats.

biais de sélection

#fairness

Erreurs dans les conclusions tirées des échantillons de données en raison d'un processus de sélection générant des différences systématiques entre les échantillons observés dans les données et ceux non observés. Il existe les formes de biais de sélection suivantes:

biais de couverture : la population représentée dans l'ensemble de données ne correspond pas à celle sur laquelle le modèle de machine learning fait des prédictions.
biais d'échantillonnage : les données ne sont pas collectées aléatoirement auprès du groupe cible.
biais de non-réponse (également appelé biais de participation): utilisateurs provenant de certains groupes se désinscrivent des enquêtes à des taux différents de ceux des utilisateurs d'autres groupes.

Supposons que vous créez un modèle de machine learning qui prédit le succès d'un film. Pour collecter des données d'entraînement, vous distribuez une enquête à tout le monde au premier rang d'un théâtre montrant le film. Même si de prime abord cette approche peut sembler être un bon moyen de recueillir un ensemble de données, elle peut introduire les formes de biais de sélection suivantes :

Biais de couverture : en échantillonnant à partir d'une population qui a voulu voir le film, les prédictions de votre modèle peuvent mal se généraliser à des personnes qui n'ont pas manifesté un tel intérêt pour le film.
Biais d'échantillonnage : plutôt que d'échantillonner aléatoirement la population visée (toutes les personnes dans la salle), vous n'avez échantillonné que les personnes du premier rang. Il est possible que les personnes du premier rang sont plus intéressées par le film que les personnes des autres rangs.
Biais de non-réponse: en général, les personnes ayant des opinions fortes ont tendance de répondre plus souvent aux enquêtes facultatives que les personnes présentant des des opinions. L'enquête sur les films étant facultative, les réponses sont plus susceptibles de former la distribution bimodale qu'une distribution normale (en forme de cloche).

auto-attention (également appelée couche d'auto-attention)

#language

Une couche de réseau de neurones qui transforme une séquence de représentations vectorielles continues (par exemple, représentations vectorielles continues jeton) dans une autre séquence de représentations vectorielles continues. Chaque représentation vectorielle continue de la séquence de sortie construite en intégrant les informations des éléments de la séquence d'entrée par un mécanisme d'attention.

La partie auto- de l'auto-attention fait référence à la séquence qui s'occupe d'elle-même plutôt que d'un autre contexte. L'auto-attention est l'une des principales pour les modèles Transformer et utilise la recherche dans le dictionnaire telles que "requête", "clé" et "valeur".

Une couche d'auto-attention commence par une séquence de représentations d'entrée, pour chaque mot. La représentation d'entrée d'un mot peut être la représentation vectorielle continue. Pour chaque mot d'une séquence d'entrée, le réseau évalue la pertinence du mot par rapport à chaque élément de la séquence complète de mots. Les scores de pertinence déterminent dans quelle mesure la représentation finale du mot intègre les représentations d'autres mots.

Prenons l'exemple de la phrase suivante:

L'animal n'a pas traversé la rue, car il était trop fatigué.

L'illustration suivante (de Transformer: une nouvelle architecture de réseau de neurones pour le langage Compréhension) montre le modèle d'attention d'une couche d'auto-attention pour le pronom it, avec l'obscurité de chaque ligne indiquant dans quelle mesure chaque mot contribue à la représentation:

La phrase suivante apparaît deux fois : "L'animal n'a pas traversé la
parce qu'elle était trop fatiguée. Des lignes relient le pronom dans lequel il est
d'une phrase à cinq jetons (Le, l'animal, la rue, lui et
le point) dans l'autre phrase. La ligne entre le pronom qu'il
et le mot animal est le plus fort.

La couche d'auto-attention met en évidence les mots pertinents pour "it". Dans ce cas, la couche d'attention a appris à mettre en évidence les mots auxquels elle peut faire référence, en attribuant la pondération la plus élevée à animal.

Pour une séquence de n jetons, l'auto-attention transforme une séquence de représentations vectorielles continues n fois distinctes, une fois à chaque position de la séquence.

Reportez-vous également à l'attention et auto-attention multi-tête.

apprentissage autosupervisé

Une famille de techniques pour convertir un Problème de machine learning non supervisé à résoudre un problème de machine learning supervisé. en créant des étiquettes de substitution à partir de exemples sans étiquette.

Certains modèles basés sur Transformer, comme BERT, utilisent l'apprentissage autosupervisé.

L'entraînement autosupervisé est une approche d'apprentissage partiellement supervisé.

auto-formation

Variante de l'apprentissage auto-supervisé particulièrement utile lorsque toutes les conditions suivantes sont remplies:

Ratio entre le nombre d'exemples sans étiquette et exemples étiquetés dans l'ensemble de données est élevé.
Il s'agit d'un problème de classification.

L'auto-entraînement fonctionne en itérant les deux étapes suivantes jusqu'à ce que le modèle cesse de s'améliorer :

Utilisez le machine learning supervisé pour : entraîner un modèle sur les exemples étiquetés.
Utilisez le modèle créé à l'étape 1 pour générer des prédictions (étiquettes) sur le les exemples non étiquetés, en déplaçant ceux qui sont très fiables les exemples étiquetés avec l'étiquette prédite.

Notez que chaque itération de l'étape 2 ajoute des exemples annotés pour l'étape 1.

apprentissage partiellement supervisé

Entraîner un modèle avec des données où certains des exemples d'entraînement ont des étiquettes, d'autres pas. Une technique d'apprentissage semi-supervisé consiste à inférer des étiquettes pour les exemples non étiquetés, puis à entraîner le modèle sur les étiquettes inférées pour créer un nouveau modèle. L'apprentissage partiellement supervisé peut être utile si les étiquettes sont coûteuses, mais que les exemples sans étiquette abondent.

L'auto-apprentissage est une technique d'apprentissage partiellement supervisé.

attribut sensible

#fairness

Attribut humain auquel une attention particulière peut être accordée pour des motifs juridiques, éthiques, sociaux ou personnels.

analyse des sentiments

#language

Utiliser des algorithmes statistiques ou d'apprentissage automatique pour déterminer une attitude globale, positive ou négative, à l'égard d'un service, d'un produit une organisation ou un sujet. Par exemple, en utilisant la compréhension du langage naturel, un algorithme pourrait effectuer une analyse des sentiments sur les commentaires textuels d'un cours universitaire afin de déterminer le degré d'appréciation des étudiants pour ce cours.

modèle de séquence

#seq

Modèle dont les entrées présentent une dépendance séquentielle. Par exemple, prévision de la prochaine vidéo visionnée à partir d'une séquence de vidéos précédemment regardées.

tâche de séquence à séquence

#language

Une tâche qui convertit une séquence d'entrée de jetons en séquence de jetons de sortie. Par exemple, deux types courants de requêtes "seq2seq", tâches sont:

Traducteurs: <ph type="x-smartling-placeholder">
- Exemple de séquence d'entrée : "Je t'aime".
- Exemple de séquence de sortie : "Je t'aime".
Système de questions-réponses: <ph type="x-smartling-placeholder">
- Exemple de séquence d'entrée : "Ai-je besoin de ma voiture à New York ?"
- Exemple de séquence de sortie : "No. Veuillez laisser votre voiture à la maison."

du modèle

Processus consistant à mettre un modèle entraîné à disposition pour fournir des prédictions via inférence en ligne ou inférence hors ligne.

forme (Tensor)

Nombre d'éléments dans chaque dimension d'un tenseur. La forme est représentée sous la forme d'une liste d'entiers. Par exemple : le Tensor bidimensionnel suivant a la forme [3,4]:

[[5, 7, 6, 4],
 [2, 9, 4, 8],
 [3, 6, 5, 1]]

TensorFlow utilise le format "row-major" (style C) pour représenter l'ordre des C'est pourquoi la forme dans TensorFlow est [3,4] plutôt que [4,3] En d'autres termes, dans un Tensor TensorFlow bidimensionnel, la forme correspond au [nombre de lignes, nombre de colonnes].

Une forme statique est une forme de Tensor connue au moment de la compilation.

Une forme dynamique est inconnue au moment de la compilation et n'est dépend donc des données d'exécution. Ce tenseur peut être représenté avec une dimension d'espace réservé dans TensorFlow, comme dans [3, ?].

segment

#TensorFlow

#GoogleCloud

Une division logique de l'ensemble d'entraînement ou de l' model. En règle générale, un processus crée des fragments en divisant les exemples ou les paramètres en fragments (généralement) de taille égale. Chaque fragment est ensuite attribué à une machine différente.

La segmentation d'un modèle s'appelle le parallélisme du modèle. la segmentation des données s'appelle parallélisme des données.

rétrécissement

#df

Un hyperparamètre dans boosting de gradient, qui contrôle surapprentissage. Rétrécissement lors de l'optimisation du gradient est analogue au taux d'apprentissage descente de gradient. Le rétrécissement est une valeur décimale comprise entre 0,0 et 1,0. Une valeur de rétrécissement plus faible réduit le surajustement plus qu'une valeur de rétrécissement plus élevée.

fonction sigmoïde

#fundamentals

Fonction mathématique qui "écrase" une valeur d'entrée dans une plage limitée, généralement de 0 à 1 ou de -1 à +1. Autrement dit, vous pouvez transmettre n'importe quel nombre (deux, un million, un milliard négatif, etc.) à une fonction sigmoïde, et la sortie restera dans la plage contrainte. Un graphique de la fonction d'activation sigmoïde se présente comme suit :

La fonction sigmoïde est utilisée à plusieurs reprises en machine learning:

Convertir la sortie brute d'un modèle de régression logistique ou de régression multinomiale en probabilité.
Agir en tant que fonction d'activation dans certaines les réseaux de neurones.

Cliquez sur l'icône pour afficher le calcul.

La fonction sigmoïde sur un nombre d'entrée x a la formule suivante :

$$ sigmoid(x) = \frac{1}{1 + e^{-\text{x}}} $$

En machine learning, x correspond généralement somme pondérée.

mesure de similarité

#clustering

Dans les algorithmes de clustering, la métrique permettant de déterminer le degré de similarité entre deux exemples.

Programme unique/Données multiples (SPMD)

Technique de parallélisme qui consiste à exécuter le même calcul sur des entrées différentes des données en parallèle sur différents appareils. L'objectif du SPMD est d'obtenir des résultats plus rapidement. Il s'agit du style de programmation parallèle le plus courant.

invariance par redimensionnement

#image

Dans un problème de classification d'images, la capacité d'un algorithme à classer les images même lorsque leur taille change. Par exemple, l'algorithme peut identifier un chat, qu'il consomme 2 millions de pixels ou 200 000 pixels. Notez que même les meilleurs les algorithmes de classification d'images présentent encore des limites pratiques en matière d'invariance par taille. Par exemple, il est peu probable qu'un algorithme (ou une personne) puisse classer correctement une image de chat de seulement 20 pixels.

Consultez également les pages invariance de translation et invariance de rotation.

croquis

#clustering

Dans le machine learning non supervisé, une catégorie d'algorithmes qui effectuent une analyse de similarité préliminaire sur les exemples. Les algorithmes de similarité approximative utilisent une fonction de hachage sensible à la localité pour identifier les points potentiellement similaires, puis les regroupent dans des ensembles.

La similarité approximative diminue la quantité de calcul requise pour les calculs de similarité sur les grands ensembles de données. Au lieu de calculer la similarité deux exemples dans l'ensemble de données, nous ne calculons la similarité deux points dans chaque bucket.

sauter-gramme

#language

N-gramme pouvant omettre (ou "sauter") des mots du contexte d'origine, ce qui signifie que les N mots n'étaient peut-être pas initialement adjacents. Plus avec précision, "k-skip-n-gramme" est un n-gramme pour lequel jusqu'à k mots peuvent avoir ont été ignorées.

Par exemple, "the quick brown fox" présente les bigrammes suivants :

"rapide"
"quick brown"
"renard brun"

Un "1-skip-2-gram" est une paire de mots séparés par un maximum d'un mot. Par conséquent, "the quick brown fox" présente les bigrammes à saut 1 suivants :

"the brown"
"quick fox"

De plus, tous les 2 grammes sont également 1-skip-2-grammes, puisque moins de plusieurs mots peuvent être ignorés.

Les Skip-grams sont utiles pour mieux comprendre le contexte environnant d'un mot. Dans l'exemple, "renard" était directement associé à "rapide" dans l'ensemble des bigrammes à saut 1, mais pas dans l'ensemble des bigrammes.

Les sauts contribuent à l'entraînement modèles de représentation vectorielle continue de mots.

softmax

#fundamentals

Fonction qui détermine les probabilités pour chaque classe possible dans un modèle de classification à classes multiples. La somme des probabilités est exactement égale à 1,0. Par exemple, le tableau suivant montre comment la fonction softmax répartit différentes probabilités:

L'image est...	Probabilité
chien	0,85
cat	.13
cheval	0,02

La fonction softmax est également appelée softmax complet.

À comparer à l'échantillonnage de candidats.

Cliquez sur l'icône pour afficher le calcul.

L'équation softmax est la suivante:

$$\sigma_i = \frac{e^{\text{z}_i}} {\sum_{j=1}^{j=K} {e^{\text{z}_j}}} $$

où :

$\sigma_i$ est le vecteur de sortie. Chaque élément du vecteur de sortie spécifie la probabilité de cet élément. La somme de tous les éléments du vecteur de sortie est de 1,0. Le vecteur de sortie contient le même nombre d'éléments que le vecteur d'entrée, $z$.
$z$ est le vecteur d'entrée. Chaque élément du vecteur d'entrée contient une valeur à virgule flottante.
$K$ est le nombre d'éléments dans le vecteur d'entrée (et le vecteur de sortie).

Par exemple, supposons que le vecteur d'entrée soit :

[1.2, 2.5, 1.8]

Par conséquent, softmax calcule le dénominateur comme suit:

$$\text{denominator} = e^{1.2} + e^{2.5} + e^{1.8} = 21.552$$

La probabilité softmax de chaque élément est donc :

$$\sigma_1 = \frac{e^{1.2}}{21.552} = 0.154 $$ $$\sigma_2 = \frac{e^{2.5}}{21.552} = 0.565 $$ $$\sigma_1 = \frac{e^{1.8}}{21.552} = 0.281 $$

Le vecteur de sortie est donc le suivant :

$$\sigma = [0.154, 0.565, 0.281]$$

La somme des trois éléments de $\sigma$ est égale à 1,0. Ouf !

réglage des requêtes douces

#language

#generativeAI

Technique permettant d'ajuster un grand modèle de langage pour une tâche spécifique, sans ajustement précis gourmand en ressources. Au lieu de réentraîner tous les pondérations dans le modèle, réglage des requêtes souples ajuste automatiquement une invite pour atteindre le même objectif.

Lorsqu'une requête textuelle est fournie, le réglage de la requête douce ajoute généralement des représentations vectorielles continues de jetons supplémentaires à la requête et utilise la rétropropagation pour optimiser l'entrée.

Une requête "dure" contient des jetons réels au lieu d'embeddings de jetons.

caractéristique creuse

#language

#fundamentals

Élément géographique dont les valeurs sont pour la plupart nulles ou vides. Par exemple, une fonctionnalité contenant une seule valeur 1 et un million de valeurs 0 est sporadique. À l'inverse, une entité dense a des valeurs qui ne sont pas principalement nulles ou vides.

En machine learning, un nombre surprenant de caractéristiques sont des caractéristiques rares. Les caractéristiques catégorielles sont généralement des caractéristiques creuses. Par exemple, sur les 300 espèces d'arbres possibles dans une forêt, un seul exemple peut n'identifier qu'un érable. Par exemple, parmi les millions de vidéos possibles dans une bibliothèque vidéo, un seul exemple peut identifier "Casablanca".

Dans un modèle, on représente généralement des caractéristiques creuses encodage one-hot. Si l'encodage one-hot est volumineux, vous pouvez placer une couche d'intégration au-dessus de la l'encodage one-hot pour une plus grande efficacité.

représentation creuse

#language

#fundamentals

Stocker uniquement la ou les positions des éléments non nuls dans une fonctionnalité sporadique.

Par exemple, supposons qu'une caractéristique catégorielle nommée species identifie les 36 espèces d'arbres d'une forêt donnée. Supposons en outre que chaque exemple n'identifie qu'une seule espèce.

Vous pouvez utiliser un vecteur one-hot pour représenter les espèces d'arbres dans chaque exemple. Un vecteur one-hot contiendrait un seul 1 (pour représenter l'espèce d'arbre particulière dans cet exemple) et 35 0 (pour représenter les 35 espèces d'arbres non dans cet exemple). Ainsi, la représentation one-hot de maple peut ressembler à ceci :

Vecteur dans lequel les positions 0 à 23 contiennent la valeur 0, position
24 contient la valeur 1 et les positions 25 à 35 contiennent la valeur 0.

La représentation creuse permet quant à elle d'identifier simplement la position une espèce particulière. Si maple est en position 24, la représentation creuse de maple serait simplement:

Notez que la représentation sparse est beaucoup plus compacte que la représentation one-hot.

Cliquez sur l'icône pour voir un exemple un peu plus complexe.

Supposons que chaque exemple de votre modèle doive représenter les mots suivants, mais pas l'ordre de ces mots, dans une phrase française. L'anglais comprend environ 170 000 mots. Il s'agit donc d'une caractéristique catégorielle avec environ 170 000 éléments. La plupart des phrases en anglais utilisent un une très petite fraction de ces 170 000 mots. L'ensemble de mots Il s'agit très certainement de données creuses.

Considérons la phrase suivante :

My dog is a great dog

Vous pouvez utiliser une variante de vecteur one-hot pour représenter les mots de cette dans la phrase. Dans cette variante, plusieurs cellules du vecteur peuvent contenir une valeur non nulle. De plus, dans cette variante, une cellule peut contenir un entier autre que un. Bien que les mots « mon », « est », « un » et « super » ne s'affichent que une fois dans la phrase, le mot "chien" apparaît deux fois. L'utilisation de cette variante de des vecteurs one-hot pour représenter les mots de cette phrase produit le résultat suivant : Vecteur de 170 000 éléments:

Une représentation sparse de la même phrase serait simplement :

Cliquez sur l'icône si vous n'êtes pas sûr.

Le terme "représentation creuse" perturbe beaucoup de gens parce que le stockage la représentation en elle-même n'est pas un vecteur creux. En réalité, la représentation creuse est une représentation dense d'un vecteur creux. Le synonyme représentation par indice est un peu plus clair que "représentation sparse".

vecteur creux

#fundamentals

Vecteur dont les valeurs sont principalement nulles. Voir aussi creux caractéristique et parcimonie.

parcimonie

Nombre d'éléments définis sur zéro (ou nuls) dans un vecteur ou une matrice, divisé par le nombre total d'entrées de ce vecteur ou de cette matrice. Prenons l'exemple d'une matrice de 100 éléments dans laquelle 98 cellules contiennent zéro. Le calcul de la parcimonie se présente comme suit:

$$ {\text{sparsity}} = \frac{\text{98}} {\text{100}} = {\text{0.98}} $$

La parcimonie des caractéristiques désigne la parcimonie d'un vecteur de caractéristiques. La parcimonie du modèle désigne la parcimonie des pondérations du modèle.

pooling spatial

#image

Voir pooling.

split

#df

Dans un arbre de décision, un autre nom condition [état].

séparateur

#df

Lors de l'entraînement d'un arbre de décision, routine (et algorithme) chargée de trouver la meilleure condition à chaque nœud.

SPMD

Abréviation de un seul programme ou de plusieurs données.

marge maximale quadratique

Carré de la perte de marge maximale. La marge maximale quadratique pénale les valeurs aberrantes sont plus importantes que la marge maximale normale.

perte quadratique

#fundamentals

Synonyme de perte L₂.

entraînement par étapes

#language

Stratégie consistant à entraîner un modèle dans une séquence d'étapes distinctes. L'objectif peut être d'accélérer le processus d'entraînement ou d'obtenir une meilleure qualité de modèle.

Vous trouverez ci-dessous une illustration de l'approche d'empilement progressif :

L'étape 1 contient trois couches cachées, l'étape 2 contient six couches cachées et l'étape 3 contient 12 couches cachées.
La phase 2 commence l'entraînement avec les pondérations apprises dans les trois couches cachées de l'Étape 1. L'étape 3 commence l'entraînement avec les pondérations apprises à l'étape 6 les couches cachées de l'étape 2.

Trois étapes, intitulées Étape 1, Étape 2 et Étape 3.
Chaque étape contient un nombre différent de couches : l'étape 1 contient trois couches, l'étape 2 six couches et l'étape 3 12 couches.
Les trois couches de l'étape 1 deviennent les trois premières couches de l'étape 2.
De même, les six couches de l'étape 2 deviennent les six premières couches de l'étape 3.

Voir également pipeline.

state

#fundamentals

Algorithme de descente de gradient dans lequel la taille de lot est égale à un. En d'autres termes, SGD entraîne un seul exemple choisi de manière uniforme provenant d'un ensemble d'entraînement.

stride

#image

Dans une opération convolutive ou un pooling, le delta dans chaque dimension de la série suivante de tranches d'entrée. Par exemple, l'animation suivante présente un pas de (1,1) lors d'une opération convolutive. Par conséquent, le prochain segment d'entrée commence à une position à droite du segment d'entrée précédent. Lorsque l'opération atteint le bord droit, la tranche suivante vers la gauche, mais une position vers le bas.

L'exemple précédent illustre un pas bidimensionnel. Si l'entrée matricielle est en trois dimensions, le pas serait également tridimensionnel.

minimisation du risque structurel (SRM)

Algorithme qui concilie deux objectifs:

Créer le modèle prédictif le plus efficace (par exemple, perte la plus faible)
Créer un modèle aussi simple que possible (par exemple, forte régularisation)

Par exemple, une fonction qui minimise la perte et la régularisation sur la est un algorithme de minimisation du risque structurel.

À comparer à la minimisation du risque empirique.

sous-échantillonnage

#image

Voir pooling.

jeton de sous-mot

#language

Dans les modèles de langage, jeton qui est une sous-chaîne d'un mot, qui peut être l'ensemble du mot.

Par exemple, un mot comme "énumérer" peut être divisé en "élément" (un mot racine) et "iser" (un suffixe), chacun étant représenté par son propre jeton. La division de mots inhabituels en de tels éléments, appelés sous-mots, permet des modèles de langage pour fonctionner sur les composants les plus courants d'un mot, comme les préfixes et les suffixes.

À l'inverse, des mots courants tels que "participer" ne sont peut-être pas séparées et peuvent être représentées par un jeton unique.

résumé

#TensorFlow

Dans TensorFlow, une valeur ou un ensemble de valeurs calculées à un niveau step, généralement utilisé pour suivre les métriques du modèle pendant l'entraînement.

machine learning supervisé

#fundamentals

Entraînement d'un modèle à partir de caractéristiques et de leurs libellés correspondants. Le machine learning supervisé est comparable à l'apprentissage d'un sujet en étudiant une série de questions et les réponses correspondantes. Une fois qu'un élève a maîtrisé la mise en correspondance des questions et des réponses, il peut fournir des réponses à de nouvelles questions (jamais vues auparavant) sur le même sujet.

Comparer avec machine learning non supervisé.

caractéristique synthétique

#fundamentals

Élément absent des éléments d'entrée, mais assemblé à partir d'un ou de plusieurs d'entre eux. Les méthodes de création de fonctionnalités synthétiques incluent les suivantes :

Binning d'une caractéristique continue dans des paquets de plage
Créer un croisement de caractéristiques
Multiplier (ou diviser) une valeur de caractéristique par d'autres valeurs ou seul. Par exemple, si a et b sont des caractéristiques d'entrée, Voici des exemples de caractéristiques synthétiques:
- ab
- a²
Application d'une fonction transcendante à une valeur de caractéristique Par exemple, si c est une fonctionnalité d'entrée, voici des exemples de fonctionnalités synthétiques :
- sin(c)
- ln(c)

Fonctionnalités créées par normalisation ou scaling ne sont pas considérés comme des caractéristiques synthétiques.

T

T5

#language

Modèle d'apprentissage par transfert texte-vers-texte présenté par L'IA de Google en 2020. T5 est un modèle d'encodeur-décodeur, basé sur le architecture Transformer, entraînée sur un modèle de machine learning ensemble de données. Il est efficace pour diverses tâches de traitement du langage naturel, comme générer du texte, traduire des langues et répondre à des questions de manière conversationnelle.

Le nom T5 vient des cinq T de "Text-to-Text Transfer Transformer" (transformateur de transfert texte-vers-texte).

T5X

#language

Framework de machine learning Open Source conçu pour créer et entraîner des modèles de traitement du langage naturel (TLN) à grande échelle. T5 est implémenté sur le codebase T5X (qui est basé sur JAX et Flax).

Q-learning tabulaire

#rl

Dans le apprentissage par renforcement, implémentation du Q-learning à l'aide d'un tableau pour stocker les fonctions Q pour chaque combinaison d'état et d'action.

cible

Synonyme de libellé.

réseau cible

#rl

Dans le deep Q-learning, un réseau de neurones est un réseau de neurones approximation du réseau de neurones principal, où celui-ci met en œuvre une fonction Q ou une règle. Vous pouvez ensuite entraîner le réseau principal sur les valeurs q prédites par la cible réseau. Vous évitez donc la boucle de rétroaction qui se produit lorsque est entraîné sur les valeurs q prédites par lui-même. En évitant ces retours, la stabilité de l'entraînement est améliorée.

opération

Problème pouvant être résolu à l'aide de techniques de machine learning, par exemple :

classification
régression
clustering
détection d'anomalies

température

#language

#image

#generativeAI

Un hyperparamètre qui contrôle le degré de hasard de la sortie d'un modèle. Des températures plus élevées provoquent une sortie plus aléatoire, tandis que des températures plus basses produisent moins de résultats aléatoires.

Le choix de la température optimale dépend de l'application et les propriétés privilégiées de la sortie du modèle. Par exemple, vous augmenterez probablement la température lorsque vous créerez une application qui génère des résultats créatifs. À l'inverse, vous devriez probablement baisser la température lorsque vous créez un modèle qui classe des images ou du texte afin d'améliorer sa précision et sa cohérence.

#TensorFlow

Nombre total de grandeurs scalaires d'un Tensor. Par exemple, la taille d'un Tensor [5, 10] est de 50.

TensorStore

Une bibliothèque pour lire et gérer efficacement l'écriture de grands tableaux multidimensionnels.

condition de résiliation

#rl

Dans le apprentissage par renforcement, conditions qui déterminent quand un épisode se termine, par exemple lorsque l'agent atteint un certain état ou dépasse un nombre seuil de transitions d'état. Par exemple, dans un morceau de morpion (également appelé (appelées "noughts and crosss"), un épisode se termine lorsqu'un joueur marque trois espaces consécutifs ou lorsque tous les espaces sont marqués.

test

#df

Dans un arbre de décision, un autre nom condition [état].

perte d'évaluation

#fundamentals

Métrique représentant la perte d'un modèle par rapport à l'ensemble de test. Lorsque vous créez un modèle, vous essaient généralement de minimiser la perte d'évaluation. En effet, une faible perte d'évaluation un signal de qualité plus fort qu'une faible perte d'entraînement ou une faible perte de validation.

Écart important entre la perte d'évaluation et la perte d'entraînement ou de validation, parfois suggère que vous devez augmenter taux de régularisation.

ensemble de test

Un sous-ensemble de l'dataset réservé aux tests un modèle entraîné.

Traditionnellement, vous divisez les exemples de l'ensemble de données en trois sous-ensembles distincts :

un ensemble d'entraînement
un ensemble de validation
un ensemble de test

Chaque exemple d'un ensemble de données ne doit appartenir qu'à l'un des sous-ensembles précédents. Par exemple, un seul exemple ne doit pas appartenir à la fois à l'ensemble d'entraînement et à l'ensemble de test.

L'ensemble d'entraînement et l'ensemble de validation sont tous deux étroitement liés à l'entraînement d'un modèle. Comme l'ensemble de test n'est associé qu'indirectement à l'entraînement, La perte de test est une métrique moins biaisée et de meilleure qualité que perte d'entraînement ou perte de validation.

étendue de texte

#language

Intervalle d'index du tableau associé à une sous-section spécifique d'une chaîne de texte. Par exemple, le mot good dans la chaîne Python s="Be good now" occupe la plage de texte de 3 à 6.

tf.Example

#TensorFlow

Protocol Buffer standard pour la description des données d'entrée, pour l'inférence ou l'entraînement d'un modèle de machine learning.

tf.keras

#TensorFlow

Implémentation de Keras intégrée à TensorFlow.

seuil (pour les arbres de décision)

#df

Dans une condition alignée sur l'axe, valeur à laquelle une entité est comparée. Par exemple, 75 est la valeur de seuil dans la condition suivante :

grade >= 75

analyse de séries temporelles

#clustering

Sous-domaine du machine learning et des statistiques qui analyse données temporelles. De nombreux types de problèmes de machine learning nécessitent une analyse de séries temporelles, y compris la classification, le clustering, la prévision et la détection d'anomalies. Vous pouvez par exemple utiliser l'analyse de séries temporelles pour prédire les ventes mensuelles de manteaux d'hiver à partir des données de vente historiques.

intervalle de temps

#seq

Une cellule "déroulée" dans un réseau de neurones récurrent. Par exemple, la figure suivante montre trois étapes (identifiées par les indices t-1, t et t+1):

Trois étapes temporelles dans un réseau de neurones récurrent. La sortie de la fonction
first timestep devient l'entrée du deuxième timestep. La sortie du deuxième pas de temps devient l'entrée du troisième pas de temps.

jeton

#language

Dans un modèle de langage, unité atomique du modèle. l'entraînement et la réalisation de prédictions. Un jeton est généralement suivantes:

un mot, par exemple l'expression "des chiens comme des chats" ; se compose de trois mots jetons : "chiens", "aime" et "chats".
un caractère (par exemple, l'expression "poisson vélo" se compose de neuf jetons de caractères). (Notez que l'espace vide compte comme un jeton.)
sous-mots, dans lesquels un seul mot peut être un ou plusieurs jetons. Un sous-mot se compose d'un mot racine, d'un préfixe ou d'un suffixe. Par exemple, un modèle de langage qui utilise des sous-mots comme jetons peut considérer le mot "chiens" comme deux jetons (le mot racine "chien" et le suffixe au pluriel "s"). Ce même le modèle de langage pourrait voir le mot "plus grand" sous la forme de deux sous-mots racine du mot "grand" et le suffixe "er").

#fundamentals

Processus consistant à déterminer les paramètres idéaux (pondérations et biais) d'un modèle. Pendant l'entraînement, un système lit exemples et ajuste progressivement les paramètres. L'entraînement utilise chaque de plusieurs fois à des milliards de fois.

perte d'entraînement

#fundamentals

Une métrique représentant la perte d'un modèle au cours d'une une itération d'entraînement particulière. Par exemple, supposons que la fonction de perte est l'erreur quadratique moyenne. La perte d'entraînement (moyenne erreur quadratique) pour la 10e itération est de 2,2, et la perte d'entraînement pour la 100e itération est 1,9.

Une courbe de perte représente la perte d'entraînement par rapport au nombre de itérations. La courbe de fonction de perte fournit les indications suivantes concernant l'entraînement:

Une pente descendante implique une amélioration du modèle.
Une pente ascendante implique que le modèle s'aggrave.
Une pente plate implique que le modèle a atteint la convergence.

Par exemple, la courbe de perte suivante, relativement idéalisée, affiche:

Une forte pente descendante lors des itérations initiales, ce qui implique une amélioration rapide des modèles.
Une pente qui s'aplatit progressivement (mais toujours vers le bas) jusqu'au bout d'entraînement, ce qui implique une amélioration continue du modèle à un rythme à un rythme plus lent que lors des itérations initiales.
Pente plate vers la fin de l'entraînement, qui indique une convergence.

Graphique de la perte d'entraînement par rapport aux itérations. Cette courbe de perte commence par une pente descendante abrupte. La pente s'aplatit progressivement jusqu'à
passe à zéro.

Bien que la perte d'entraînement soit importante, consultez également la généralisation.

Décalage entraînement/mise en service

#fundamentals

Différence entre les performances d'un modèle pendant l'entraînement et celles de ce même modèle pendant la diffusion.

ensemble d'entraînement

#fundamentals

Sous-ensemble de l'ensemble de données utilisé pour entraîner un modèle.

Traditionnellement, les exemples de l'ensemble de données sont divisés selon les trois des sous-ensembles distincts:

un ensemble d'entraînement
un ensemble de validation
un ensemble de test

Idéalement, chaque exemple de l'ensemble de données ne doit appartenir qu'à l'un des sous-ensembles précédents. Par exemple, un seul exemple ne doit pas appartenir l'ensemble d'entraînement et l'ensemble de validation.

trajectoire

#rl

Dans le apprentissage par renforcement, séquence de tuples représentant une séquence de transitions d'état de l'agent, où chaque tuple correspond à l'état, à l'action, à la récompense et à l'état suivant pour une transition d'état donnée.

apprentissage par transfert

Transférer des informations d'une tâche de machine learning à une autre Par exemple, dans un apprentissage multitâche, un seul modèle résout plusieurs tâches. C'est le cas des modèles profonds, qui ont différents nœuds de sortie pour différentes tâches. L'apprentissage par transfert peut impliquer de transférer des connaissances de la solution d'une tâche plus simple vers une tâche plus complexe, ou de transférer des connaissances d'une tâche où il y a plus de données vers une tâche où il y en a moins.

La plupart des systèmes de machine learning ne résolvent qu'une tâche. L'apprentissage par transfert un pas vers l'intelligence artificielle, qu'un seul programme peut résoudre plusieurs tâches.

Transformer

#language

Une architecture de réseau de neurones développée par Google s'appuie sur les mécanismes d'auto-attention pour transformer séquence de représentations vectorielles continues d'entrée dans une séquence de sorties des représentations vectorielles continues sans utiliser de convolutions ou réseaux de neurones récurrents. Un Transformer peut être considéré comme une pile de couches d'auto-attention.

Un transformateur peut inclure l'un des éléments suivants :

Un encodeur
un décodeur
un encodeur et un décodeur

Un encodeur transforme une séquence d'embeddings en une nouvelle séquence de la même longueur. Un encodeur comprend N couches identiques, chacune contenant deux sous-couches. Ces deux sous-couches sont appliquées à chaque position de la séquence d'encapsulation d'entrée, transformant chaque élément de la séquence en un nouvel encapsulage. La première sous-couche d'encodeur regroupe les informations de la séquence d'entrée. La deuxième sous-couche d'encodeur transforme les données agrégées des informations dans une représentation vectorielle continue de sortie.

Un décodeur transforme une séquence de représentations vectorielles continues d'entrée en une séquence de des représentations vectorielles continues de sortie, éventuellement avec une longueur différente. Un décodeur inclut également N couches identiques comportant trois sous-couches, dont deux sont semblables aux les sous-couches de l'encodeur. La troisième sous-couche du décodeur prend la sortie de l'encodeur et applique le mécanisme d'auto-attention pour en extraire des informations.

L'article de blog Transformer: A Novel Neural Network Architecture for Language Comprendre constitue une bonne introduction aux modèles Transformer.

invariance par traduction

#image

Dans un problème de classification d'images, capacité d'un algorithme à classer correctement les images, même lorsque la position des objets dans l'image change. Par exemple, l'algorithme peut identifier un chien comme tel, qu'il se trouve au centre ou à gauche de l'image.

Consultez également les sections Invariance de taille et Invariance de rotation.

trigramme

#seq

#fundamentals

Produire un modèle avec une faible capacité de prédiction, car il la complexité des données d'entraînement n'a pas été entièrement prise en compte. De nombreux problèmes peuvent causer un sous-apprentissage, y compris :

Entraînement sur un ensemble de caractéristiques inadéquat
Entraînement sur trop peu d'époques ou avec un taux d'apprentissage trop faible.
Entraînement avec un taux de régularisation trop élevé.
Fournir trop peu de couches cachées dans un réseau de neurones profond

sous-échantillonnage

Suppression des exemples du classe majoritaire un ensemble de données avec déséquilibre des classes pour créer un ensemble d'entraînement plus équilibré.

Par exemple, considérons un ensemble de données dans lequel le ratio de la classe majoritaire sur la classe minoritaire est de 20 : 1. Pour surmonter ce cours déséquilibre, vous pouvez créer un ensemble de formation comprenant toutes les minorités mais seulement un dixième des exemples de classe majoritaire, ce qui pour créer un ratio de classe d'ensemble d'entraînement de 2:1. Grâce au sous-échantillonnage, un ensemble d'entraînement équilibré pourrait produire un meilleur modèle. Vous pouvez également un ensemble d'entraînement plus équilibré peut ne pas contenir suffisamment d'exemples pour entraîner efficace.

À comparer au suréchantillonnage.

unidirectionnel

#language

Système qui n'évalue que le texte qui précède une section cible de texte. À l'inverse, un système bidirectionnel évalue à la fois le texte qui précède et suit une section cible de texte. Pour en savoir plus, consultez la section Bidirectionnel.

modèle de langage unidirectionnel

#language

Modèle de langage qui ne base ses probabilités que sur les jetons qui apparaissent avant, et non après, le ou les jetons cibles. À comparer au modèle de langage bidirectionnel.

exemple sans étiquette

#fundamentals

Exemple contenant des caractéristiques, mais pas de étiquette. Par exemple, le tableau suivant présente trois exemples sans étiquette provenant d'une maison d'évaluation, chacun avec trois caractéristiques, mais pas de valeur immobilière:

Nombre de chambres	Nombre de salles de bain	Âge du foyer
3	2	15
2	1	72
4	2	34

Dans le machine learning supervisé, les modèles sont entraînés sur des exemples étiquetés et effectuent des prédictions sur des exemples non étiquetés.

Dans l'apprentissage semi-supervisé et non supervisé, des exemples sans étiquette sont utilisés pendant l'entraînement.

Comparez l'exemple sans étiquette avec l'exemple étiqueté.

machine learning non supervisé

#clustering

#fundamentals

Entraînement d'un modèle pour détecter des schémas dans un ensemble de données, généralement sans étiquette.

Le machine learning non supervisé est surtout utilisé pour regrouper les données dans des clusters d'exemples similaires. Par exemple, un algorithme d'apprentissage automatique non supervisé peut regrouper des titres en fonction de diverses propriétés de la musique. Les clusters obtenus peuvent servir d'entrée à d'autres systèmes d'apprentissage automatique (vers un service de recommandation de musique, par exemple). Le clustering peut être utile lorsque les libellés utiles sont rares ou absents. Par exemple, dans les domaines tels que la lutte contre les abus et la fraude, les clusters peuvent aider à mieux comprendre les données.

À comparer au machine learning supervisé.

Cliquez sur l'icône pour afficher des notes supplémentaires.

Autre exemple de machine learning non supervisé : principal composant Analysis (PCA). Par exemple, appliquer l'APC sur une contenant le contenu de millions de paniers d'achat pourrait révéler que les paniers contenant des citrons contiennent aussi souvent des antiacides.

modélisation de l'amélioration

Technique de modélisation, couramment utilisée en marketing, qui modélise "effet causal" (également appelé "impact incrémentiel") d'un "traitement" sur un « individu ». Voici deux exemples :

Les médecins peuvent utiliser la modélisation de l'impact positif pour prédire la diminution de la mortalité (effet causal) d'une procédure médicale (traitement) en fonction de l'âge et des antécédents médicaux d'un patient (individu).
Les marketeurs peuvent utiliser la modélisation de l'amélioration Probabilité d'achat (effet causal) en raison d'une publicité (traitement) sur une personne (individuel).

La modélisation de l'impact diffère de la classification ou de la régression en ce sens que certaines étiquettes (par exemple, la moitié des étiquettes dans les traitements binaires) sont toujours manquantes dans la modélisation de l'impact. Par exemple, un patient peut recevoir ou non un traitement. Par conséquent, nous ne pouvons observer si le patient va guérir ou non que dans l'une de ces deux situations (mais jamais dans les deux). Le principal avantage d'un modèle d'amélioration est qu'il peut générer des prédictions pour la situation non observée (la contrefactuelle) et de l'utiliser pour calculer l’effet causal.

surpondération

Appliquer une pondération à la classe sous-échantillonnée égale à au facteur de sous-échantillonnage.

matrice utilisateurs

#recsystems

Dans les systèmes de recommandation, une vecteur de représentation vectorielle continue généré par factorisation matricielle contenant des signaux latents sur les préférences des utilisateurs. Chaque ligne de la matrice utilisateurs contient des informations sur les l'intensité de divers signaux latents pour un même utilisateur. Prenons l'exemple d'un système de recommandation de films. Dans ce système, les signaux latents dans la matrice utilisateurs peuvent représenter les intérêts de chaque utilisateur en particulier, ou il peut s'agir de signaux plus difficiles à interpréter qui impliquent des interactions complexes selon plusieurs facteurs.

La matrice utilisateurs comporte une colonne pour chaque caractéristique latente et une ligne pour chaque utilisateur. C'est-à-dire que la matrice utilisateurs a le même nombre de lignes que la matrice cible qui est factorisée. Par exemple, pour un film système de recommandation de 1 000 000 d'utilisateurs, la matrice utilisateurs contiendra 1 000 000 de lignes.

V

validation

#fundamentals

Évaluation initiale de la qualité d'un modèle. La validation vérifie la qualité des prédictions d'un modèle par rapport à l'ensemble de validation.

Comme l'ensemble de validation est différent de l'ensemble d'entraînement, permet d'éviter le surapprentissage.

Vous pouvez considérer l'évaluation du modèle avec l'ensemble de validation comme la première série de tests et l'évaluation du modèle avec l'ensemble de test comme la deuxième série de tests.

perte de validation

#fundamentals

Métrique représentant la perte d'un modèle sur l'ensemble de validation lors d'une itération spécifique de l'entraînement.

Voir aussi Courbe de généralisation.

ensemble de validation

#fundamentals

Sous-ensemble de l'ensemble de données qui effectue une évaluation initiale par rapport à un modèle entraîné. En règle générale, vous évaluez le modèle entraîné par rapport à l'ensemble de validation plusieurs fois avant de l'évaluer par rapport à l'ensemble de test.

Traditionnellement, vous divisez les exemples de l'ensemble de données en trois catégories des sous-ensembles distincts:

Un ensemble d'entraînement
un ensemble de validation
Un ensemble de test

Idéalement, chaque exemple de l'ensemble de données ne doit appartenir qu'à l'un des sous-ensembles précédents. Par exemple, un seul exemple ne doit pas appartenir à la fois à l'ensemble d'entraînement et à l'ensemble de validation.

imputation de valeur

Processus consistant à remplacer une valeur manquante par un substitut acceptable. Lorsqu'une valeur est manquante, vous pouvez soit supprimer l'exemple entier, soit utiliser l'imputation de valeur pour le récupérer.

Prenons l'exemple d'un ensemble de données contenant une fonctionnalité temperature qui est censée être enregistrée toutes les heures. Cependant, la température relevée a été indisponible pendant une heure donnée. Voici une section de l'ensemble de données:

Horodatage	Température
1680561000	10
1680564600	12
1680568200	missing
1680571800	20
1680575400	21
1680579000	21

Un système peut soit supprimer l'exemple manquant, soit imputer l'exemple manquant une température de 12, 16, 18 ou 20, en fonction de l'algorithme d'imputation.

problème de gradient qui disparaît

#seq

Tendance des gradients des premières couches cachées de certains réseaux de neurones profonds à devenir étonnamment plats (faibles). Avec des gradients de plus en plus faibles, des variations plus faibles des pondérations des nœuds dans un réseau de neurones profond, peu ou pas d’apprentissage. Les modèles souffrant du problème de la disparition du gradient deviennent difficiles ou impossibles à entraîner. Les cellules de la mémoire à court terme à long terme résolvent ce problème.

Comparez-le au problème d'explosion du gradient.

importance des variables

#df

Un ensemble de scores indiquant l'importance relative de chaque feature au modèle.

Prenons l'exemple d'un arbre de décision qui estime le prix des maisons. Supposons que cet arbre de décision utilise trois caractéristiques : la taille, l'âge et le style. Si un ensemble d'importances variables pour les trois caractéristiques sont calculées {size=5.8, age=2.5, style=4.7}, alors la taille est plus importante pour le que l'âge ou le style.

Il existe différentes métriques d'importance des variables, qui peuvent renseigner les experts en ML sur différents aspects des modèles.

Auto-encodeur variationnel (VAE)

#language

Type d'auto-encodeur qui exploite l'écart entre les entrées et les sorties pour générer des versions modifiées des entrées. Les auto-encodeurs variationnels sont utiles pour l'IA générative.

Les VAEs sont basés sur l'inférence variationnelle, une technique permettant d'estimer les paramètres d'un modèle de probabilité.

vecteur

Terme très complexe dont la signification varie selon les différents domaines mathématiques et scientifiques. En machine learning, un vecteur possède deux propriétés:

Type de données: en machine learning, les vecteurs contiennent généralement des nombres à virgule flottante.
Nombre d'éléments: il s'agit de la longueur du vecteur ou de sa dimension.

Prenons l'exemple d'un vecteur de caractéristiques contenant huit les nombres à virgule flottante. Ce vecteur de caractéristiques a une longueur ou dimension de huit. Notez que les vecteurs de machine learning comportent souvent un très grand nombre de dimensions.

Vous pouvez représenter de nombreux types d'informations sous forme de vecteur. Exemple :

Toute position sur la surface de la Terre peut être représentée sous la forme d'un graphique vecteur, où une dimension est la latitude et l'autre la longitude.
Les prix actuels de chacune des 500 actions peuvent être représentés sous la forme d'un vecteur à 500 dimensions.
On peut représenter une distribution de probabilité sur un nombre fini de classes en tant que vecteur. Par exemple, un système de classification multiclasse qui prédit l'une des trois couleurs de sortie (rouge, vert ou jaune) peut renvoyer le vecteur (0.3, 0.2, 0.5) pour signifier P[red]=0.3, P[green]=0.2, P[yellow]=0.5.

Les vecteurs peuvent être concatenatés. Par conséquent, différents supports peuvent être représentés par un seul vecteur. Certains modèles fonctionnent directement sur la concaténation de nombreux encodages one-hot.

Des processeurs spécialisés tels que les TPU sont optimisés pour les opérations mathématiques sur les vecteurs.

Un vecteur est un tenseur de rang 1.

W

Perte Wasserstein

L'une des fonctions de perte couramment utilisées dans les réseaux génératifs antagonistes, basée sur la distance de l'éleveur de terre entre la distribution des données générées et les données réelles.

weight

#fundamentals

Valeur qu'un modèle multiplie par une autre valeur. L'entraînement consiste à déterminer les pondérations idéales d'un modèle. L'inférence consiste à utiliser ces pondérations apprises pour effectuer des prédictions.

Cliquez sur l'icône pour voir un exemple de pondérations dans un modèle linéaire.

Imaginez un modèle linéaire comportant deux caractéristiques. Supposons que l'entraînement détermine les pondérations suivantes (et biais):

Le biais b a une valeur de 2,2
La pondération, w₁ associée à une caractéristique, est de 1,5.
La pondération (w₂) associée à l'autre caractéristique est de 0, 4.

Prenons maintenant un exemple avec la caractéristique suivante : :

La valeur d'une caractéristique, x₁, est 6.
La valeur de l'autre caractéristique, x₂, est 10.

Ce modèle linéaire utilise la formule suivante pour générer une prédiction : y' :

$$y' = b + w_1x_1 + w_2x_2$$

Par conséquent, la prédiction est la suivante:

$$y' = 2.2 + (1.5)(6) + (0.4)(10) = 15.2$$

Si la pondération est égale à 0, la caractéristique correspondante ne contribue pas au modèle. Par exemple, si w₁ est égal à 0, la valeur de x₁ n'a aucune importance.

moindres carrés alternés pondérés (Weighted Alternating Least Squares (WALS))

#recsystems

Algorithme qui permet de minimiser la fonction objectif pendant la factorisation matricielle dans grâce aux systèmes de recommandation, les exemples manquants. La méthode WALS minimise la valeur l'erreur quadratique entre la matrice d'origine et la reconstruction en alternant la correction de la factorisation des lignes et celle des colonnes. Chacune de ces optimisations peut être résolue par l'optimisation convexe des moindres carrés. Pour en savoir plus, consultez le cours sur les systèmes de recommandation.

Somme pondérée

#fundamentals

La somme de toutes les valeurs d'entrée pertinentes multipliée par les valeurs les pondérations. Par exemple, supposons que les entrées pertinentes se composent des éléments suivants:

valeur d'entrée	pondération d'entrée
2	-1,3
-1	0,6
3	0,4

La somme pondérée est donc:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Une somme pondérée est l'argument d'entrée d'une fonction d'activation.

modèle wide learning

Un modèle linéaire qui comporte généralement de nombreuses caractéristiques d'entrée creuses. Nous l'appelons « large » depuis un tel modèle est un type particulier de réseau de neurones, un grand nombre d'entrées qui se connectent directement au nœud de sortie. Modèles wide learning sont souvent plus faciles à déboguer et à inspecter que les modèles profonds. Bien que les modèles larges ne peuvent pas exprimer de non-linéarités à l'aide de couches cachées ; les modèles larges peuvent utiliser des transformations le croisement de caractéristiques et binning pour modéliser les non-linéarités de différentes manières.

À comparer au modèle profond.

largeur

Nombre de neurones dans une couche donnée d'un réseau de neurones.

Sagesse de la foule

#df

Idée selon laquelle la moyenne des opinions ou des estimations d'un grand groupe de personnes (la "foule") produit souvent des résultats étonnamment bons. Prenons l'exemple d'un jeu dans lequel les utilisateurs devineront des bonbons emballés dans un grand bocal. Bien que la plupart des estimations individuelles soient inexactes, la moyenne de toutes les estimations s'est avérée empiriquement étonnamment proche du nombre réel de bonbons dans le pot.

Les ensembles sont un équivalent logiciel de la sagesse de la foule. Même si des modèles individuels émettent des prédictions très imprécises, la moyenne des prédictions de nombreux modèles génère souvent de bonnes prédictions. Par exemple, même si un individu arbre de décision peut faire de mauvaises prédictions, La forêt de décision permet souvent d'obtenir de très bonnes prédictions.

représentation vectorielle continue de mots

#language

Représentation de chaque mot d'un ensemble de mots au sein d'une vecteur de représentation vectorielle continue; représentant chaque mot comme un vecteur de valeurs à virgule flottante compris entre 0,0 et 1,0. Les mots ayant des significations similaires ont des représentations plus similaires que les mots ayant des significations différentes. Par exemple, les carottes, le céleri et les concombres ont des représentations relativement similaires, qui sont très différentes de celles d'un avion, de lunettes de soleil et de dentifrice.

X

XLA (Accelerated Linear Algebra)

Compilateur de machine learning Open Source pour les GPU, les CPU et les accélérateurs de ML.

Le compilateur XLA prend les modèles de frameworks de ML populaires tels que PyTorch, TensorFlow et JAX, et les optimise pour une exécution hautes performances sur différentes plates-formes matérielles, y compris les GPU, les processeurs et les accélérateurs de ML.

Z

apprentissage zero-shot

Type d'entraînement de machine learning dans lequel le modèle infère une prédiction pour une tâche pour laquelle il n'a pas encore été spécifiquement entraîné. En d'autres termes, le modèle ne reçoit aucun exemple d'entraînement spécifique à la tâche, mais il est invité à effectuer une inférence pour cette tâche.

requête zero-shot

#language

#generativeAI

Une requête qui ne fournit pas un exemple de la façon dont vous souhaitez le grand modèle de langage à répondre. Exemple :

Composants d'une requête	Remarques
`Quelle est la devise officielle du pays spécifié ?`	La question à laquelle vous souhaitez que le LLM réponde.
`Inde :`	Requête réelle.

Le grand modèle de langage peut répondre avec l'un des éléments suivants:

Roupie
INR
₹
Roupie indienne
La roupie
Roupie indienne

Toutes les réponses sont correctes, mais vous pouvez préférer un format particulier.

Comparez les invites sans entraînement aux termes suivants :

requêtes one-shot
requêtes few-shot

Normalisation de la cote Z

#fundamentals

Technique de mise à l'échelle qui remplace une La valeur de feature avec une valeur à virgule flottante représentant le nombre d'écarts types par rapport à la moyenne de cette caractéristique. Prenons l'exemple d'une caractéristique dont la moyenne est de 800 et l'écart-type de 100. Le tableau suivant montre comment la normalisation par score Z mappe la valeur brute sur son score Z :

Valeur brute	Score Z
800	0
950	+1,5
575	-2,25

Le modèle de machine learning s'entraîne ensuite sur les cotes Z pour cette caractéristique plutôt que sur les valeurs brutes.