Glossaire du machine learning

Ce glossaire définit des termes généraux liés au machine learning, ainsi que des termes spécifiques à TensorFlow.

A

ablation

Technique d'évaluation de l'importance d'une caractéristique ou un composant en les supprimant temporairement d'un modèle. Ensuite, réentraîner le modèle sans cette caractéristique ou ce composant, et si le modèle réentraîné est sensiblement moins performante, cela signifie que la fonctionnalité ou le composant supprimé probablement importantes.

Par exemple, supposons que vous entraînez un modèle de classification sur 10 fonctionnalités et atteindre une précision de 88 % ensemble de test. Vérifier l'importance de la première caractéristique, vous pouvez réentraîner le modèle en n'utilisant que les neuf autres caractéristiques. Si les performances du modèle réentraîné sont nettement inférieures une précision de 55 %), la caractéristique supprimée était probablement importante. À l'inverse, Si le modèle réentraîné fonctionne de la même manière, la caractéristique ce n'est pas si important.

L'ablation peut également aider à déterminer l'importance de:

  • Composants plus volumineux, comme le sous-système complet d'un système de ML plus vaste
  • Des processus ou techniques, tels qu'une étape de prétraitement des données

Dans les deux cas, vous observerez comment les performances du système changent (ou ne change pas) après avoir supprimé le composant.

Tests A/B

Façon statistique de comparer deux (ou plus) techniques : le A et le B. En règle générale, le A est une technique existante, et le La technique B est une nouvelle technique. Les tests A/B déterminent non seulement quelle technique est la plus performante mais aussi si l'écart est statistiquement significatif.

Les tests A/B comparent généralement une seule métrique sur deux techniques. par exemple, quelle est la différence entre la justesse techniques? Toutefois, les tests A/B permettent également de comparer n'importe quel nombre fini de métriques.

puce d'accélération

#GoogleCloud

Catégorie de composants matériels spécialisés conçus pour offrir des performances clés nécessaires aux algorithmes de deep learning.

Les puces d'accélération (ou accélérateurs, en abrégé) peuvent considérablement augmenter la vitesse et l'efficacité des tâches d'entraînement et d'inférence ; par rapport à un CPU à usage général. Elles sont idéales pour l'entraînement les réseaux de neurones et d'autres tâches similaires utilisant beaucoup de ressources de calcul.

Voici quelques exemples de puces d'accélération:

  • Les Tensor Processing Units (TPU) de Google avec du matériel dédié pour le deep learning.
  • Les GPU NVIDIA qui, bien qu'initialement conçus pour le traitement graphique, sont conçus pour permettre le traitement en parallèle, ce qui peut considérablement d'augmenter la vitesse de traitement.

accuracy

#fundamentals

Nombre de prédictions de classification correcte divisé par le nombre total de prédictions. Par exemple :

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Par exemple, un modèle ayant effectué 40 prédictions correctes et 10 prédictions incorrectes la précision des prédictions est de:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

La classification binaire fournit des noms spécifiques pour connaître les différentes catégories de prédictions correctes prédictions incorrectes. La formule de justesse pour la classification binaire se présente comme suit:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

où :

  • "VP" correspond au nombre de vrais positifs (prédictions correctes).
  • VN correspond au nombre de vrais négatifs (prédictions correctes).
  • "FP" correspond au nombre de faux positifs (prédictions incorrectes).
  • "FN" correspond au nombre de faux négatifs (prédictions incorrectes).

Indiquer les points communs et les différences entre précision et rappel.

Voir Classification: justesse, rappel, précision et données associées métriques dans le Cours d'initiation au Machine Learning.

action

#rl

Dans l'apprentissage par renforcement, le mécanisme par lequel l'agent des transitions entre les états environnement. L'agent choisit l'action à l'aide d'un règlement.

fonction d'activation

#fundamentals

Fonction qui permet aux réseaux de neurones d'apprendre Relations nonlinear (complexes) entre les caractéristiques et l'étiquette.

Les fonctions d'activation les plus courantes sont les suivantes:

Les tracés des fonctions d'activation ne sont jamais de simples lignes droites. Par exemple, le tracé de la fonction d'activation ReLU est le suivant : deux lignes droites:

Graphique cartésien de deux droites. La première ligne a une constante
          valeur y de 0, le long de l'axe des x de -infini,0 à 0,-0.
          La deuxième ligne commence à 0,0. Cette ligne a une pente de +1, donc
          elle va de 0,0 à +infini,+infini.

Voici un graphique illustrant la fonction d'activation sigmoïde:

Graphique en courbes bidimensionnelles avec des valeurs x couvrant le domaine
          -infini à +positive, tandis que les valeurs y couvrent la plage presque 0 à
          presque 1. Lorsque x est égal à 0, y est égal à 0,5. La pente de la courbe est toujours
          positive, avec la pente la plus élevée à 0,0,5 et une diminution progressive
          pentes à mesure que la valeur absolue de x augmente.

Voir la section Réseaux de neurones: activation Fonctions dans le Cours d'initiation au Machine Learning.

apprentissage actif

Une approche d'entraînement dans laquelle le l'algorithme choisit certaines des données à partir desquelles il apprend. Apprentissage actif est particulièrement utile pour les exemples étiquetés sont rares ou coûteux à obtenir. Au lieu de chercher aveuglément à accéder un algorithme d'apprentissage actif recherche de manière sélective l'éventail particulier d'exemples dont il a besoin pour apprendre.

AdaGrad

Algorithme sophistiqué de descente de gradient qui redimensionne les gradients de chaque paramètre, ce qui permet d'attribuer chaque paramètre un taux d'apprentissage indépendant ; Pour une explication complète, consultez cet article d'AdaGrad.

agent

#rl

Dans l'apprentissage par renforcement, l'entité qui utilise un règlement pour maximiser le retour attendu de passer d'un état à un autre environnement.

Plus généralement, un agent est un logiciel qui planifie et exécute de manière autonome série d'actions pour atteindre un objectif, avec la capacité de s'adapter aux changements dans son environnement. Par exemple, un agent basé sur LLM peut utiliser un LLM pour générer un plan, plutôt que d'appliquer une politique d'apprentissage par renforcement.

clustering agglomératif

#clustering

Voir clustering hiérarchique.

détection d'anomalies

Processus d'identification des anomalies. Par exemple, si la moyenne est de 100 avec un écart type de 10 pour une caractéristique donnée, la détection des anomalies doit signaler une valeur de 200 comme suspecte.

AR

Abréviation de réalité augmentée.

aire sous la courbe PR

Voir AUC (aire sous la courbe PR).

aire sous la courbe ROC

Consultez la section AUC (aire sous la courbe ROC).

intelligence générale artificielle

Mécanisme non humain qui démontre un vaste éventail de résolutions de problèmes la créativité et l'adaptabilité. Par exemple, un programme démontrant des l'intelligence générale pouvait traduire du texte, composer des symphonies et exceller dans des jeux qui n'ont pas encore été inventés.

intelligence artificielle

#fundamentals

Programme ou modèle non humain capable d'exécuter des tâches complexes. Par exemple, un programme ou un modèle qui traduit du texte, ou un programme ou un modèle identifie les maladies à partir d'images radiologiques souffrent toutes deux d'intelligence artificielle.

Officiellement, le machine learning est un sous-domaine de l'intelligence artificielle et l'intelligence artificielle. Cependant, ces dernières années, certaines entreprises ont commencé à utiliser les termes intelligence artificielle et machine learning sont interchangeables.

"Attention",

#language

Mécanisme utilisé dans un réseau de neurones qui indique l'importance d'un mot ou d'une partie d'un mot. L'attention se compresse la quantité d'informations dont un modèle a besoin pour prédire le jeton ou le mot suivant. Un mécanisme d'attention typique peut consister en un somme pondérée sur un ensemble d'entrées, où les La pondération de chaque entrée est calculée par une autre partie de la du réseau de neurones.

Reportez-vous également à auto-attention et l'auto-attention multi-tête, qui sont les les éléments de base des modèles Transformer.

Voir l'article LLM: Qu'est-ce qu'un grand langage modèle ? dans le Cours d'initiation au Machine Learning pour en savoir plus sur l'auto-attention.

attribut

#fairness

Synonyme de caractéristique.

Dans le domaine du machine learning, les attributs font souvent référence caractéristiques propres aux individus.

échantillonnage d'attributs

#df

Une tactique d'entraînement d'une forêt de décision dans laquelle chaque L'arbre de décision ne considère qu'un sous-ensemble aléatoire de possibilités features lors de l'apprentissage de la condition. En règle générale, un sous-ensemble différent de caractéristiques est échantillonné pour chaque node. En revanche, lors de l'entraînement d'un arbre de décision, sans échantillonnage d'attributs, toutes les caractéristiques possibles sont prises en compte pour chaque nœud.

AUC (aire sous la courbe ROC)

#fundamentals

Un nombre compris entre 0,0 et 1,0 représentant une modèle de classification binaire possibilité de séparer les classes positives des classes négatives. Plus l'AUC est proche de 1,0, meilleure est la capacité du modèle à séparer les uns des autres.

Par exemple, l'illustration suivante montre un modèle de classificateur qui sépare les classes positives (ovales verts) des classes négatives (rectangles violets). Ce modèle irréaliste parfaitement un AUC de 1,0:

Un axe gradué avec 8 exemples positifs d'un côté et
          9 exemples négatifs de l'autre côté.

À l'inverse, l'illustration suivante montre les résultats pour un classificateur. qui a généré des résultats aléatoires. Ce modèle a un AUC de 0,5:

Un axe gradué avec 6 exemples positifs et 6 exemples négatifs.
          La séquence d'exemples est 
positive, négative
          positif, négatif, positif, négatif, positif, négatif, positif
          négative, positive, négative.

Oui, l'AUC du modèle précédent est de 0,5, et non de 0,0.

La plupart des modèles se situent entre les deux extrêmes. Par exemple, le paramètre permet de séparer quelque peu les positifs et les négatifs. a un AUC compris entre 0,5 et 1,0:

Un axe gradué avec 6 exemples positifs et 6 exemples négatifs.
          La séquence d'exemples est négative, négative, négative, négative
          positif, négatif, positif, positif, négatif, positif, positif,
          positif.

L'AUC ignore toute valeur définie pour seuil de classification. Au lieu de cela, l'AUC prend en compte tous les seuils de classification possibles.

Voir la section Classification: ROC et AUC dans le Cours d'initiation au Machine Learning.

réalité augmentée

#image

Technologie qui superpose une image générée par ordinateur à la vue d'un utilisateur de le monde réel, fournissant ainsi une vue composite.

auto-encodeur

#language
#image

Un système qui apprend à extraire les informations les plus importantes du saisie. Les auto-encodeurs sont la combinaison d'un encodeur et décodeur. Les auto-encodeurs s'appuient sur le processus en deux étapes suivant:

  1. L'encodeur mappe l'entrée à une dimension inférieure avec pertes (généralement) (intermédiaire).
  2. Le décodeur crée une version avec pertes de l'entrée d'origine en mappant le format de dimensions inférieures au format de dimensions supérieures d'origine format d'entrée.

Les auto-encodeurs sont entraînés de bout en bout, car le décodeur tente reconstruire l'entrée d'origine à partir du format intermédiaire de l'encodeur aussi près que possible. Comme le format intermédiaire est plus petit, (dimensions inférieures) par rapport au format d'origine, l'auto-encodeur est forcé pour savoir quelles informations de l'entrée sont essentielles, doit être parfaitement identique à l'entrée.

Exemple :

  • Si les données d'entrée sont des graphiques, la copie non exacte sera semblable à l'image originale, mais légèrement modifiée. Il se peut que la copie non exacte supprime le bruit de l'image d'origine ou remplit il manque des pixels.
  • Si les données d'entrée sont du texte, un auto-encodeur génère un nouveau texte imite (mais n'est pas identique) le texte d'origine.

Voir aussi la section Auto-encodeurs variables.

biais d'automatisation

#fairness

Lorsqu'un décisionnaire humain favorise les recommandations émises par une solution de prise de décision basée sur les informations prises sans automatisation, lorsque le système automatisé de prise de décision fait des erreurs.

Voir la section Équité: types de biais dans le Cours d'initiation au Machine Learning.

AutoML

Tout processus automatisé permettant de créer du machine learning modèles. AutoML peut effectuer automatiquement les tâches suivantes:

AutoML est utile pour les data scientists, car il peut leur faire gagner du temps et développement de pipelines de machine learning et améliorer les prédictions précision. Il est également utile pour les non-experts, en rendant compliqués des tâches de machine learning plus accessibles.

Voir Machine automatisée Apprentissage (AutoML) dans le Cours d'initiation au Machine Learning.

modèle autorégressif

#language
#image
#generativeAI

Un modèle qui déduit une prédiction à partir de ses propres prédictions des prédictions. Par exemple, les modèles de langage autorégressifs prédisent jeton basé sur les jetons précédemment prédits. Tous les modèles basés sur Transformer Les grands modèles de langage sont autorégressifs.

En revanche, les modèles d'images basés sur GAN ne sont généralement pas autorégressifs. car ils génèrent une image en un seul passage avant et non de manière itérative dans étapes. Cependant, certains modèles de génération d'images sont autorégressifs, car ils génèrent une image par étapes.

perte auxiliaire

Une fonction de perte, utilisée conjointement avec Réseau principal du réseau de neurones la fonction de perte, qui permet d'accélérer l'entraînement pendant le les premières itérations lorsque les pondérations sont initialisées de manière aléatoire.

Les fonctions de perte auxiliaires transmettent des gradients efficaces. aux couches précédentes. Cela facilite convergence pendant l'entraînement en luttant contre le problème de disparition du gradient.

précision moyenne

Métrique permettant de résumer les performances d'une séquence de résultats classée. La précision moyenne est calculée en prenant la moyenne des des valeurs precision pour chaque résultat pertinent (chaque résultat dans dans la liste classée où le rappel augmente par rapport au résultat précédent).

Consultez également la section Aire sous la courbe PR.

condition d'alignement sur l'axe

#df

Dans un arbre de décision, une condition impliquant une seule fonctionnalité. Par exemple, si la zone est une caractéristique, ce qui suit est une condition alignée sur les axes:

area > 200

À comparer à la condition oblique.

B

rétropropagation

#fundamentals

L'algorithme qui implémente descente de gradient dans réseaux de neurones.

L'entraînement d'un réseau de neurones implique de nombreuses itérations du cycle en deux passages suivant:

  1. Lors de la propagation avant, le système traite un lot de exemples pour générer une ou plusieurs prédictions. Le système compare chaque à chaque valeur d'étiquette. La différence entre la prédiction et la valeur de l'étiquette correspond à la perte pour cet exemple. Le système agrège les pertes pour tous les exemples afin de calculer le total pour le lot actuel.
  2. Lors de la rétropropagation, le système réduit la perte de ajuster les pondérations de tous les neurones de toutes les couche(s) cachée(s).

Les réseaux de neurones contiennent souvent de nombreux neurones dans de nombreuses couches cachées. Chacun de ces neurones contribue à la perte globale de différentes manières. La rétropropagation détermine s'il faut augmenter ou diminuer les pondérations appliquées à certains neurones.

Le taux d'apprentissage est un multiplicateur qui contrôle degré auquel chaque rétrogradation augmente ou diminue chaque pondération. Un taux d'apprentissage élevé augmente ou diminue chaque pondération un faible taux d'apprentissage.

En termes de calcul, la rétropropagation implémente le règle de la chaîne. du calcul. Autrement dit, la rétropropagation calcule dérivée partielle de l'erreur avec pour chaque paramètre.

Il y a quelques années, les professionnels du ML devaient écrire du code pour implémenter la rétropropagation. Les API de ML modernes comme Keras implémentent désormais la rétropropagation pour vous. Ouf !

Voir Réseaux de neurones dans le Cours d'initiation au Machine Learning.

bagging

#df

Méthode permettant d'entraîner un ensemble dans lequel chaque Le modèle constitutif est entraîné sur un sous-ensemble aléatoire de l'entraînement exemples échantillonné avec remplacement. Par exemple, une forêt aléatoire est un ensemble arbres de décision entraînés à l'aide de bagages ;

Le terme bagging est l'abréviation de bootstrap aggrégat.

Voir Forêts aléatoires dans le cours sur les forêts d'arbres décisionnels.

sac de mots

#language

Représentation des mots d'une phrase ou d'un passage, quel que soit l'ordre. Par exemple, un sac de mots représente trois expressions de manière identique:

  • le chien saute
  • saute le chien
  • le chien saute le

Chaque mot est mappé à un index dans un vecteur creux, où le vecteur a un index pour chaque mot du vocabulaire. Par exemple : l'expression le chien saute est mappée dans un vecteur de caractéristiques dont la valeur est différente de zéro. les valeurs des trois index correspondant aux mots the, dog et sauts. La valeur non nulle peut être l'une des suivantes:

  • Un 1 pour indiquer la présence d'un mot.
  • Nombre d'occurrences d'un mot dans le sac. Par exemple : si l'expression est le chien marron est un chien à la fourrure marron, alors les deux maroon et chien sont représentés par le chiffre 2, tandis que les autres mots correspondent représenté par 1.
  • Une autre valeur, comme le logarithme du nombre de fois qu’un mot apparaît dans le sac.

Valeur de référence

Modèle utilisé comme point de référence pour comparer les performances (généralement un modèle plus complexe) est performant. Par exemple, un le modèle de régression logistique peut servir de modèle est une bonne référence pour un modèle profond.

Pour un problème particulier, la référence aide les développeurs de modèles à quantifier les performances minimales attendues qu'un nouveau modèle doit atteindre pour du modèle d'IA générative.

lot

#fundamentals

Ensemble des exemples utilisés dans une formation itération. La taille de lot détermine le nombre d'exemples dans un par lot.

Reportez-vous à la section epoch pour plus d'informations sur la manière dont un lot est lié à par époque.

Voir la section Régression linéaire: Hyperparamètres dans le Cours d'initiation au Machine Learning.

inférence par lot

#TensorFlow
#GoogleCloud

Déduire des prédictions sur plusieurs exemples non étiquetés divisés en plus petits sous-ensembles ("lots").

L'inférence par lot peut exploiter les fonctionnalités de parallélisation de puces accélérateurs. Autrement dit, plusieurs accélérateurs peuvent inférer simultanément des prédictions sur différents lots de données non étiquetées ce qui augmente considérablement le nombre d'inférences par seconde.

Voir la section Systèmes de ML de production: statique et dynamique inférence dans le Cours d'initiation au Machine Learning.

normalisation des lots

Normaliser l'entrée ou la sortie du fonctions d'activation couche cachée. La normalisation des lots offrent les avantages suivants:

taille de lot

#fundamentals

Nombre d'exemples dans un lot. Par exemple, si la taille de lot est de 100, le modèle traite 100 exemples par itération

Voici des stratégies couramment utilisées pour la taille de lot:

  • Descente de gradient stochastique (SGD), où la taille de lot est de 1.
  • "Lot complet", dont la taille correspond au nombre d'exemples dans l'intégralité ensemble d'entraînement. Par exemple, si l'ensemble d'entraînement contient un million d'exemples, alors la taille de lot est d'un million exemples. Le traitement par lot complet est généralement une stratégie inefficace.
  • mini-lot dont la taille de lot est généralement comprise entre 10 et 1 000. Le mini-lot est généralement la stratégie la plus efficace.

Pour en savoir plus, lisez les informations ci-après.

Réseau de neurones bayésien

Réseau de neurones probabiliste qui tient compte une incertitude dans les pondérations et les résultats. Un réseau de neurones standard le modèle de régression prédit généralement une valeur scalaire ; Par exemple, un modèle standard prédit le prix d'une maison de 853 000. En revanche, un réseau de neurones bayésien prédit la distribution valeurs ; par exemple, un modèle bayésien prédit le prix d'une maison de 853 000 un écart type de 67 200.

Un réseau de neurones bayésien repose sur <ph type="x-smartling-placeholder"></ph> Bayes Théorème pour calculer les incertitudes dans les pondérations et les prédictions. Un neurone bayésien réseau peut être utile lorsqu'il est important de quantifier l'incertitude, par exemple en lien avec les produits pharmaceutiques. Les réseaux de neurones bayésiens peuvent également aider empêchent le surapprentissage.

Optimisation bayésienne

Un modèle de régression probabiliste technique d'optimisation des ressources des fonctions objectifs en optimisant plutôt un substitut qui quantifie l'incertitude à l'aide d'une technique d'apprentissage bayésien. Depuis L'optimisation bayésienne est elle-même très onéreuse, elle sert généralement à optimiser des tâches coûteuses à évaluer qui comportent un petit nombre de paramètres, comme en sélectionnant hyperparamètres.

Équation de Bellman

#rl

Dans l'apprentissage par renforcement, l'identité suivante satisfaite par l'expression Fonction Q:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

Les algorithmes d'apprentissage par renforcement appliquent pour créer Q-learning via la règle de mise à jour suivante:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

Au-delà de l'apprentissage par renforcement, l'équation de Bellman a des applications pour la programmation dynamique. Consultez le <ph type="x-smartling-placeholder"></ph> Article Wikipédia sur l'équation de Bellman.

BERT (Bidirectional Encoder) Représentations de transformateurs)

#language

Architecture de modèle pour la représentation de texte. Un technicien BERT peut s'intégrer à un modèle plus vaste de classification de texte d'autres tâches de ML.

BERT présente les caractéristiques suivantes:

Voici quelques variantes de BERT:

(voir l'article Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language) Traitement en cours pour découvrir une présentation de BERT.

biais (éthique/impartialité)

#fairness
#fundamentals

1. Stéréotypage, préjugé ou favoritisme envers certaines choses, des personnes, ou des groupes plutôt que d'autres. Ces biais peuvent affecter la collecte l'interprétation des données, la conception d'un système et la façon dont les utilisateurs interagissent avec un système. Les formes de ce type de préjugé comprennent:

2. Erreur systématique introduite par une procédure d'échantillonnage ou de création de rapports. Les formes de ce type de préjugé comprennent:

À ne pas confondre avec le biais utilisé dans les modèles de machine learning ou biais de prédiction.

Voir la section Équité: types de biais pour plus d'informations.

biais (mathématiques) ou terme de biais

#fundamentals

Interception ou décalage par rapport à une origine. Le biais est un paramètre dans de machine learning, symbolisé par l'un ou l'autre suivantes:

  • B
  • W0

Par exemple, b représente le biais dans la formule suivante:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Dans une ligne bidimensionnelle simple, le biais signifie simplement "ordonnée". Par exemple, dans l'illustration suivante, le biais de la ligne est de 2.

Graphique d&#39;une ligne avec une pente de 0,5 et un biais (ordonnée à l&#39;origine) de 2.

Il existe un biais, car tous les modèles ne partent pas de l'origine (0,0). Par exemple : supposons qu'un parc d'attractions coûte 2 euros et 0,5 euro par heure de séjour. Par conséquent, un modèle mappant le coût total a un biais de 2, car le coût le plus bas est de 2 euros.

Il ne faut pas confondre les préjugés avec les biais en matière d'éthique et d'équité. ou biais de prédiction.

Consultez la page Régression linéaire. dans le Cours d'initiation au Machine Learning.

bidirectionnelle

#language

Terme utilisé pour décrire un système qui évalue le texte qui précéde à la fois. et suit une section de texte cible. En revanche, système unidirectionnel uniquement évalue le texte qui précède une section de texte cible.

Prenons l'exemple d'un modèle de langage masqué qui doit déterminer les probabilités pour le ou les mots représentant le soulignement dans la question suivante:

Qu'est-ce que _____ avec vous ?

Un modèle de langage unidirectionnel ne doit baser ses probabilités sur le contexte fourni par les mots "Quoi", "est" et "le". En revanche, un modèle de langage bidirectionnel peut aussi obtenir du contexte en partant du principe et "vous", ce qui peut aider le modèle à générer de meilleures prédictions.

modèle de langage bidirectionnel

#language

Un modèle de langage qui détermine la probabilité qu'une un jeton donné est présent à un emplacement donné dans un extrait de texte basé sur le texte précédent et le texte suivant.

bigramme

#seq
#language

Un N-gramme dans lequel N=2.

classification binaire

#fundamentals

Type de tâche de classification qui prédit l'une des deux classes s'excluant mutuellement:

Par exemple, les deux modèles de machine learning suivants effectuent chacun Classification binaire:

  • Un modèle qui détermine si les e-mails sont spam (classe positive) ou non spam (classe négative).
  • Un modèle qui évalue les symptômes médicaux pour déterminer si une personne souffre d'une maladie particulière (la classe positive) ou n'en souffre pas ; (classe négative).

À comparer à la classification à classes multiples.

Voir aussi Régression logistique et seuil de classification.

Voir Classification dans le Cours d'initiation au Machine Learning.

condition binaire

#df

Dans un arbre de décision, une condition qui n'a que deux résultats possibles, généralement oui ou non. Par exemple, voici une condition binaire:

temperature >= 100

À comparer à la condition non binaire.

Consultez la section Types de conditions. dans le cours sur les forêts d'arbres décisionnels.

binning

Synonyme de binning.

BLEU (Bilingual Evaluation Understudy)

#language

Un score compris entre 0.0 et 1.0, inclus, indiquant la qualité d'une traduction entre deux langues (par exemple, entre l'anglais et le russe). UN BLEU un score de 1,0 indique une traduction parfaite. un score BLEU de 0,0 indique mauvaise traduction.

boosting

Il s'agit d'une technique de machine learning qui combine de manière itérative un ensemble de des classificateurs peu précis (appelés classificateurs "faibles") dans une avec une grande précision (classificateur "fort") par surpondération les exemples dans lesquels le modèle est actuellement mal classées.

Voir Décision avec boosting de gradient Des arbres ? dans le cours sur les forêts d'arbres décisionnels.

cadre de délimitation

#image

Dans une image, les coordonnées (x, y) d'un rectangle autour d'une zone de centres d'intérêt, comme le chien dans l'image ci-dessous.

Photo d&#39;un chien assis sur un canapé. Cadre de délimitation vert
          avec les coordonnées en haut à gauche (275, 1271) et en bas à droite
          coordonnées de (2954, 2761) entourent le corps du chien

diffusion

Développer la forme d'un opérande dans une opération mathématique matricielle à dimensions compatibles pour cette opération. Par exemple : l'algèbre linéaire nécessite que les deux opérandes dans une opération d'addition matricielle doivent avoir les mêmes dimensions. Par conséquent, vous ne pouvez pas ajouter une matrice de forme (m, n) en un vecteur de longueur n. La diffusion permet d'effectuer cette opération d'étendre virtuellement le vecteur de longueur n à une matrice de forme (m, n) de répliquer les mêmes valeurs dans chaque colonne.

Par exemple, compte tenu des définitions suivantes, l'algèbre linéaire interdit A+B, car A et B ont des dimensions différentes:

A = [[7, 10, 4],
     [13, 5, 9]]
B = [2]

Cependant, le broadcasting permet d'effectuer l'opération A+B en développant virtuellement B en:

 [[2, 2, 2],
  [2, 2, 2]]

Ainsi, A+B est maintenant une opération valide:

[[7, 10, 4],  +  [[2, 2, 2],  =  [[ 9, 12, 6],
 [13, 5, 9]]      [2, 2, 2]]      [15, 7, 11]]

Reportez-vous à la description suivante broadcasting dans NumPy.

le binning

#fundamentals

Convertir une seule caractéristique en plusieurs caractéristiques binaires appelés buckets ou bins, généralement en fonction d'une plage de valeurs. La caractéristique hachée est généralement caractéristique continue.

Par exemple, au lieu de représenter la température comme une à virgule flottante continue, vous pouvez hacher des plages de températures en buckets discrets, tels que:

  • <= 10 degrés Celsius correspond au "froid" bucket.
  • Entre 11 et 24 degrés Celsius correspond à "tempéré" bucket.
  • Une température supérieure ou égale à 25 degrés Celsius correspond à la température "chaude". bucket.

Le modèle traitera de manière identique chaque valeur d'un même bucket. Pour Par exemple, les valeurs 13 et 22 se trouvent toutes deux dans le bucket tempéré. Par conséquent, le traite les deux valeurs de manière identique.

Voir Données numériques: Binning dans le Cours d'initiation au Machine Learning.

C

niveau de calibration

Un ajustement post-prédiction, généralement pour tenir compte biais de prédiction : Les prédictions ajustées et les probabilités doivent correspondre à la distribution d'un ensemble observé d'étiquettes.

génération de candidats

#recsystems

Il s'agit de l'ensemble initial de recommandations choisi système de recommandation. Prenons l'exemple proposant 100 000 titres. La phase de génération de candidats crée une liste bien plus petite de livres adaptés à un utilisateur particulier, disons 500. Mais même 500 livres, c'est bien trop à recommander à un utilisateur. Par la suite, plus cher, d'un système de recommandation (comme l'attribution de scores et reclassement) les réduit de façon significative, un ensemble de recommandations plus utile.

Voir Génération de candidats présentation dans le cours sur les systèmes de recommandation.

échantillonnage de candidats

Optimisation du temps d'entraînement qui calcule une probabilité pour toutes les Les étiquettes positives, en utilisant par exemple softmax, mais uniquement pour un nombre aléatoire échantillon d'étiquettes négatives. Prenons un exemple étiqueté beagle et dog, l'échantillonnage de candidats calcule les probabilités prédites et les termes de perte correspondants pour:

  • beagle
  • chien
  • un sous-ensemble aléatoire des classes négatives restantes (par exemple, cat, lollipop ou fence).

L'idée est que le Les classes négatives peuvent apprendre à partir d'apprentissages moins fréquents un renforcement négatif tant que Les classes positives obtiennent toujours des valeurs positives en renforcement, ce qui est effectivement observé empiriquement.

L'échantillonnage de candidats est plus efficace en termes de calcul que les algorithmes d'entraînement. qui calculent les prédictions pour toutes les classes négatives, en particulier lorsque le le nombre de classes négatives est très élevé.

données catégorielles

#fundamentals

Caractéristiques ayant un ensemble spécifique de valeurs possibles. Par exemple : considérez une caractéristique catégorielle nommée traffic-light-state, qui ne peut ont l'une des trois valeurs suivantes:

  • red
  • yellow
  • green

En représentant traffic-light-state comme une caractéristique catégorielle, un modèle peut apprendre impacts différents de red, green et yellow sur le comportement des conducteurs.

Les caractéristiques catégorielles sont parfois appelées caractéristiques discrètes.

À comparer aux données numériques.

Reportez-vous à la section Utiliser des métriques données dans le Cours d'initiation au Machine Learning.

modèle de langage causal

#language

Synonyme de modèle de langage unidirectionnel.

Consultez la section Modèle de langage bidirectionnel pour les différentes approches directionnelles en modélisation du langage.

centroid

#clustering

Centre d'un cluster, tel que déterminé par une fonction k-moyennes ou k-médiane. Par exemple, si k est égal à 3, alors l'algorithme k-moyennes ou k-médiane trouve trois centroïdes.

Consultez la page Algorithmes de clustering. dans le cours sur le clustering.

clustering basé sur centroïde

#clustering

Catégorie d'algorithmes de clustering qui organise les données en clusters non hiérarchiques. k-moyennes est l'algorithme de calcul a utilisé un algorithme de clustering basé sur centroïde.

À comparer au clustering hiérarchique algorithmes.

Consultez la page Algorithmes de clustering. dans le cours sur le clustering.

requêtes en chaîne de pensée

#language
#generativeAI

Technique d'ingénierie des requêtes qui encourage un grand modèle de langage (LLM) pour expliquer le raisonnement, étape par étape. Prenons l'exemple de l'invite suivante : une attention particulière à la deuxième phrase:

Combien de forces g un conducteur vivrait-il dans une voiture sur une échelle de 0 à 60 ? de miles par heure en 7 secondes ? Dans la réponse, montrez tous les calculs pertinents.

Il est probable que la réponse du LLM:

  • Montrer une séquence de formules physiques en utilisant les valeurs 0, 60 et 7 aux endroits appropriés.
  • Expliquez pourquoi il a choisi ces formules et ce que signifient les différentes variables.

Les requêtes de chaîne de pensée obligent le LLM à effectuer tous les calculs, ce qui pourrait mener à une réponse plus correcte. De plus, la chaîne de pensée permet à l'utilisateur d'examiner les étapes du LLM pour déterminer la réponse a du sens.

chat

#language
#generativeAI

Le contenu d'un dialogue avec un système de ML, généralement grand modèle de langage. L'interaction précédente dans un chat (ce que vous avez saisi et comment le grand modèle de langage a répondu) devient le le contexte pour les parties suivantes du chat.

Un chatbot est une application d'un grand modèle de langage.

point de contrôle

Les données qui capturent l'état des paramètres d'un modèle : pendant ou après l'entraînement. Par exemple, pendant l'entraînement, vous pouvez:

  1. Arrêter l'entraînement, peut-être intentionnellement ou après certaines erreurs.
  2. Capturez le point de contrôle.
  3. Plus tard, actualisez le point de contrôle, éventuellement sur un autre matériel.
  4. Redémarrer l'entraînement.

classe

#fundamentals

Catégorie à laquelle un libellé peut appartenir. Exemple :

Un modèle de classification prédit une classe. En revanche, un modèle de régression prédit un nombre et non une classe.

Voir Classification dans le Cours d'initiation au Machine Learning.

modèle de classification

#fundamentals

Un modèle dont la prédiction est une classe. Voici des exemples de tous les modèles de classification:

  • Un modèle qui prédit la langue d'une phrase d'entrée (le français ? Espagnol ? italien ?).
  • Un modèle qui prédit les espèces d'arbres Chêne ? Baobab?).
  • Un modèle qui prédit la classe positive ou négative d'une valeur donnée ou d'une maladie.

En revanche, les modèles de régression prédisent des nombres plutôt que des classes.

Voici deux types courants de modèles de classification:

seuil de classification

#fundamentals

Dans une classification binaire, entre 0 et 1, qui convertit la sortie brute d'une modèle de régression logistique ; en une prédiction de la classe positive ou la classe négative. Notez que le seuil de classification est une valeur choisie par un humain, et non une valeur choisie par l'entraînement du modèle.

Un modèle de régression logistique génère une valeur brute comprise entre 0 et 1. Ensuite :

  • Si cette valeur brute est supérieure au seuil de classification, alors la classe positive est prédite.
  • Si cette valeur brute est inférieure au seuil de classification, alors la classe négative est prédite.

Par exemple, supposons que le seuil de classification soit de 0,8. Si la valeur brute égale à 0,9, le modèle prédit la classe positive. Si la valeur brute est 0,7, le modèle prédit alors la classe négative.

Le choix du seuil de classification a une forte influence sur le nombre faux positifs et faux négatifs.

Voir la section Seuils et confusion matricielle dans le Cours d'initiation au Machine Learning.

ensemble de données avec déséquilibre des classes

#fundamentals

Jeu de données pour un problème de classification dans lequel le nombre total des étiquettes de chaque classe diffère considérablement. Prenons l'exemple d'un ensemble de données de classification binaire dont deux étiquettes sont divisés comme suit:

  • 1 000 000 étiquettes négatives
  • 10 étiquettes positives

Le ratio entre les étiquettes négatives et positives est de 100 000 pour 1. est un ensemble de données avec déséquilibre des classes.

En revanche, l'ensemble de données suivant n'est pas avec un déséquilibre des classes, car le le rapport entre les étiquettes négatives et les étiquettes positives est relativement proche de 1:

  • 517 étiquettes à exclure
  • 483 étiquettes positives

Les ensembles de données à classes multiples peuvent également présenter un déséquilibre entre les classes. Par exemple : un ensemble de données de classification à classes multiples présente également un déséquilibre entre classes, car une étiquette contient beaucoup plus d'exemples que les deux autres:

  • 1 000 000 étiquettes avec la classe "green"
  • 200 étiquettes avec la classe "violet"
  • 350 libellés avec la classe "orange"

Voir aussi entropie, classe de majorité, et la classe minoritaire.

rognage

#fundamentals

Une technique de gestion des valeurs aberrantes : l'un des éléments suivants, ou les deux:

  • Réduire les valeurs de caractéristiques supérieures à une valeur maximale jusqu'à ce seuil maximal.
  • Augmenter les valeurs des caractéristiques inférieures à un seuil minimal jusqu'à cette seuil minimal.

Par exemple, supposons que moins de 0,5% des valeurs d'une caractéristique particulière tombent en dehors de la plage 40-60. Dans ce cas, vous pouvez procéder comme suit:

  • Rogner toutes les valeurs supérieures à 60 (seuil maximal) pour qu'elles soient exactement égales à 60.
  • Rogner toutes les valeurs inférieures à 40 (seuil minimal) pour obtenir exactement 40.

Les anomalies peuvent endommager les modèles et entraîner parfois des pondérations pendant l'entraînement. Certaines valeurs aberrantes peuvent aussi considérablement gâcher des métriques telles que la précision. Le rognage est une technique courante pour limiter les dommages.

Force le bornement de gradient des valeurs de gradient dans une plage désignée pendant l'entraînement.

Voir Données numériques: Normalisation dans le Cours d'initiation au Machine Learning.

Cloud TPU

#TensorFlow
#GoogleCloud

Accélérateur matériel spécialisé conçu pour accélérer le machine learning de machine learning sur Google Cloud.

clustering

#clustering

Regrouper des exemples associés, en particulier pendant apprentissage non supervisé. Une fois que toutes les les exemples sont regroupés, un humain peut éventuellement donner un sens à chaque cluster.

Il existe de nombreux algorithmes de clustering. Par exemple, la métrique k-moyennes l'algorithme regroupe les exemples en fonction de leur proximité avec centroïde, comme dans le schéma suivant:

Un graphique bidimensionnel dans lequel l&#39;axe des x est étiqueté &quot;largeur d&#39;arbre&quot;,
          et l&#39;axe des y est étiqueté
hauteur d&#39;arbre. Le graphique contient
          centroïdes et plusieurs dizaines de points de données. Les points de données sont
          classées en fonction de leur proximité. C&#39;est-à-dire que les points de données
          les plus proches d&#39;un centroïde sont classés dans le cluster 1, tandis que ceux qui sont les plus proches d&#39;un centroïde
          les plus proches de l&#39;autre centroïde sont
classés dans le cluster 2.

Un chercheur humain pourrait alors examiner les groupes et, par exemple, étiqueter le groupe 1 comme "arbres nains" et le groupe 2 comme « arbres de taille réelle ».

Prenons un autre exemple : l'algorithme de clustering basé sur la distance de l'exemple à partir d'un point central, illustrée comme suit:

Des dizaines de points de données sont disposés en cercles concentriques, presque
          comme des trous au centre d&#39;un jeu de fléchettes. L&#39;anneau le plus intérieur
          des points de données appartiennent au cluster 1, l&#39;anneau central
          est classé dans le cluster 2, et l&#39;anneau le plus externe comme
          cluster 3.

Consultez le cours sur le clustering pour en savoir plus.

coadaptation

Lorsque les neurones prédisent des schémas dans les données d'entraînement en s'appuyant sur presque exclusivement sur les sorties d'autres neurones spécifiques, au lieu de s'appuyer sur le comportement du réseau dans son ensemble. Lorsque les modèles qui provoquent une coadaptation ne sont pas présentes dans les données de validation, la coadaptation entraîne un surapprentissage. La régularisation par abandon réduit la coadaptation car l'abandon garantit que les neurones ne peuvent pas reposer uniquement sur d'autres neurones spécifiques.

filtrage collaboratif

#recsystems

Effectuer des prédictions sur les centres d'intérêt d'un utilisateur en fonction des intérêts de nombreux autres utilisateurs. Filtrage collaboratif est souvent utilisée dans les systèmes de recommandation.

Voir la section filtrage dans le cours sur les systèmes de recommandation.

dérive conceptuelle

Changement dans la relation entre les caractéristiques et l'étiquette. Au fil du temps, la dérive conceptuelle réduit la qualité d'un modèle.

Pendant l'entraînement, le modèle apprend la relation entre les caractéristiques leurs étiquettes dans l'ensemble d'entraînement. Si les étiquettes de l'ensemble d'entraînement de bons proxys pour le monde réel, le modèle devrait s'adapter les prédictions du monde réel. Toutefois, en raison d'une dérive conceptuelle, les prédictions ont tendance à se dégrader avec le temps.

Prenons l'exemple d'une classification binaire. qui prédit si un certain modèle de voiture est "économe en carburant" ou non. Autrement dit, les caractéristiques peuvent être les suivantes:

  • poids de la voiture
  • compression des moteurs
  • type de transmission

tandis que l'étiquette est:

  • économes en carburant
  • pas économe en carburant

Toutefois, le concept de "voiture économe en carburant" conserve en constante évolution. Une voiture libellée économe en carburant en 1994 serait très certainement sera marquée comme non économe en carburant en 2024. Un modèle présentant une dérive conceptuelle tend à faire des prédictions de moins en moins utiles au fil du temps.

Comparez et opposez la non-stationarité.

état

#df

Dans un arbre de décision, tout nœud qui évalue une expression. Par exemple, la partie suivante d'une l'arbre de décision contient deux conditions:

Un arbre de décision constitué de deux conditions: (x > 0) et
          (y > 0).

Une condition est également appelée un fractionnement ou un test.

Contraste de la condition avec la condition leaf.

Voir également :

Consultez la section Types de conditions. dans le cours sur les forêts d'arbres décisionnels.

discussion

#language

Synonyme d'hallucination.

Confabulation est probablement un terme plus précis d'un point de vue technique que l'hallucination. Cependant, l'hallucination est devenue populaire en premier.

configuration

Le processus d'attribution des valeurs de propriété initiales permettant d'entraîner un modèle y compris:

Dans les projets de machine learning, la configuration peut être effectuée via une ou à l'aide de bibliothèques de configuration telles que:

biais de confirmation

#fairness

Tendance à rechercher, interpréter, favoriser et rappeler des informations d'une manière qui confirme ses croyances ou hypothèses préexistantes. Les développeurs en machine learning peuvent collecter ou étiqueter par inadvertance des données d’une manière qui influence un résultat soutenant leur croyances. Le biais de confirmation est une forme de biais implicite.

Le biais de l'expérimentateur est une forme de préjugé de confirmation dans lequel l'expérimentateur continue d'entraîner des modèles jusqu'à ce qu'un testeur l'hypothèse est confirmée.

matrice de confusion

#fundamentals

Table NxN qui résume le nombre de prédictions correctes et incorrectes généré par un modèle de classification. Prenons l'exemple de la matrice de confusion suivante, modèle de classification binaire:

Tumeur (prédiction) Pas de tumeur (prédiction)
Tumeur (vérité terrain) 18 (VP) 1 (FN)
Non-tumeur (vérité terrain) 6 (FP) 452 (VN)

La matrice de confusion précédente montre les éléments suivants:

  • Sur les 19 prédictions pour lesquelles la vérité terrain était "Tumor", le modèle a classé 18 correctement et 1 de manière incorrecte.
  • Sur les 458 prédictions pour lesquelles la vérité terrain ne correspondait pas à une tumeur, le modèle les catégories 452 et 6 sont incorrectes.

Matrice de confusion pour une classification à classes multiples peut vous aider à identifier des modèles d'erreurs. Prenons l'exemple de la matrice de confusion suivante pour un modèle à 3 classes modèle de classification à classes multiples qui classe trois types d'iris différents (Virginica, Versicolor et Setosa). Lorsque la vérité terrain était Virginica, la matrice de confusion montre que le modèle était beaucoup plus susceptible de se tromper pour prédire des couleurs Versicolor plutôt que Setosa:

  Setosa (prédiction) Versicolor (prédiction) Virginie (prédiction)
Setosa (vérité terrain) 88 12 0
Versicolor (vérité terrain) 6 141 7
Virginie (vérité terrain) 2 27 109

Autre exemple, une matrice de confusion peut révéler qu'un modèle entraîné à reconnaître les chiffres manuscrits tend à prédire à tort 9 au lieu de 4, ou prédit à tort 1 au lieu de 7.

Les matrices de confusion contiennent suffisamment d'informations pour calculer diverses métriques de performances, y compris la précision ; et le rappel.

analyse des circonscriptions

#language

Diviser une phrase en structures grammaticales plus petites ("composants"). Une autre partie du système de ML, de compréhension du langage naturel, peut analyser les éléments constitutifs plus facilement que la phrase d'origine. Par exemple : considérez la phrase suivante:

Mon ami a adopté deux chats.

L'analyseur de circonscription peut diviser cette phrase comme suit : deux composants:

  • Mon ami est un syntagme nominal.
  • adopted two cats est un syntagme verbal.

Ces composants peuvent être subdivisés en composants plus petits. Par exemple, l'expression verbale

a adopté deux chats

peut être subdivisé en:

  • adopted est un verbe.
  • deux chats est un autre syntagme nominal.

représentation vectorielle continue du langage contextualisé

#language
#generativeAI

Intégration proche de la "compréhension" mots et des expressions à la manière des locuteurs natifs. Langage contextualisé les représentations vectorielles continues peuvent comprendre une syntaxe, une sémantique et un contexte complexes.

Prenons l'exemple de représentations vectorielles continues du mot anglais cow. Anciennes représentations vectorielles continues (word2vec, par exemple) peut représenter l'anglais mots de telle sorte que la distance dans l'espace de représentation vectorielle continue de vache à bull est similaire à la distance entre ewe (mouton) et bélier (mouton) ou femelle à mâle. Langage contextualisé les représentations vectorielles continues peuvent aller plus loin en reconnaissant que les anglophones utilisent accidentellement le mot vache pour désigner la vache ou le mâle.

fenêtre de contexte

#language
#generativeAI

Nombre de jetons qu'un modèle peut traiter dans une requête. Plus la fenêtre de contexte est grande, plus que le modèle peut utiliser pour fournir des réponses cohérentes à la requête.

fonctionnalité continue

#fundamentals

Caractéristique à virgule flottante avec une plage infinie de possibilités comme la température ou le poids.

À comparer à la caractéristique discrète.

échantillonnage de commodité

Utiliser un jeu de données non collecté de manière scientifique afin d’exécuter rapidement tests. Par la suite, il est essentiel de passer à une méthode ensemble de données.

convergence

#fundamentals

État atteint lorsque les valeurs de perte changent très peu ou pas du tout à chaque itération. Par exemple : La courbe de perte suggère une convergence à environ 700 itérations:

Graphique cartésien. L&#39;axe des abscisses correspond à la perte. L&#39;axe Y correspond au nombre d&#39;entraînements
          itérations. La perte est très élevée
lors des premières itérations, mais
          diminue fortement. Après environ 100 itérations, la perte est toujours
          décroissant mais beaucoup
plus progressivement. Après environ 700 itérations,
          reste stable.

Un modèle converge lorsqu'un entraînement supplémentaire n'est pas pour améliorer le modèle.

Dans le deep learning, les valeurs de perte restent parfois constantes ou presque pendant de nombreuses itérations avant finalement redescendre. Sur une longue période de valeurs de perte constantes, vous pouvez temporairement avoir une fausse impression de convergence.

Voir aussi arrêt prématuré.

Voir Convergence et perte du modèle courbes dans le Cours d'initiation au Machine Learning.

fonction convexe

Fonction dans laquelle la région au-dessus du graphique de la fonction est une ensemble convexe. La fonction convexe prototypique a une forme qui ressemble à la lettre U. Par exemple : sont toutes des fonctions convexes:

Courbes en forme de U, chacune avec un seul point minimal.

En revanche, la fonction suivante n'est pas convexe. Remarquez comment la région au-dessus du graphique n'est pas un ensemble convexe:

Courbe en W avec deux points minimaux locaux différents.

Une fonction strictement convexe possède exactement un minimum local, ce qui est également le minimum global. Les fonctions classiques en U sont strictement convexes. Cependant, certaines fonctions convexes (par exemple, les lignes droites) ne sont pas en U.

Voir Convergence et convexe Fonctions dans le Cours d'initiation au Machine Learning.

optimisation convexe

Le processus d'utilisation de techniques mathématiques telles que la descente de gradient pour trouver la valeur minimale d'une fonction convexe. De nombreuses recherches dans le domaine du machine learning se sont concentrées sur la formulation des problèmes sous forme de problèmes d'optimisation convexes efficacement.

Pour des détails complets, voir Boyd et Vandenberghe, Convex Optimisation :

ensemble convexe

Sous-ensemble de l'espace euclidien tel qu'une ligne tracée entre deux points quelconques du reste entièrement dans le sous-ensemble. Par exemple, les deux les formes sont des ensembles convexes:

Une illustration d&#39;un rectangle. Autre illustration d&#39;un ovale.

En revanche, les deux formes suivantes ne sont pas des ensembles convexes:

Une illustration d’un graphique circulaire avec un secteur manquant.
          Autre illustration d&#39;un polygone extrêmement irrégulier.

Convolution

#image

En mathématiques, d'un point de vue informel, il s'agit d'un mélange de deux fonctions. Dans la machine une convolution mélange les nœuds convolutifs filtre et la matrice d'entrée pour entraîner des pondérations.

Le terme "convolution" en machine learning est souvent une méthode abrégée qui font référence à une opération convolutive ou couche convolutive.

Sans convolution, un algorithme de machine learning devrait apprendre une pondération distincte pour chaque cellule d'un grand tensor. Par exemple : un algorithme de machine learning entraîné sur des images 2K x 2K serait contraint nous avons trouvé 4 millions de pondérations distinctes. Grâce aux convolutions, un modèle l'algorithme ne peut trouver des pondérations que pour chaque cellule du filtre convolutif, qui réduit considérablement la mémoire nécessaire à l'entraînement du modèle. Lorsque le filtre convolutif est appliqué, il est simplement répliqué entre les cellules, de sorte que chacune d'elles est multipliée par le filtre.

Voir l'article Présentation des neurones convolutifs Réseaux dans le cours sur la classification d'images.

filtre convolutif

#image

L'un des deux acteurs Opération convolutive. (L'autre acteur est une tranche d'une matrice d'entrée.) Un filtre convolutif est une matrice ayant même rang que la matrice d'entrée, mais de forme plus petite. Par exemple, pour une matrice d'entrée de 28 x 28, le filtre peut être n'importe quelle matrice 2D. inférieure à 28 x 28.

Dans la manipulation photographique, toutes les cellules d’un filtre convolutif sont généralement défini sur un modèle constant de uns et de zéros. En machine learning, les filtres convolutifs sont généralement ensemencés avec des nombres aléatoires, puis le entraîne les valeurs idéales.

Voir la section Convolution dans le cours sur la classification d'images.

couche convolutive

#image

Couche d'un réseau de neurones profond dans laquelle un Le filtre convolutif transmet une entrée matricielle. Prenons l'exemple des images 3 x 3 suivantes Filtre convolutif:

Une matrice 3x3 avec les valeurs suivantes: [[0,1,0], [1,0,1], [0,1,0]]

L'animation suivante montre une couche convolutive composée de 9 les opérations convolutives impliquant la matrice d'entrée 5x5. Notez que chaque l'opération convolutive fonctionne sur une tranche 3x3 différente de la matrice d'entrée. La matrice 3x3 obtenue (à droite) correspond aux résultats des 9 des opérations convolutives:

Animation montrant deux matrices La première matrice est la matrice 5 x 5
          matrice: [[128,97,53,201,198], [35,22,25,200,195],
          [37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]].
          La deuxième matrice est la matrice 3x3:
          [[181 303 618], [115 338 605], [169 351 560]].
          La deuxième matrice est calculée en appliquant la matrice
          filtrer [[0, 1, 0], [1, 0, 1], [0, 1, 0]] sur
          différents sous-ensembles 3x3
de la matrice 5x5.

Voir Entièrement connecté Calques dans le cours sur la classification d'images.

réseau de neurones convolutif

#image

Réseau de neurones dans lequel au moins une couche est un couche convolutive. Une couche convolutive classique Le réseau de neurones est constitué d'une combinaison des couches suivantes:

Les réseaux de neurones convolutifs ont eu d'excellents résultats dans certains types de problèmes, comme la reconnaissance d'image.

opération convolutive

#image

L'opération mathématique en deux étapes suivante:

  1. La multiplication élément par élément des filtre convolutif et une tranche d'une la matrice d'entrée. (La tranche de la matrice d'entrée a le même rang et que le filtre convolutif).
  2. Somme de toutes les valeurs de la matrice de produits obtenue.

Prenons l'exemple de la matrice d'entrée 5 x 5 suivante:

La matrice 5x5: [[128,97,53,201,198], [35,22,25,200,195],
          [37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]].

Imaginons maintenant le filtre convolutif 2 x 2 suivant:

Matrice 2x2: [[1, 0], [0, 1]]

Chaque opération convolutive implique une seule tranche 2 x 2 du la matrice d'entrée. Par exemple, supposons que nous utilisions la tranche 2x2 au niveau en haut à gauche de la matrice d'entrée. L'opération de convolution ce segment se présente comme suit:

Application du filtre convolutif [[1, 0], [0, 1]] en haut à gauche
          Section 2x2 de la matrice d&#39;entrée, qui est [[128,97], [35,22]].
          Le filtre convolutif laisse les cellules 128 et 22 intactes, mais les zéros
          97 et 35. L&#39;opération de convolution permet donc
          la valeur 150 (128+22).

Une couche convolutive consiste en série d'opérations convolutives, chacune agissant sur une tranche différente de la matrice d'entrée.

coût

Synonyme de perte.

co-formation

Approche d'apprentissage semi-supervisé particulièrement utile lorsque toutes les conditions suivantes sont remplies:

Le co-entraînement amplifie essentiellement les signaux indépendants pour en faire un signal plus fort. Prenons l'exemple d'un modèle de classification qui classe les voitures d'occasion individuelles dans la catégorie Bon ou Mauvais. Un ensemble de Les caractéristiques prédictives peuvent se concentrer sur des caractéristiques agrégées telles que l'année, la marque et le modèle de la voiture ; un autre ensemble de caractéristiques prédictives le dossier de conduite du propriétaire précédent et l'historique d'entretien de la voiture.

L'article phare sur le co-entraînement est intitulé Combiner des données étiquetées et non étiquetées avec Co-formation par Blum et Mitchell.

équité contrefactuelle

#fairness

Une métrique d'équité qui vérifie si un classificateur produit le même résultat pour un individu que pour un autre qui est identique au premier, sauf en ce qui concerne un ou plusieurs attributs sensibles. Évaluer un classificateur pour L’impartialité contrefactuelle est une méthode pour révéler les sources potentielles de les biais d'un modèle.

Pour en savoir plus, consultez l'une des pages suivantes:

biais de couverture

#fairness

Voir biais de sélection.

pépinière d'accident

#language

Phrase ou expression au sens ambigu. Les pétales en fleur posent un problème important dans la naturelle à la compréhension du langage. Par exemple, le titre Robe rouge qui tient un skyscraper est un car un modèle NLU pouvait interpréter le titre littéralement au sens figuré.

critique

#rl

Synonyme de Deep Q-Network.

entropie croisée

La perte logistique est une généralisation problèmes de classification à classes multiples. Entropie croisée quantifie l'écart entre deux distributions de probabilité. Voir aussi perplexité.

validation croisée

Mécanisme permettant d'estimer la capacité d'un modèle à généraliser de nouvelles données en testant le modèle sur un ou plusieurs sous-ensembles de données qui ne se chevauchent pas. non inclus dans l'ensemble d'entraînement.

fonction de distribution cumulée (CDF)

Fonction qui définit la fréquence des échantillons inférieure ou égale à une la valeur cible. Prenons l'exemple d'une distribution normale des valeurs continues. Une CDF vous indique qu'environ 50% des échantillons doivent être inférieurs ou égaux à la moyenne et qu'environ 84% des échantillons doivent être inférieurs ou égaux à un écart type au-dessus de la moyenne.

D

analyse de données

Comprendre les données en considérant des échantillons, des mesures, et la visualisation. L'analyse de données peut être particulièrement utile ensemble de données est reçu en premier, avant que le premier modèle ne soit créé. Il est également crucial pour comprendre les tests et déboguer les problèmes liés à le système.

augmentation des données

#image

L'augmentation artificielle de la portée et du nombre Exemples d'entraînement en transformant le code existant examples pour créer des exemples supplémentaires. Par exemple : supposons que les images features, mais pas votre ensemble de données. contenir suffisamment d'exemples d'images pour que le modèle apprend les associations utiles. Idéalement, vous ajouteriez suffisamment des images étiquetées à votre ensemble de données pour pour que votre modèle puisse s'entraîner correctement. Si cela n'est pas possible, l'augmentation des données faire pivoter, étirer et réfléchir chaque image pour obtenir de nombreuses variantes avec une image d'origine, en générant peut-être suffisamment de données étiquetées pour obtenir de machine learning.

DataFrame

#fundamentals

Type de données pandas populaire, qui permet de représenter ensembles de données en mémoire.

Un DataFrame est analogue à un tableau ou à une feuille de calcul. Chaque colonne de un DataFrame a un nom (un en-tête), et chaque ligne est identifiée par un numéro unique.

Chaque colonne d'un DataFrame est structurée comme un tableau 2D, sauf que chaque colonne peut se voir attribuer son propre type de données.

Voir aussi la version officielle Documentation de référence sur pandas.DataFrame .

parallélisme des données

Un moyen de faire évoluer l'entraînement ou l'inférence qui réplique l'intégralité d'un modèle sur plusieurs appareils, puis transmet un sous-ensemble des données d'entrée à chaque appareil. Le parallélisme des données peut permettre l'entraînement et l'inférence sur de très grands tailles de lot ; Toutefois, le parallélisme des données nécessite soient suffisamment petits pour s'adapter à tous les appareils.

Le parallélisme des données accélère généralement l'entraînement et l'inférence.

Voir aussi parallélisme des modèles.

ensemble de données

#fundamentals

Ensemble de données brutes, généralement (mais pas exclusivement) organisées de façon à des formats suivants:

  • une feuille de calcul
  • Un fichier au format CSV (valeurs séparées par des virgules)

API Dataset (tf.data)

#TensorFlow

une API TensorFlow de haut niveau pour la lecture de données et en les transformant dans une forme requise par un algorithme de machine learning. Un objet tf.data.Dataset représente une séquence d'éléments dans lesquels chaque élément contient un ou plusieurs Tensors. tf.data.Iterator permet d'accéder aux éléments d'un Dataset.

frontière de décision

Le séparateur entre classes apprises par une modèle dans un classe binaire ou problèmes de classification à classes multiples. Par exemple : Dans l'image suivante, qui représente un problème de classification binaire, la frontière de décision est la frontière entre la classe orange la classe bleue:

Limite bien définie entre une classe et une autre.

Forêt de décision

#df

Modèle créé à partir de plusieurs arbres de décision Une forêt de décision effectue une prédiction en agrégeant les prédictions ses arbres de décision. Les types de forêts de décision les plus courants incluent forêts aléatoires et arbres à boosting de gradient.

Voir la décision Forêts dans le cours sur les forêts d'arbres décisionnels.

seuil de décision

Synonyme de seuil de classification.

arbre de décision

#df

Un modèle d'apprentissage supervisé composé d'un ensemble Les conditions et les feuilles sont organisées de façon hiérarchique. Voici un exemple d'arbre de décision:

Arbre de décision constitué de quatre conditions disposées
          hiérarchiquement, ce qui conduit 
à cinq feuilles.

décodeur

#language

En général, tout système de ML qui convertit une base de données une représentation interne en une représentation plus brute, dispersée ou externe.

Les décodeurs sont souvent des composants d'un modèle plus vaste, associé à un encodeur.

Dans les tâches séquence à séquence, un décodeur commence par l'état interne généré par l'encodeur pour prédire séquence.

Reportez-vous à la section Transformer pour connaître la définition d'un décodeur dans l'architecture Transformer.

Consultez la page Grands modèles de langage. dans le Cours d'initiation au Machine Learning.

modèle deep learning

#fundamentals

Un réseau de neurones contenant plusieurs couche cachée.

Un modèle profond est également appelé réseau de neurones profond.

À comparer au modèle large.

de réseau de neurones profond

Synonyme de modèle profond.

Deep Q-Network (DQN)

#rl

Dans le Q-learning, un réseau de neurones profond qui prédit les fonctions Q.

Critic est l'équivalent de Deep Q-Network.

parité démographique

#fairness

Une métrique d'équité satisfaite si les résultats de la classification d'un modèle ne dépendent pas un attribut sensible donné.

Par exemple, si les Lilliputiens et les Brobdingnagiens s'appliquent Glubbdubdrib University, la parité démographique est atteinte si le pourcentage des Lilliputiens admis est égal au pourcentage de Brobdingnagiens admis, qu'un groupe soit en moyenne plus qualifié que l'autre.

À comparer aux cotes égales et l'égalité des chances, ce qui permet les résultats agrégés de la classification pour dépendre d'attributs sensibles, mais ne permet pas d'obtenir des résultats de classification pour certains des étiquettes de vérité terrain pour dépendre d'attributs sensibles. Voir "Attaque la discrimination avec un machine learning plus intelligent" pour une visualisation en explorant les avantages et inconvénients de l'optimisation de la parité démographique.

Voir Équité: données démographiques parité dans le Cours d'initiation au Machine Learning.

suppression du bruit

#language

Une approche courante de l'apprentissage auto-supervisé dans lequel:

  1. Du bruit est ajouté artificiellement à l'ensemble de données.
  2. Le modèle tente de supprimer le bruit.

La suppression du bruit permet d'apprendre à partir d'exemples sans étiquette. L'ensemble de données d'origine sert de cible ou label et les données comportant du bruit comme entrée.

Certains modèles de langage masqués utilisent la suppression du bruit comme suit:

  1. Du bruit est ajouté artificiellement à une phrase sans étiquette en masquant certaines les jetons.
  2. Le modèle essaie de prédire les jetons d'origine.

caractéristique dense

#fundamentals

caractéristique dans laquelle la plupart ou la totalité des valeurs sont différentes de zéro, généralement un Tensor de valeurs à virgule flottante. Par exemple : Le Tensor à 10 éléments est dense, car neuf de ses valeurs sont différentes de zéro:

8 3 7 5 2 4 0 4 9 6

À comparer à la caractéristique creuse.

couche dense

Synonyme de couche entièrement connectée.

profondeur

#fundamentals

Somme des éléments suivants dans un réseau de neurones:

Par exemple, un réseau de neurones avec cinq couches cachées et une couche de sortie a une profondeur de 6.

Notez que la couche d'entrée ne influencer la profondeur.

Réseau de neurones convolutif séparable en profondeur (sepCNN)

#image

Un réseau de neurones convolutif basée sur l'architecture Inception, mais où les modules Inception sont remplacés par des modules séparables en profondeur. et des convolutions. Également appelé Xception.

Convolution séparable en profondeur (également appelée convolution séparable) transforme une convolution 3D standard en deux opérations de convolution distinctes qui sont plus efficaces en termes de calcul: d'abord une convolution de profondeur, avec une profondeur de 1 (n × n × 1), puis une convolution ponctuelle dont la longueur et la largeur sont égales à 1 (1 × 1 × n).

Pour en savoir plus, consultez l'article Xception: Deep Learning with Depthwise Separable. Convolutions

étiquette dérivée

Synonyme d'étiquette de proxy.

appareil

#TensorFlow
#GoogleCloud

Terme surchargé avec les deux définitions suivantes possibles:

  1. Catégorie de matériel pouvant exécuter une session TensorFlow, y compris Processeurs, GPU et TPU.
  2. Lors de l'entraînement d'un modèle de ML sur des puces accélérateurs (GPU ou TPU), la partie du système qui manipule réellement Tensors et représentations vectorielles continues. L'appareil s'exécute sur des puces d'accélération. En revanche, la classe host s'exécute généralement sur un processeur.

confidentialité différentielle

Dans le machine learning, une approche d'anonymisation pour protéger les données sensibles (par exemple, les informations personnelles d'une personne) incluses dans le ensemble d'entraînement d'être exposé. Cette approche garantit que le modèle n'apprend pas ou ne se souvient pas grand-chose un individu. Pour cela, il convient d'échantillonner et d'ajouter du bruit pendant pour masquer les points de données individuels, ce qui réduit des données d'entraînement sensibles.

La confidentialité différentielle est également utilisée en dehors du machine learning. Par exemple : les data scientists utilisent parfois la confidentialité différentielle pour protéger lors du calcul des statistiques d'utilisation des produits pour différentes données démographiques.

réduction des dimensions

Diminuer le nombre de dimensions utilisées pour représenter une caractéristique particulière dans un vecteur de caractéristiques, généralement la conversion en vecteur de représentation vectorielle continue.

dimensions

Terme complexe ayant l'une des définitions suivantes:

  • Nombre de niveaux de coordonnées dans un Tensor. Exemple :

    • Un scalaire a zéro dimension ; Exemple : ["Hello"].
    • Un vecteur a une dimension ; Exemple : [3, 5, 7, 11].
    • Une matrice a deux dimensions ; Exemple : [[2, 4, 18], [5, 7, 14]]. Vous pouvez spécifier de manière unique une cellule particulière dans un vecteur unidimensionnel avec une seule coordonnée ; vous avez besoin de deux coordonnées une cellule spécifique d'une matrice bidimensionnelle.
  • Nombre d'entrées dans un vecteur de caractéristiques.

  • Nombre d'éléments dans une couche de représentation vectorielle continue.

requête directe

#language
#generativeAI

Synonyme de requête zero-shot.

caractéristique discrète

#fundamentals

Caractéristique avec un ensemble limité de valeurs possibles. Par exemple : une caractéristique dont les valeurs peuvent uniquement être animal, légume ou minéral est une caractéristique discrète (ou catégorielle).

À comparer à la caractéristique continue.

modèle discriminatif

Un modèle qui prédit les étiquettes à partir d'un ensemble de plus de fonctionnalités. Plus formellement, les modèles discriminatifs définissent probabilité conditionnelle d'une sortie en fonction des caractéristiques weights; c'est-à-dire:

p(output | features, weights)

Par exemple, un modèle qui prédit si un e-mail est un spam à partir de caractéristiques et les pondérations est un modèle discriminatif.

La grande majorité des modèles d'apprentissage supervisé, y compris la classification, et de régression sont des modèles discriminatifs.

À comparer au modèle génératif.

discriminateur

Système qui détermine si les exemples sont réels ou faux.

À l'inverse, le sous-système d'une attaque générative réseau qui détermine si les exemples créés par le générateur sont réels ou faux.

Voir Le discriminateur dans le cours sur le GAN pour de plus amples informations.

impact disparate

#fairness

Prendre des décisions concernant les personnes qui ont un impact sur différentes populations de manière disproportionnée. Il s'agit généralement de situations lorsqu'un processus de prise de décision basé sur des algorithmes porte préjudice ou présente des avantages certains sous-groupes plus que d’autres.

Par exemple, supposons qu'un algorithme détermine la l’éligibilité à un prêt immobilier miniature comme "inéligibles" si son adresse postale contient une certaine code postal. Si les lilliputiens grands participants sont plus susceptibles d'avoir postales avec ce code postal que celles de Little-Endian Lilliputians, alors cet algorithme peut entraîner des effets disparates.

À comparer au traitement disparate, qui se concentre sur les disparités qui se produisent lorsque les caractéristiques d'un sous-groupe sont des entrées explicites d'un processus de prise de décision basé sur des algorithmes.

traitement disparate

#fairness

Factorisation des sujets attributs sensibles dans un processus de prise de décision basé sur un algorithme, de sorte que différents sous-groupes des personnes sont traitées différemment.

Prenons l'exemple d'un algorithme détermine le score l'éligibilité à un prêt immobilier miniature en fonction du les données qu'ils fournissent dans leur demande de prêt. Si l'algorithme utilise L’affiliation de Lilliputian en tant que Big-Endian ou Little-Endian en tant qu’entrée, il consiste à appliquer un traitement disparate selon cette dimension.

À comparer à l'impact disparate, qui met l'accent sur les disparités dans l'impact sociétal des décisions algorithmiques sur les sous-groupes, que ces sous-groupes constituent ou non des entrées du modèle.

distillation

#generativeAI

Processus consistant à réduire la taille d'un modèle (appelé aussi enseignant) dans un modèle plus petit (appelé élève) qui émule les prédictions du modèle d'origine aussi fidèlement que possible. Distillation est utile, car un modèle plus petit présente deux avantages majeurs (l'enseignant):

  • Durée d'inférence plus rapide
  • Réduction de la consommation de mémoire et d'énergie

Toutefois, les prédictions de l'élève ne sont généralement pas aussi bonnes que les prédictions de l'enseignant.

La distillation entraîne le modèle élève afin de minimiser fonction de perte basée sur la différence entre les sorties des prédictions des modèles élève et enseignant.

Indiquer les points communs et les différences entre la distillation et les termes suivants:

Voir LLM: affinage, distillation et invite ingénierie dans le Cours d'initiation au Machine Learning.

distribution

La fréquence et la plage des différentes valeurs pour une valeur donnée feature ou label. Une distribution capture la probabilité d'une valeur particulière.

L'image suivante montre des histogrammes de deux distributions différentes:

  • À gauche, une loi de pouvoir distribution de la richesse par rapport au nombre de personnes de posséder cette richesse.
  • À droite, une répartition normale de la taille par rapport au nombre de personnes de cette taille.

Deux histogrammes. Un histogramme montre une distribution de loi de puissance avec
          la richesse sur l&#39;axe des x et le nombre de personnes l&#39;ayant sur l&#39;axe des abscisses
          l&#39;axe des y. La plupart des gens ont très peu de richesse, et peu d&#39;entre eux ont
          beaucoup de richesses. L&#39;autre histogramme montre une distribution normale
          avec une hauteur sur l&#39;axe des x et le nombre de personnes ayant cette hauteur
          sur l&#39;axe des y. La plupart des gens sont regroupés quelque part près de la moyenne.

Comprendre la distribution de chaque caractéristique et étiquette peut vous aider à déterminer pour normaliser les valeurs et détecter les anomalies.

L'expression out of distribution (hors distribution) fait référence à une valeur qui n'apparaît pas dans le ou est très rare. Par exemple, une image de la planète Saturne serait comme hors distribution pour un ensemble de données composé d'images de chats.

clustering divisif

#clustering

Voir clustering hiérarchique.

sous-échantillonnage

#image

Terme complexe pouvant signifier l'un des éléments suivants:

  • Réduire la quantité d'informations dans une fonctionnalité dans afin d'entraîner un modèle plus efficacement. Par exemple : avant d'entraîner un modèle de reconnaissance d'image, en sous-échantillonnant dans un format de résolution inférieure.
  • Entraînement sur un pourcentage disproportionné des personnes surreprésentées classe afin d'améliorer l'entraînement du modèle sur les classes sous-représentées. Par exemple, dans une classe avec déséquilibre des classes d'un ensemble de données, les modèles ont tendance à en apprendre beaucoup sur majorité et pas assez classe minoritaire. Le sous-échantillonnage aide équilibrer la quantité de formation sur les classes majoritaires et minoritaires.

Consultez la page Ensembles de données: déséquilibre ensembles de données dans le Cours d'initiation au Machine Learning.

DQN

#rl

Abréviation de Deep Q-Network.

régularisation par abandon

Forme de régularisation utile pour l'entraînement réseaux de neurones. Régularisation par abandon supprime une sélection aléatoire d'un nombre fixe d'unités dans un réseau pour un pas de dégradé. Plus il y a d'unités abandonnées, plus la régularisation. Cette méthode est analogue à l'entraînement du réseau pour l'émulation un ensemble exponentiellement grand de réseaux plus petits. Pour en savoir plus, consultez Abandon: un moyen simple d'empêcher les réseaux de neurones de Surapprentissage.

dynamic

#fundamentals

Quelque chose fait fréquemment ou continuellement. Les termes dynamique et en ligne sont des synonymes en machine learning. Voici des utilisations courantes de dynamique et en ligne dans apprentissage:

  • Un modèle dynamique (ou modèle en ligne) est un modèle qui sont réentraînés fréquemment ou en continu.
  • L'entraînement dynamique (ou l'entraînement en ligne) est le processus d'entraînement. fréquemment ou en continu.
  • L'inférence dynamique (ou inférence en ligne) est le processus générer des prédictions à la demande.

modèle dynamique

#fundamentals

Un modèle fréquemment (peut-être continu) réentraîné. Un modèle dynamique apprend tout au long de sa vie que s'adapte constamment à l'évolution des données. Un modèle dynamique est également appelé modèle en ligne.

À comparer au modèle statique.

E

exécution eager

#TensorFlow

Environnement de programmation TensorFlow dans lequel les opérations s'exécuter immédiatement. En revanche, les opérations appelées les exécutions de graphe ne sont pas exécutées tant qu'elles n'ont pas été explicitement évalué. L'exécution eager est un interface impérative, comme le code dans la plupart des langages de programmation. Les programmes d'exécution eager sont généralement beaucoup plus facile à déboguer que les programmes d'exécution de graphe.

arrêt prématuré

#fundamentals

Méthode de régularisation impliquant de terminer entraînement avant la fin de la perte d'entraînement diminue. Lors de l'arrêt prématuré, vous arrêtez volontairement l'entraînement du modèle Lorsque la perte d'un ensemble de données de validation commence à increase; c'est-à-dire, quand les performances en généralisation se dégradent.

distance du déménageur (EMD)

Mesure de la similarité relative de deux distributions. Plus la distance est faible, plus les distributions sont similaires.

modifier la distance

#language

Mesure du degré de similitude entre deux chaînes de texte. En machine learning, la modification de la distance est utile, car elle permet le calcul, et c'est un moyen efficace de comparer deux chaînes connues pour être similaires ou pour trouver des chaînes similaires à une chaîne donnée.

Il existe plusieurs définitions de la distance de modification, chacune utilisant une chaîne différente opérations. Par exemple, <ph type="x-smartling-placeholder"></ph> Distance de Levenshtein prend en compte le moins d'opérations de suppression, d'insertion et de remplacement.

Par exemple, la distance de Levenshtein entre les mots "cœur" et "fléchettes" est de 3, car les 3 modifications suivantes représentent le moins de changements pour transformer un mot dans l'autre:

  1. cœur → tart (remplacez "h" par "d")
  2. deart → fléchette (supprimer "e")
  3. fléchette → fléchettes (insert "s")

Notation Einsum

Une notation efficace pour décrire la façon dont deux Tensors doivent être combinés. Les Tensors sont combinés en multipliant les éléments d'un Tensor par les éléments de l'autre Tensor, puis en additionnant les produits. La notation Einsum utilise des symboles pour identifier les axes de chaque Tensor, lesquels les mêmes symboles sont réorganisés pour spécifier la forme du nouveau Tensor qui en résulte.

NumPy fournit une implémentation Einsum commune.

couche de représentation vectorielle continue

#language
#fundamentals

Une couche cachée spéciale qui s'entraîne sur une une caractéristique catégorielle de grande dimension pour nous apprendrons progressivement un vecteur de représentation vectorielle continue de dimension inférieure. Une la couche de représentation vectorielle continue permet à un réseau de neurones d'entraîner plus efficace que l'entraînement sur la caractéristique catégorielle de grande dimension.

Par exemple, Google Earth accueille actuellement environ 73 000 espèces d'arbres. Supposons espèce d'arbre est une caractéristique de votre modèle. Par conséquent, la couche d'entrée inclut un vecteur one-hot 73 000 les éléments de long. Par exemple, baobab serait peut-être représenté comme ceci:

Tableau de 73 000 éléments. Les 6 232 premiers éléments contiennent la valeur
     0. L&#39;élément suivant contient la valeur 1. Les 66 767 éléments finaux
     la valeur zéro.

Un tableau de 73 000 éléments est très long. Si vous n'ajoutez pas de couche de représentation vectorielle continue au modèle, l'entraînement prend beaucoup de temps, car en multipliant 72 999 zéros. Vous choisissez peut-être la couche de représentation vectorielle continue 12 dimensions. La couche de représentation vectorielle continue va donc apprendre progressivement un nouveau vecteur de représentation vectorielle continue pour chaque espèce d'arbre.

Dans certains cas, le hachage constitue une alternative raisonnable. à une couche de représentation vectorielle continue.

Consultez l'article Représentations vectorielles continues. dans le Cours d'initiation au Machine Learning.

espace de représentation vectorielle continue

#language

L'espace vectoriel à d dimensions qui provient d'une dimension de plus grande dimension l’espace vectoriel auxquels sont mappés. Idéalement, l'espace de représentation vectorielle continue contient qui donne des résultats mathématiques significatifs ; Exemple : dans un espace de représentation vectorielle continue idéal, l'addition et la soustraction de représentations vectorielles continues peut résoudre des tâches d'analogie de mots.

Le produit scalaire de deux représentations vectorielles continues est une mesure de leur similarité.

vecteur de représentation vectorielle continue

#language

De manière générale, un tableau de nombres à virgule flottante tirés de n'importe lequel couche cachée qui décrivent les entrées de cette couche cachée. Souvent, un vecteur de représentation vectorielle continue est le tableau de nombres à virgule flottante entraîné une couche de représentation vectorielle continue. Par exemple, supposons qu'une couche de représentation vectorielle continue doit apprendre une pour chacune des 73 000 espèces d'arbres terrestres. Il se peut que Le tableau suivant est le vecteur de représentation vectorielle continue d'un baobab:

Tableau de 12 éléments, chacun contenant un nombre à virgule flottante
          entre 0,0 et 1,0.

Un vecteur de représentation vectorielle continue n'est pas un groupe de nombres aléatoires. Une couche de représentation vectorielle continue détermine ces valeurs par le biais de l'entraînement, de la même manière qu'un le réseau de neurones apprend d'autres pondérations pendant l'entraînement. Chaque élément du est une notation associée aux caractéristiques d'une espèce d'arbre. Quel représente l'espèce d'arbre caractéristique ? C'est très difficile pour que les humains puissent le déterminer.

La partie mathématiquement remarquable d'un vecteur de représentation vectorielle continue est la même éléments ont des ensembles similaires de nombres à virgule flottante. Par exemple, des espèces d'arbres ont un jeu de nombres à virgule flottante plus proche que des espèces d'arbres différentes. Les séquoias et les séquoias sont des espèces d'arbres apparentées, Ils auront donc un ensemble de nombres à virgule flottante plus similaire que des séquoias et des cocotiers. Les nombres du vecteur de représentation vectorielle continue chaque fois que vous réentraînez le modèle, même si vous le réentraînez avec une entrée identique.

fonction de distribution empirique cumulée (eCDF ou EDF).

Une fonction de distribution cumulative à partir de mesures empiriques provenant d'un ensemble de données réel. La valeur du paramètre en tout point le long de l'axe des x est la fraction des observations dans les ensembles de données inférieurs ou égaux à la valeur spécifiée.

minimisation du risque empirique (ERM)

Choisir la fonction qui minimise la perte pour l'ensemble d'entraînement. Contraste grâce à la minimisation du risque structurel.

encodeur

#language

En général, tout système de ML qui effectue une conversion à partir d'un système de ML brut, creux ou externe la représentation en une représentation plus traitée, plus dense ou plus interne.

Les encodeurs sont souvent des composants d'un modèle plus vaste, associées à un décodeur. Quelques modèles Transformer associer des encodeurs à des décodeurs, bien que les autres modèles Transformer n'utilisent que l'encodeur ou uniquement le décodeur.

Certains systèmes utilisent la sortie de l'encodeur comme entrée d'une classification ou réseau de régression.

Dans les tâches séquence à séquence, un encodeur prend une séquence d'entrée et renvoie un état interne (un vecteur). Ensuite, Le decoder utilise cet état interne pour prédire la séquence suivante.

Reportez-vous à la section Transformer pour connaître la définition d'un encodeur dans l'architecture Transformer.

Voir l'article LLM: Qu'est-ce qu'un grand langage modèle dans le Cours d'initiation au Machine Learning.

groupe

Ensemble de modèles entraînés indépendamment et dont les prédictions la moyenne ou agrégée. Dans de nombreux cas, un ensemble produit de meilleurs des prédictions qu'avec un seul modèle. Par exemple, un random Forest (forêt aléatoire) est un ensemble construit à partir de plusieurs arbres de décision. Notez que tous les Les forêts de décision sont des ensembles.

Voir Aléatoire Forêt dans le Cours d'initiation au Machine Learning.

entropie

#df

Dans <ph type="x-smartling-placeholder"></ph> théorie de l'information, une description de l'imprévisibilité d'une probabilité la distribution. L'entropie est également définie comme la quantité informations contenues dans chaque exemple. Une distribution comporte l'entropie la plus élevée possible lorsque toutes les valeurs d'une variable aléatoire sont tout aussi probable.

Entropie d'un ensemble avec deux valeurs possibles "0" et "1" (par exemple, étiquettes d'un problème de classification binaire) utilise la formule suivante:

<ph type="x-smartling-placeholder"></ph> H = -p log p - q log q = -p log p - (1-p) * log (1-p)

où :

  • H est l'entropie ;
  • p est la fraction de "1". exemples.
  • q est la fraction de "0". exemples. Notez que q = (1 - p)
  • log est généralement log2. Dans ce cas, l'entropie est un peu.

Par exemple, supposons les éléments suivants :

  • 100 exemples contiennent la valeur "1"
  • 300 exemples contiennent la valeur "0"

La valeur d'entropie est donc la suivante:

  • p = 0,25
  • q = 0,75
  • H = (-0,25)log2(0,25) - (0,75)log2(0,75) = 0,81 bit par exemple

Un ensemble parfaitement équilibré (par exemple, 200 "0" et 200 "1") aurait une entropie de 1,0 bit par exemple. À mesure qu'un ensemble devient plus déséquilibré, son entropie tend vers 0,0.

Dans les arbres de décision, l'entropie permet de formuler de gain d'informations pour aider splitter sélectionnez les conditions. lors de la croissance d'un arbre de décision de classification.

Comparer l'entropie avec:

L'entropie est souvent appelée entropie de Shannon.

Voir Séparateur exact pour la classification binaire avec caractéristiques dans le cours sur les forêts d'arbres décisionnels.

de production

#rl

Dans l'apprentissage par renforcement, le monde dans lequel se trouve l'agent et permet à l'agent d'observer l'état de ce monde. Par exemple : le monde représenté peut être un jeu comme les échecs, ou un monde physique comme un dans ce labyrinthe. Lorsque l'agent applique une action à l'environnement, puis l'environnement passe d'un état à l'autre.

épisode

#rl

Dans l'apprentissage par renforcement, chacune des tentatives répétées agent pour apprendre un environnement.

epoch

#fundamentals

Un passage d'entraînement complet sur l'intégralité de l'ensemble d'entraînement de sorte que chaque exemple ait été traité une fois.

Une époque représente N/taille de lot itérations d'entraînement, où N est le le nombre total d'exemples.

Par exemple, supposons les éléments suivants:

  • L'ensemble de données comprend 1 000 exemples.
  • La taille de lot est de 50 exemples.

Par conséquent, une seule époque nécessite 20 itérations:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

Voir la section Régression linéaire: Hyperparamètres dans le Cours d'initiation au Machine Learning.

règle epsilon greedy

#rl

Dans l'apprentissage par renforcement, une règle qui suit un règle aléatoire avec une probabilité epsilon ou une règle gloutonne dans les autres cas. Par exemple, si la valeur epsilon est 0,9, la règle suit une stratégie aléatoire 90% du temps et une règle politique 10% du temps.

Au fil des épisodes successifs, l'algorithme réduit la valeur d'epsilon dans l'ordre de passer d'une règle aléatoire à une règle gourmande. Par en changeant la règle, l'agent explore d'abord l'environnement et exploite les résultats de l'exploration aléatoire.

égalité des chances

#fairness

Une métrique d'équité pour évaluer si un modèle prédire aussi bien le résultat souhaitable pour toutes les valeurs d'une attribut sensible. En d'autres termes, si le le résultat souhaité pour un modèle est la classe positive, l'objectif est que le taux de vrais positifs soit même pour tous les groupes.

L'égalité des chances est liée à la chance égale, ce qui nécessite à la fois que les taux de vrais positifs Les taux de faux positifs sont les mêmes pour tous les groupes.

Supposons que l'université Glubbdubdrib accepte à la fois des Lilliputiens et des Brobdingnagiens à un programme de mathématiques rigoureux. Lilliputiens les établissements d'enseignement secondaire proposent de mathématiques et que la grande majorité des élèves sont qualifié pour le programme universitaire. Brobdingnagians les établissements d'enseignement secondaire proposent des cours de mathématiques et, par conséquent, beaucoup moins d'élèves qualifié. L'égalité des chances est satisfaite pour l'étiquette préférée de "admis" en fonction de la nationalité (liliputienne ou brobdingnagienne) : les étudiants qualifiés ont les mêmes chances d'être admis, qu'ils soient c'est un lilliputien ou un Brobdingnag.

Par exemple, supposons que 100 Lilliputiens et 100 Brobdingnagiens s'appliquent à Glubbdubdrib University, et les décisions d'admission sont prises comme suit:

Tableau 1. Candidats lilliputiens (90% sont qualifiés)

  Qualifié Non défini
Admis 45 3
Refusé 45 7
Total 90 10
Pourcentage d'étudiants qualifiés admis: 45/90 = 50%
Pourcentage d'élèves non qualifiés refusés: 7/10 = 70%
Pourcentage total d'étudiants lilliputiens acceptés: (45+3)/100 = 48%

 

Tableau 2. Candidats boursiers (10% sont qualifiés):

  Qualifié Non défini
Admis 5 9
Refusé 5 81
Total 10 90
Pourcentage d'étudiants qualifiés admis: 5/10 = 50%
Pourcentage d'élèves non qualifiés refusés: 81/90 = 90%
Pourcentage total d'étudiants de Brobdingnagian acceptés: (5+9)/100 = 14%

Les exemples précédents satisfont à l'égalité des chances pour l'acceptation de d'étudiants qualifiés parce que les Lilliputiens et les Brobdingnagiens sont qualifiés ont 50% de chances d'être admis.

Bien que l'égalité des chances soit satisfaite, les deux métriques d'impartialité suivantes ne sont pas satisfaits:

  • Parité démographique: les lilliputiens et Les brobdingnagiens sont admis à l'université à des tarifs différents. 48% des étudiants lilliputiens sont acceptés, mais seulement 14 % Les étudiants brobdingnagiens sont acceptés.
  • chances égales: bien que lilliputien qualifié et les étudiants de Brobdingnagian ont tous les deux les mêmes chances d'être admis. la contrainte supplémentaire que les lilliputiens non qualifiés et Les brobdingnagiens ont tous les deux la même chance d'être rejetés n'est pas satisfaits. Les lilliputiens non qualifiés ont un taux de refus de 70 %, alors que les brobdingnagiens non qualifiés ont un taux de refus de 90 %.

Voir Équité: égalité de opportunité dans le Cours d'initiation au Machine Learning.

cotes égales

#fairness

Métrique d'équité pour évaluer si un modèle prédit les résultats de manière égale convient à toutes les valeurs d'un attribut sensible avec à la fois par rapport à la classe positive et classe négative, pas seulement à l'une ou l'autre des classes exclusivement. En d'autres termes, le taux de vrais positifs et le taux de faux négatifs doivent être identiques pour tous les groupes.

La probabilité égale est liée à Égalité des chances, qui se concentre uniquement sur les taux d'erreur d'une classe unique (positif ou négatif).

Par exemple, supposons que l'université Glubbdubdrib adhère à la fois aux Lilliputiens et Brobdingnagiens à un programme de mathématiques rigoureux. Lilliputiens secondaire proposent un programme rigoureux de cours de mathématiques et la grande majorité des les étudiants sont qualifiés pour le programme universitaire. Brobdingnagians secondaire établissements scolaires n'offrent pas du tout de cours de mathématiques et, par conséquent, beaucoup moins de que leurs élèves soient qualifiés. La probabilité est égale à qu'il s'agisse d'un lilliputien ou d'un Brobdingnag, qu'ils sont qualifiés, ils sont aussi plus susceptibles d'être admis dans le programme, et s'ils ne sont pas qualifiés, ils sont tout aussi susceptibles d'être rejetés.

Supposons que 100 Lilliputiens et 100 Brobdingnagiens s'appliquent à Glubbdubdrib Les décisions concernant les universités et les admissions sont prises comme suit:

Tableau 3 : Candidats lilliputiens (90% sont qualifiés)

  Qualifié Non défini
Admis 45 2
Refusé 45 8
Total 90 10
Pourcentage d'étudiants qualifiés admis: 45/90 = 50%
Pourcentage d'élèves non qualifiés refusés: 8/10 = 80%
Pourcentage total d'étudiants lilliputiens acceptés: (45+2)/100 = 47%

 

Tableau 4. Candidats boursiers (10% sont qualifiés):

  Qualifié Non défini
Admis 5 18
Refusé 5 72
Total 10 90
Pourcentage d'étudiants qualifiés admis: 5/10 = 50%
Pourcentage d'élèves non qualifiés rejetés: 72/90 = 80%
Pourcentage total d'étudiants de Brobdingnagian acceptés: (5+18)/100 = 23%

La probabilité est égale à égalité, car les qualifications lilliputiennes et brobdingnagiennes qualifiées sont les élèves ont 50% de chances d'être admis, et les lilliputiens non qualifiés et Brobdingnagian ont 80% de chances d'être rejetés.

L'égalité des chances est formellement définie "Égalité de Opportunity in Supervised Learning Services" comme suit: « predictor Ŷ satisfait de la cote équitable en termes de respect à l'attribut protégé A et au résultat Y si Ŷ et A sont indépendants, conditionnel à Y. »

Estimator

#TensorFlow

API TensorFlow obsolète. Utilisez tf.keras à la place. des Estimators.

évaluations

#language
#generativeAI

Principalement utilisé comme abréviation pour les évaluations LLM. Plus généralement, evals est l'abréviation de toute forme Évaluation.

hors connexion

#language
#generativeAI

Processus de mesure de la qualité d'un modèle ou de comparaison de différents modèles l'un à l'autre.

Évaluer un machine learning supervisé vous le évaluez généralement par rapport à un ensemble de validation et un ensemble de test. Évaluer un LLM implique généralement des évaluations plus larges de la qualité et de la sécurité.

exemple

#fundamentals

Les valeurs d'une ligne de features et éventuellement un libellé. Exemples dans l'apprentissage supervisé se divise en deux catégories générales:

  • Un exemple étiqueté comprend une ou plusieurs caractéristiques et un libellé. Les exemples étiquetés sont utilisés pendant l'entraînement.
  • Un exemple sans étiquette comprend un ou plusieurs plus de caractéristiques, mais pas d'étiquette. Les exemples sans étiquette sont utilisés pendant l'inférence.

Par exemple, supposons que vous entraînez un modèle pour déterminer l'influence sur les conditions météorologiques sur les résultats des élèves. Voici trois exemples étiquetés:

Fonctionnalités Libellé
Température Humidité Pression Résultat du test
15 47 998 Bonne
19 34 1020 Excellente
18 92 1012 Médiocre

Voici trois exemples sans étiquette:

Température Humidité Pression  
12 62 1014  
21 47 1017  
19 41 1021  

La ligne d'un ensemble de données est généralement la source brute d'un exemple. C'est-à-dire qu'un exemple se compose généralement d'un sous-ensemble des colonnes dans le jeu de données. De plus, les caractéristiques d'un exemple peuvent aussi inclure : caractéristiques synthétiques telles que croisements de caractéristiques.

Consultez la section Apprentissage supervisé dans le cours "Introduction to Machine Learning".

rediffusion de l'expérience

#rl

Dans l'apprentissage par renforcement, une technique DQN utilisée pour réduire les corrélations temporelles dans les données d'entraînement. L'agent stocke les transitions d'état dans un tampon de relecture, puis des exemples de transitions depuis le tampon de relecture pour créer des données d'entraînement.

biais de l'expérimentateur

#fairness

Voir biais de confirmation.

problème de gradient exponentiel

#seq

La tendance des gradients dans les réseaux de neurones profonds (en particulier les réseaux de neurones récurrents) afin qu'ils deviennent étonnamment raide (élevé). Les gradients prononcés entraînent souvent des mises à jour très importantes aux pondérations de chaque nœud d'une réseau de neurones profond.

Les modèles souffrant du problème d'explosion du gradient deviennent difficiles ou impossibles à entraîner. Dégradé de gradient peut atténuer ce problème.

À comparer au problème de la disparition du gradient.

F

F1

Une vue d'ensemble métrique de classification binaire qui repose à la fois sur la précision et le rappel. Voici la formule:

$$F{_1} = \frac{\text{2 * precision * recall}} {\text{precision + recall}}$$

Prenons l'exemple suivant:

  • précision = 0,6
  • rappel = 0,4
$$F{_1} = \frac{\text{2 * 0.6 * 0.4}} {\text{0.6 + 0.4}} = 0.48$$

Lorsque la précision et le rappel sont assez similaires (comme dans l'exemple précédent), F1 est proche de leur moyenne. Différences entre précision et rappel considérablement, F1 est plus proche de la valeur inférieure. Exemple :

  • précision = 0,9
  • rappel = 0,1
$$F{_1} = \frac{\text{2 * 0.9 * 0.1}} {\text{0.9 + 0.1}} = 0.18$$

contrainte d'équité

#fairness
Appliquer une contrainte à un algorithme pour garantir une ou plusieurs définitions de l’impartialité sont satisfaits. Voici quelques exemples de contraintes d'équité:

métrique d'équité

#fairness

Définition mathématique de l'« impartialité » qui est mesurable. Voici quelques métriques d’équité couramment utilisées:

De nombreuses métriques d'équité s'excluent mutuellement. voir incompatibilité des métriques d'équité.

faux négatif (FN)

#fundamentals

Exemple dans lequel le modèle prédit à tort le classe négative. Par exemple, le modèle prédit qu'un e-mail donné n'est pas du spam. (la classe négative), alors que cet e-mail est en réalité du spam.

taux de faux négatifs

Proportion d'exemples positifs réels pour lesquels le modèle se trompe a prédit la classe négative. La formule suivante calcule la valeur taux négatif:

$$\text{false negative rate} = \frac{\text{false negatives}}{\text{false negatives} + \text{true positives}}$$

Voir la section Seuils et confusion matricielle dans le Cours d'initiation au Machine Learning.

faux positif (FP) (false positive (FP))

#fundamentals

Exemple dans lequel le modèle prédit à tort le classe positive. Par exemple, le modèle prédit qu'un e-mail donné est considéré comme du spam (classe positive), mais que l'e-mail n'est en réalité pas un spam.

Voir la section Seuils et confusion matricielle dans le Cours d'initiation au Machine Learning.

taux de faux positifs (TFP)

#fundamentals

Proportion d'exemples négatifs réels pour lesquels le modèle se trompe a prédit la classe positive. La formule suivante calcule la valeur taux de positifs:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

Le taux de faux positifs correspond à l'axe des abscisses d'une courbe ROC.

Voir la section Classification: ROC et AUC dans le Cours d'initiation au Machine Learning.

fonctionnalité

#fundamentals

Variable d'entrée d'un modèle de machine learning. Exemple comprend une ou plusieurs caractéristiques. Par exemple, supposons que vous entraîniez un pour déterminer l'influence des conditions météorologiques sur les résultats des élèves aux tests. Le tableau suivant présente trois exemples, chacun contenant trois caractéristiques et une étiquette:

Fonctionnalités Libellé
Température Humidité Pression Résultat du test
15 47 998 92
19 34 1020 84
18 92 1012 87

À comparer au libellé.

Consultez la section Apprentissage supervisé. dans le cours "Introduction to Machine Learning".

croisement de caractéristiques

#fundamentals

Caractéristique synthétique formée par un "croisement" catégorielles ou divisées.

Prenons l'exemple d'une "prévision de l'humeur" qui représente température dans l'un des quatre buckets suivants:

  • freezing
  • chilly
  • temperate
  • warm

Elle représente la vitesse du vent dans l'un des trois segments suivants:

  • still
  • light
  • windy

Sans croisements de caractéristiques, le modèle linéaire est entraîné indépendamment sur chacune des qui précède sept buckets différents. Le modèle est entraîné, par exemple, freezing indépendamment de l'entraînement, par exemple windy

Vous pouvez aussi créer un croisement de caractéristiques de température la vitesse du vent. Cette caractéristique synthétique aurait les 12 possibilités suivantes : :

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

Grâce aux croisements de caractéristiques, le modèle peut apprendre les différences d'humeur entre un jour de freezing-windy et un jour de freezing-still.

Si vous créez une caractéristique synthétique à partir de deux caractéristiques ayant chacune de nombreuses d'ensembles différents, le croisement de caractéristiques résultant de combinaisons possibles. Par exemple, si une caractéristique comporte 1 000 buckets l'autre comporte 2 000 buckets, le croisement de caractéristiques obtenu comporte 2 000 000 Cloud Storage.

Officiellement, une croix est une Produit cartésien.

Les croisements de caractéristiques sont principalement utilisés avec les modèles linéaires et sont rarement utilisés avec les réseaux de neurones.

Voir la section Données catégorielles: caractéristiques croix dans le Cours d'initiation au Machine Learning.

l'ingénierie des caractéristiques.

#fundamentals
#TensorFlow

Un processus qui comprend les étapes suivantes:

  1. Déterminer les fonctionnalités qui pourraient être utiles lors de l'entraînement d'un modèle.
  2. Conversion des données brutes de l'ensemble de données en versions efficaces ces caractéristiques.

Par exemple, vous pouvez déterminer que temperature peut être utile . Vous pouvez ensuite tester le binning afin d'optimiser ce que le modèle peut apprendre à partir des différentes plages temperature.

L'ingénierie des caractéristiques est parfois appelée extraction de caractéristiques ou featurization.

Consultez la page Données numériques: comment un modèle ingère des données à l'aide des caractéristiques. des vecteurs dans le Cours d'initiation au Machine Learning.

extraction de caractéristiques

Terme complexe ayant l'une des définitions suivantes:

importances des caractéristiques

#df

Synonyme d'importance des variables.

ensemble de caractéristiques

#fundamentals

Groupe des caractéristiques que votre modèle de machine learning pour l'entraînement du modèle. Par exemple, le code postal, la taille et l'état du bien peuvent comprend un ensemble de caractéristiques simple pour un modèle qui prédit le prix des logements.

spécification des caractéristiques

#TensorFlow

Décrit les informations requises pour extraire les données de caractéristiques du tampon de protocole tf.Example. En effet, Le tampon de protocole tf.Example n'est qu'un conteneur de données, vous devez spécifier les éléments suivants:

  • Données à extraire (c'est-à-dire les clés des caractéristiques)
  • Type de données (par exemple, float ou int)
  • La longueur (fixe ou variable)

vecteur de caractéristiques

#fundamentals

Tableau de valeurs de caractéristiques comprenant un exemple. L'entrée du vecteur de caractéristiques entraînement et pendant l'inférence. Par exemple, le vecteur de caractéristiques d'un modèle comportant deux caractéristiques distinctes pourrait être:

[0.92, 0.56]

Quatre couches: une couche d&#39;entrée, deux couches cachées et une couche de sortie.
          La couche d&#39;entrée contient deux nœuds, l&#39;un contenant la valeur
          0,92 et l&#39;autre contenant la valeur 0,56.

Chaque exemple fournit des valeurs différentes pour le vecteur de caractéristiques. pour l'exemple suivant, le vecteur de caractéristiques pourrait ressembler à ceci:

[0.73, 0.49]

L'ingénierie des caractéristiques détermine comment représenter dans le vecteur de caractéristiques. Par exemple, une caractéristique catégorielle binaire avec cinq valeurs possibles peuvent être représentées par encodage one-hot. Dans ce cas, la partie le vecteur de caractéristiques pour un exemple particulier se compose de quatre zéros et un seul 1.0 en troisième position, comme suit:

[0.0, 0.0, 1.0, 0.0, 0.0]

Autre exemple : supposons que votre modèle se compose de trois caractéristiques :

  • une caractéristique catégorielle binaire avec cinq valeurs possibles représentées par encodage one-hot Exemple: [0.0, 1.0, 0.0, 0.0, 0.0]
  • une autre caractéristique catégorielle binaire avec trois valeurs possibles représentées avec encodage one-hot, Exemple: [0.0, 0.0, 1.0]
  • une caractéristique à virgule flottante, Exemple: 8.3.

Dans ce cas, le vecteur de caractéristiques de chaque exemple serait représenté par neuf valeurs. Compte tenu des exemples de valeurs de la liste précédente, le vecteur de caractéristiques serait:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

Consultez la page Données numériques: comment un modèle ingère des données à l'aide des caractéristiques. des vecteurs dans le Cours d'initiation au Machine Learning.

featurisation

Processus d'extraction des caractéristiques d'une source d'entrée comme un document ou une vidéo, et mappez ces caractéristiques dans vecteur de caractéristiques.

Certains experts en ML utilisent la featurization comme synonyme de l'ingénierie des caractéristiques ou extraction de caractéristiques.

apprentissage fédéré

Une approche de machine learning distribué qui entraîne modèles de machine learning à l'aide de modèles exemples stockés sur des appareils tels que des smartphones. Dans l'apprentissage fédéré, un sous-ensemble d'appareils télécharge le modèle actuel. à partir d'un serveur central de coordination. Les appareils utilisent les exemples stockés sur les appareils afin d’apporter des améliorations au modèle. Les appareils importent ensuite les améliorations du modèle (mais pas les exemples d'entraînement) où elles sont regroupées avec d'autres mises à jour pour obtenir global. Après l'agrégation, le modèle met à jour les calculs effectués par les appareils ne sont plus nécessaires et peuvent être supprimés.

Comme les exemples d'entraînement ne sont jamais importés, l'apprentissage fédéré suit le des principes de confidentialité en matière de collecte ciblée et de minimisation des données.

Pour en savoir plus sur l'apprentissage fédéré, consultez ce tutoriel.

boucle de rétroaction

#fundamentals

En machine learning, une situation dans laquelle les prédictions d'un modèle influencent pour le même modèle ou un autre modèle. Par exemple, un modèle recommande des films influencer les films que les gens regardent, qui ensuite influencent les modèles de recommandation de films suivants.

Voir l'article Systèmes de ML de production: questions à demander dans le Cours d'initiation au Machine Learning.

Réseau de neurones feedforward (FFN)

Réseau de neurones sans connexions cycliques ou récursives. Par exemple : Les réseaux de neurones profonds traditionnels sont les réseaux de neurones feedforward. À comparer au neurone réseaux VPC, qui sont cycliques.

apprentissage few-shot

Une approche du machine learning, souvent utilisée pour la classification d'objets, conçus pour entraîner des classificateurs efficaces à partir d'un petit nombre exemples d'entraînement.

Voir aussi apprentissage one-shot et Apprentissage zero-shot :

requête few-shot

#language
#generativeAI

Une requête contenant plusieurs exemples montrant comment le grand modèle de langage doit répondre. Par exemple, la longue requête suivante contient deux exemples montrant comment un grand modèle de langage peut répondre à une requête.

Composantes d'une requête Remarques
Quelle est la devise officielle du pays spécifié ? Question à laquelle le LLM doit répondre.
France: EUR Prenons un exemple.
Royaume-Uni: GBP Autre exemple.
Inde : La requête réelle.

Une requête few-shot produit généralement des résultats plus souhaitables les requêtes zero-shot et requête one-shot. Toutefois, les requêtes few-shot nécessite une requête plus longue.

Une requête few-shot est une forme d'apprentissage few-shot. appliquée à l'apprentissage basé sur les requêtes.

Voir Requête ingénierie dans le Cours d'initiation au Machine Learning.

Violon

#language

Une bibliothèque de configuration Python qui définit le des fonctions et des classes sans code ou infrastructure invasif. Dans le cas de Pax (et d'autres codebases de ML), ces fonctions et représentent les modèles et l'entraînement. hyperparamètres.

Violon suppose que les codebases de machine learning sont généralement divisés en:

  • Le code de bibliothèque, qui définit les couches et les optimiseurs.
  • Ensemble de données "glue" qui appelle les bibliothèques et les câbles ensemble.

Fiddle capture la structure d'appel du code glue dans un ensemble de données forme modifiable.

optimisation

#language
#image
#generativeAI

Un deuxième parcours d'entraînement spécifique à une tâche, effectué sur un modèle pré-entraîné pour affiner ses paramètres pour un cas d'utilisation spécifique. Par exemple, la séquence d'entraînement complète Les grands modèles de langage se présentent comme suit:

  1. Pré-entraînement:entraînez un grand modèle de langage sur un vaste ensemble de données général. comme toutes les pages Wikipédia en anglais.
  2. Réglage:entraînez le modèle pré-entraîné à effectuer une tâche spécifique. par exemple pour répondre à des questions médicales. L'affinage implique généralement des centaines ou des milliers d’exemples spécifiques axés sur la tâche.

Autre exemple : pour un grand modèle d'images, la séquence d'entraînement complète se présente sous la forme suivante : ce qui suit:

  1. Pré-entraînement:entraînez un grand modèle d'images sur une vaste image générale comme toutes les images de Wikimedia Commons.
  2. Réglage:entraînez le modèle pré-entraîné à effectuer une tâche spécifique. telles que la génération d'images d'orques.

L'affinage peut nécessiter n'importe quelle combinaison des stratégies suivantes:

  • Modifier tous les champs existants du modèle pré-entraîné parameters. On parle parfois d'ajustement complet.
  • Modifier uniquement certains des paramètres existants du modèle pré-entraîné (généralement, les couches les plus proches de la couche de sortie) ; sans modifier les autres paramètres existants (généralement, les couches la plus proche de la couche d'entrée). Voir réglage efficace des paramètres.
  • Ajouter des calques, généralement au-dessus des calques existants les plus proches du couche de sortie.

L'affinage est une forme d'apprentissage par transfert. Par conséquent, l'affinage peut utiliser une fonction de perte différente ou un modèle différent que celui utilisé pour entraîner le modèle pré-entraîné. Par exemple, vous pouvez régler un grand modèle d'images pré-entraînés pour produire un modèle de régression renvoie le nombre d'oiseaux dans une image d'entrée.

Indiquer les points communs et les différences entre l'affinage avec les termes suivants:

Pour en savoir plus, consultez la section Réglage dans le Cours d'initiation au Machine Learning.

Lin

#language

Une solution Open Source hautes performances bibliothèque pour deep learning basé sur JAX. Flax fournit des fonctions pour l'entraînement des réseaux de neurones, ainsi que comme méthodes d'évaluation des performances.

Flaxformer

#language

Transformer Open Source bibliothèque basé sur Flax et conçu principalement pour le traitement du langage naturel et la recherche multimodale.

porte de suppression

#seq

La partie d'une mémoire à long terme cellule qui régule le flux d'informations dans la cellule. Les portes à oublier conservent le contexte en décidant quelles informations supprimer à partir de l'état de la cellule.

softmax complet

Synonyme de softmax.

À comparer à l'échantillonnage de candidats.

couche entièrement connectée

Une couche cachée dans laquelle chaque nœud est connecté à chaque nœud de la couche cachée suivante.

Une couche entièrement connectée est également appelée couche dense.

transformation de fonction

Fonction qui accepte une fonction en entrée et renvoie une fonction transformée en sortie. JAX utilise les transformations de fonction.

G

GAN

Abréviation de adversaire génératif réseau.

généralisation

#fundamentals

La capacité d'un modèle à effectuer des prédictions correctes sur de nouvelles des données inconnues. Un modèle qui peut généraliser est l'inverse d'un modèle en surapprentissage.

Gemini

#language
#image
#generativeAI

L'écosystème qui comprend l'IA la plus avancée de Google. Éléments de cet écosystème incluent:

  • différents modèles Gemini ;
  • Interface de conversation interactive pour un modèle Gemini Les utilisateurs saisissent des requêtes et Gemini y répond.
  • Différentes API Gemini.
  • Divers produits d'entreprise basés sur les modèles Gemini ; Exemple : Gemini pour Google Cloud.

Modèles Gemini

#language
#image
#generativeAI

La technologie de pointe de Google basée sur Transformer modèles multimodaux. Les modèles Gemini sont spécifiquement est conçue pour s'intégrer aux agents.

Les utilisateurs peuvent interagir avec les modèles Gemini de différentes manières, par exemple via via une interface de boîte de dialogue interactive et des SDK.

courbe de généralisation

#fundamentals

Graphique représentant la perte d'entraînement et perte de validation en tant que fonction du nombre de itérations.

Une courbe de généralisation peut vous aider à détecter surapprentissage. Par exemple : la courbe de généralisation suggère un surapprentissage, car la perte de validation devient finalement significativement plus élevée que la perte d'entraînement.

Un graphe cartésien dans lequel l&#39;axe des y est étiqueté &quot;perte&quot; et l&#39;axe des x
          sont étiquetées &quot;itérations&quot;. Deux tracés apparaissent. Un tracé montre le
          la perte d&#39;entraînement, et l&#39;autre
indique la perte de validation.
          Les deux tracés commencent de la même manière, mais la perte d&#39;entraînement finit par
          baisse bien en dessous
de la perte de validation.

modèle linéaire généralisé

Généralisation de la régression des moindres carrés basés sur les données Gaussien bruit, à d'autres types de modèles basés sur d'autres types de bruit, comme Bruit de Poisson ou du bruit catégoriel. Voici quelques exemples de modèles linéaires généralisés:

Les paramètres d'un modèle linéaire généralisé peuvent être déterminés via optimisation convexe.

Les modèles linéaires généralisés présentent les propriétés suivantes:

  • La prédiction moyenne du modèle de régression des moindres carrés optimal est égale à l'étiquette moyenne des données d'entraînement.
  • Probabilité moyenne prédite par la régression logistique optimale est égal à l'étiquette moyenne des données d'entraînement.

La puissance d'un modèle linéaire généralisé est limitée par ses caractéristiques. Retirer le "J’aime" un modèle profond, un modèle linéaire généralisé ne peut pas "apprendre de nouvelles caractéristiques".

réseau antagoniste génératif (GAN)

Système permettant de créer des données, dans lequel un générateur crée et un discriminateur détermine les données créées sont valides ou non valides.

IA générative

#language
#image
#generativeAI

Un domaine qui se transforme en émergence sans définition formelle. Cela dit, la plupart des experts s'accordent à dire que les modèles d'IA générative créer ("générer") un contenu qui correspond à tous les éléments suivants:

  • complexe
  • cohérentes
  • originale

Par exemple, un modèle d'IA générative peut créer des modèles des dissertations ou des images.

Certaines technologies plus anciennes, y compris les LSTMs et des RNN, peuvent également générer des du contenu cohérent. Certains experts considèrent ces technologies antérieures comme l'IA générative, tandis que d'autres estiment qu'une véritable IA générative nécessite que ce que ces technologies précédentes peuvent produire.

À comparer au ML prédictif.

modèle génératif

En pratique, un modèle qui effectue l'une des opérations suivantes:

  • Crée (génère) des exemples à partir de l'ensemble de données d'entraînement. Par exemple, un modèle génératif peut créer de la poésie après l'entraînement sur un jeu de données de poèmes. La partie générateur d'un réseau antagoniste génératif entrent dans cette catégorie.
  • Détermine la probabilité qu'un nouvel exemple provienne de la d'entraînement ou a été créée à partir du même mécanisme que celui l'ensemble d'entraînement. Par exemple, après l'entraînement un ensemble de données composé de phrases en anglais, un modèle génératif déterminer la probabilité que la nouvelle entrée soit une phrase anglaise valide.

Un modèle génératif peut théoriquement discerner la distribution des exemples ou des caractéristiques particulières d'un ensemble de données. Par exemple :

p(examples)

Les modèles d'apprentissage non supervisés sont génératifs.

À comparer aux modèles discriminatifs.

générateur

Le sous-système d'un adversaire génératif réseau qui permet de créer des exemples.

À comparer au modèle discriminatif.

impurité du gini

#df

Métrique semblable à entropie. Séparateurs utilisent des valeurs dérivées soit de l'impurité ou de l'entropie de gini pour composer des conditions pour la classification Arbres de décision. Le gain d'informations est dérivé de l'entropie. Il n'existe pas de terme équivalent universellement accepté pour la métrique dérivée de l'impurité du gini ; Toutefois, cette métrique sans nom est tout aussi importante d'informations supplémentaires.

L'impureté de Gini est également appelée indice gini, ou tout simplement gini.

ensemble de données clé

Ensemble de données sélectionnées manuellement qui capture la vérité terrain. Les équipes peuvent évaluer la qualité d'un modèle à l'aide d'un ou de plusieurs ensembles de données clés.

Certains ensembles de données clés capturent différents sous-domaines de la vérité terrain. Par exemple : Un ensemble de données fiable pour la classification d'images peut capturer les conditions d'éclairage et la résolution de l'image.

GPT (Generative Pre-trained Transformer)

#language

Famille de modèles basés sur Transformer grands modèles de langage développés par OpenAI :

Les variantes GPT peuvent s'appliquer à plusieurs modalités, y compris les suivantes:

  • génération d'images (par exemple, ImageGPT)
  • la génération d'images à partir de texte (par exemple, DALL-E).

gradient

Vecteur des dérivées partielles par rapport à toutes les variables indépendantes. En machine learning, le gradient le vecteur des dérivées partielles de la fonction de modèle. Les points de dégradé dans la direction de la montée la plus forte.

accumulation de gradient

Une technique de rétropropagation qui met à jour le paramètres qu'une fois par epoch, et non une fois par l'itération. Après le traitement de chaque mini-lot, le gradient l'accumulation met à jour un total cumulé de gradients. Puis, après le dernier mini-lot de l'epoch, le système met à jour les paramètres en fonction du total de tous les changements de gradient.

L'accumulation de gradients est utile lorsque la taille de lot est par rapport à la quantité de mémoire disponible pour l'entraînement. Lorsque la mémoire pose problème, la tendance naturelle consiste à réduire la taille de lot. Cependant, la réduction de la taille de lot lors d'une rétropropagation normale augmente le nombre de mises à jour des paramètres. L'accumulation de gradients permet au modèle pour éviter les problèmes de mémoire tout en permettant un entraînement efficace.

Arbres de décision à boosting de gradient (GBT)

#df

Type de forêt de décision dans laquelle:

boosting de gradient

#df

Algorithme d'entraînement dans lequel les modèles faibles sont entraînés de manière itérative améliorer la qualité (réduire la perte) d'un modèle solide. Par exemple : Il peut s'agir d'un modèle linéaire ou de petit arbre de décision. Le modèle fort devient la somme de tous les modèles faibles entraînés précédemment.

Dans la forme la plus simple de boosting de gradient, à chaque itération, un modèle faible est entraîné à prédire le gradient de perte du modèle fort. Ensuite, la sortie du modèle fort est mise à jour en soustrayant le gradient prédit semblable à la descente de gradient.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

où :

  • $F_{0}$ est le modèle robuste de départ.
  • $F_{i+1}$ est le prochain modèle fort.
  • $F_{i}$ est le modèle performant actuel.
  • $\xi$ est une valeur comprise entre 0,0 et 1,0 appelée rétrécissement, qui est analogue au taux d'apprentissage en la descente de gradient.
  • $f_{i}$ est le modèle faible entraîné à prédire le gradient de perte de $F_{i}$.

Les variations modernes du boosting de gradient incluent également la dérivée secondaire (Hesses) de la perte dans leur calcul.

Les arbres de décision sont souvent utilisés comme modèles peu fiables l'optimisation du gradient. Voir arbres de décision à boosting de gradient.

bornement de la norme du gradient

#seq

Un mécanisme communément utilisé pour atténuer problème de gradient explosif en fournissant artificiellement qui limite (bornement) la valeur maximale des gradients lors de l'utilisation la descente de gradient pour entraîner un modèle.

descente de gradient

#fundamentals

Technique mathématique permettant de minimiser la perte. La descente de gradient s'ajuste de façon itérative. les pondérations et les biais, trouver progressivement la meilleure combinaison pour minimiser la perte.

La descente de gradient est beaucoup plus ancienne que le machine learning.

graphique

#TensorFlow

Dans TensorFlow, une spécification de calcul. Nœuds dans le graphique représentent les opérations. Les arêtes sont orientées et représentent la transmission du résultat d'une opération (un Tensor) en tant que l'opérande d'une autre opération. Utilisez TensorBoard pour visualiser un graphe

exécution de graphe

#TensorFlow

Environnement de programmation TensorFlow dans lequel le programme construit un graphe, puis exécute tout ou partie de ce graphe. Graphique est le mode d'exécution par défaut dans TensorFlow 1.x.

À comparer à l'exécution eager.

règlement gourmand

#rl

Dans l'apprentissage par renforcement, une règle qui choisit toujours l'action ayant le retour attendu le plus élevé.

vérité terrain

#fundamentals

La réalité.

Ce qui s'est passé réellement.

Prenons l'exemple d'une classification binaire. qui prédit si un étudiant en première année d'université obtiendra son diplôme dans les six ans. Pour ce modèle, la vérité terrain est de savoir si pas qu’un étudiant ait réellement obtenu son diplôme dans les six ans.

biais de représentativité

#fairness

Supposer que ce qui est vrai pour un individu s'applique aussi à tout le monde dans ce groupe. Les effets du biais de représentativité peuvent être exacerbés si un échantillonnage de convenance est utilisé pour la collecte de données. Dans un échantillon non représentatif, les attributions qui ne reflètent pas la réalité.

Voir aussi biais d'homogénéité de l'exogroupe et le biais d'appartenance.

H

hallucination

#language

La production de résultats qui semblent plausibles, mais qui sont en fait incorrects par une modèle d'IA générative qui vise à créer sur le monde réel. Par exemple, un modèle d'IA générative affirmant que Barack Obama est mort en 1865. est en hallucination.

hachage

En machine learning, un mécanisme de binning données catégorielles, en particulier lorsque le nombre de catégories est élevé, mais le nombre de catégories qui apparaissent réellement du jeu de données est relativement petite.

Par exemple, la Terre abrite environ 73 000 espèces d'arbres. Vous pourriez représentent chacune des 73 000 espèces d'arbres réparties dans 73 000 catégories Cloud Storage. Si seulement 200 de ces espèces d'arbres dans un ensemble de données, vous pouvez utiliser le hachage pour diviser les espèces d'arbres en peut-être 500 buckets.

Un même bucket peut contenir plusieurs espèces d'arbres. Par exemple, le hachage pourrait placer le baobab et l'érable rouge, deux caractéristiques génétiquement différentes espèces) dans le même bucket. Quoi qu’il en soit, le hachage est un bon moyen de mapper de grands ensembles catégoriels dans le nombre sélectionné de buckets. Le hachage devient caractérisée par un grand nombre de valeurs possibles un plus petit nombre de valeurs en regroupant les valeurs dans déterministe.

heuristique

Une solution simple et rapidement mise en œuvre à un problème. Par exemple : "Avec une heuristique, nous avons atteint une précision de 86 %. Lorsque nous sommes passés à un réseau de neurones profond, la justesse a atteint 98%."

couche cachée

#fundamentals

Couche d'un réseau de neurones entre les couche d'entrée (les caractéristiques) et couche de sortie (la prédiction). Chaque couche cachée se compose d'un ou de plusieurs neurones. Par exemple, le réseau de neurones suivant contient deux couches cachées : le premier avec trois neurones et le second avec deux.

Quatre couches. La première couche est une couche d&#39;entrée contenant
          caractéristiques. La deuxième couche est une couche cachée contenant
          de neurones. La troisième couche est une couche cachée contenant
          de neurones. La quatrième couche est une couche de sortie. Chaque fonctionnalité
          contient trois arêtes, chacune pointant vers un neurone différent
          dans la deuxième couche. Chacun des neurones de la deuxième couche
          contient deux arêtes, chacune pointant vers un neurone différent
          dans la troisième couche. Chacun des neurones de la troisième couche contient
          une arête, chacune pointant vers la couche de sortie.

Un réseau de neurones profond contient plusieurs couche cachée. Par exemple, l'illustration précédente montre un schéma neuronal profond car il contient deux couches cachées.

clustering hiérarchique

#clustering

Catégorie d'algorithmes de clustering qui créent un arbre de clusters. Le clustering hiérarchique est parfaitement adapté aux données hiérarchisées, telles que les taxonomies botaniques. Il existe deux types de tâches hiérarchiques algorithmes de clustering:

  • Le clustering agglomératif attribue d'abord chaque exemple à son propre cluster, et fusionne de façon itérative les clusters les plus proches pour créer arbre.
  • Le clustering divisif regroupe d'abord tous les exemples en un seul cluster, puis divise le cluster de manière itérative en un arbre hiérarchique.

À comparer au clustering basé sur centroïde.

marge maximale

Une famille de fonctions de perte pour classification conçue pour trouver frontière de décision la plus éloignée possible de chaque exemple d'entraînement, ce qui maximise la marge entre les exemples et la limite. Les KSVMs utilisent la marge maximale (ou une fonction associée, comme quadratique de la marge maximale). Pour la classification binaire, la fonction de marge maximale est défini comme suit:

$$\text{loss} = \text{max}(0, 1 - (y * y'))$$

y est l'étiquette réelle, soit -1, soit +1, et y' est la sortie brute. du modèle de classificateur:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Par conséquent, le graphique de la marge maximale en fonction de (y * y') se présente comme suit:

Graphique cartésien composé de deux segments de droite reliés. Le premier
          commence à (-3, 4) et se termine à (1, 0). La deuxième ligne
          segment commence à (1, 0) et se poursuit indéfiniment avec une pente
          de 0.

biais historique

#fairness

Type de biais qui existe déjà dans le monde et qui a introduites dans un jeu de données. Ces biais ont tendance à refléter stéréotypes culturels, inégalités démographiques et préjugés à l'encontre de certaines groupes sociaux.

Prenons l'exemple d'un modèle de classification qui prédit si un candidat à un prêt ne manquera pas ou non de son prêt, ce qui était à l'aide de données historiques sur les taux de défaut de prêt datant des années 1980, auprès de banques locales différentes communautés. Si les précédents candidats de la communauté A étaient six fois plus nombreux risquent de manquer de crédit que les candidats de la communauté B, peut apprendre un biais historique, ce qui rendrait le modèle moins susceptible à approuver des prêts dans la communauté A, même si les conditions historiques qui en résultent les taux par défaut plus élevés de cette communauté n'étaient plus pertinentes.

données exclues

Exemples intentionnellement non utilisés ("exclus") pendant l'entraînement. L'ensemble de données de validation et Les ensembles de données de test sont des exemples de données exclues. Données exclues permet d'évaluer la capacité de votre modèle à se généraliser à des données autres que des données avec lesquelles il a été entraîné. La perte de l'ensemble de données exclues offre une meilleure de la perte sur un ensemble de données inconnu ensemble d'entraînement.

hôte

#TensorFlow
#GoogleCloud

Lors de l'entraînement d'un modèle de ML sur des puces accélérateurs (GPU ou TPU), la partie du système qui contrôle les deux éléments suivants:

  • Flux global du code
  • L'extraction et la transformation du pipeline d'entrée.

L'hôte s'exécute généralement sur un processeur, et non sur une puce d'accélération. la device manipule les tensors sur le les puces d'accélération.

hyperparamètre

#fundamentals

Les variables que vous ou un service de réglage lors des exécutions successives de l'entraînement d'un modèle. Par exemple : Le taux d'apprentissage est un hyperparamètre. Vous pourriez définir le taux d'apprentissage sur 0,01 avant une session d'entraînement. Si vous et que 0,01 est trop élevé, vous pouvez définir la valeur d'apprentissage à 0,003 pour la prochaine session de formation.

En revanche, les paramètres sont les différents pondérations et biais que le modèle apprend pendant l'entraînement.

hyperplan

Limite qui sépare un espace en deux sous-espaces. Par exemple, une ligne est un un hyperplan en deux dimensions, et un plan en trois dimensions. Plus généralement en machine learning, un hyperplan est la frontière qui sépare dans un espace de grande dimension. Kernel Support Vector Machines (Machines à vecteurs de support à noyau) utilisent les hyperplans pour séparer les classes positives des classes négatives, souvent de manière très dans un espace de grande dimension.

I

i.i.d.

Abréviation de distribué de manière indépendante et identique.

reconnaissance d'image

#image

Processus qui classe un ou plusieurs objets, modèles ou concepts dans une image. La reconnaissance d'image est également appelée classification d'images.

Pour en savoir plus, consultez Travaux pratiques sur le ML: Classification d'images.

ensemble de données déséquilibré

Synonyme d'ensemble de données avec déséquilibre des classes.

biais implicite

#fairness

Faire automatiquement une association ou une hypothèse basée sur son esprit les modèles et les mémoires. Le biais implicite peut avoir une incidence sur les éléments suivants:

  • Comment les données sont collectées et classées.
  • Découvrez comment les systèmes de machine learning sont conçus et développés.

Par exemple, lorsque vous créez un classificateur pour identifier les photos de mariage, un ingénieur peut utiliser la présence d'une robe blanche dans une photo comme caractéristique. Cependant, les robes blanches ne sont d'usage qu'à certaines époques et dans certaines cultures.

Voir aussi biais de confirmation.

imputation

Forme abrégée d'imputation de la valeur.

Incompatibilité des métriques d'équité

#fairness

L’idée que certaines notions d’impartialité sont mutuellement incompatibles et ne peuvent pas être satisfaites en même temps. Par conséquent, il n'existe pas métrique universelle permettant de quantifier l'équité applicable à tous les problèmes de ML.

Même si cela peut sembler décourageant, l'incompatibilité des métriques d'équité ne signifie pas que les efforts d'équité sont vains. Au lieu de cela, il suggère l'équité doit être définie en fonction du contexte pour un problème de ML donné, dans le but d'empêcher les dommages spécifiques à ses cas d'utilisation.

Reportez-vous à la section "Sur le (im)possibilité d'équité" pour une discussion plus détaillée à ce sujet.

apprentissage en contexte

#language
#generativeAI

Synonyme de requête few-shot.

variables indépendantes et identiquement distribuées (i.i.d)

#fundamentals

Données tirées d'une distribution qui ne change pas, et où chaque valeur ne dépend pas des valeurs qui ont été dessinées précédemment. Une variable iid. est le gaz idéal de machine learning d'apprentissage : il s'agit d'une construction mathématique utile qui n'a quasiment jamais été trouvée dans le monde réel. Par exemple, la répartition des visiteurs d'une page Web peuvent être des variables iid. sur une courte période de temps ; c'est-à-dire que la distribution pendant cette courte période, alors que la visite d'une personne indépendamment de la visite d'un autre utilisateur. Cependant, si vous étendez cette période, des différences saisonnières au niveau des visiteurs de la page Web peuvent apparaître.

Voir aussi nonstationarité.

équité individuelle

#fairness

Mesure d’impartialité qui vérifie si des personnes similaires sont classées de la même manière. Par exemple, l'Académie des Brobdingnagian peut souhaiter satisfaire l’impartialité individuelle en veillant à ce que deux élèves ayant des notes identiques et les résultats aux tests normalisés ont le même niveau de probabilité d'être admis.

Notez que l'impartialité individuelle repose entièrement sur la définition du terme "similarité" (dans ce cas, les notes et les résultats aux tests), et vous pouvez courir le risque de l'introduction de nouveaux problèmes d'équité si votre métrique de similarité passe à côté d'importantes (par exemple, la rigueur du programme d'un élève).

Voir l'article "L'équité à travers Notoriété pour une discussion plus détaillée sur l'impartialité des individus.

inférence

#fundamentals

Dans le machine learning, le processus de réalisation de prédictions Application d'un modèle entraîné à des exemples sans étiquette

En statistique, l'inférence a une signification légèrement différente. Consultez le <ph type="x-smartling-placeholder"></ph> Article Wikipédia sur l'inférence statistique.

chemin d'inférence

#df

Dans un arbre de décision, lors de l'inférence, l'itinéraire emprunté par un exemple donné à partir du root à d'autres conditions, se terminant par une feuille. Par exemple, dans l'arbre de décision suivant, des flèches plus épaisses indiquent le chemin d'inférence. Voici un exemple : valeurs des caractéristiques:

  • x = 7
  • y = 12
  • z = -3

Dans l'illustration suivante, le chemin d'inférence traverse trois avant d'atteindre la feuille (Zeta).

Arbre de décision composé de quatre conditions et de cinq feuilles.
          La condition racine est (x > 0). Puisque la réponse est oui, le
          chemin d&#39;inférence parcourt la racine vers la condition suivante (y > 0).
          Puisque la réponse est &quot;Oui&quot;, le chemin d&#39;inférence est ensuite transmis
          condition suivante (z > 0). Puisque la réponse est &quot;Non&quot;, le chemin d&#39;inférence
          se déplace vers son nœud terminal, qui est la feuille (Zeta).

Les trois flèches épaisses représentent le chemin d'inférence.

acquisition d'informations

#df

Dans les forêts de décision, la différence entre l'entropie d'un nœud et la valeur pondérée (en fonction du nombre d'exemples) de l'entropie de ses nœuds enfants. L'entropie d'un nœud est l'entropie des exemples de ce nœud.

Prenons l'exemple des valeurs d'entropie suivantes:

  • entropie du nœud parent = 0,6
  • entropie d'un nœud enfant avec 16 exemples pertinents = 0,2
  • entropie d'un autre nœud enfant avec 24 exemples pertinents = 0,1

Ainsi, 40% des exemples se trouvent dans un nœud enfant et 60% dans le un autre nœud enfant. Par conséquent :

  • somme d'entropie pondérée des nœuds enfants = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Le gain d'informations est donc:

  • Gain d'informations = entropie du nœud parent - somme d'entropie pondérée des nœuds enfants
  • gain d'informations = 0,6 - 0,14 = 0,46

La plupart des spliters cherchent à créer des conditions. qui maximisent l'acquisition d'informations.

biais d'appartenance

#fairness

Faire preuve de partialité envers son propre groupe ou ses propres caractéristiques. Si les testeurs ou les évaluateurs sont des amis du développeur de machine learning, votre famille ou vos collègues, alors le préjugé d'appartenance peut invalider le test du produit ou le jeu de données.

Le préjugé d'appartenance est une forme de biais de représentativité. Voir aussi biais d'homogénéité de l'exogroupe.

générateur d'entrée

Un mécanisme par lequel les données sont chargées dans un réseau de neurones.

Un générateur d'entrée peut être considéré comme un composant responsable du traitement des données brutes dans des Tensors itérés afin de générer des lots l'entraînement, l'évaluation et l'inférence.

couche d'entrée

#fundamentals

La couche d'un réseau de neurones contient le vecteur de caractéristiques. Autrement dit, la couche d'entrée fournit des exemples pour l'entraînement ou inférence. Par exemple, la couche d'entrée dans l'exemple Le réseau de neurones présente deux caractéristiques:

Quatre couches: une couche d&#39;entrée, deux couches cachées et une couche de sortie.

condition dans l'ensemble

#df

Dans un arbre de décision, une condition qui teste la présence d'un élément dans un ensemble d'éléments. Par exemple, voici une condition intégrée:

  house-style in [tudor, colonial, cape]

Pendant l'inférence, si la valeur de la caractéristique de style maison est tudor, colonial ou cape, la condition renvoie la valeur Oui. Si la valeur de la caractéristique "maison" est autre (par exemple, ranch) ; cette condition renvoie la valeur Non.

Les conditions intégrées conduisent généralement à des arbres de décision plus efficaces que conditions qui testent les caractéristiques de l'encodage one-hot.

instance

Synonyme d'exemple.

réglage des instructions

#generativeAI

Forme d'ajustement qui améliore un la capacité du modèle d'IA générative à suivre instructions. Le réglage des instructions implique d'entraîner un modèle sur une série d'invites, couvrant généralement un large une variété de tâches. Le modèle d'apprentissage qui en résulte tend alors à générer des réponses utiles aux requêtes zero-shot ; pour réaliser diverses tâches.

Comparer et différencier les produits suivants:

interprétabilité

#fundamentals

Capacité à expliquer ou à présenter le raisonnement d'un modèle de ML des termes compréhensibles pour un humain.

La plupart des modèles de régression linéaire, par exemple, sont fortement et interprétables. Il vous suffit d'examiner les pondérations entraînées pour chaque feature.) Les forêts de décision sont également hautement interprétables. Cependant, certains modèles nécessitent une visualisation sophistiquée pour devenir interprétable.

Vous pouvez utiliser Learning Interpretability Tool (LIT) pour interpréter des modèles de ML.

accord inter-évaluateurs

Mesure de la fréquence à laquelle les évaluateurs humains sont d'accord lorsqu'ils accomplissent une tâche. Si les évaluateurs ne sont pas d'accord, vous devrez peut-être améliorer les instructions. Parfois également appelé accord inter-annotateurs ou fiabilité inter-évaluateurs. Voir aussi Cohen's kappa, qui est l'une des mesures de l'accord inter-évaluateurs les plus populaires.

intersection over union (IoU) :

#image

Intersection de deux ensembles divisée par leur union. Dans le domaine du machine learning de détection d'images, l'IoU permet de mesurer la justesse cadre de délimitation prédit par rapport au Cadre de délimitation vérité terrain. Dans ce cas, l'IoU deux cadres correspond au rapport entre la zone de chevauchement et l'aire totale, et Sa valeur est comprise entre 0 (pas de chevauchement du cadre de délimitation prévu et de la vérité terrain) cadre de délimitation) sur 1 (le cadre de délimitation prévu et le cadre de délimitation avec vérité terrain ont les mêmes coordonnées).

Par exemple, dans l'image ci-dessous:

  • Le cadre de délimitation prédit (les coordonnées qui délimitent l'emplacement où le modèle prédit que la table de nuit dans le tableau se trouve) est encadrée en violet.
  • Le cadre de délimitation de la vérité terrain (les coordonnées qui délimitent l'endroit où la nuit est située dans le tableau) est encadrée en vert.

Le tableau de Van Gogh &quot;La chambre de Vincent&quot; à Arles, avec deux tableaux
          des cadres de délimitation autour de la table de nuit, à côté du lit. La vérité terrain
          le cadre de délimitation (en vert) délimite parfaitement la table de nuit. La
          le cadre de délimitation prévu (en violet) est décalé de 50% vers le bas et vers la droite
          du cadre de délimitation
de la vérité terrain ; elle englobe le quart inférieur droit
          de la table de nuit, mais il manque le reste de la table.

Ici, l'intersection des cadres de délimitation pour la prédiction et la vérité terrain (en bas à gauche) est 1, et l'union des cadres de délimitation pour la prédiction et la vérité terrain (en bas à droite) est de 7. L'IoU est donc de \(\frac{1}{7}\).

Même image que ci-dessus, mais chaque cadre de délimitation étant divisé en quatre
          quadrants. Il y a sept quadrants au total, en bas à droite
          quadrant du cadre de délimitation de la vérité terrain et le coin supérieur gauche
          quadrants du cadre de délimitation prédit qui se chevauchent. Ce
          (en vert) représente la section
          avec une intersection de 1. Même image que ci-dessus, mais chaque cadre de délimitation étant divisé en quatre
          quadrants. Il y a sept quadrants au total, en bas à droite
          quadrant du cadre de délimitation de la vérité terrain et le coin supérieur gauche
          quadrants du cadre de délimitation prédit qui se chevauchent.
          L&#39;intégralité de l&#39;intérieur, encadré par les deux cadres de délimitation
          (surlignée en vert) représente l&#39;union.
          une zone de 7.

IoU

Abréviation de l'intersection sur l'union.

matrice des éléments

#recsystems

Dans les systèmes de recommandation, une matrice des vecteurs de représentation vectorielle continue générés par factorisation matricielle contenant les signaux latents pour chaque élément. Chaque ligne de la matrice éléments contient la valeur d'une seule ligne latente pour tous les articles. Prenons l'exemple d'un système de recommandation de films. Chaque colonne dans la matrice éléments représente un seul film. Les signaux latents peuvent représenter des genres ou être plus difficiles à interpréter des signaux qui impliquent des interactions complexes entre les genres, les stars l'âge du film ou d'autres facteurs.

La matrice éléments a le même nombre de colonnes que la cible de la matrice qui est factorisée. Par exemple, pour un film de recommandation évaluant 10 000 titres de films, la matrice des éléments comporte 10 000 colonnes.

éléments

#recsystems

Dans un système de recommandation, les entités par un système. Par exemple, les vidéos sont les éléments recommande, tandis que les livres sont les articles qu’une librairie recommande.

itération

#fundamentals

Mise à jour unique des paramètres d'un modèle : ses pondérations et biais, formation. La taille de lot détermine le nombre d'exemples traités par le modèle au cours d'une seule itération. Par exemple, si la taille de lot est de 20, le modèle traite alors 20 exemples avant ajuster les paramètres.

Lors de l'entraînement d'un réseau de neurones, une seule itération implique les deux passes suivantes:

  1. Une propagation avant pour évaluer la perte d'un seul lot.
  2. Une rétropropagation (rétropropagation) pour ajuster le paramètre les paramètres du modèle en fonction de la perte et du taux d'apprentissage.

J

JAX

Une bibliothèque de calcul ARRAY, réunissant XLA (Accelerated Linear Algebra) et différenciation automatique pour le calcul numérique hautes performances. JAX offre une interface Web simple et puissante API permettant d'écrire du code numérique accéléré avec des transformations composables JAX propose entre autres les fonctionnalités suivantes:

  • grad (différenciation automatique)
  • jit (compilation juste à temps)
  • vmap (vecteur vertical ou traitement par lot automatique)
  • pmap (parallélisation)

JAX est un langage permettant d'exprimer et de composer des transformations de données semblable à la bibliothèque NumPy de Python, mais avec un champ d'application beaucoup plus large bibliothèque. (En fait, la bibliothèque .numpy sous JAX est fonctionnellement équivalente, mais entièrement réécrite de la bibliothèque Python NumPy.)

JAX est particulièrement adapté pour accélérer de nombreuses tâches de machine learning en transformant les modèles et les données dans un format adapté au parallélisme sur les puces accélérateurs GPU et TPU.

Flax, Optax, Pax et bien d'autres sont basées sur l'infrastructure JAX.

K

Keras

API de machine learning Python populaire. Keras s'exécute sur plusieurs frameworks de deep learning, dont TensorFlow, disponible en tant que tf.keras

Machines à vecteurs de support à noyau (KSVMs)

Un algorithme de classification qui cherche à maximiser la marge entre positive et classes négatives en mappant des vecteurs de données d'entrée. dans un espace de plus grande dimension. Prenons l'exemple d'une classification dans lequel l'ensemble de données d'entrée propose une centaine de fonctionnalités. Pour maximiser la marge entre positive et négative, un KSVM pourrait mapper en interne ces caractéristiques dans un espace à un million de dimensions. Les KSVM utilisent une fonction de perte appelée marge maximale.

points clés

#image

Coordonnées de certains éléments géographiques d'une image Par exemple, pour une modèle de reconnaissance d'images qui distingue de fleurs, les points clés peuvent être le centre de chaque pétale, la tige, les étranges, etc.

validation croisée de k-fold

Un algorithme permettant de prédire la capacité d'un modèle à généraliser à de nouvelles données. Le k de "k-fold" désigne le nombre de groupes égaux entre lesquels vous divisez les exemples d'un jeu de données ; c'est-à-dire que vous entraînez et tester votre modèle k fois. Pour chaque cycle d'entraînement et de test, groupe différent constitue l'ensemble de test, et tous les groupes restants deviennent l'ensemble d'entraînement. défini. Après k séries d'entraînement et de test, vous calculez la moyenne et écart type des métriques de test choisies.

Par exemple, supposons que votre ensemble de données se compose de 120 exemples. Supposons à présent que vous décidez de définir k sur 4. Par conséquent, après brassage des exemples, vous divisez le jeu de données en quatre groupes égaux de 30 exemples et effectuez quatre d'entraînement et de test:

Un ensemble de données divisé en quatre groupes égaux d&#39;exemples. Lors du premier tour,
          les trois premiers groupes sont utilisés
pour l&#39;entraînement et le dernier
          est utilisée à des fins de test. Lors du 2e tour, les deux premiers groupes et le dernier
          sont utilisés pour l&#39;entraînement, tandis que le troisième groupe est utilisé pour
          tests. Dans le troisième tour, le premier et les deux derniers groupes
          pour l&#39;entraînement et le deuxième pour les tests.
          Dans le quatrième tour, le premier groupe est utilisé pour les tests, tandis que le dernier
          trois groupes sont utilisés pour l&#39;entraînement.

Par exemple, l'erreur quadratique moyenne (MSE) pourrait est la métrique la plus significative pour un modèle de régression linéaire. Par conséquent, vous trouver la moyenne et l'écart type de la MSE sur les quatre cycles.

k-moyennes

#clustering

Algorithme de clustering populaire qui regroupe des exemples dans l'apprentissage non supervisé. L'algorithme k-moyennes effectue essentiellement les opérations suivantes:

  • Détermination de manière itérative des meilleurs k points centraux (connus centroïdes).
  • Attribue chaque exemple au centroïde le plus proche. Les exemples les plus proches d'un même centroïde appartiennent au même groupe.

L'algorithme k-moyennes choisit l'emplacement des centroïdes pour minimiser la valeur carré des distances entre chaque exemple et son centroïde le plus proche.

Prenons l'exemple du graphique suivant représentant la hauteur et la largeur du chien:

Graphique cartésien avec plusieurs dizaines de points de données.

Si k=3, l'algorithme k-moyennes détermine trois centroïdes. Chaque exemple est affecté à son centroïde le plus proche, ce qui donne trois groupes:

Le même graphique cartésien que dans l&#39;illustration précédente, sauf
          avec trois centroïdes ajoutés.
          Les points de données précédents sont regroupés
en trois groupes distincts,
          chaque groupe représentant les points de données les plus proches d&#39;une
          centroïde.

Imaginez qu’un fabricant veuille déterminer les tailles idéales pour les petites, des pulls moyens et grands pour chiens. Les trois centroïdes identifient la moyenne la hauteur et la largeur moyenne de chaque chien dans ce cluster. Le fabricant devrait probablement baser la taille des pulls sur ces trois centroïdes. Notez que le centroïde d'un cluster n'est généralement pas un exemple dans le cluster.

Les illustrations précédentes montrent les k-moyennes pour des exemples avec seulement deux caractéristiques (hauteur et largeur). Notez que les k-moyennes peuvent regrouper des exemples sur de nombreuses fonctionnalités.

k-médiane

#clustering

Algorithme de clustering étroitement lié à k-moyennes. La la différence pratique entre les deux est la suivante:

  • Dans l'algorithme k-moyennes, les centroïdes sont déterminés en minimisant la somme des carrés de la distance entre un centroïde potentiel et chacun des ses exemples.
  • Dans l'algorithme k-médiane, les centroïdes sont déterminés en minimisant la somme des la distance entre un centroïde potentiel et chacun de ses exemples.

Notez que les définitions de distance sont également différentes:

  • l'algorithme k-moyennes s'appuie sur Distance euclidienne de le centroïde à un exemple. (Dans deux dimensions, la structure euclidienne la distance signifie utiliser le théorème de Pythagore pour calculer l'hypoténuse.) Par exemple, la distance en k-moyennes entre (2,2) et (5,-2) seraient:
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • La k-médiane se base sur la distance de Manhattan. du centroïde à un exemple. Cette distance est la somme des deltas absolus dans chaque dimension. Par exemple, l'équation k-médiane la distance entre (2,2) et (5,-2) est la suivante:
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

L

Régularisation L0

#fundamentals

Type de régularisation qui pénalise le nombre total de pondérations non nulles ; dans un modèle. Par exemple, un modèle avec 11 pondérations non nulles serait pénalisé plus cher qu'un modèle similaire ayant 10 paires de pondérations non nulles.

La régularisation L0 est parfois appelée régularisation L0.

perte L1

#fundamentals

Une fonction de perte qui calcule la valeur absolue de la différence entre les valeurs d'étiquette réelles et les valeurs prédites par un modèle. Par exemple, voici la calcul de la perte L1 pour un lot de cinq exemples:

Valeur réelle de l'exemple Valeur prédite du modèle Valeur absolue de la valeur delta
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = perte L1

La perte L1 est moins sensible aux anomalies. que la perte L2.

L'erreur absolue moyenne correspond à la moyenne perte L1 par exemple.

Régularisation L1

#fundamentals

Type de régularisation qui pénalise pondérations proportionnellement à la somme de la valeur absolue de les pondérations. La régularisation L1 permet de pondérer des données non pertinentes ou les caractéristiques peu pertinentes à exactement 0. Une fonctionnalité avec une pondération de 0 est effectivement retirée du modèle.

À comparer à la régularisation L2.

perte L2

#fundamentals

Une fonction de perte permettant de calculer le carré de la différence entre les valeurs d'étiquette réelles et les valeurs prédites par un modèle. Par exemple, voici la calcul de la perte L2 pour un lot de cinq exemples:

Valeur réelle de l'exemple Valeur prédite du modèle Carré d'un delta
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = perte L2

En raison de la mise au carré, la perte L2 amplifie l'influence de anomalies. En d'autres termes, la perte L2 réagit plus fortement aux mauvaises prédictions Perte L1. Par exemple, la perte L1 pour le lot précédent correspondrait à 8 au lieu de 16. Notez qu'un seul les anomalies représentent 9 sur 16.

Les modèles de régression utilisent généralement la perte L2. que la fonction de perte.

L'erreur quadratique moyenne correspond à la moyenne perte L2 par exemple. La perte quadratique est un autre nom de la perte L2.

Régularisation L2

#fundamentals

Type de régularisation qui pénalise pondérations proportionnellement à la somme des carrés des pondérations. La régularisation L2 permet de générer les pondérations des anomalies (c'est-à-dire avec des valeurs positives ou négatives élevées) plus proches de 0, mais pas tout à fait égales à 0. Les caractéristiques dont les valeurs sont très proches de 0 restent dans le modèle mais n'influencent pas beaucoup la prédiction du modèle.

La régularisation L2 améliore toujours la généralisation modèles linéaires.

À comparer à la régularisation L1.

étiquette

#fundamentals

En machine learning supervisé, "réponds" ou "résultat" partie d'un exemple.

Chaque exemple étiqueté se compose d'un ou de plusieurs caractéristiques et une étiquette. Par exemple, dans un dossier de spam, l'ensemble de données de détection, l'étiquette serait probablement "spam" ou "non-spam". Dans un ensemble de données sur les précipitations, l'étiquette peut être la quantité qui est tombée pendant une certaine période.

exemple étiqueté

#fundamentals

Exemple contenant une ou plusieurs caractéristiques et une étiquette. Par exemple, le tableau suivant présente trois exemples étiquetés issus d'un modèle d'évaluation des maisons, chacun présentant trois caractéristiques et une étiquette:

Nombre de chambres Nombre de salles de bain Âge du foyer Prix maison (libellé)
3 2 15 345 000 $
2 1 72 179 000 $
4 2 34 392 000 $

En machine learning supervisé, les modèles sont entraînés à partir d'exemples étiquetés et effectuent des prédictions exemples sans étiquette.

Comparer l'exemple étiqueté et les exemples sans étiquette.

fuite d'étiquettes

Un défaut de conception du modèle, pour lequel une caractéristique est un proxy étiquette. Prenons l'exemple modèle de classification binaire qui prédit si un client potentiel achètera ou non un produit particulier. Supposons que l'une des caractéristiques du modèle est une valeur booléenne nommée SpokeToCustomerAgent Supposons également qu'un agent client attribué après que le client potentiel a effectivement acheté produit. Pendant l'entraînement, le modèle apprend rapidement l'association entre SpokeToCustomerAgent et le libellé.

lambda

#fundamentals

Synonyme de taux de régularisation.

Lambda est un terme complexe. Ici, nous nous concentrons définition dans le cadre de la régularisation.

LaMDA (Language Model for Dialogue Applications)

#language

Basée sur Transformer grand modèle de langage développé par Google et entraîné sur un vaste ensemble de données de dialogues pouvant générer des réponses de conversation réalistes.

LaMDA: notre conversation révolutionnaire de la technologie fournit un aperçu.

landmarks

#image

Synonyme de points clés.

modèle de langage

#language

Un modèle qui estime la probabilité d'un jeton ou séquence de jetons se produisant dans une séquence plus longue de jetons.

grand modèle de langage

#language

Au minimum, un modèle de langage comportant un nombre très élevé de paramètres. De façon plus informelle, modèle de langage basé sur Transformer, Gemini ou GPT.

espace latent

#language

Synonyme d'espace d'intégration.

cachée)

#fundamentals

Ensemble de neurones dans un réseau de neurones. Trois types courants de couches sont les suivantes:

Par exemple, l'illustration suivante montre un réseau de neurones avec une couche d'entrée, deux couches cachées et une couche de sortie:

Un réseau de neurones avec une couche d&#39;entrée, deux couches cachées et une
          couche de sortie. La couche d&#39;entrée se compose de deux caractéristiques. Le premier
          La couche cachée est composée de trois neurones et la seconde couche cachée
          est constituée de deux neurones. La couche de sortie se compose d&#39;un seul nœud.

Dans TensorFlow, les couches sont également des fonctions Python qui prennent Tensors et options de configuration en tant qu'entrées et et générer d'autres Tensors en sortie.

API Layers (tf.layers)

#TensorFlow

API TensorFlow pour créer un réseau de neurones profond comme une composition de couches. L'API Layers permet de créer différentes types de calques, tels que:

L'API Layers respecte les conventions de l'API Keras concernant les couches. Autrement dit, à l'exception d'un préfixe différent, toutes les fonctions de l'API Layers ont les mêmes noms et signatures que leurs homologues dans l'API Keras l'API layers.

feuille

#df

Tout point de terminaison d'un arbre de décision À la différence d'un condition, une feuille n'effectue pas de test. Une feuille est plutôt une prédiction possible. Une feuille est aussi le terminal nœud d'un chemin d'inférence.

Par exemple, l'arbre de décision suivant contient trois feuilles:

Arbre de décision à deux conditions menant à trois feuilles.

Learning Interpretability Tool (LIT)

Un outil visuel et interactif de compréhension des modèles et de visualisation des données.

Vous pouvez utiliser la bibliothèque LIT Open Source pour interpréter des modèles ou visualiser du texte, des images des données tabulaires.

taux d'apprentissage

#fundamentals

Nombre à virgule flottante qui indique la descente de gradient à quel point l'algorithme doit ajuster les pondérations et les biais itération. Par exemple, un taux d'apprentissage de 0,3 ajuster les pondérations et les biais trois fois plus efficacement qu'un taux d'apprentissage de 0,1.

Le taux d'apprentissage est un hyperparamètre clé. Si vous définissez le taux d'apprentissage est trop faible, l'entraînement prendra trop de temps. Si si vous définissez un taux d'apprentissage trop élevé, la descente de gradient rencontre souvent des difficultés et atteindre la convergence.

régression des moindres carrés

Un modèle de régression linéaire entraîné en minimisant Perte L2.

linear

#fundamentals

Relation entre deux ou plusieurs variables qui peuvent être représentées uniquement par l'addition et la multiplication.

Le tracé d'une relation linéaire est une droite.

À comparer à l'nonlinear.

modèle linéaire

#fundamentals

Un modèle qui attribue une pondération par fonctionnalité pour effectuer des prédictions. (Les modèles linéaires intègrent également un biais.) En revanche, la relation entre les caractéristiques et les prédictions dans les modèles profonds ; est généralement nonlinear.

Les modèles linéaires sont généralement plus faciles à entraîner et plus interprétables que les modèles profonds. Toutefois, les modèles profonds peuvent apprendre des relations complexes entre caractéristiques.

Régression linéaire et La régression logistique est deux types de modèles linéaires.

régression linéaire

#fundamentals

Type de modèle de machine learning dans lequel les deux conditions suivantes sont remplies:

  • Il s'agit d'un modèle linéaire.
  • La prédiction est une valeur à virgule flottante. Il s'agit de la régression de la régression linéaire.)

Comparer la régression linéaire à la régression logistique. Vous devez aussi comparer la régression à la classification.

LIT

Abréviation de Learning Interpretability Tool (LIT), qui était auparavant connu sous le nom d’Outil d’interprétabilité du langage.

LLM

#language
#generativeAI

Abréviation de grand modèle de langage.

Évaluations LLM (évaluations)

#language
#generativeAI

Un ensemble de métriques et de benchmarks permettant d'évaluer les performances des grands modèles de langage (LLM). Dans les grandes lignes, Évaluations LLM:

  • Aidez les chercheurs à identifier les domaines dans lesquels les LLM doivent être améliorés.
  • Elles sont utiles pour comparer différents LLM et identifier le meilleur LLM pour une une tâche particulière.
  • Assurez-vous que les LLM sont sûrs et éthiques à utiliser.

régression logistique

#fundamentals

Type de modèle de régression qui prédit une probabilité. Les modèles de régression logistique présentent les caractéristiques suivantes:

  • L'étiquette est catégorielle. Le terme logistique La régression désigne généralement la régression logistique binaire, à un modèle qui calcule les probabilités d'étiquettes avec deux valeurs possibles. Une variante moins courante, la régression logistique multinomiale, calcule probabilités pour les étiquettes ayant plus de deux valeurs possibles.
  • La fonction de perte pendant l'entraînement est la perte logistique. (Plusieurs unités de perte logistique peuvent être placées en parallèle pour les étiquettes avec plus de deux valeurs possibles.)
  • Le modèle est doté d'une architecture linéaire et non d'un réseau de neurones profond. Cependant, le reste de cette définition s'applique également modèles profonds qui prédisent des probabilités pour les étiquettes catégorielles.

Prenons l'exemple d'un modèle de régression logistique qui calcule le la probabilité qu'un e-mail d'entrée soit un spam ou non. Pendant l'inférence, supposons que le modèle prédit 0,72. Par conséquent, le est en train d'estimer:

  • Une probabilité que l'e-mail soit du spam est de 72 %.
  • Une probabilité de 28% que l'e-mail ne soit pas un spam

Un modèle de régression logistique utilise l'architecture en deux étapes suivante:

  1. Le modèle génère une prédiction brute (y') en appliquant une fonction linéaire de caractéristiques d'entrée.
  2. Le modèle utilise cette prédiction brute comme entrée d'une fonction sigmoïde, qui convertit les valeurs la prédiction sur une valeur comprise entre 0 et 1 (exclus).

Comme tout modèle de régression, un modèle de régression logistique prédit un nombre. Cependant, ce nombre fait généralement partie d'une classification binaire comme suit:

  • Si le nombre prédit est supérieur à la valeur seuil de classification, le le modèle de classification binaire prédit la classe positive.
  • Si le nombre prédit est inférieur au seuil de classification, le modèle de classification binaire prédit la classe négative.

fonctions logit

Vecteur de prédictions brutes (non normalisées) qu'une classification générées par le modèle, qui sont généralement transmises à une fonction de normalisation. Si le modèle résout une classification à classes multiples les fonctions logit deviennent généralement une entrée fonction softmax. La fonction softmax génère ensuite un vecteur de les probabilités avec une valeur pour chaque classe possible.

Perte logistique

#fundamentals

La fonction de perte utilisée en binaire régression logistique.

logarithme de cote

#fundamentals

Logarithme des cotes d'un événement donné.

Mémoire à long terme (LSTM)

#seq

Type de cellule dans une réseau de neurones récurrent utilisé pour traiter des séquences de données dans des applications telles que la reconnaissance de l'écriture manuscrite, traduction et sous-titrage d'images. Les LSTM traitent problème de disparition du gradient qui se produit l'entraînement de RNN en raison de longues séquences de données en conservant l'historique dans un état de la mémoire interne basé sur la nouvelle entrée et le contexte des cellules précédentes du RNN.

LoRA

#language
#generativeAI

Abréviation de adaptabilité de rang faible.

perte

#fundamentals

Au cours de l'entraînement d'un modèle supervisé, qui mesure la prédiction du modèle provient de son étiquette.

La fonction de perte calcule la perte.

agrégateur de perte

Un type d'algorithme de machine learning qui améliore les performances d'un modèle en combinant les prédictions de plusieurs modèles et utiliser ces prédictions pour faire une seule prédiction. Par conséquent, un agrégateur de perte peut réduire la variance des prédictions améliorer la précision des prédictions.

courbe de fonction de perte

#fundamentals

Tracé de la perte en tant que fonction du nombre d'entraînements itérations. Le graphique suivant montre une perte typique à la courbe:

Un graphe cartésien de la perte par rapport aux itérations d&#39;entraînement, montrant une
          baisse rapide de la perte pour les itérations initiales, suivie d&#39;une
          une baisse, puis une pente
plate lors des dernières itérations.

Les courbes de fonction de perte vous aident à déterminer convergence ou surapprentissage.

Les courbes de fonction de perte permettent de représenter tous les types de perte suivants:

Voir aussi Courbe de généralisation.

fonction de perte

#fundamentals

Pendant l'entraînement ou les tests, un fonction mathématique qui calcule sur un lot d'exemples. Une fonction de perte renvoie une perte plus faible pour les modèles qui réalisent de bonnes prédictions de mauvaises prédictions.

L'objectif de l'entraînement est généralement de minimiser la perte qu'une fonction de perte .

Il existe de nombreux types de fonctions de perte différents. Choisir la perte appropriée pour le type de modèle que vous créez. Exemple :

graphe de fonction de perte

Un graphe de pondération(s) par rapport à la perte. Objectifs de la descente de gradient afin de trouver la ou les pondérations pour lesquelles le graphe de fonction de perte a un minimum local.

Adaptabilité aux basses notes (LoRA)

#language
#generativeAI

Un algorithme pour effectuer réglage efficace des paramètres qui n'ajuste qu'un sous-ensemble les paramètres du grand modèle de langage. La LoRA offre les avantages suivants:

  • Affinage plus rapide que les techniques qui nécessitent d'ajuster tous les champs d'un modèle paramètres.
  • Réduit le coût de calcul de l'inférence dans modèle affiné.

Un modèle réglé avec la LoRA maintient ou améliore la qualité de ses prédictions.

La LoRA permet d'utiliser plusieurs versions spécialisées d'un modèle.

LSTM

#seq

Abréviation de mémoire à court terme.

M

machine learning

#fundamentals

Un programme ou un système qui entraîne modèle à partir des données d'entrée. Le modèle entraîné peut faire des prédictions utiles à partir de nouvelles données (inconnues auparavant) tirées de la même distribution que celle utilisée pour entraîner le modèle.

Le machine learning désigne aussi le domaine d'étude avec ces programmes ou systèmes.

classe majoritaire

#fundamentals

L'étiquette la plus courante ensemble de données avec déséquilibre des classes. Par exemple : avec un ensemble de données contenant 99% d'étiquettes négatives et 1% d'étiquettes positives, la les étiquettes négatives constituent la classe majoritaire.

À comparer à la classe minoritaire.

Processus de décision de Markov (MDP)

#rl

Graphique représentant le modèle de prise de décision dans lequel les décisions (ou actions) sont effectuées pour parcourir une séquence de déclare en partant du principe que Propriété de Markov. Dans l'apprentissage par renforcement, ces transitions entre les états renvoient une récompense numérique.

Propriété de Markov

#rl

Propriété de certains environnements, où l'état sont entièrement déterminées par des informations implicites état actuel et action de l'agent.

modèle de langage masqué

#language

Un modèle de langage qui prédit la probabilité des jetons candidats pour remplir les espaces vides dans une séquence. Par exemple, un le modèle de langage masqué peut calculer les probabilités pour le ou les mots candidats pour remplacer le soulignement dans la phrase suivante:

Le ____ qu'il avait dans votre chapeau est revenu.

La littérature utilise généralement la chaîne « MASK » au lieu d'un soulignement. Exemple :

Le "MASK" qui se trouvait dans le chapeau.

La plupart des modèles de langage masqué modernes sont bidirectionnels.

matplotlib

Bibliothèque de traçage 2D Open Source Python. matplotlib vous aide à visualiser différents aspects du machine learning.

factorisation matricielle

#recsystems

En mathématiques, un mécanisme permettant de trouver les matrices dont le produit scalaire se rapproche d'une la matrice cible.

Dans les systèmes de recommandation, la matrice cible retient souvent les données avis sur des articles Par exemple, la cible pour un système de recommandation de films peut ressembler suivantes, où les entiers positifs correspondent aux notes des utilisateurs et à 0 signifie que l'utilisateur n'a pas évalué le film:

  Casablanca Philadelphia Story Black Panther Wonder Woman Pulp Fiction
Utilisateur 1 5.0 3,0 0,0 2.0 0,0
Utilisateur 2 4.0 0,0 0,0 1.0 5.0
Utilisateur 3 3,0 1.0 4.0 5,0 0,0

Le système de recommandation de films vise à prédire les notes des utilisateurs pour films non évalués. Par exemple, l'utilisateur 1 va-t-il aimer Black Panther ?

Une approche pour les systèmes de recommandation consiste à utiliser une matrice factorisation pour générer les deux matrices suivantes:

  • Une matrice des utilisateurs, définie sous la forme nombre d'utilisateurs X que le nombre de dimensions de la représentation vectorielle continue.
  • Une matrice éléments, définie comme le nombre de représentations vectorielles continues (dimensions X) le nombre d'éléments.

Par exemple, en utilisant la factorisation matricielle sur nos trois utilisateurs et cinq éléments pourrait donner la matrice utilisateurs et la matrice éléments suivantes:

User Matrix                 Item Matrix

1.1   2.3           0.9   0.2   1.4    2.0   1.2
0.6   2.0           1.7   1.2   1.2   -0.1   2.1
2.5   0.5

Le produit scalaire de la matrice utilisateurs et de la matrice éléments donne une recommandation qui contient non seulement les notes d'origine des utilisateurs, mais aussi les prédictions pour les films que les utilisateurs n'ont pas encore vus. Prenons par exemple la note de l'utilisateur 1 pour Casablanca, qui était de 5, 0. Le point produit correspondant à cette cellule dans la matrice de recommandations doit qui devrait être d'environ 5.0, et c'est:

(1.1 * 0.9) + (2.3 * 1.7) = 4.9

Plus important encore, l'utilisateur 1 va-t-il aimer Black Panther ? Prendre le produit scalaire correspondant à la première ligne et à la troisième colonne, vous obtenez une note de 4,3:

(1.1 * 1.4) + (2.3 * 1.2) = 4.3

La factorisation matricielle donne généralement une matrice utilisateur et une matrice éléments qui, ensemble, sont nettement plus compactes que la matrice cible.

Erreur absolue moyenne (EAM)

Perte moyenne par exemple lorsque perte L1 est utilisé. Calculez l'erreur absolue moyenne comme suit:

  1. Calculez la perte L1 pour un lot.
  2. Divisez la perte L1 par le nombre d'exemples dans le lot.

Prenons l'exemple du calcul de la perte L1 sur la lot suivant de cinq exemples:

Valeur réelle de l'exemple Valeur prédite du modèle Perte (différence entre les valeurs réelles et prévues)
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = perte L1

Ainsi, la perte L1 est de 8 et le nombre d'exemples est de 5. Par conséquent, l'erreur absolue moyenne est donc:

Mean Absolute Error = L1 loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

Comparer l'erreur absolue moyenne avec l'erreur quadratique moyenne et Racine carrée de l'erreur quadratique moyenne.

Erreur quadratique moyenne (MSE)

Perte moyenne par exemple lorsque perte L2 est utilisé. Calculez l'erreur quadratique moyenne comme suit:

  1. Calculez la perte L2 pour un lot.
  2. Divisez la perte L2 par le nombre d'exemples dans le lot.

Prenons l'exemple de la perte sur le lot suivant de cinq exemples:

Valeur réelle Prédiction du modèle Perte Perte quadratique
7 6 1 1
5 4 1 1
8 11 3 9
4 6 2 4
9 8 1 1
16 = perte L2

Par conséquent, l'erreur quadratique moyenne est:

Mean Squared Error = L2 loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

L'erreur quadratique moyenne est un optimiseur d'entraînement populaire, en particulier pour la régression linéaire.

Comparer l'erreur quadratique moyenne avec erreur absolue moyenne et Racine carrée de l'erreur quadratique moyenne.

TensorFlow Playground utilise l'erreur quadratique moyenne pour calculer les valeurs de perte.

Grille

#TensorFlow
#GoogleCloud

En programmation parallèle de ML, un terme associé à l'attribution des données aux puces TPU, et définir la manière dont ces valeurs seront segmentées ou répliquées.

Le terme "réseau maillé" est un terme complexe qui peut signifier l'un des éléments suivants:

  • Disposition physique de puces TPU.
  • Construction logique abstraite permettant de mapper les données et le modèle au TPU les chips.

Dans les deux cas, un maillage est spécifié en tant que shape.

méta-apprentissage

#language

Sous-ensemble du machine learning qui découvre ou améliore un algorithme d'apprentissage. Un système de méta-apprentissage peut aussi viser à entraîner un modèle à apprendre rapidement tâche à partir d'une petite quantité de données ou de l'expérience acquise lors de tâches précédentes. Les algorithmes de méta-apprentissage tentent généralement d'obtenir les résultats suivants:

  • Améliorez ou apprenez à utiliser des caractéristiques conçues manuellement (telles qu'un initialiseur ou un optimiseur).
  • optimiser l'efficacité en termes de données et de calcul ;
  • Améliorez la généralisation.

Le méta-apprentissage est lié à l'apprentissage few-shot.

métrique

#TensorFlow

Il s'agit d'une statistique qui vous intéresse.

Un objectif est une métrique qu'un système de machine learning tente d'optimiser.

API Metrics (tf.metrics)

Une API TensorFlow permettant d'évaluer des modèles. Exemple : tf.metrics.accuracy détermine la fréquence à laquelle les prédictions d'un modèle correspondent aux étiquettes.

mini-lot

#fundamentals

Petit sous-ensemble d'un lot traité en un seul sous-ensemble, sélectionné de manière aléatoire itération. La taille de lot d'un mini-lot est généralement entre 10 et 1 000 exemples.

Par exemple, supposons que l'ensemble d'entraînement complet (le lot complet) comprend 1 000 exemples. Supposons ensuite que vous définissiez taille de lot de chaque mini-lot à 20. Par conséquent, chaque l'itération détermine la perte sur un échantillon aléatoire de 20 des 1 000 exemples, ajuste les pondérations et les biais en conséquence.

Il est beaucoup plus efficace de calculer la perte sur un mini-lot que le sur tous les exemples du lot complet.

descente de gradient stochastique par mini-lots

Un algorithme de descente de gradient qui utilise mini-lots. Autrement dit, l'analyse stochastique des mini-lots la descente de gradient estime le gradient données d'entraînement. La descente de gradient stochastique standard utilise un mini-lot de taille 1.

perte minimax

Une fonction de perte réseaux antagonistes génératifs en fonction de l'entropie croisée entre les distributions de données générées et de données réelles.

La perte minimax est utilisée dans premier article pour décrire les réseaux antagonistes génératifs.

classe minoritaire

#fundamentals

L'étiquette la moins courante ensemble de données avec déséquilibre des classes. Par exemple : avec un ensemble de données contenant 99% d'étiquettes négatives et 1% d'étiquettes positives, la les étiquettes positives constituent la classe minoritaire.

À comparer à la classe majoritaire.

une combinaison d'experts

#language
#generativeAI

Un schéma visant à augmenter l'efficacité d'un réseau de neurones en en n'utilisant qu'un sous-ensemble de ses paramètres (appelé expert) pour traiter un jeton ou un exemple d'entrée donné. A Le réseau de contrôle achemine chaque jeton ou exemple d'entrée vers le ou les experts appropriés.

Pour en savoir plus, consultez l'un des articles suivants:

ML

Abréviation de machine learning (apprentissage automatique).

MMIT

#language
#image
#generativeAI

Abréviation de accordé avec des instructions multimodales :

MNIST

#image

Un ensemble de données du domaine public compilé par LeCun, Cortes et Burges contenant 60 000 images, chacune montrant comment un humain a écrit manuellement un chiffre compris entre 0 et 9. Chaque image est stockée sous la forme d'un tableau d'entiers 28 x 28, où chaque entier est une valeur en nuances de gris comprise entre 0 et 255 inclus.

MNIST est un ensemble de données canonique pour le machine learning, souvent utilisé pour tester approches de machine learning. Pour en savoir plus, consultez <ph type="x-smartling-placeholder"></ph> Base de données MNIST de chiffres écrits à la main.

modality

#language

Catégorie de données de haut niveau. (par exemple, des chiffres, du texte, des images, des vidéos et audio sont cinq modalités différentes.

modèle

#fundamentals

En général, toute construction mathématique qui traite les données d'entrée et renvoie de sortie. En d'autres termes, un modèle est l'ensemble des paramètres et une structure nécessaires pour qu'un système réalise des prédictions. En machine learning supervisé, un modèle prend un exemple en entrée et en déduit une prédiction en sortie. Dans le machine learning supervisé, les modèles diffèrent quelque peu. Exemple :

  • Un modèle de régression linéaire est constitué d'un ensemble de pondérations. et un biais.
  • Un modèle de réseau de neurones se compose des éléments suivants: <ph type="x-smartling-placeholder">
      </ph>
    • Un ensemble de couches cachées, chacune contenant une ou un plus grand nombre de neurones.
    • Pondérations et biais associés à chaque neurone
  • Un modèle d'arbre de décision se compose des éléments suivants: <ph type="x-smartling-placeholder">
      </ph>
    • Forme de l'arbre c'est-à-dire le modèle dans lequel les conditions et les feuilles sont connectés.
    • Les conditions et les départs.

Vous pouvez enregistrer, restaurer ou copier un modèle.

Le machine learning non supervisé génère des modèles, généralement une fonction pouvant mapper un exemple d'entrée à le cluster le plus approprié.

capacité du modèle

Complexité des problèmes qu'un modèle est capable d'apprendre. Plus les qu'un modèle peut apprendre, plus sa capacité est élevée. Un modèle la capacité augmente généralement avec le nombre de paramètres du modèle. Pour une définition formelle de la capacité d'un classificateur, voir dimension VC.

modèle en cascade

#generativeAI

Un système qui choisit le modèle idéal pour une inférence spécifique requête.

Imaginez un groupe de modèles, allant de très grands modèles parameters) sur une valeur beaucoup plus petite (beaucoup moins de paramètres). Les très grands modèles consomment plus de ressources de calcul d'inférence que pour les modèles plus petits. Cependant, les très grands les modèles peuvent généralement déduire des requêtes plus complexes que des modèles plus petits. Le modèle en cascade détermine la complexité de la requête d'inférence, choisit le modèle approprié pour effectuer l'inférence. La principale motivation de la mise en cascade des modèles est de réduire les coûts d'inférence de en sélectionnant généralement des modèles plus petits, et en choisissant un modèle plus grand des requêtes complexes.

Imaginez qu’un petit modèle fonctionne sur un téléphone et qu’une version plus grande de ce modèle s'exécute sur un serveur distant. Un bon modèle en cascade réduit les coûts et la latence en permettant au plus petit modèle de gérer des requêtes simples et en n'appelant que pour traiter des requêtes complexes.

Voir aussi routeur de modèle.

parallélisme des modèles

#language

Un moyen de mettre à l'échelle l'entraînement ou l'inférence qui place différentes parties d'une model sur différents appareils. Parallélisme des modèles permet d'utiliser des modèles trop grands pour tenir sur un seul appareil.

Pour implémenter le parallélisme des modèles, un système procède généralement comme suit:

  1. Segmente (divise) le modèle en parties plus petites.
  2. Il répartit l'entraînement de ces petites pièces sur plusieurs processeurs. Chaque processeur entraîne sa propre partie du modèle.
  3. Combine les résultats pour créer un seul modèle.

Le parallélisme des modèles ralentit l'entraînement.

Voir aussi parallélisme des données.

modèle de routeur

#generativeAI

Algorithme qui détermine le modèle idéal pour inférence dans les cascading du modèle. Un routeur de modèle est lui-même généralement un modèle de machine learning qui apprend progressivement à choisir le meilleur modèle pour une entrée donnée. Cependant, un routeur de modèle peut parfois être une solution plus simple, un algorithme autre que le machine learning.

entraînement de modèle

Processus consistant à déterminer le meilleur modèle.

Momentum

Algorithme sophistiqué de descente de gradient dont dépend une étape d'apprentissage non seulement sur la dérivée dans l'étape en cours, mais aussi sur les dérivées des étapes qui l'ont précédée. Momentum implique de calculer moyenne mobile pondérée de manière exponentielle des gradients au fil du temps, analogue du mouvement en physique. Momentum empêche parfois l'apprentissage d'obtenir bloqué sur les minimums locaux.

ME

#language
#image
#generativeAI

Abréviation de mélange d'experts.

classification à classes multiples

#fundamentals

Dans l'apprentissage supervisé, un problème de classification dans lequel l'ensemble de données contient plus de deux classes d'étiquettes. Par exemple, les étiquettes de l'ensemble de données Iris doivent correspondre à l'un des trois classes:

  • Iris setosa
  • Iris vierge
  • Iris versicolor

Modèle entraîné sur l'ensemble de données Iris qui prédit le type Iris à partir de nouveaux exemples effectue une classification à classes multiples.

À l'inverse, les problèmes de classification qui distinguent exactement deux sont des modèles de classification binaire. Par exemple, un modèle de messagerie qui prédit soit le spam, soit le non-spam est un modèle de classification binaire.

Dans les problèmes de clustering, la classification à classes multiples fait référence à plus deux groupes.

régression logistique multiclasse

Avec la régression logistique, de classification à classes multiples.

auto-attention multi-tête

#language

Extension de l'auto-attention qui applique la d'auto-attention plusieurs fois pour chaque position dans la séquence d'entrée.

Les Transformers ont introduit l'auto-attention multi-tête.

modèle multimodal

#language

Un modèle dont les entrées et/ou les sorties incluent plusieurs modalité. Prenons l'exemple d'un modèle qui prend à la fois une image et une légende textuelle (deux modalités) comme caractéristiques, et génère un score indiquant le degré de pertinence de la légende pour l'image. Les entrées de ce modèle sont donc multimodales et la sortie unimodale.

avec ajustement des instructions multimodales

#language

Un modèle réglé par des instructions capable de traiter les entrées au-delà du texte, comme les images, la vidéo et l'audio.

classification multinomiale

Synonyme de classification à classes multiples.

régression multinomiale

Synonyme de régression logistique multiclasse.

multitâche

Technique de machine learning dans laquelle un seul modèle est entraîné pour effectuer plusieurs tâches.

Les modèles multitâches sont créés en s'entraînant sur des données adaptées chacune des différentes tâches. Le modèle peut ainsi apprendre à partager des informations pour l'ensemble des tâches, ce qui permet au modèle d'apprendre plus efficacement.

Un modèle entraîné pour plusieurs tâches a souvent amélioré ses capacités de généralisation et peuvent être plus robustes pour traiter différents types de données.

N

piège NaN

Lorsqu'un nombre de votre modèle devient un NaN pendant l'entraînement, ce qui entraîne un dépassement de nombre devient finalement une NaN.

NaN est l'abréviation de Not a Nombre.

compréhension du langage naturel

#language

Déterminer les intentions d'un utilisateur en fonction de ce qu'il a saisi ou dit. Par exemple, un moteur de recherche utilise la compréhension du langage naturel pour déterminer ce que l'utilisateur recherche en fonction de ce qu'il a saisi ou dit.

classe négative

#fundamentals

Dans la classification binaire, une classe correspond à qu'elle est qualifiée de positif et l'autre de négatif. La classe positive est la chose ou l'événement testé par le modèle, et la classe négative est toute autre possibilité. Exemple :

  • La classe négative d'un test médical pourrait être "pas une tumeur".
  • La classe négative d'un classificateur d'e-mail pourrait être "non-spam".

À comparer à la classe positive.

échantillonnage négatif

Synonyme d'échantillonnage de candidats.

Neural Architecture Search (NAS)

Une technique de conception automatique de l'architecture d'un réseau de neurones. Les algorithmes NAS peuvent réduire la quantité de temps et de ressources nécessaires à l'entraînement d'un réseau de neurones.

Le NAS utilise généralement:

  • Un espace de recherche, c'est-à-dire un ensemble d'architectures possibles
  • Une fonction de fitness, qui est une mesure de l'efficacité sur une tâche donnée.

Les algorithmes NAS commencent souvent avec un petit ensemble d’architectures possibles et Développer progressivement l'espace de recherche à mesure que l'algorithme en apprend davantage sur ce qui sont efficaces. La fonction de fitness est généralement basée sur les performances de l'architecture sur un ensemble d'entraînement, généralement entraîné à l'aide d'un d'apprentissage par renforcement.

Les algorithmes du NAS ont prouvé leur efficacité pour identifier pour des tâches diverses, y compris des images la classification, la classification de texte, et la traduction automatique.

neurones feedforward

#fundamentals

Un modèle contenant au moins un couche cachée. Un réseau de neurones profond est un type de réseau de neurones contenant plusieurs couches cachées. Par exemple, le schéma suivant montre un réseau de neurones profond contenant deux couches cachées.

Un réseau de neurones avec une couche d&#39;entrée, deux couches cachées et un
          couche de sortie.

Chaque neurone d'un réseau de neurones se connecte à tous les nœuds de la couche suivante. Par exemple, dans le diagramme précédent, notez que chacun des trois neurones se connecter séparément aux deux neurones de la première couche cachée une deuxième couche cachée.

Les réseaux de neurones implémentés sur les ordinateurs sont parfois appelés réseaux de neurones artificiels afin de les différencier les réseaux de neurones présents dans le cerveau et d'autres systèmes nerveux.

Certains réseaux de neurones peuvent imiter des relations non linéaires extrêmement complexes entre différentes caractéristiques et l'étiquette.

Voir aussi Réseau de neurones convolutif et réseau de neurones récurrent.

neurone

#fundamentals

En machine learning, une unité distincte dans une couche cachée d'un réseau de neurones. Chaque neurone effectue les opérations suivantes : action en deux étapes:

  1. Calcule la somme pondérée des valeurs d'entrée multipliées par par les pondérations correspondantes.
  2. Transmet la somme pondérée en tant qu'entrée à fonction d'activation.

Un neurone de la première couche cachée accepte les entrées des valeurs des caractéristiques dans la couche d'entrée. Un neurone dans n'importe quelle couche cachée au-delà la première accepte les entrées des neurones de la couche cachée précédente. Par exemple, un neurone de la deuxième couche cachée accepte les entrées dans la première couche cachée.

L'illustration suivante met en évidence deux neurones et leur d'entrée.

Un réseau de neurones avec une couche d&#39;entrée, deux couches cachées et un
          couche de sortie. Deux neurones sont mis en surbrillance: un dans le premier.
          couche cachée et l’autre dans la deuxième couche cachée. La partie en surbrillance
          le neurone de la première couche cachée reçoit des entrées des deux caractéristiques
          dans la couche d&#39;entrée. Le neurone mis en surbrillance dans la deuxième couche cachée
          reçoit les entrées de chacun des trois neurones du premier
          couche de données.

Un neurone d'un réseau de neurones imite le comportement des neurones dans le cerveau. d'autres parties des systèmes nerveux.

N-gramme

#seq
#language

Séquence ordonnée de N mots. Par exemple, vraiment follement correspond à un gramme de 2 grammes. En effet, l'ordre est pertinent, follement vraiment est un 2-grammes différent de vraiment follement.

N Noms pour ce type de N-gramme Exemples
2 bigramme ou 2-gramme à emporter, à emporter, déjeuner, dîner
3 trigramme ou 3-gramme a mangé trop, trois souris aveugles, la cloche sonne
4 4-gramme marcher dans le parc, poussière dans le vent, le garçon a mangé des lentilles

Nombreuses compréhension du langage naturel les modèles s'appuient sur les N-grammes pour prédire le prochain mot saisi par l'utilisateur ou dire. Par exemple, supposons qu'un utilisateur tape three blind. Un modèle de NLU basé sur des trigrammes prédira probablement l'utilisateur saisira ensuite mice.

Comparer les N-grammes aux sacs de mots, qui sont des ensembles de mots non ordonnés.

NLU (Natural Language Understanding, compréhension du langage naturel) - 1st occurrence only, then use "NLU".

#language

Abréviation de langage naturel à comprendre.

nœud (arbre de décision)

#df

Dans un arbre de décision, toute condition ou leaf.

Arbre de décision à deux conditions et trois feuilles

nœud (réseau de neurones)

#fundamentals

Un neurone dans une couche cachée.

nœud (graphe TensorFlow)

#TensorFlow

Opération dans un graphe TensorFlow.

bruit

De manière générale, tout ce qui masque le signal dans un ensemble de données. Bruit peuvent être introduits dans les données de différentes manières. Exemple :

  • Les évaluateurs manuels font des erreurs lors de l'étiquetage.
  • Des personnes et des instruments enregistrent des erreurs ou omettent des valeurs de caractéristiques.

condition non binaire

#df

Une condition qui contient plus de deux résultats possibles. Par exemple, la condition non binaire suivante contient trois résultats:

Une condition (number_of_legs = ?) qui conduit à trois erreurs possibles
          résultats. Un résultat (number_of_legs = 8) mène à une feuille
          nommé Spider. Un deuxième résultat (number_of_legs = 4) mène à
          une feuille nommée « chien ». Un troisième résultat (number_of_legs = 2) mène à
          une feuille nommée pingouin.

nonlinear

#fundamentals

Relation entre deux variables ou plus qui ne peut pas être représentée uniquement par l'addition et la multiplication. Une relation linéaire peut être représenté par une ligne ; une relation nonlinear représentées par une ligne. Prenons l'exemple de deux modèles liés chacun une caractéristique à une seule étiquette. Le modèle de gauche est linéaire tandis que le modèle de droite est non linéaire:

Deux tracés. Un tracé est une droite, il s&#39;agit donc d&#39;une relation linéaire.
          L&#39;autre graphique est une courbe, il s&#39;agit donc d&#39;une relation non linéaire.

biais de non-réponse

#fairness

Voir biais de sélection.

non stationnarité

#fundamentals

Caractéristique dont les valeurs changent selon une ou plusieurs dimensions, généralement le temps. Prenons l'exemple des exemples suivants de non-stationarité:

  • Le nombre de maillots de bain vendus dans un magasin donné varie selon la saison.
  • Quantité d'un fruit particulier récolté dans une région particulière est nulle pendant une grande partie de l'année, mais importante pendant une courte période.
  • En raison du changement climatique, les températures moyennes annuelles changent.

À comparer à la stationarité.

normalisation

#fundamentals

De manière générale, le processus de conversion de la plage réelle d'une variable de valeurs dans une plage de valeurs standard, telle que:

  • -1 à +1
  • Entre 0 et 1
  • Score Z (environ -3 à +3)

Par exemple, supposons que la plage de valeurs réelle d'une certaine caractéristique soit entre 800 et 2 400. Dans le cadre de l'ingénierie des caractéristiques, vous pouvez normaliser les valeurs réelles dans une plage standard, par exemple de -1 à +1.

La normalisation est une tâche courante l'ingénierie des caractéristiques. L'entraînement des modèles est généralement plus rapide (et produire de meilleures prédictions) lorsque chaque caractéristique numérique de Le vecteur de caractéristiques a à peu près la même plage.

détection de nouveauté

Processus consistant à déterminer si un nouvel exemple (novateur) provient du même distribution comme ensemble d'entraînement. En d'autres termes, après sur l'ensemble d'entraînement, la détection de nouveauté détermine si un nouveau (pendant l'inférence ou pendant un entraînement supplémentaire) est une anomalie.

À comparer à la détection des anomalies.

données numériques

#fundamentals

Caractéristiques représentées par des entiers ou des nombres réels. Par exemple, un modèle d'évaluation de maison représenterait probablement la taille d'une maison (en pieds carrés ou en mètres carrés) sous forme de données numériques. Représenter une caractéristique sous forme de données numériques indique que les valeurs de la caractéristique ont une relation mathématique avec l'étiquette. Autrement dit, le nombre de mètres carrés dans une maison a probablement relation mathématique avec la valeur de la maison.

Les données entières ne doivent pas toutes être représentées sous forme de données numériques. Par exemple : les codes postaux dans certaines parties du monde sont des entiers ; En revanche, les adresses IP (nombre entier) les codes ne doivent pas être représentés sous forme de données numériques dans les modèles. C'est parce qu'un Le code postal 20000 n'est pas deux fois (ou moins) plus puissant que le code postal 10000. De plus, bien que différents codes postaux soient corrélés à différentes des biens immobiliers, nous ne pouvons pas supposer que les valeurs immobilières au code postal 20000 ont deux fois plus de valeur que les biens immobiliers pour le code postal 10000. Les codes postaux doivent être représentés sous forme de données catégorielles. à la place.

Les caractéristiques numériques sont parfois appelées caractéristiques continues.

NumPy

Un <ph type="x-smartling-placeholder"></ph> bibliothèque mathématique Open Source qui fournit des opérations de tableau efficaces en Python. pandas est basé sur NumPy.

O

objectif

Métrique que votre algorithme essaie d'optimiser.

fonction objective

Formule mathématique ou métrique qu'un modèle cherche à optimiser. Par exemple, la fonction objectif La régression linéaire est généralement Perte quadratique moyenne. Par conséquent, lors de l'entraînement de régression linéaire, l'entraînement vise à minimiser la perte quadratique moyenne.

Dans certains cas, l'objectif est de maximiser la fonction objectif. Par exemple, si la fonction objectif est la justesse, l'objectif est de afin d'optimiser la précision.

Voir aussi perte.

condition oblique

#df

Dans un arbre de décision, condition impliquant plusieurs feature : Par exemple, si la hauteur et la largeur sont deux caractéristiques, il s'agit d'une condition oblique:

  height > width

À comparer à la condition d'alignement sur l'axe.

hors connexion

#fundamentals

Synonyme de statique.

inférence hors ligne

#fundamentals

Processus d'un modèle générant un lot de prédictions puis de les mettre en cache (et de les enregistrer). Les applications peuvent alors accéder à partir du cache au lieu de réexécuter le modèle.

Prenons l'exemple d'un modèle qui génère les prévisions météo locales (prédictions) toutes les quatre heures. Après chaque exécution du modèle, le système met en cache toutes les prévisions météo locales. Les applis météo récupèrent les prévisions du cache.

L'inférence hors ligne est également appelée inférence statique.

À comparer à l'inférence en ligne.

Encodage one-hot

#fundamentals

Représenter des données catégorielles sous forme de vecteur dans lequel:

  • Un élément a la valeur 1.
  • Tous les autres éléments ont la valeur 0.

L'encodage one-hot est couramment utilisé pour représenter des chaînes ou des identifiants qui un ensemble fini de valeurs possibles. Par exemple, supposons qu'une certaine caractéristique catégorielle Scandinavia a cinq valeurs possibles:

  • "Danemark"
  • "Suède"
  • "Norvège"
  • "Finlande"
  • "Islande"

L'encodage one-hot pourrait représenter chacune des cinq valeurs comme suit:

country Vecteur
"Danemark" 1 0 0 0 0
"Suède" 0 1 0 0 0
"Norvège" 0 0 1 0 0
"Finlande" 0 0 0 1 0
"Islande" 0 0 0 0 1

Grâce à l'encodage one-hot, un modèle peut apprendre différentes connexions pour chacun des cinq pays.

Représenter une caractéristique sous forme de données numériques correspond à comme alternative à l'encodage one-hot. Malheureusement, représenter Le nombre de pays scandinaves n'est pas un bon choix. Par exemple : Prenons la représentation numérique suivante:

  • "Danemark" est égal à 0
  • "Suède" est de 1
  • "Norvège" est de 2
  • "Finlande" est de 3
  • "Islande" est de 4

Avec l'encodage numérique, le modèle interpréterait les nombres bruts mathématiquement, et essayer de s'entraîner avec ces nombres. Toutefois, l'Islande n'est pas deux fois plus que pour la Norvège. Le modèle tirerait donc des conclusions étranges.

apprentissage one-shot

Une approche du machine learning, souvent utilisée pour la classification d'objets, conçus pour apprendre des classificateurs efficaces à partir d'un seul exemple d'entraînement.

Voir aussi apprentissage few-shot et Apprentissage zero-shot :

requête one-shot

#language
#generativeAI

Une requête contenant un exemple montrant comment la le grand modèle de langage doit répondre. Par exemple : la requête suivante contient un exemple qui montre à un grand modèle de langage il doit répondre à une requête.

Composantes d'une requête Remarques
Quelle est la devise officielle du pays spécifié ? Question à laquelle le LLM doit répondre.
France: EUR Prenons un exemple.
Inde : La requête réelle.

Indiquer les points communs et les différences entre les requêtes one-shot et les termes suivants:

un contre tous

#fundamentals

Pour un problème de classification avec N classes, solution composée de N distincts Les classificateurs binaires : un classificateur binaire pour chaque résultat possible. Par exemple, pour un modèle qui classe des exemples comme animal, végétal ou minéral, une solution un contre tous fournirait les trois classificateurs binaires distincts suivants:

  • animal et non animal
  • Légume/non végétal
  • minéraux et non minéraux

online

#fundamentals

Synonyme de dynamique.

inférence en ligne

#fundamentals

Génération de prédictions à la demande. Par exemple : Supposons qu'une application transmette des entrées à un modèle et envoie une requête pour obtenir la prédiction. Un système utilisant l'inférence en ligne répond à la requête en exécutant le modèle (et en renvoyant la prédiction à l'application).

À comparer à l'inférence hors ligne.

opération (op)

#TensorFlow

Dans TensorFlow, toute procédure qui crée, manipule ou détruit un Tensor. Pour Par exemple, une multiplication matricielle est une opération qui prend deux Tensors et génère un Tensor en sortie.

Optax

Bibliothèque d'optimisation et de traitement du gradient pour JAX. Optax facilite la recherche en fournissant des éléments de base combinés de façon personnalisée afin d'optimiser des modèles paramétriques les réseaux de neurones profonds. Autres objectifs:

  • Fournir des implémentations lisibles, bien testées et efficaces composants de base.
  • Amélioration de la productivité en permettant de combiner des ingrédients de bas niveau dans des optimiseurs personnalisés (ou d'autres composants de traitement du gradient).
  • Accélérer l'adoption de nouvelles idées en simplifiant le processus à contribuer.

optimiseur

Une implémentation spécifique de la descente de gradient algorithme. Voici quelques optimiseurs courants:

  • AdaGrad, qui signifie "descente de gradient adaptative".
  • Adam, qui signifie ADAptive with Momentum.

biais d'homogénéité de l'exogroupe

#fairness

Tendance à voir les membres de l’exogroupe comme plus semblables que les membres du groupe lorsque vous comparez des attitudes, des valeurs, des traits de personnalité et d’autres caractéristiques. Le terme groupe désigne les personnes avec lesquelles vous interagissez régulièrement. L'exogroupe désigne les personnes avec lesquelles vous n'interagissez pas régulièrement. Si vous créer un jeu de données en demandant aux gens de fournir des attributs sur hors groupes, ces attributs peuvent être moins nuancés et plus stéréotypés que les attributs que les participants listent pour les personnes de leur groupe.

Par exemple, un Lilliputien pourrait décrire les maisons d'autres Lilliputiens en détail, en citant les petites différences entre les styles architecturaux, les fenêtres, les portes et les tailles. Cependant, ces mêmes Lilliputiens pourraient simplement déclarer que Les Brobdingnagiens vivent tous dans des maisons identiques.

Le biais d'homogénéité de l'exogroupe est une forme de biais de représentativité.

Voir aussi biais d'appartenance.

détection des anomalies

Processus consistant à identifier les anomalies dans une ensemble d'entraînement.

À comparer à la détection de nouveauté.

des anomalies

Valeurs éloignées de la plupart des autres valeurs. Dans le domaine du machine learning, sont des anomalies:

  • Données d'entrée dont les valeurs sont supérieures à 3 écarts types environ de la moyenne.
  • Pondérations ayant des valeurs absolues élevées
  • Valeurs prédites relativement éloignées des valeurs réelles.

Par exemple, supposons que widget-price soit une caractéristique d'un certain modèle. Supposons que la moyenne de widget-price soit de 7 euros avec un écart type de 1 euro. Exemples contenant un widget-price de 12 euros ou 2 euros sont donc considérés comme des valeurs aberrantes, car chacun de ces prix cinq écarts types par rapport à la moyenne.

Les anomalies sont souvent causées par des fautes de frappe ou d'autres erreurs de saisie. Dans d’autres cas, les valeurs aberrantes ne sont pas des erreurs ; après tout, à cinq écarts types de valeurs de la moyenne sont rares mais difficilement impossibles.

Les anomalies entraînent souvent des problèmes lors de l'entraînement du modèle. Extraits est une façon de gérer les anomalies.

évaluation de l'emballage extérieur

#df

Mécanisme d'évaluation de la qualité d'une forêt de décision en testant chaque d'un arbre de décision exemples non utilisés pendant entraînement de cet arbre de décision. Par exemple, dans Dans le schéma suivant, vous remarquerez que le système entraîne chaque arbre de décision sur environ deux tiers des exemples, puis évalue le tiers restant des exemples.

Une forêt de décision composée de trois arbres de décision.
          Un arbre de décision entraîne l&#39;entraînement sur deux tiers des exemples
          puis utilise le tiers restant
pour l&#39;évaluation finale.
          Un deuxième arbre de décision entraîne l&#39;entraînement sur deux tiers
          que l&#39;arbre de décision précédent, puis
          utilise un tiers différent de celui utilisé pour l&#39;évaluation
          l&#39;arbre de décision précédent.

Cette évaluation est une méthode de calcul efficace et prudente approximation du mécanisme de validation croisée. Lors de la validation croisée, un modèle est entraîné pour chaque cycle de validation croisée. (par exemple, 10 modèles sont entraînés lors d'une validation croisée de 10 fois). Avec l'évaluation OOB, un seul modèle est entraîné. Comme le bagage retient certaines données de chaque arbre pendant l'entraînement, l'évaluation OOB peut utiliser pour se rapprocher de la validation croisée.

couche de sortie

#fundamentals

La "finale" d'un réseau de neurones. La couche de sortie contient la prédiction.

L'illustration suivante montre un petit réseau de neurones profond avec une entrée deux couches cachées, et une couche de sortie:

Un réseau de neurones avec une couche d&#39;entrée, deux couches cachées et une
          couche de sortie. La couche d&#39;entrée se compose de deux caractéristiques. Le premier
          La couche cachée est composée de trois neurones et la seconde couche cachée
          est constituée de deux neurones. La couche de sortie se compose d&#39;un seul nœud.

surapprentissage

#fundamentals

Créez un modèle correspondant au données d'entraînement si près que le modèle ne parvient pas faire des prédictions correctes à partir de nouvelles données.

La régularisation peut réduire le surapprentissage. L'entraînement sur un ensemble d'entraînement vaste et varié peut également réduire le surapprentissage.

suréchantillonnage

Réutiliser les exemples d'une classe minoritaire dans un ensemble de données avec déséquilibre des classes créer un ensemble d'entraînement plus équilibré.

Prenons l'exemple d'une classification binaire. problème de rapport entre la classe majoritaire et le la classe minoritaire est de 5 000:1. Si le jeu de données contient un million d'exemples, alors l'ensemble de données ne contient qu'environ 200 exemples de la classe minoritaire, ce qui peut pas assez d'exemples pour un entraînement efficace. Pour remédier à ce problème, vous vous risquez de suréchantillonner (réutiliser) plusieurs fois ces 200 exemples, ce qui peut suffisamment d'exemples pour un entraînement utile.

Vous devez faire attention au surapprentissage si sur-échantillonnage.

À comparer au sous-échantillonnage.

P

données compactes

Une approche permettant de stocker des données plus efficacement.

Les données compressées stockent les données dans un format compressé ou dans d'une autre manière qui permet d'y accéder plus efficacement. Elles réduisent la quantité de mémoire et de calcul requise pour y accéder, ce qui accélère l'entraînement et améliore l'efficacité de l'inférence de modèle.

Les données packagées sont souvent utilisées avec d'autres techniques, telles que augmentation des données et régularisation, ce qui améliore encore les performances modèles.

pandas

#fundamentals

API d'analyse de données par colonne basée sur numpy. De nombreux frameworks de machine learning, y compris TensorFlow, prennent en charge les structures de données Pandas en tant qu'entrées. Consultez le Documentation Pandas pour en savoir plus.

paramètre

#fundamentals

Pondérations et biais appris par un modèle au cours formation. Par exemple, dans un modèle de régression linéaire, ses paramètres sont constitués le biais (b) et toutes les pondérations (w1, w2, etc.) dans la formule suivante:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

En revanche, les hyperparamètres sont les valeurs vous (ou un service de réglage des hyperparamètres) fournissez au modèle. Par exemple, le taux d'apprentissage est un hyperparamètre.

réglage efficace des paramètres

#language
#generativeAI

Un ensemble de techniques permettant d'affiner un grand Modèle de langage pré-entraîné (PLM) plus efficacement que les affinages complets. Économique en paramètres les réglages permettent généralement d'ajuster beaucoup moins de paramètres que mais produit généralement une grand modèle de langage qui exécute ainsi qu'un grand modèle de langage construit à partir de l'affinage.

Indiquer les points communs et les différences entre les réglages efficaces avec les paramètres suivants:

Le réglage efficace des paramètres est également connu sous le nom d'ajustement efficace des paramètres.

Serveur de paramètres

#TensorFlow

Un job qui effectue le suivi des paramètres d'un modèle dans un distribué.

mise à jour des paramètres

Ajuster les paramètres d'un modèle pendant l'entraînement, généralement en une seule itération descente de gradient.

dérivée partielle

Dérivée dans laquelle toutes les variables sauf une sont considérées comme une constante. Par exemple, la dérivée partielle de f(x, y) par rapport à x est la dérivée de f considérée uniquement comme une fonction de x (c'est-à-dire en gardant y constante). La dérivée partielle de f par rapport à x se concentre uniquement sur comment x change et ignore toutes les autres variables de l'équation.

biais de participation

#fairness

Synonyme de biais de non-réponse. Voir biais de sélection.

stratégie de partitionnement

L'algorithme selon lequel les variables sont divisées serveurs de paramètres.

Pax

Framework de programmation conçu pour l'entraînement à grande échelle des modèles de réseaux de neurones si vastes qu'elles couvrent plusieurs TPU tranches d'accélération ou pods.

Pax est basé sur Flax, qui repose sur JAX.

Schéma illustrant la position de Pax dans la pile logicielle.
          Pax est basé sur JAX. Pax se compose de trois
          couches. La couche du bas contient TensorStore et Flax.
          La couche intermédiaire contient Optax et Flaxformer. En haut
          contient la bibliothèque de modélisation Praxis. Fiddle créé
          sur Pax.

Perceptron

Un système (matériel ou logiciel) qui prend une ou plusieurs valeurs d'entrée, exécute une fonction sur la somme pondérée des entrées et calcule une valeur unique valeur de sortie. En machine learning, la fonction est généralement non linéaire : ReLU, sigmoïde ou tanh. Par exemple, le perceptron suivant s'appuie sur la fonction sigmoïde pour traiter trois valeurs d'entrée:

$$f(x_1, x_2, x_3) = \text{sigmoid}(w_1 x_1 + w_2 x_2 + w_3 x_3)$$

Dans l'illustration suivante, le perceptron accepte trois entrées, chacune de ces entrées est elle-même modifiée par une pondération avant d'entrer dans le perceptron:

Un perceptron qui reçoit 3 entrées, chacune multipliée par des
          les pondérations. Le perceptron génère une seule valeur.

Les perceptrons sont les neurones de réseaux de neurones.

performance

Terme complexe ayant les significations suivantes:

  • Signification standard en ingénierie logicielle. Namely: à quelle vitesse (ou efficacement) ce logiciel fonctionne-t-il ?
  • La signification dans le machine learning Ici, les performances répondent aux Question suivante: Dans quelle mesure ce modèle est-il correct ? En d'autres termes, les prédictions du modèle sont-elles de qualité ?

importances des variables de permutation

#df

Type d'importance de la variable qui évalue l'augmentation de l'erreur de prédiction d'un modèle après avoir permuté la les valeurs de la caractéristique. L'importance de la variable de permutation est une variable la métrique.

perplexité

Mesure de l'efficacité d'un modèle à accomplir une tâche. Par exemple, supposons que votre tâche consiste à lire les premières lettres d'un mot. qu'un utilisateur tape sur le clavier d'un téléphone, et pour lui proposer les mots de complétion. Dans cette tâche, la perplexité (P) correspond approximativement au nombre que vous devez proposer pour que votre liste contienne les véritables mot que l'utilisateur essaie de taper.

La perplexité est liée à l'entropie croisée comme suit:

$$P= 2^{-\text{cross entropy}}$$

pipeline

Infrastructure sur laquelle repose un algorithme de machine learning. Un pipeline comprend la collecte des données, leur intégration dans des fichiers de données d'entraînement, entraîner un ou plusieurs modèles et exporter les modèles en production.

pipeline

#language

Forme de parallélisme des modèles dans laquelle le modèle est divisé en étapes consécutives, chacune étant exécutée sur un autre appareil. Pendant qu'une étape traite un lot, l'étape précédente peut travailler sur le lot suivant.

Voir aussi Entraînement par étapes.

pjit

Une fonction JAX qui divise le code pour qu'il soit exécuté sur plusieurs puces accélérateurs. L'utilisateur transmet une fonction à pjit, qui renvoie une fonction dont la sémantique est équivalente, mais qui est compilée en un calcul XLA s'exécutant sur plusieurs appareils (GPU ou cœurs de TPU, par exemple).

pjit permet aux utilisateurs de partitionner des calculs sans les réécrire en utilisant le partitionnement SPMD.

Depuis mars 2023, pjit a été fusionné avec jit. Consultez Les tableaux distribués et l'automatisation chargement en parallèle pour en savoir plus.

PLM

#language
#generativeAI

Abréviation de modèle de langage pré-entraîné.

pmap

Une fonction JAX qui exécute des copies d'une fonction d'entrée sur plusieurs périphériques matériels sous-jacents (CPU, GPU ou TPU) avec différentes valeurs d'entrée. pmap s'appuie sur SPMD.

policy

#rl

Dans l'apprentissage par renforcement, le mappage probabiliste d'agent des états aux actions.

Pooling

#image

Réduction d'une matrice (ou matrices) créée par une fonction couche convolutive vers une matrice plus petite. Le pooling implique généralement de prendre la valeur maximale ou moyenne à travers l'espace commun. Par exemple, supposons que nous avons la matrice 3x3 suivante:

La matrice 3x3 [[5,3,1], [8,2,5], [9,4,3]].

Une opération de pooling, tout comme une opération convolutive, divise ce en tranches, puis fait glisser cette opération convolutive pas. Par exemple, supposons que l'opération de pooling divise la matrice convolutive en tranches 2x2 avec un pas de 1x1. Comme l'illustre le schéma suivant, quatre opérations de pooling ont lieu. Imaginez que chaque opération de pooling sélectionne la valeur maximale quatre dans cette tranche:

La matrice d&#39;entrée est de 3 x 3 avec les valeurs suivantes: [[5,3,1], [8,2,5], [9,4,3]].
          La sous-matrice 2x2 située en haut à gauche de la matrice d&#39;entrée est [[5,3], [8,2]], donc
          l&#39;opération de pooling en haut à gauche donne la valeur 8 (qui est le
          (5, 3, 8 et 2 au maximum). Sous-matrice 2x2 en haut à droite de l&#39;entrée
          est [[3,1], [2,5]], donc l&#39;opération de pooling en haut à droite donne
          la valeur 5. La sous-matrice 2x2 en bas à gauche de la matrice d&#39;entrée est
          [[8,2], [9,4]]. Ainsi, l&#39;opération de pooling en bas à gauche génère la valeur
          9. La sous-matrice 2x2 en bas à droite de la matrice d&#39;entrée est
          [[2,5], [4,3]]. Ainsi, l&#39;opération de pooling en bas à droite génère la valeur
          5. En résumé, l&#39;opération de pooling donne la matrice 2x2
          [[8,5], [9,5]].

Le pooling permet d'appliquer invariance par traduction dans la matrice d'entrée.

Pour les applications de vision, le pooling est officiellement appelé pooling spatial. Dans les applications de séries temporelles, le pooling est généralement appelé pooling temporel. Plus formellement, le pooling est souvent appelé sous-échantillonnage ou sous-échantillonnage.

encodage positionnel

#language

Technique permettant d'ajouter des informations sur la position d'un jeton dans une séquence pour la représentation vectorielle continue du jeton. Les modèles Transformer utilisent des modèles pour mieux comprendre la relation entre les différentes parties séquence.

Une implémentation courante de l'encodage positionnel utilise une fonction sinusoïdale. Plus précisément, la fréquence et l'amplitude de la fonction sinusoïdale sont déterminée par la position du jeton dans la séquence.) Cette technique permet à un modèle Transformer d'apprendre à traiter les différentes parties en fonction de leur position.

classe positive

#fundamentals

Classe que vous testez.

Par exemple, la classe positive d'un modèle de cancer peut être "tumeur". La classe positive d'un classificateur d'e-mails pourrait être "spam".

À comparer à la classe négative.

post-traitement

#fairness
#fundamentals

Ajuster la sortie d'un modèle après son exécution Le post-traitement peut être utilisé pour appliquer des contraintes d'équité modifier eux-mêmes les modèles.

Par exemple, on peut appliquer un post-traitement à un classificateur binaire en définissant un seuil de classification l'égalité des chances est maintenue. pour un attribut en vérifiant que le taux de vrais positifs est identique pour toutes les valeurs de cet attribut.

PR AUC (aire sous la courbe PR)

Aire sous la valeur interpolée courbe de précision/rappel, obtenue en traçant (rappel, précision) pour différentes valeurs du seuil de classification. Selon la façon dont est calculée, la PR AUC peut être équivalente à la précision moyenne du modèle.

Praxis

Bibliothèque principale de ML hautes performances de Pax. La praxis est souvent appelée "bibliothèque de calques".

La praxis contient non seulement les définitions de la classe Layer, mais aussi la plupart des et ses composants de soutien, y compris:

  • données saisies
  • bibliothèques de configuration (HParam et Fiddle)
  • les optimiseurs

La praxis fournit les définitions de la classe Model.

precision

Métrique des modèles de classification qui répond la question suivante:

Lorsque le modèle a prédit la classe positive, quel est le pourcentage de prédictions correctes ?

Voici la formule:

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

où :

  • vrai positif signifie que le modèle a prédit correctement la classe positive.
  • "faux positif" signifie que le modèle a prédit par erreur la classe positive.

Par exemple, supposons qu'un modèle ait effectué 200 prédictions positives. Sur ces 200 prédictions positives:

  • 150 sont des vrais positifs.
  • 50 étaient des faux positifs.

Dans ce cas :

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

À comparer à la précision et au rappel.

Voir Classification: justesse, rappel, précision et données associées métriques pour en savoir plus.

la courbe de précision/rappel

Courbe de précision et de rappel à différents des seuils de classification.

prédiction

#fundamentals

Résultat d'un modèle. Exemple :

  • La prédiction d'un modèle de classification binaire est la valeur positive ou négative.
  • La prédiction d'un modèle de classification à classes multiples correspond à une classe.
  • La prédiction d'un modèle de régression linéaire est un nombre.

biais de prédiction

Valeur indiquant l'écart entre la moyenne prédictions est calculée à partir de la moyenne des étiquettes dans l'ensemble de données.

À ne pas confondre avec le biais utilisé dans les modèles de machine learning ou avec des biais en matière d'éthique et d'impartialité.

ML prédictif

Tout système de machine learning standard ("classique")

Le terme ML prédictif n'a pas de définition formelle. Il permet plutôt de distinguer une catégorie de systèmes de ML qui n'est pas basée sur IA générative.

parité prédictive

#fairness

Une métrique d'équité qui vérifie si : pour un classificateur donné, les taux de précision sont équivalents pour les sous-groupes en cours de considération.

Par exemple, un modèle qui prédit les études supérieures parité prédictive de la nationalité si son taux de précision est identique pour les Lilliputiens et les Brobdingnagiens.

La parité prédictive est parfois appelée parité tarifaire prédictive.

Voir "Définitions équitables" expliqué" (section 3.2.1) pour une discussion plus détaillée sur la parité prédictive.

parité tarifaire prédictive

#fairness

Autre nom utilisé pour désigner la parité prédictive.

prétraitement

#fairness
Traiter les données avant de les utiliser pour entraîner un modèle Le prétraitement peut soit aussi simple que de supprimer d'un corpus de textes anglais des mots apparaissent dans le dictionnaire anglais, ou peuvent s'avérer aussi complexes que la réexpression points de données d'une manière qui élimine autant d'attributs qui sont corrélés avec des attributs sensibles autant que possible. Le prétraitement permet de respecter les contraintes d'équité.

modèle pré-entraîné

#language
#image
#generativeAI

Modèles ou composants de modèles (comme vecteur de représentation vectorielle continue) ayant déjà été entraîné. Parfois, vous alimentez des vecteurs de représentation vectorielle continue pré-entraînés dans un réseau de neurones. Il peut aussi entraîner le modèle de représentations vectorielles continues par eux-mêmes plutôt que d'utiliser les représentations vectorielles continues pré-entraînées.

Le terme modèle de langage pré-entraîné fait référence à grand modèle de langage qui a traversé pré-entraînement.

pré-entraînement

#language
#image
#generativeAI

Entraînement initial d'un modèle sur un ensemble de données volumineux. Certains modèles pré-entraînés sont des géants maladroites qui doivent généralement être affinés par un entraînement supplémentaire. Par exemple, les experts en ML peuvent pré-entraîner un grand modèle de langage sur un vaste ensemble de données textuelles, comme toutes les pages en anglais de Wikipédia. Après une formation préalable, le modèle qui en résulte peut être affiné grâce à l'une des méthodes suivantes : techniques:

croyance antérieure

Ce que vous croyez aux données avant de commencer l'entraînement sur celles-ci Par exemple, la régularisation L2 repose sur une conviction préalable selon laquelle les pondérations doivent être faibles et normalement répartis autour de zéro.

modèle de régression probabiliste

Un modèle de régression qui utilise non seulement le pondérations pour chaque caractéristique, mais aussi l'incertitude de ces pondérations. Un modèle de régression probabiliste génère une prédiction et son incertitude. Par exemple, un modèle de régression probabiliste peut donner une prédiction de 325 avec une un écart type de 12. Pour en savoir plus sur la régression probabiliste, consultez ce document Colab sur tensorflow.org.

fonction de densité de probabilité

Fonction qui identifie la fréquence des échantillons de données présentant exactement un une valeur particulière. Lorsque les valeurs d'un ensemble de données sont des valeurs continues à virgule flottante chiffres, il est rare que des correspondances exactes soient disponibles. Cependant, l'intégration d'une probabilité la fonction de densité de la valeur x à la valeur y donne la fréquence attendue de échantillons de données entre x et y.

Prenons l'exemple d'une distribution normale ayant une moyenne de 200 et une un écart type de 30. Déterminer la fréquence attendue des échantillons de données compris entre 211,4 et 218,7, vous pouvez intégrer la probabilité pour une distribution normale de 211,4 à 218,7.

Requête

#language
#generativeAI

Tout texte saisi en entrée d'un grand modèle de langage pour conditionner le modèle afin qu'il se comporte d'une certaine manière. Les requêtes peuvent être aussi courtes qu'un expression exacte ou arbitrairement longue (par exemple, l'intégralité du texte d'un roman). Requêtes appartiennent à plusieurs catégories, y compris celles présentées dans le tableau suivant:

Catégorie de requête Exemple Remarques
Question À quelle vitesse un pigeon vole-t-il ?
Instruction Écris un poème amusant sur les sites à contenu exclusivement publicitaire. Une requête qui demande au grand modèle de langage de faire quelque chose.
Exemple Traduire le code Markdown en HTML. Par exemple:
Markdown: * élément de liste
HTML : <ul> <li>élément de liste</li> &lt;/ul&gt;
La première phrase de cet exemple de requête est une instruction. Le reste de la requête est l'exemple.
Rôle Expliquer pourquoi la descente de gradient est utilisée dans l'entraînement du machine learning pour est titulaire d'un doctorat en physique. La première partie de la phrase est une instruction ; l'expression "à un doctorat en physique" est la partie rôle.
Entrée partielle du modèle Le Premier ministre britannique vit à Une requête d'entrée partielle peut se terminer brusquement (comme le fait cet exemple). ou se terminer par un trait de soulignement.

Un modèle d'IA générative peut répondre à une requête avec du texte, du code, des images, des représentations vectorielles continues, des vidéos... à peu près tout.

apprentissage basé sur des requêtes

#language
#generativeAI

Capacité de certains modèles à s'adapter leur comportement en réponse à une saisie de texte arbitraire (invites). Dans un paradigme classique d'apprentissage basé sur des requêtes, grand modèle de langage répond à une requête en la génération de texte. Par exemple, supposons qu'un utilisateur entre la requête suivante:

Résume la troisième loi du mouvement de Newton.

Un modèle capable d'effectuer un apprentissage basé sur des requêtes n'est pas spécialement entraîné pour répondre à la requête précédente. Le modèle "sait" beaucoup de faits sur la physique, beaucoup sur les règles générales du langage et sur ce qui constitue des réponses utiles. Ces connaissances sont suffisantes pour fournir une (nous l'espérons) utile réponse. Un commentaire humain supplémentaire ("Cette réponse était trop compliquée." ou "Qu'est-ce qu'une réaction ?") permet à certains systèmes d'apprentissage basés sur des requêtes de améliorer l'utilité de leurs réponses.

conception de requête

#language
#generativeAI

Synonyme d'ingénierie des requêtes.

ingénierie des requêtes

#language
#generativeAI

Savoir créer des requêtes qui génèrent les réponses souhaitées à partir d'un grand modèle de langage. Exécution de la requête par des humains l’ingénierie. Rédiger des requêtes bien structurées est essentiel pour garantir des réponses utiles d'un grand modèle de langage. L'ingénierie des requêtes dépend de nombreux facteurs, y compris:

  • Ensemble de données utilisé pour le pré-entraînement et éventuellement affiner le grand modèle de langage
  • La température et d'autres paramètres de décodage utilisé par le modèle pour générer des réponses.

Voir Présentation de la conception de requête pour en savoir plus sur la rédaction de requêtes utiles.

Conception de requête est un synonyme d'ingénierie des requêtes.

réglage des requêtes

#language
#generativeAI

Un mécanisme de réglage efficace des paramètres qui apprend un "préfixe" que le système ajoute au requête réelle.

Une variante du réglage des invites, parfois appelée réglage de préfixe, consiste à ajouter le préfixe à chaque couche. En revanche, la plupart du réglage des requêtes ajoute un préfixe à la couche d'entrée.

étiquettes de proxy

#fundamentals

Données utilisées pour estimer les étiquettes qui ne sont pas directement disponibles dans un ensemble de données.

Par exemple, supposons que vous deviez entraîner un modèle pour prédire les données de stress. Votre ensemble de données contient beaucoup de caractéristiques prédictives, ne contient pas d'étiquette nommée niveau de stress. Intrépide, vous choisissez "Accidents sur le lieu de travail" comme étiquette de proxy de stress. Après tout, les employés soumis à un stress élevé s’impliquent davantage des accidents que des employés calmes. Ou est-ce bien le cas ? Peut-être des accidents de travail à la hausse ou à la baisse pour plusieurs raisons.

Deuxième exemple, supposons que vous souhaitiez que la valeur is it raining? soit une étiquette booléenne, pour votre ensemble de données, mais il ne contient pas de données sur les précipitations. Si photos disponibles, vous pouvez créer des photos de personnes portant des parapluies comme étiquette de proxy pour la commande is it raining? Est-ce que une bonne étiquette de proxy ? C’est possible, mais les personnes dans certaines cultures peuvent être plus susceptibles de porter des parapluies pour se protéger du soleil que de la pluie.

Les étiquettes de proxy sont souvent imparfaites. Si possible, privilégiez les étiquettes réelles étiquettes de proxy. Cela dit, en l'absence d'une étiquette réelle, l'étiquette très soigneusement, en choisissant l'étiquette de proxy la moins horrible.

proxy (attributs sensibles)

#fairness
Attribut utilisé en remplacement d'une attribut sensible. Par exemple, un le code postal d'un individu peut être utilisé comme indicateur de ses revenus, de leur origine ethnique.

fonction pure

Une fonction dont les sorties ne sont basées que sur ses entrées et qui n'a pas de côté les effets. Plus précisément, une fonction pure n'utilise ni ne modifie aucun état global, comme le contenu d'un fichier ou la valeur d'une variable en dehors de la fonction.

Les fonctions pures peuvent être utilisées pour créer du code thread-safe, ce qui est bénéfique lorsque vous segmentez le code du modèle entre plusieurs puces accélérateurs.

Les méthodes de transformation des fonctions JAX nécessitent que les fonctions d'entrée sont des fonctions pures.

Q

Fonction Q

#rl

Dans l'apprentissage par renforcement, la fonction prédit le rendement attendu en prenant une action dans une état, puis en suivant une règle donnée.

La fonction Q est également appelée fonction de valeur d'action état.

Q-learning

#rl

Dans l'apprentissage par renforcement, un algorithme permet à un agent pour apprendre la fonction Q optimale d'une le processus de décision de Markov en appliquant la Équation de Bellman. Les modèles de processus de décision de Markov un environnement.

quantile

Chaque ensemble dans le binning en quantiles.

binning en quantiles

Distribuer les valeurs d'une caractéristique dans des buckets de sorte que chaque contient le même nombre d'exemples (ou presque). Par exemple : la figure suivante divise 44 points en 4 buckets, chacun d'entre eux contient 11 points. Pour que chaque bucket de la figure contienne le bucket le même nombre de points, certains buckets couvrent une largeur différente de valeurs x.

44 points de données divisés en 4 ensembles de 11 points chacun.
          Bien que chaque segment contienne le même nombre de points de données,
          certains buckets contiennent une plage de valeurs de caractéristiques plus large que d&#39;autres
          Cloud Storage.

quantification

Terme complexe pouvant être utilisé de l'une des manières suivantes:

  • Implémenter le binning en quantiles sur une fonctionnalité donnée.
  • Transformer les données en zéros et en uns pour accélérer le stockage, l'entraînement et les inférences. Comme les données booléennes sont plus robustes contre le bruit et les erreurs que d'autres formats, la quantification peut améliorer l'exactitude du modèle. Les techniques de quantification incluent l'arrondi, la troncation et binning :
  • Réduire le nombre de bits utilisés pour stocker les données parameters. Par exemple, supposons que les paramètres d'un modèle soient stockés sous forme de nombres à virgule flottante 32 bits. La quantification convertit ces les paramètres de 32 bits à 4, 8 ou 16 bits. La quantification réduit suivantes:

    • Utilisation du calcul, de la mémoire, du disque et du réseau
    • Il est temps d'inférer une prédiction
    • Consommation d'énergie

    Cependant, la quantification réduit parfois l'exactitude de la réponse des prédictions.

q

#TensorFlow

Opération TensorFlow qui implémente des données de file d'attente structure. Généralement utilisé dans les E/S.

R

RAG

#fundamentals

Abréviation de génération avec récupération améliorée.

forêt d'arbres décisionnels

#df

Un ensemble d'arbres de décision chaque arbre de décision est entraîné avec un bruit aléatoire spécifique. comme le bagging.

Les forêts d'arbres décisionnels sont un type de forêt de décision.

stratégie aléatoire

#rl

Dans l'apprentissage par renforcement, règle qui détermine action aléatoire.

classement

Type d'apprentissage supervisé dont objectif est de classer une liste d'éléments.

rang (ordinalité)

Position ordinale d'une classe dans un problème de machine learning qui catégorise les classes de la plus élevée à la plus basse. Par exemple, un classement de comportement système pourrait classer les récompenses d'un chien de la plus élevée (un steak) à le plus bas (chou frisé flétri).

rang (Tensor)

#TensorFlow

Nombre de dimensions d'un Tensor. Par exemple : une grandeur scalaire a un rang de 0, un vecteur un rang de 1 et une matrice un rang de 2.

À ne pas confondre avec le rang (ordinalité).

évaluateur

#fundamentals

Une personne qui fournit des étiquettes pour les exemples. "Annotateur" est un autre nom pour l'évaluateur.

recall (rappel)

Métrique des modèles de classification qui répond la question suivante:

Lorsque la vérité terrain était classe positive, quel pourcentage des prédictions a le modèle a-t-il identifié correctement comme étant la classe positive ?

Voici la formule:

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

où :

  • vrai positif signifie que le modèle a prédit correctement la classe positive.
  • "faux négatif" signifie que le modèle a prédit à tort classe négative.

Supposons que votre modèle a effectué 200 prédictions sur des exemples la vérité terrain était la classe positive. Sur ces 200 prédictions:

  • 180 sont des vrais positifs.
  • 20 étaient des faux négatifs.

Dans ce cas :

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

Voir Classification: justesse, rappel, précision et données associées métriques pour en savoir plus.

système de recommandation

#recsystems

Un système qui sélectionne pour chaque utilisateur un ensemble relativement petit d'éléments souhaitables éléments d'un vaste corpus. Par exemple, un système de recommandation de vidéos peut recommander à partir d'un corpus de 100 000 vidéos,en sélectionnant Casablanca, puis The Philadelphia Story (The Philadelphia Story) pour un utilisateur, et Wonder Woman et Black Panther pour une autre. Un système de recommandation de vidéos peut baser ses recommandations sur des facteurs tels que:

  • Films notés ou regardés par des utilisateurs similaires
  • Genre, réalisateurs, acteurs, catégorie démographique ciblée...

Unité de rectification linéaire (ReLU)

#fundamentals

Une fonction d'activation ayant le comportement suivant:

  • Si l'entrée est négative ou égale à zéro, la sortie est 0.
  • Si l'entrée est positive, la sortie est égale à l'entrée.

Exemple :

  • Si l'entrée est -3, la sortie est 0.
  • Si l'entrée est +3, la sortie est 3,0.

Voici un graphique de la fonction ReLU:

Graphique cartésien de deux droites. La première ligne a une constante
          valeur y de 0, le long de l&#39;axe des x de -infini,0 à 0,-0.
          La deuxième ligne commence à 0,0. Cette ligne a une pente de +1, donc
          elle va de 0,0 à +infini,+infini.

ReLU est une fonction d'activation très courante. Malgré son comportement simple, La fonction ReLU permet tout de même à un réseau de neurones d'apprendre un langage nonlinear. les relations entre les caractéristiques et l'étiquette.

réseau de neurones récurrent

#seq

Un réseau de neurones qui exécute intentionnellement plusieurs où des parties de chaque exécution alimentent la prochaine exécution. Plus précisément : les couches cachées de l'exécution précédente fournissent une partie dans la même couche cachée lors de l'exécution suivante. Réseaux de neurones récurrents sont particulièrement utiles pour évaluer les séquences, de sorte que les couches cachées peut tirer des enseignements des exécutions précédentes du réseau de neurones sur les parties précédentes la séquence.

Par exemple, la figure suivante montre un réseau de neurones récurrent qui s'exécute quatre fois. Notez que les valeurs apprises dans les couches cachées la première exécution font partie de l'entrée des mêmes couches cachées lors de la deuxième exécution. De même, les valeurs apprises dans la couche cachée de la deuxième exécution font partie de l'entrée de la même couche cachée troisième exécution. Ainsi, le réseau de neurones récurrent s'entraîne progressivement prédit le sens de la séquence complète, et pas seulement le sens de mots individuels.

Un RNN qui s&#39;exécute quatre fois pour traiter quatre mots d&#39;entrée.

modèle de régression

#fundamentals

De manière informelle, un modèle qui génère une prédiction numérique. (En revanche, Un modèle de classification génère une classe prediction.) Voici quelques exemples de modèles de régression:

  • Un modèle qui prédit la valeur d'une maison spécifique, par exemple 423 000 euros.
  • Un modèle qui prédit l'espérance de vie d'un arbre spécifique (23,2 ans, par exemple).
  • Un modèle qui prédit la quantité de pluie qui va tomber dans une ville donnée au cours des six prochaines heures, par exemple 0,18 pouce.

Les deux types de modèles de régression les plus courants sont les suivants:

  • La régression linéaire, qui trouve la droite la plus adapte les valeurs de l'étiquette aux caractéristiques.
  • La régression logistique, qui génère une une probabilité comprise entre 0,0 et 1,0 qu'un système mappe ensuite à une classe la prédiction.

Tous les modèles qui produisent des prédictions numériques ne sont pas des modèles de régression. Dans certains cas, une prédiction numérique n'est qu'un modèle de classification qui ont des noms de classe numériques. Par exemple, un modèle qui prédit un code postal numérique est un modèle de classification et non un modèle de régression.

régularisation

#fundamentals

Tout mécanisme qui réduit le surapprentissage Les types de régularisation les plus courants sont les suivants:

La régularisation peut également être définie comme la pénalité appliquée à la complexité d'un modèle.

taux de régularisation

#fundamentals

Nombre qui spécifie l'importance relative de la régularisation pendant l'entraînement. Le fait de soulever le le taux de régularisation réduit le surapprentissage, mais peut les performances prédictives du modèle. À l'inverse, la réduction ou l'omission le taux de régularisation augmente le surapprentissage.

apprentissage par renforcement

#rl

Une famille d'algorithmes qui apprennent les règles optimales et dont l'objectif est de maximiser le retour sur investissement lors des interactions un environnement. Par exemple, la récompense ultime dans la plupart des jeux est la victoire. Les systèmes d'apprentissage par renforcement peuvent devenir des experts dans la gestion en évaluant des séquences d'actions précédentes qui, au final, a conduit à des victoires et à des séquences qui ont finalement conduit à des pertes.

Apprentissage automatique par renforcement qui utilise le feedback humain (RLHF, Reinforcement Learning from Human Feedback)

#generativeAI
#rl

Utiliser les commentaires d'évaluateurs manuels pour améliorer la qualité des réponses d'un modèle. Par exemple, un mécanisme RLHF peut demander aux utilisateurs d'évaluer la qualité avec un emoji 👍 ou 👎. Le système peut alors ajuster ses futures réponses sur la base de ce feedback.

ReLU

#fundamentals

Abréviation de l'unité de rectification linéaire.

tampon de relecture

#rl

Dans les algorithmes de type DQN, la mémoire utilisée par l'agent pour stocker les transitions d'état rediffusion de l'expérience.

Cloud SQL

Une copie de l'ensemble d'entraînement ou du modèle généralement sur une autre machine. Par exemple, un système peut utiliser les éléments suivants : stratégie d'implémentation du parallélisme des données:

  1. Placer les instances répliquées d'un modèle existant sur plusieurs machines
  2. Envoyez différents sous-ensembles de l'ensemble d'entraînement à chaque instance répliquée.
  3. Agrégez les mises à jour des paramètres.

biais de fréquence

#fairness

Le fait que la fréquence à laquelle les gens écrivent sur des actions leurs résultats ou leurs propriétés ne reflètent pas leurs expériences ou degré de caractéristique d'une propriété d'une classe d'individus. Le biais de fréquence peut influer sur la composition des données à partir desquelles les systèmes de machine learning apprennent.

Par exemple, dans les livres, le mot ri est plus répandu que respiré. Un modèle de machine learning qui estime la fréquence relative le rire et la respiration d'un corpus de livres détermineront probablement que le rire est plus courant que la respiration.

vectorielle

Processus de mise en correspondance des données avec des caractéristiques utiles.

reclassement

#recsystems

La dernière étape d'un système de recommandation, au cours de laquelle les éléments notés peuvent être réévalués en fonction d'autres (généralement non ML). Le reclassement évalue la liste des éléments générées par la phase d'attribution de scores, en prenant des mesures telles que:

  • Éliminer les articles que l'utilisateur a déjà achetés.
  • Booster le score des éléments les plus récents.

génération augmentée de récupération (RAG)

#fundamentals

Une technique pour améliorer la qualité des Sortie d'un grand modèle de langage (LLM) en les ancréant avec des sources de connaissances récupérées après l'entraînement du modèle. La RAG améliore la précision des réponses LLM en fournissant au LLM entraîné des l'accès aux informations extraites de bases de connaissances ou de documents de confiance.

Les motivations courantes de l'utilisation de la génération augmentée de récupération incluent:

  • Augmenter la justesse factuelle des réponses générées par le modèle
  • Donner au modèle accès aux connaissances sur lesquelles il n'a pas été entraîné.
  • Modifier les connaissances utilisées par le modèle
  • Permettre au modèle de citer ses sources.

Par exemple, supposons qu'une application de chimie utilise le modèle PaLM API pour générer des résumés liées aux requêtes des utilisateurs. Lorsque le backend de l'application reçoit une requête, il:

  1. Recherche ("récupère") les données en rapport avec la requête de l'utilisateur.
  2. Ajoute ("augmente") les données chimiques pertinentes à la requête de l'utilisateur.
  3. Demande au LLM de créer un résumé basé sur les données ajoutées.

retour

#rl

Dans l'apprentissage par renforcement, selon une certaine stratégie et un certain état, renvoyé est la somme de toutes les récompenses que l'agent a reçues s'attend à recevoir en respectant le règlement du state à la fin de l'épisode. L'agent tient compte de la nature différée des récompenses attendues en les remettant en fonction des changements d'état requis pour obtenir la récompense.

Par conséquent, si le facteur de remise est \(\gamma\), et \(r_0, \ldots, r_{N}\) les récompenses jusqu'à la fin de l'épisode, puis le calcul du retour se présente comme suit:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

récompense

#rl

Dans l'apprentissage par renforcement, le résultat numérique action dans un état, tel que défini par l'environnement.

régularisation de crête

Synonyme de régularisation L2. Le terme La régularisation d'arête est plus fréquemment utilisée dans les statistiques pures alors que la régularisation L2 est plus souvent utilisée en machine learning.

RNN

#seq

Abréviation de réseaux de neurones récurrents.

Courbe ROC (Receiver Operating Characteristic)

#fundamentals

Graphique du taux de vrais positifs par rapport à taux de faux positifs pour différentes des seuils de classification en binaire la classification.

La forme d'une courbe ROC suggère la capacité d'un modèle de classification binaire pour séparer les classes positives des classes négatives. Supposons, par exemple, qu'un modèle de classification binaire sépare parfaitement classes de toutes les classes positives:

Un axe gradué avec 8 exemples positifs à droite et
          7 exemples négatifs à gauche.

La courbe ROC du modèle précédent se présente comme suit:

Une courbe ROC. L&#39;axe des x correspond au taux de faux positifs, et l&#39;axe des y
          est le taux de vrais positifs. La courbe a une forme de L inversée. La courbe
          commence à (0.0,0.0) et va directement jusqu&#39;à (0.0,1.0). Ensuite, la courbe
          passe de (0.0,1.0) à (1.0,1.0).

En revanche, l'illustration suivante représente la régression logistique brute pour un très mauvais modèle qui ne peut pas séparer les classes négatives positives:

Un axe gradué avec des exemples positifs et des classes négatives
          complètement mélangés.

La courbe ROC de ce modèle se présente comme suit:

Une courbe ROC, qui est en fait une ligne droite issue de (0.0,0.0)
          à (1.0,1.0).

Dans le monde réel, la plupart des modèles de classification binaire séparent positives et négatives dans une certaine mesure, mais généralement pas parfaitement. Donc, La courbe ROC se situe entre les deux extrêmes:

Une courbe ROC. L&#39;axe des x correspond au taux de faux positifs, et l&#39;axe des y
          est le taux de vrais positifs. La courbe ROC se rapproche d&#39;un arc tremblant
          traversant les points du compas de l&#39;ouest au nord.

Le point sur une courbe ROC la plus proche de (0.0,1.0) identifie théoriquement la le seuil de classification idéal. Cependant, plusieurs autres problèmes concrets influencent la sélection du seuil de classification idéal. Par exemple : peut-être que les faux négatifs causent beaucoup plus de difficultés que les faux positifs.

Une métrique numérique appelée AUC résume la courbe ROC en une seule valeur à virgule flottante.

requête de rôle

#language
#generativeAI

Partie facultative d'une requête qui identifie une audience cible pour obtenir la réponse d'un modèle d'IA générative. Sans rôle requête, un grand modèle de langage fournit une réponse qui peut ou non être utile pour la personne qui pose les questions. Avec une invite de rôle, un grand langage peut fournir des réponses plus appropriées et plus utiles une audience cible spécifique. Par exemple, la partie invite de rôle apparaissent en gras:

  • Résume cet article pour un doctorat en économie.
  • Décrivez le fonctionnement des marées pour un enfant de dix ans.
  • Expliquer la crise financière de 2008. Parlez comme vous le feriez à un jeune enfant, ou golden retriever.

racine

#df

Le nœud de départ (le premier condition) dans un arbre de décision. Par convention, les diagrammes placent la racine en haut de l'arbre de décision. Exemple :

Arbre de décision à deux conditions et trois feuilles La
          la condition de départ (x > 2) est la racine.

répertoire racine

#TensorFlow

Répertoire que vous spécifiez pour héberger les sous-répertoires de TensorFlow de points de contrôle et d'événements de plusieurs modèles.

la racine carrée de l'erreur quadratique moyenne (RMSE, Root Mean Squared Error)

#fundamentals

Racine carrée de l'erreur quadratique moyenne.

invariance rotationnelle

#image

Dans un problème de classification d'images, la capacité d'un algorithme à classer des images même lorsque leur orientation change. Par exemple : l'algorithme peut toujours identifier une raquette de tennis qu'elle pointe vers le haut, sur le côté ou vers le bas. Notez que l'invariance rotationnelle n'est pas toujours souhaitable ; Par exemple, un 9 à l'envers ne devrait pas être classé comme un 9.

Voir aussi invariance par traduction et invariance par taille.

Coefficient de détermination

Une métrique de régression indiquant la variation libellé est dû à une caractéristique individuelle ou à un ensemble de caractéristiques. Le coefficient de détermination (R-carré) est une valeur comprise entre 0 et 1, que vous pouvez interpréter comme suit:

  • Un R au carré de 0 signifie qu'aucune variation d'une étiquette n'est due ensemble de caractéristiques.
  • Un R au carré de 1 signifie que toute la variation d'une étiquette est due ensemble de caractéristiques.
  • Un R au carré compris entre 0 et 1 indique dans quelle mesure le la variation peut être prédite à partir d'une caractéristique particulière ou de l'ensemble de caractéristiques. Par exemple, un R au carré de 0,10 signifie que 10 % de la variance de l'étiquette est dû à l'ensemble de caractéristiques, un coefficient de détermination de 0,20 signifie que 20 % sont dus à l'ensemble de caractéristiques, et ainsi de suite.

Le coefficient de détermination (r-carré) est le carré du Corrélation de Pearson coefficients entre les valeurs prédites par un modèle et la vérité terrain.

S

biais d’échantillonnage

#fairness

Voir biais de sélection.

échantillonnage avec remplacement

#df

Méthode de sélection d'éléments à partir d'un ensemble d'éléments candidats dans laquelle le même l'article peut être sélectionné plusieurs fois. L'expression "avec remplacement" signifie après chaque sélection, l'élément est renvoyé dans le pool. d'éléments candidats. La méthode inverse, échantillonnage sans remplacement, signifie qu'un élément candidat ne peut être sélectionné qu'une seule fois.

Prenons l'exemple de la collection de fruits suivante:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Supposons que le système choisisse de manière aléatoire fig comme premier élément. Si vous utilisez l'échantillonnage et le remplacement, le système choisit deuxième élément de l'ensemble suivant:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Oui, c'est le même ensemble qu'avant, le système pourrait donc potentiellement sélectionnez à nouveau fig.

Si vous utilisez l'échantillonnage sans remplacement, un échantillon ne peut pas être choisi à nouveau. Par exemple, si le système choisit fig de manière aléatoire comme premier échantillon, fig ne pourra pas être sélectionné à nouveau. Par conséquent, le système choisit le deuxième échantillon parmi l'ensemble suivant (réduit) :

fruit = {kiwi, apple, pear, cherry, lime, mango}

SavedModel

#TensorFlow

Format recommandé pour enregistrer et récupérer des modèles TensorFlow. SavedModel est un format de sérialisation récupérable, indépendant du langage, qui permet des systèmes et des outils de haut niveau pour produire, consommer et transformer TensorFlow des modèles de ML.

Consultez le chapitre "Enregistrement et restauration". dans le guide du programmeur TensorFlow.

Économique

#TensorFlow

Un objet TensorFlow de l'enregistrement des points de contrôle du modèle.

scalaire

Un seul nombre ou une seule chaîne pouvant être représentée sous forme de tensor de rank 0. Par exemple : les lignes de code créent chacune une valeur scalaire dans TensorFlow:

breed = tf.Variable("poodle", tf.string)
temperature = tf.Variable(27, tf.int16)
precision = tf.Variable(0.982375101275, tf.float64)

scaling

Toute transformation ou technique mathématique qui déplace la plage d'une étiquette et/ou la valeur de la caractéristique. Certaines formes de scaling sont très utiles pour les transformations comme la normalisation.

Voici quelques formes courantes de scaling utile en machine learning:

  • mise à l'échelle linéaire, qui utilise généralement une combinaison de soustractions et division pour remplacer la valeur d'origine par un nombre compris entre -1 et +1, ou compris entre 0 et 1.
  • et une échelle logarithmique, qui remplace la valeur d'origine par son logarithme.
  • La normalisation du score Z, qui remplace la valeur d'origine avec une valeur à virgule flottante représentant le nombre de des écarts types par rapport à la moyenne de cette caractéristique.

scikit-learn

Plate-forme de machine learning Open Source populaire. Voir scikit-learn.org.

notation

#recsystems

La partie d'un système de recommandation qui fournit une valeur ou un classement pour chaque élément produit par génération de candidats.

biais de sélection

#fairness

Erreurs dans les conclusions tirées d'échantillons de données en raison d'un processus de sélection qui génère des différences systématiques entre les échantillons observés dans les données et celles non observées. Il existe les formes de biais de sélection suivantes:

  • Biais de couverture: la population représentée dans l'ensemble de données ne présente pas correspondent à la population créée par le modèle de machine learning des prédictions.
  • biais d'échantillonnage: les données ne sont pas collectées aléatoirement auprès du groupe cible.
  • biais de non-réponse (également appelé biais de participation): utilisateurs provenant de certains groupes se désinscrivent des enquêtes à des taux différents de ceux des utilisateurs d'autres groupes.

Par exemple, supposons que vous créez un modèle de machine learning qui prédit le plaisir des gens d’un film. Pour collecter des données d'entraînement, vous distribuez une enquête à tout le monde au premier rang d'un théâtre montrant le film. Surtout, cela peut sembler être un moyen raisonnable pour recueillir un jeu de données ; Toutefois, cette forme de collecte de données peut introduisent les formes de biais de sélection suivantes:

  • biais de couverture: par échantillonnage d'une population qui a choisi de voir il est possible que les prédictions de votre modèle ne se prêtent pas à la généralisation qui n'ont pas déjà exprimé un tel niveau d'intérêt pour le film.
  • Biais d'échantillonnage: plutôt que d'effectuer un échantillonnage aléatoire la population prévue (toutes les personnes présentes au cinéma), vous n'avez échantillonné les personnes au premier rang. Il est possible que les personnes assises en première ligne étaient plus intéressés par le film que par ceux d'autres lignes.
  • Biais de non-réponse: en général, les personnes ayant des opinions fortes ont tendance de répondre plus souvent aux enquêtes facultatives que les personnes présentant des des opinions. L'enquête sur les films étant facultative, les réponses sont plus susceptibles de former la distribution bimodale qu'une distribution normale (en forme de cloche).

auto-attention (également appelée couche d'auto-attention)

#language

Une couche de réseau de neurones qui transforme une séquence de représentations vectorielles continues (par exemple, représentations vectorielles continues jeton) dans une autre séquence de représentations vectorielles continues. Chaque représentation vectorielle continue de la séquence de sortie construite en intégrant les informations des éléments de la séquence d'entrée par un mécanisme d'attention.

La partie self de l'auto-attention fait référence à la séquence qui assiste plutôt qu'à un autre contexte. L'auto-attention est l'une des principales pour les modèles Transformer et utilise la recherche dans le dictionnaire telles que "requête", "clé" et "valeur".

Une couche d'auto-attention commence par une séquence de représentations d'entrée, pour chaque mot. La représentation d'entrée d'un mot peut être la représentation vectorielle continue. Pour chaque mot d'une séquence d'entrée, le réseau évalue la pertinence du mot par rapport à chaque élément de la séquence mots. Les scores de pertinence déterminent dans quelle mesure la représentation finale du mot intègre les représentations d'autres mots.

Prenons l'exemple de la phrase suivante:

L'animal n'a pas traversé la rue parce qu'il était trop fatigué.

L'illustration suivante (de Transformer: une nouvelle architecture de réseau de neurones pour le langage Compréhension) montre le modèle d'attention d'une couche d'auto-attention pour le pronom it, avec l'obscurité de chaque ligne indiquant dans quelle mesure chaque mot contribue à la représentation:

La phrase suivante apparaît deux fois : &quot;L&#39;animal n&#39;a pas traversé la
          parce qu&#39;elle était trop fatiguée. Des lignes relient le pronom dans lequel il est
          d&#39;une phrase à cinq jetons (Le, l&#39;animal, la rue, lui et
          le point) dans l&#39;autre phrase.  La ligne entre le pronom qu&#39;il
          et le mot animal est le plus fort.

La couche d'auto-attention met en évidence les mots pertinents. Dans ce la couche d'attention a appris à mettre en surbrillance les mots qu'elle pourrait en attribuant le poids le plus élevé à l'animal.

Pour une séquence de n jetons, l'auto-attention transforme une séquence de représentations vectorielles continues n fois distinctes, une fois à chaque position de la séquence.

Reportez-vous également à l'attention et auto-attention multi-tête.

apprentissage auto-supervisé

Une famille de techniques pour convertir un Problème de machine learning non supervisé à résoudre un problème de machine learning supervisé. en créant des étiquettes de substitution à partir de exemples sans étiquette.

Certains modèles basés sur Transformer, comme BERT, utilisent un apprentissage auto-supervisé.

L'entraînement auto-supervisé est un approche d'apprentissage semi-supervisé.

auto-formation

Variante de l'apprentissage auto-supervisé particulièrement utile lorsque toutes les conditions suivantes sont remplies:

L'auto-entraînement consiste à itérer sur les deux étapes suivantes jusqu'à ce que le modèle cesse de s'améliorer:

  1. Utilisez le machine learning supervisé pour : entraîner un modèle sur les exemples étiquetés.
  2. Utilisez le modèle créé à l'étape 1 pour générer des prédictions (étiquettes) sur le les exemples non étiquetés, en déplaçant ceux qui sont très fiables les exemples étiquetés avec l'étiquette prédite.

Notez que chaque itération de l'étape 2 ajoute d'autres exemples étiquetés pour l'étape 1 l'entraînement.

apprentissage partiellement supervisé

Entraîner un modèle avec des données où certains des exemples d'entraînement ont des étiquettes, d'autres pas. Une technique d'apprentissage semi-supervisé consiste à déduire des étiquettes pour les exemples sans étiquette, puis entraîner le modèle avec les étiquettes déduites pour créer du modèle. L'apprentissage partiellement supervisé peut être utile si les étiquettes sont coûteuses à obtenir mais les exemples non étiquetés sont abondants.

L'auto-entraînement est l'une des techniques d'apprentissage de machine learning.

attribut sensible

#fairness
Attribut humain pouvant faire l'objet d'une attention particulière pour raisons éthiques, sociales ou personnelles.

analyse des sentiments

#language

Utiliser des algorithmes statistiques ou d'apprentissage automatique pour déterminer une attitude globale, positive ou négative, à l'égard d'un service, d'un produit une organisation ou un sujet. Par exemple, si vous utilisez compréhension du langage naturel, un algorithme peut effectuer une analyse des sentiments sur les commentaires textuels d'un cursus universitaire afin de déterminer le diplôme auquel les étudiants généralement aimé ou non le cours.

modèle de séquence

#seq

Modèle dont les entrées ont une dépendance séquentielle. Par exemple, la prédiction La prochaine vidéo regardée à partir d'une séquence de vidéos déjà regardées

tâche "seq2seq"

#language

Tâche qui convertit une séquence d'entrée de jetons en sortie une séquence de jetons. Par exemple, deux types courants de requêtes "seq2seq", tâches sont:

  • Traducteurs: <ph type="x-smartling-placeholder">
      </ph>
    • Exemple de séquence d'entrée : "Je t'aime".
    • Exemple de séquence de sortie : "Je t'aime".
  • Système de questions-réponses: <ph type="x-smartling-placeholder">
      </ph>
    • Exemple de séquence d'entrée : "Ai-je besoin de ma voiture à New York ?"
    • Exemple de séquence de sortie : "No. Veuillez laisser votre voiture à la maison."

du modèle

Processus consistant à mettre un modèle entraîné à disposition pour fournir des prédictions via inférence en ligne ou inférence hors ligne.

forme (Tensor)

Nombre d'éléments dans chaque dimension d'une Tensor. La forme est représentée par une liste d'entiers. Par exemple : le Tensor bidimensionnel suivant a la forme [3,4]:

[[5, 7, 6, 4],
 [2, 9, 4, 8],
 [3, 6, 5, 1]]

TensorFlow utilise le format ligne-major (style C) pour représenter l'ordre des C'est pourquoi la forme dans TensorFlow est [3,4] [4,3] En d'autres termes, dans un Tensor TensorFlow bidimensionnel, la forme correspond au [nombre de lignes, nombre de colonnes].

Une forme statique est une forme de Tensor connue au moment de la compilation.

Une forme dynamique est inconnue au moment de la compilation et n'est dépend donc des données d'exécution. Ce Tensor peut être représenté par une couche dans TensorFlow, comme dans [3, ?].

segment

#TensorFlow
#GoogleCloud

Une division logique de l'ensemble d'entraînement ou de l' model. En général, un processus crée des segments en divisant les exemples ou les paramètres dans (généralement) des fragments de taille égale. Chaque segment est ensuite attribué à une machine différente.

La segmentation d'un modèle s'appelle le parallélisme du modèle. la segmentation des données s'appelle parallélisme des données.

rétrécissement

#df

Un hyperparamètre dans boosting de gradient, qui contrôle surapprentissage. Rétrécissement lors de l'optimisation du gradient est analogue au taux d'apprentissage descente de gradient. Le rétrécissement est un nombre décimal comprise entre 0,0 et 1,0. Une valeur de rétrécissement inférieure réduit le surapprentissage qu'une valeur de réduction supérieure.

fonction sigmoïde

#fundamentals

Fonction mathématique qui "écrase" une valeur d'entrée dans une plage limitée, généralement de 0 à 1 ou de -1 à +1. Autrement dit, vous pouvez transmettre n'importe quel nombre (deux, un million, de milliards (négatif), quoi que ce soit) à une fonction sigmoïde. La sortie sera toujours dans le limitée. Voici un graphique illustrant la fonction d'activation sigmoïde:

Graphique en courbes bidimensionnelles avec des valeurs x couvrant le domaine
          -infini à +positive, tandis que les valeurs y couvrent la plage presque 0 à
          presque 1. Lorsque x est égal à 0, y est égal à 0,5. La pente de la courbe est toujours
          positive, avec la pente la plus élevée à 0,0,5 et une diminution progressive
          pentes à mesure que la valeur absolue de x augmente.

La fonction sigmoïde est utilisée à plusieurs reprises en machine learning:

mesure de similarité

#clustering

Dans les algorithmes de clustering, la métrique permettant de déterminer à quel point les deux exemples sont similaires.

programme unique / données multiples (SPMD)

Technique de parallélisme qui consiste à exécuter le même calcul sur des entrées différentes des données en parallèle sur différents appareils. L'objectif du SPMD est d'obtenir des résultats plus rapidement. Il s'agit du style de programmation parallèle le plus courant.

invariance par redimensionnement

#image

Dans un problème de classification d'images, la capacité d'un algorithme à classer les images même lorsque leur taille change. Par exemple : l'algorithme peut tout de même identifier qu'elle utilise 2 Mpx ou 200 000 pixels. Notez que même les meilleurs les algorithmes de classification d'images présentent encore des limites pratiques en matière d'invariance par taille. Par exemple, il est peu probable qu'un algorithme (ou un humain) classifie correctement un une image de chat de seulement 20 pixels.

Voir aussi invariance par traduction et invariance rotationnelle.

croquis

#clustering

En machine learning non supervisé, une catégorie d'algorithmes qui effectuent une analyse de similarité préliminaire à partir d'exemples. Les algorithmes de croquis utilisent <ph type="x-smartling-placeholder"></ph> fonction de hachage sensible à la localité pour identifier les points susceptibles d'être similaires, puis de regrouper en buckets.

La création de croquis réduit le calcul requis pour les calculs de similarité sur de grands ensembles de données. Au lieu de calculer la similarité deux exemples dans l'ensemble de données, nous ne calculons la similarité deux points dans chaque bucket.

skip-gram

#language

Un n-gramme qui peut omettre (ou "ignorer") des mots de l'original le contexte, ce qui signifie que les N mots peuvent ne pas avoir été initialement adjacents. Plus avec précision, "k-skip-n-gramme" est un n-gramme pour lequel jusqu'à k mots peuvent avoir ont été ignorées.

Par exemple, "le rapide renard marron". peut avoir les 2 grammes suivants:

  • "rapide"
  • "brun rapide"
  • "renard marron"

"1-skip-2-gramme" est une paire de mots séparés par un mot au maximum. Par conséquent, « le rapide renard brun » contient les 2 grammes (1 ignorer) suivants:

  • "le marron"
  • "petit renard"

De plus, tous les 2 grammes sont également des 1-skip-2-grammes, puisque moins de plusieurs mots peuvent être ignorés.

Les Skip-grams sont utiles pour mieux comprendre le contexte environnant d'un mot. Dans l'exemple, "renard" était directement associé au terme "rapide" dans l'ensemble des 1-skip-2-grammes, mais pas dans l'ensemble de 2-grammes.

Les sauts contribuent à l'entraînement modèles de représentation vectorielle continue de mots.

softmax

#fundamentals

Fonction qui détermine les probabilités pour chaque classe possible dans une modèle de classification à classes multiples. Les probabilités s'additionnent exactement à 1.0. Par exemple, le tableau suivant montre comment la fonction softmax répartit différentes probabilités:

L'image est... Probabilité
chien 0,85
cat 0,13
cheval 0,02

Softmax est également appelé softmax complet.

À comparer à l'échantillonnage de candidats.

réglage flexible des requêtes

#language
#generativeAI

Technique de réglage d'un grand modèle de langage pour une tâche donnée, sans gourmand en ressources affinage. Au lieu de réentraîner tous les pondérations dans le modèle, réglage des requêtes souples ajuste automatiquement une invite pour atteindre le même objectif.

À partir d'une requête textuelle, réglage souple des requêtes ajoute généralement des représentations vectorielles continues de jetons supplémentaires à l'invite et utilise et la rétropropagation pour optimiser l'entrée.

Une réponse "difficile" contient des jetons réels au lieu de représentations vectorielles continues de jetons.

caractéristique creuse

#language
#fundamentals

Caractéristique dont les valeurs sont principalement nulles ou vides. Par exemple, une caractéristique contenant une seule valeur 1 et un million de valeurs 0 est creuses. En revanche, une caractéristique dense a des valeurs ne sont pas zéro ni vides.

Dans le machine learning, un nombre surprenant de caractéristiques sont des caractéristiques creuses. Les caractéristiques catégorielles sont généralement des caractéristiques creuses. Par exemple, sur les 300 espèces d'arbres possibles dans une forêt, un seul exemple peut n'identifier qu'un érable. Ou, parmi des millions de personnes, de vidéos possibles dans une bibliothèque, un seul exemple peut identifier juste "Casablanca".

Dans un modèle, on représente généralement des caractéristiques creuses encodage one-hot. Si l'encodage one-hot est volumineux, vous pouvez placer une couche d'intégration au-dessus de la l'encodage one-hot pour une plus grande efficacité.

représentation creuse

#language
#fundamentals

Ne stocke que la ou les positions des éléments non nuls dans une caractéristique creuse.

Par exemple, supposons qu'une caractéristique catégorielle nommée species identifie les 36 différentes espèces d'arbres d'une forêt en particulier. Supposons également que chaque example identifie une seule espèce.

Vous pouvez utiliser un vecteur one-hot pour représenter les espèces d'arbres dans chaque exemple. Un vecteur one-hot contiendrait une seule valeur 1 (pour représenter l'espèce d'arbre particulière de cet exemple) et 35 0s (pour représenter 35 espèces d'arbres pas dans cet exemple). La représentation one-hot de maple peut se présenter comme suit:

Vecteur dans lequel les positions 0 à 23 contiennent la valeur 0, position
          24 contient la valeur 1 et les positions 25 à 35 contiennent la valeur 0.

La représentation creuse permet quant à elle d'identifier simplement la position une espèce particulière. Si maple est en position 24, la représentation creuse de maple serait simplement:

24

Notez que la représentation creuse est beaucoup plus compacte que la représentation représentation.

vecteur creux

#fundamentals

Vecteur dont les valeurs sont principalement des zéros. Voir aussi creux caractéristique et parcimonie.

parcimonie

Nombre d'éléments définis sur zéro (ou nul) dans un vecteur ou une matrice divisé par le nombre total d'entrées dans ce vecteur ou cette matrice. Par exemple : Prenons une matrice à 100 éléments dans laquelle 98 cellules contiennent zéro. Le calcul de la parcimonie se présente comme suit:

$$ {\text{sparsity}} = \frac{\text{98}} {\text{100}} = {\text{0.98}} $$

La parcimonie des caractéristiques désigne la parcimonie d'un vecteur de caractéristiques. La parcimonie du modèle désigne la parcimonie des pondérations du modèle.

pooling spatial

#image

Voir pooling.

split

#df

Dans un arbre de décision, un autre nom condition [état].

séparateur

#df

Lors de l'entraînement d'un arbre de décision, la routine (et un algorithme) chargés de trouver le meilleur condition au niveau de chaque nœud.

SPMD

Abréviation de un seul programme ou de plusieurs données.

marge maximale quadratique

Carré de la marge maximale. La marge maximale quadratique pénale les valeurs aberrantes sont plus sévères que la marge maximale normale.

perte quadratique

#fundamentals

Synonyme de perte L2.

entraînement par étapes

#language

Stratégie d'entraînement d'un modèle en une séquence d'étapes distinctes. L'objectif peut être soit pour accélérer le processus d'entraînement, soit pour améliorer la qualité du modèle.

Vous trouverez ci-dessous une illustration de l'approche d'empilement progressif:

  • L'étape 1 contient trois couches cachées, l'étape 2 contient six couches cachées et l'étape 3 contient 12 couches cachées.
  • La phase 2 commence l'entraînement avec les pondérations apprises dans les trois couches cachées de l'Étape 1. L'étape 3 commence l'entraînement avec les pondérations apprises à l'étape 6 les couches cachées de l'étape 2.

Trois étapes, appelées Étape 1, Étape 2 et Étape 3.
          Chaque étape contient un nombre différent de couches. L&#39;étape 1 contient
          3 calques, l&#39;étage 2 contient 6 calques et l&#39;étage 3 contient 12 calques.
          Les trois couches de l&#39;étape 1 deviennent les trois premières couches de l&#39;étape 2.
          De même, les 6 couches de l&#39;étape 2 deviennent les 6 premières couches de
          Étape 3 :

Voir aussi pipeline.

state

#rl

Dans l'apprentissage par renforcement, les valeurs de paramètres qui décrivent de l'environnement, que l'agent utilise pour choisissez une action.

fonction de valeur d'action d'état

#rl

Synonyme de fonction Q.

static

#fundamentals

Une action unique plutôt que continue. Les termes statique et hors connexion sont des synonymes. Voici quelques cas d'utilisation courants des fonctions statiques et hors connexion dans les ordinateurs apprentissage:

  • Un modèle statique (ou modèle hors connexion) est un modèle entraîné une seule fois, depuis un moment.
  • L'entraînement statique (ou entraînement hors ligne) est le processus qui consiste à entraîner statique.
  • L'inférence statique (ou inférence hors ligne) est une qui génère un lot de prédictions à la fois.

À comparer à dynamique.

inférence statique

#fundamentals

Synonyme d'inférence hors connexion.

stationnarité

#fundamentals

Caractéristique dont les valeurs ne changent pas selon une ou plusieurs dimensions, généralement le temps. Par exemple, une caractéristique dont les valeurs sont à peu près identiques en 2021 2023 montre la stationnarité.

Dans le monde réel, très peu d'éléments sont stationnaires. Les fonctionnalités synonyme de stabilité (comme le niveau de la mer) évolue au fil du temps.

À comparer à la non stationnarité.

étape

Propagation avant et arrière d'un lot.

Pour en savoir plus, consultez la section sur la rétropropagation. sur la propagation avant et en arrière.

taille de pas

Synonyme de taux d'apprentissage.

descente de gradient stochastique (SGD) (stochastic gradient descent (SGD))

#fundamentals

Algorithme de descente de gradient dans lequel le taille de lot est de un. En d'autres termes, SGD entraîne un seul exemple choisi de manière uniforme provenant d'un ensemble d'entraînement.

stride

#image

Dans une opération convolutive ou un pooling, le delta dans chaque dimension de la de tranches d'entrée. Par exemple, l'animation suivante présente un pas de (1,1) lors d'une opération convolutive. Par conséquent, la tranche d'entrée suivante commence une position à droite de l'entrée précédente tranche. Lorsque l'opération atteint le bord droit, la tranche suivante vers la gauche, mais une position vers le bas.

Une matrice d&#39;entrée 5x5 et un filtre convolutif 3x3. En effet,
     de foulée est de (1,1), un filtre convolutif sera appliqué 9 fois. Le premier
     La tranche convolutive évalue la sous-matrice 3x3 située en haut à gauche de l&#39;entrée
     matricielle. La deuxième tranche évalue la taille 3x3 située en haut au milieu
     sous-matrice. La troisième tranche convolutive évalue la partie supérieure droite 3x3
     sous-matrice.  La quatrième tranche évalue la sous-matrice 3x3 du milieu-gauche.
     La cinquième tranche évalue la sous-matrice 3x3 centrale. Le sixième segment
     évalue la sous-matrice 3x3 au milieu et à droite. La septième tranche évalue
     la sous-matrice 3x3 
en bas à gauche.  La huitième tranche évalue le
     sous-matrice 3x3 au milieu inférieur. La neuvième tranche évalue la tranche 3x3 en bas à droite
     sous-matrice.

L'exemple précédent illustre un pas bidimensionnel. Si l'entrée matricielle est en trois dimensions, le pas serait également tridimensionnel.

Minimisation du risque structurel (SRM)

Algorithme qui concilie deux objectifs:

  • Besoin de créer le modèle le plus prédictif (par exemple, perte la plus faible).
  • La nécessité de garder le modèle aussi simple que possible (par exemple, des valeurs fortes régularisation par régularisation).

Par exemple, une fonction qui minimise la perte et la régularisation sur la est un algorithme de minimisation du risque structurel.

À comparer à la minimisation du risque empirique.

sous-échantillonnage

#image

Voir pooling.

jeton de sous-mot

#language

Dans les modèles de langage, un jeton qui est un sous-chaîne d'un mot, qui peut être le mot entier.

Par exemple, un mot comme "résumer" peut être décomposé en parties "item" (mot racine) et "ize" (un suffixe), chacun étant représenté par son propre à partir d'un jeton d'accès. La division de mots inhabituels en de tels éléments, appelés sous-mots, permet des modèles de langage pour fonctionner sur les composants les plus courants d'un mot, comme les préfixes et les suffixes.

À l'inverse, des mots courants tels que "participant" ne sont peut-être pas séparées et peuvent être représentées par un jeton unique.

résumé

#TensorFlow

Dans TensorFlow, une valeur ou un ensemble de valeurs calculées à un niveau step, généralement utilisé pour suivre les métriques du modèle pendant l'entraînement.

machine learning supervisé

#fundamentals

Entraîner un modèle à partir de caractéristiques et de leurs les libellés correspondants. Le machine learning supervisé est comparable à l'apprentissage d'un sujet en étudiant une série de questions les réponses correspondantes. Après avoir maîtrisé la correspondance entre les questions et réponses, un élève peut ensuite fournir des réponses à de nouvelles questions sur le même sujet.

Comparer avec machine learning non supervisé.

caractéristique synthétique

#fundamentals

Une caractéristique absente des caractéristiques d'entrée, mais assemblés à partir d'un ou de plusieurs d'entre eux. Méthodes de création de caractéristiques synthétiques incluent les éléments suivants:

  • Binning d'une caractéristique continue dans des bins de plage
  • Créer un croisement de caractéristiques
  • Multiplier (ou diviser) une valeur de caractéristique par d'autres valeurs ou seul. Par exemple, si a et b sont des caractéristiques d'entrée, Voici des exemples de caractéristiques synthétiques: <ph type="x-smartling-placeholder">
      </ph>
    • ab
    • A2
  • Application d'une fonction transcendante à une valeur de caractéristique Par exemple, si c est une caractéristique d'entrée, voici des exemples de caractéristiques synthétiques:
    • sin(c)
    • ln(c)

Fonctionnalités créées par normalisation ou scaling ne sont pas considérés comme des caractéristiques synthétiques.

T

T5

#language

Modèle d'apprentissage par transfert texte-vers-texte présenté par L'IA de Google en 2020. T5 est un modèle d'encodeur-décodeur, basé sur le architecture Transformer, entraînée sur un modèle de machine learning ensemble de données. Il est efficace pour diverses tâches de traitement du langage naturel, comme générer du texte, traduire des langues et répondre à des questions de manière conversationnelle.

Le T5 tire son nom des cinq T de "Text-to-Text Transfer Transformer" (Transformateur de transfert de texte en texte).

T5X

#language

Un framework de machine learning Open Source conçu pour créer et entraîner des modèles de traitement du langage naturel à grande échelle (TLN). T5 est implémenté sur le codebase T5X (qui est basé sur JAX et Flax).

Q-learning tabulaire

#rl

Dans l'apprentissage par renforcement, l'implémentation Q-learning en utilisant une table pour stocker les Les fonctions Q pour chaque combinaison de state et action.

cible

Synonyme de libellé.

réseau cible

#rl

Dans le deep Q-learning, un réseau de neurones est un réseau de neurones approximation du réseau de neurones principal, où celui-ci met en œuvre une fonction Q ou une règle. Vous pouvez ensuite entraîner le réseau principal sur les valeurs q prédites par la cible réseau. Vous évitez donc la boucle de rétroaction qui se produit lorsque est entraîné sur les valeurs q prédites par lui-même. En évitant ce feedback, la stabilité de l'entraînement augmente.

opération

Un problème qui peut être résolu à l'aide de techniques de machine learning, par exemple:

température

#language
#image
#generativeAI

Un hyperparamètre qui contrôle le degré de hasard de la sortie d'un modèle. Des températures plus élevées entraînent un résultat plus aléatoire, tandis que des températures plus basses produisent moins de résultats aléatoires.

Le choix de la température optimale dépend de l'application et les propriétés privilégiées de la sortie du modèle. Par exemple, vous devez augmentera probablement la température lors de la création d'une application génère le résultat de la création. À l'inverse, vous allez probablement baisser la température lors de la création d'un modèle qui classe des images ou du texte afin d'améliorer la justesse et la cohérence du modèle.

La température est souvent utilisée avec softmax.

données temporelles

Données enregistrées à différents moments dans le temps. Par exemple, les promotions de manteaux d'hiver enregistrées pour chaque jour de l'année seraient des données temporelles.

Tensor

#TensorFlow

Structure de données principale des programmes TensorFlow. Les Tensors sont à N dimensions (où N pourrait être très grand) des structures de données, le plus souvent des scalaires, des vecteurs ou des matrices. Les éléments d'un Tensor peuvent contenir un nombre entier, ou des valeurs de chaîne.

TensorBoard

#TensorFlow

Tableau de bord qui affiche les résumés enregistrés pendant l'exécution d'un ou d'autres programmes TensorFlow.

TensorFlow

#TensorFlow

Plate-forme de machine learning distribuée à grande échelle. Le terme fait également référence à la couche API de base de la pile TensorFlow, qui est compatible avec les calculs généraux sur les graphes Dataflow.

Bien que TensorFlow soit principalement utilisé pour le machine learning, vous pouvez également utiliser TensorFlow pour les tâches autres que le ML qui nécessitent des calculs numériques à l'aide de graphiques Dataflow.

TensorFlow Playground

#TensorFlow

Un programme qui permet de visualiser les différentes Les hyperparamètres influencent le modèle (principalement un réseau de neurones). Accéder à <ph type="x-smartling-placeholder"></ph> http://playground.tensorflow.org pour tester TensorFlow Playground.

TensorFlow Serving

#TensorFlow

Plate-forme permettant de déployer des modèles entraînés en production.

Tensor Processing Unit (TPU)

#TensorFlow
#GoogleCloud

Un circuit intégré propre à une application (ASIC) qui optimise le des charges de travail de machine learning. Ces ASIC sont déployés en tant que plusieurs puces TPU sur un appareil TPU.

rang de Tensor

#TensorFlow

Voir rang (Tensor).

forme de Tensor

#TensorFlow

Nombre d'éléments qu'un Tensor contient dans différentes dimensions. Par exemple, un Tensor [5, 10] a une forme de 5 dans une dimension et de 10 dans un autre.

Taille de Tensor

#TensorFlow

Nombre total de scalaires d'un Tensor. Par exemple, un [5, 10] Tensor a une taille de 50.

TensorStore

Une bibliothèque pour lire et gérer efficacement l'écriture de grands tableaux multidimensionnels.

condition de résiliation

#rl

Dans l'apprentissage par renforcement, les conditions déterminer la fin d'un épisode, par exemple lorsque l'agent arrive un certain état ou dépasse un certain nombre de transitions d'états. Par exemple, dans un morceau de morpion (également appelé (appelées "noughts and crosss"), un épisode se termine lorsqu'un joueur marque trois espaces consécutifs ou lorsque tous les espaces sont marqués.

test

#df

Dans un arbre de décision, un autre nom condition [état].

perte d'évaluation

#fundamentals

Une métrique représentant la perte d'un modèle par rapport à l'ensemble de test. Lorsque vous créez un modèle, vous essaient généralement de minimiser la perte d'évaluation. En effet, une faible perte d'évaluation un signal de qualité plus fort qu'une faible perte d'entraînement ou une faible perte de validation.

Écart important entre la perte d'évaluation et la perte d'entraînement ou de validation, parfois suggère que vous devez augmenter taux de régularisation.

ensemble de test

Un sous-ensemble de l'ensemble de données réservé aux tests un modèle entraîné.

Habituellement, vous divisez les exemples de l'ensemble de données en trois catégories : des sous-ensembles distincts:

Chaque exemple d'un ensemble de données ne doit appartenir qu'à l'un des sous-ensembles précédents. Par exemple, un exemple ne doit pas appartenir à la fois à l'ensemble d'entraînement et l'ensemble de test.

L'ensemble d'entraînement et l'ensemble de validation sont tous deux étroitement liés à l'entraînement d'un modèle. Comme l'ensemble de test n'est associé qu'indirectement à l'entraînement, La perte de test est une métrique moins biaisée et de meilleure qualité que perte d'entraînement ou perte de validation.

espace de texte

#language

Intervalle d'index du tableau associé à une sous-section spécifique d'une chaîne de texte. Par exemple, le mot good dans la chaîne Python s="Be good now" occupe du texte s’étend de 3 à 6.

tf.Example

#TensorFlow

Une norme <ph type="x-smartling-placeholder"></ph> tampon de protocole permettant de décrire les données d'entrée pour l'inférence ou l'entraînement d'un modèle de machine learning.

tf.keras

#TensorFlow

Implémentation de Keras intégrée dans TensorFlow

seuil (pour les arbres de décision)

#df

Dans une condition alignée sur l'axe, la valeur qu'une feature est en cours de comparaison. Par exemple, 75 correspond au seuil dans la condition suivante:

grade >= 75

analyse de séries temporelles

#clustering

Sous-domaine du machine learning et des statistiques qui analyse données temporelles. De nombreux types de machine learning les problèmes nécessitent une analyse de séries temporelles, y compris la classification, le clustering, les prévisions et la détection d'anomalies. Par exemple, vous pouvez utiliser Analyse de séries temporelles pour prévoir les ventes futures de manteaux d'hiver par mois en fonction de l'historique des données de vente.

pas de temps

#seq

Une ligne "déroulée" cellule d'une réseau de neurones récurrent. Par exemple, la figure suivante montre trois étapes (identifiées par les indices t-1, t et t+1):

Trois étapes dans un réseau de neurones récurrent. La sortie de la fonction
          first timestep devient l&#39;entrée du deuxième timestep. Le résultat
          du deuxième pas devient l&#39;entrée du troisième.

jeton

#language

Dans un modèle de langage, unité atomique du modèle. l'entraînement et la réalisation de prédictions. Un jeton est généralement suivantes:

  • un mot, par exemple l'expression "des chiens comme des chats" ; se compose de trois mots jetons : "chiens", "aime" et "chats".
  • Un caractère (par exemple, l'expression "poisson vélo") se compose de neuf des jetons de caractères. (Notez que l'espace vide compte comme un jeton.)
  • sous-mots, dans lesquels un seul mot peut être un ou plusieurs jetons. Un sous-mot est constitué d'une racine, d'un préfixe ou d'un suffixe. Par exemple : un modèle de langage qui utilise des sous-mots comme jetons peut voir le mot "chiens" sous forme de deux jetons (la racine du mot "chien" et le suffixe pluriel "s"). Ce même le modèle de langage pourrait voir le mot "plus grand" sous la forme de deux sous-mots racine du mot "grand" et le suffixe "er").

Dans les domaines en dehors des modèles de langage, les jetons peuvent représenter d'autres types de et des unités atomiques. Par exemple, dans la vision par ordinateur, un jeton peut être un sous-ensemble d'une image.

tour

Composant d'un réseau de neurones profond un réseau de neurones profond. Dans certains cas, chaque tour lit les données source de données indépendante, et ces tours restent indépendantes jusqu'à ce que leur la sortie est combinée dans une couche finale. Dans d'autres cas, la tour d'encodeur et de décodeur de nombreux transformateurs), les tours ont des connexions croisées les uns aux autres.

TPU

#TensorFlow
#GoogleCloud

Abréviation de Tensor Processing Unit.

Puce TPU

#TensorFlow
#GoogleCloud

Accélérateur d'algèbre linéaire programmable avec mémoire à bande passante élevée sur puce optimisé pour les charges de travail de machine learning. Plusieurs puces TPU sont déployées sur un appareil TPU.

appareil TPU

#TensorFlow
#GoogleCloud

Un circuit imprimé (PCB) doté de plusieurs puces TPU les interfaces réseau à bande passante élevée et le matériel de refroidissement du système.

maître TPU

#TensorFlow
#GoogleCloud

Le processus de coordination central s’exécutant sur une machine hôte qui envoie et reçoit des données, des résultats, des programmes, des performances et des informations sur l'état du système aux nœuds de calcul TPU. Le maître TPU gère aussi la configuration et à l'arrêt des appareils TPU.

Nœud TPU

#TensorFlow
#GoogleCloud

une ressource TPU sur Google Cloud avec une Type de TPU. Le nœud TPU se connecte à votre réseau VPC à partir d'un réseau VPC appairé. Les nœuds TPU sont des ressources définies API Cloud TPU.

Pod TPU

#TensorFlow
#GoogleCloud

Une configuration spécifique d'appareils TPU dans une couche dans un centre de données. Tous les appareils d'un pod TPU sont connectés les uns aux autres. sur un réseau haut débit dédié. Un pod TPU est la plus grande configuration Appareils TPU disponibles pour une version de TPU spécifique.

Ressource TPU

#TensorFlow
#GoogleCloud

Entité TPU sur Google Cloud que vous créez, gérez ou consommez. Pour exemple, les nœuds TPU et les types de TPU sont ressources TPU.

Tranche TPU

#TensorFlow
#GoogleCloud

Une tranche TPU est une partie fractionnaire des appareils TPU de un pod TPU. Tous les appareils d'une tranche TPU sont connectés les uns des autres sur un réseau haut débit dédié.

Type de TPU

#TensorFlow
#GoogleCloud

Une configuration d'un ou de plusieurs appareils TPU avec un élément Version du matériel TPU. Vous sélectionnez un type de TPU lorsque vous créez un nœud TPU sur Google Cloud. Par exemple, un v2-8 Le type de TPU est un appareil TPU v2 unique doté de huit cœurs. Un type de TPU v3-2048 possède 256 des appareils TPU v3 en réseau et un total de 2 048 cœurs. Les types de TPU sont des ressources définis dans le API Cloud TPU.

Travailleur TPU

#TensorFlow
#GoogleCloud

Processus qui s'exécute sur une machine hôte et exécute des programmes de machine learning sur les appareils TPU.

entraînement

#fundamentals

Processus consistant à déterminer les paramètres idéaux (pondérations et biais) comprenant un modèle. Pendant l'entraînement, un système lit exemples et ajuste progressivement les paramètres. L'entraînement utilise chaque de plusieurs fois à des milliards de fois.

perte d'entraînement

#fundamentals

Une métrique représentant la perte d'un modèle au cours d'une une itération d'entraînement particulière. Par exemple, supposons que la fonction de perte est l'erreur quadratique moyenne. La perte d'entraînement (moyenne erreur quadratique) pour la 10e itération est de 2,2, et la perte d'entraînement pour la 100e itération est 1,9.

Une courbe de perte représente la perte d'entraînement par rapport au nombre de itérations. La courbe de fonction de perte fournit les indications suivantes concernant l'entraînement:

  • Une pente descendante implique une amélioration du modèle.
  • Une pente ascendante implique que le modèle s'aggrave.
  • Une pente plate signifie que le modèle a atteint convergence :

Par exemple, la courbe de perte suivante, relativement idéalisée, affiche:

  • Une forte pente descendante lors des itérations initiales, ce qui implique une amélioration rapide des modèles.
  • Une pente qui s'aplatit progressivement (mais toujours vers le bas) jusqu'au bout de l'entraînement, ce qui implique une amélioration continue du modèle à un rythme à un rythme plus lent que lors des itérations initiales.
  • Pente plate vers la fin de l'entraînement, qui indique une convergence.

Graphique représentant la perte d&#39;entraînement par rapport aux itérations. Cette courbe de fonction de perte commence
     avec une forte pente. La pente s&#39;aplatit progressivement jusqu&#39;à
     passe à zéro.

Bien que la perte d'entraînement soit importante, consultez également généralisation.

décalage entraînement/inférence

#fundamentals

La différence entre les performances d'un modèle l'entraînement et les performances de ce même modèle diffusion.

ensemble d'entraînement

#fundamentals

Sous-ensemble de l'ensemble de données utilisé pour entraîner un modèle.

Traditionnellement, les exemples de l'ensemble de données sont divisés selon les trois des sous-ensembles distincts:

Idéalement, chaque exemple de l'ensemble de données ne doit appartenir qu'à l'un des sous-ensembles précédents. Par exemple, un seul exemple ne doit pas appartenir l'ensemble d'entraînement et l'ensemble de validation.

trajectoire

#rl

Dans l'apprentissage par renforcement, une séquence de tuples qui représentent Une séquence de transitions d'état de l'agent où chaque tuple correspond à l'état, action, récompense et l'état suivant pour une transition d'état donnée.

apprentissage par transfert

Transfert d'informations d'une tâche de machine learning à une autre Par exemple, dans un apprentissage multitâche, un seul modèle résout plusieurs tâches, tel qu'un modèle profond comportant différents nœuds de sortie différentes tâches. L'apprentissage par transfert peut impliquer le transfert de connaissances de la solution d’une tâche plus simple à une tâche plus complexe, ou impliquer transférer les connaissances d'une tâche contenant plus de données vers une tâche où il y a moins de données.

La plupart des systèmes de machine learning résolvent une seule tâche. L'apprentissage par transfert un pas vers l'intelligence artificielle, qu'un seul programme peut résoudre plusieurs tâches.

Transformer

#language

Une architecture de réseau de neurones développée par Google s'appuie sur les mécanismes d'auto-attention pour transformer séquence de représentations vectorielles continues d'entrée dans une séquence de sorties des représentations vectorielles continues sans utiliser de convolutions ou réseaux de neurones récurrents. Un modèle Transformer peut être comme une pile de couches d'auto-attention.

Un objet Transformer peut inclure l'un des éléments suivants:

Un encodeur transforme une séquence de représentations vectorielles continues en une nouvelle séquence du de même durée. Un encodeur comprend N couches identiques, chacune contenant deux couches sous-jacents. Ces deux sous-couches sont appliquées à chaque position de l'entrée de représentations vectorielles continues, transformant chaque élément de la séquence en un nouveau la représentation vectorielle continue. La première sous-couche d'encodeur regroupe les informations de la séquence d'entrée. La deuxième sous-couche d'encodeur transforme les données agrégées des informations dans une représentation vectorielle continue de sortie.

Un décodeur transforme une séquence de représentations vectorielles continues d'entrée en une séquence de des représentations vectorielles continues de sortie, éventuellement avec une longueur différente. Un décodeur inclut également N couches identiques comportant trois sous-couches, dont deux sont semblables aux les sous-couches de l'encodeur. La troisième sous-couche de décodeur prend la sortie et applique le mécanisme d'auto-attention aux pour recueillir des informations.

L'article de blog Transformer: A Novel Neural Network Architecture for Language Comprendre constitue une bonne introduction aux modèles Transformer.

invariance par traduction

#image

Dans un problème de classification d'images, la capacité d'un algorithme à classer des images même lorsque la position des objets dans l'image change. Par exemple, l'algorithme peut toujours identifier un chien, qu'il se trouve dans centre du cadre ou à l'extrémité gauche du cadre.

Voir aussi invariance par taille et invariance rotationnelle.

trigramme

#seq
#language

Un N-gramme dans lequel N=3.

vrai négatif (VN)

#fundamentals

Exemple dans lequel le modèle prédit correctement la classe négative. Par exemple, le modèle déduit que un e-mail spécifique n'est pas un spam, et qu'il est vraiment non-spam.

vrai positif (VP)

#fundamentals

Exemple dans lequel le modèle prédit correctement la classe positive. Par exemple, le modèle déduit que un e-mail particulier est un spam, et cet e-mail est vraiment un spam.

taux de vrais positifs (TPR)

#fundamentals

Synonyme de rappel. Par exemple :

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

Le taux de vrais positifs correspond à l'axe des ordonnées d'une courbe ROC.

U

méconnaissance (à un attribut sensible)

#fairness

Situation dans laquelle des attributs sensibles sont sont présentes, mais ne sont pas incluses dans les données d'entraînement. Comme les attributs sensibles sont souvent corrélées avec d'autres attributs de données, un modèle entraîné sans connaître un attribut sensible un impact disparate en ce qui concerne cet attribut, ou qui enfreignent d'autres contraintes d'équité.

sous-apprentissage

#fundamentals

Produire un modèle avec une faible capacité de prédiction, car il la complexité des données d'entraînement n'a pas été entièrement prise en compte. Beaucoup de problèmes peut entraîner un sous-apprentissage, y compris dans les cas suivants:

sous-échantillonnage

Suppression des exemples du classe majoritaire un ensemble de données avec déséquilibre des classes pour créer un ensemble d'entraînement plus équilibré.

Prenons l'exemple d'un ensemble de données dans lequel le ratio de la classe majoritaire la classe minoritaire est 20:1. Pour surmonter ce cours déséquilibre, vous pouvez créer un ensemble de formation comprenant toutes les minorités mais seulement un dixième des exemples de classe majoritaire, ce qui pour créer un ratio de classe d'ensemble d'entraînement de 2:1. Grâce au sous-échantillonnage, un ensemble d'entraînement équilibré pourrait produire un meilleur modèle. Vous pouvez également un ensemble d'entraînement plus équilibré peut ne pas contenir suffisamment d'exemples pour entraîner efficace.

À comparer au suréchantillonnage.

unidirectionnel

#language

Système qui évalue uniquement le texte qui précéde une section de texte cible. En revanche, un système bidirectionnel évalue à la fois Texte qui précéde et suit une section de texte cible. Pour en savoir plus, consultez la section Bidirectionnel.

modèle de langage unidirectionnel

#language

Un modèle de langage qui base ses probabilités uniquement sur le Les jetons apparaissent avant, et non après, le ou les jetons cibles. À comparer au modèle de langage bidirectionnel.

exemple sans étiquette

#fundamentals

Exemple contenant des caractéristiques, mais pas de étiquette. Par exemple, le tableau suivant présente trois exemples sans étiquette provenant d'une maison d'évaluation, chacun avec trois caractéristiques, mais pas de valeur immobilière:

Nombre de chambres Nombre de salles de bain Âge du foyer
3 2 15
2 1 72
4 2 34

En machine learning supervisé, les modèles sont entraînés à partir d'exemples étiquetés et effectuent des prédictions exemples sans étiquette.

Dans les environnements semi-supervisés et l'apprentissage non supervisé, les exemples sans étiquette sont utilisés pendant l'entraînement.

Comparez l'exemple sans étiquette avec l'exemple étiqueté.

machine learning non supervisé

#clustering
#fundamentals

L'entraînement d'un modèle pour détecter des tendances dans un ensemble de données, généralement sans étiquette.

L'utilisation la plus courante du machine learning non supervisé consiste à Données de cluster en groupes d'exemples similaires. Par exemple, une machine non supervisée peut regrouper les chansons en fonction de diverses propriétés de la musique. Les clusters obtenus peuvent servir d'entrée à d'autres systèmes d'apprentissage automatique (vers un service de recommandation de musique, par exemple). Le clustering peut être utile lorsque les étiquettes utiles sont rares ou absentes. Par exemple, dans des domaines tels que la lutte contre les utilisations abusives et la fraude, les clusters peuvent aider les humains à mieux comprendre les données.

À comparer au machine learning supervisé.

modélisation de l'amélioration

Technique de modélisation, couramment utilisée en marketing, qui modélise "effet causal" (également appelé "impact incrémentiel") d'un "traitement" sur une « personne ». Voici deux exemples :

  • Les médecins peuvent utiliser la modélisation de l'amélioration pour prédire la baisse de la mortalité (effet causal) d'une procédure médicale (traitement) en fonction du l'âge et le dossier médical d'un patient (individuel).
  • Les marketeurs peuvent utiliser la modélisation de l'amélioration Probabilité d'achat (effet causal) en raison d'une publicité (traitement) sur une personne (individuel).

La modélisation de l'impact diffère de la classification ou régression en ce que certaines étiquettes (par exemple, la moitié des étiquettes dans les traitements binaires) sont toujours absentes dans la modélisation de l'amélioration. Par exemple, un patient peut recevoir ou non un traitement. nous pouvons seulement observer si le patient va guérir ne guérissent pas dans une seule de ces deux situations (mais jamais les deux). Le principal avantage d'un modèle d'amélioration est qu'il peut générer des prédictions la situation non observée (la situation contrefactuelle) et l'utiliser pour calculer l’effet causal.

surpondération

Appliquer une pondération à la classe sous-échantillonnée égale à au facteur de sous-échantillonnage.

matrice utilisateurs

#recsystems

Dans les systèmes de recommandation, une vecteur de représentation vectorielle continue généré par factorisation matricielle contenant des signaux latents sur les préférences des utilisateurs. Chaque ligne de la matrice utilisateurs contient des informations sur les l'intensité de divers signaux latents pour un même utilisateur. Prenons l'exemple d'un système de recommandation de films. Dans ce système, les signaux latents dans la matrice utilisateurs peuvent représenter les intérêts de chaque utilisateur en particulier, ou il peut s'agir de signaux plus difficiles à interpréter qui impliquent des interactions complexes selon plusieurs facteurs.

La matrice utilisateurs comporte une colonne pour chaque caractéristique latente et une ligne pour chaque utilisateur. C'est-à-dire que la matrice utilisateurs a le même nombre de lignes que la cible de la matrice qui est factorisée. Par exemple, pour un film système de recommandation de 1 000 000 d'utilisateurs, la matrice utilisateurs contiendra 1 000 000 de lignes.

V

validation

#fundamentals

Évaluation initiale de la qualité d'un modèle. La validation vérifie la qualité des prédictions d'un modèle par rapport ensemble de validation.

Comme l'ensemble de validation est différent de l'ensemble d'entraînement, permet d'éviter le surapprentissage.

L'évaluation du modèle par rapport à l'ensemble de validation la première série de tests et l'évaluation du modèle ensemble de test comme deuxième série de tests.

perte de validation

#fundamentals

Une métrique représentant la perte d'un modèle sur l'ensemble de validation lors d'une itération d'entraînement.

Voir aussi Courbe de généralisation.

ensemble de validation

#fundamentals

Sous-ensemble de l'ensemble de données qui effectue les opérations initiales une évaluation par rapport à un modèle entraîné. En général, vous évaluez le modèle entraîné par rapport à l'ensemble de validation plusieurs fois avant d'évaluer le modèle par rapport à l'ensemble de test.

Traditionnellement, vous divisez les exemples de l'ensemble de données en trois catégories des sous-ensembles distincts:

Idéalement, chaque exemple de l'ensemble de données ne doit appartenir qu'à l'un des sous-ensembles précédents. Par exemple, un seul exemple ne doit pas appartenir l'ensemble d'entraînement et l'ensemble de validation.

imputation de valeur

Processus consistant à remplacer une valeur manquante par un substitut acceptable. Lorsqu'une valeur est manquante, vous pouvez soit supprimer l'exemple entier, soit vous utiliser l'imputation de valeur pour récupérer l'exemple.

Prenons l'exemple d'un ensemble de données contenant une caractéristique temperature est censé être enregistré toutes les heures. Cependant, la température relevée a été indisponible pendant une heure donnée. Voici une section de l'ensemble de données:

Horodatage Température
1680561000 10
1680564600 12
1680568200 missing
1680571800 20
1680575400 21
1680579000 21

Un système peut soit supprimer l'exemple manquant, soit imputer l'exemple manquant une température de 12, 16, 18 ou 20, en fonction de l'algorithme d'imputation.

problème de disparition du gradient

#seq

Tendance des dégradés des premières couches cachées de certains réseaux de neurones profonds étonnamment plat (faible). Avec des gradients de plus en plus faibles, des variations plus faibles des pondérations des nœuds dans un réseau de neurones profond, peu ou pas d’apprentissage. Modèles présentant le problème de la disparition du gradient deviennent difficiles, voire impossibles, à entraîner. Les cellules de mémoire à court terme permettent de résoudre ce problème.

À comparer au problème de gradient explosif.

importances des variables

#df

Un ensemble de scores indiquant l'importance relative de chaque feature au modèle.

Prenons l'exemple d'un arbre de décision qui estime le prix des maisons. Supposons que cet arbre de décision utilise les caractéristiques: taille, âge et style. Si un ensemble d'importances variables pour les trois caractéristiques sont calculées {size=5.8, age=2.5, style=4.7}, alors la taille est plus importante pour le que l'âge ou le style.

Différentes métriques d'importance des variables existent, ce qui peut éclairer des experts en ML sur différents aspects des modèles.

Auto-encodeur variationnel (VAE)

#language

Type d'auto-encodeur qui exploite l'écart entre les entrées et les sorties pour générer des versions modifiées des entrées. Les auto-encodeurs variationnels sont utiles pour l'IA générative.

Les VAE sont basées sur l'inférence variationnelle: une technique permettant d'estimer paramètres d'un modèle de probabilité.

vecteur

Terme très complexe dont le sens varie selon les fonctions mathématiques et scientifiques. En machine learning, un vecteur possède deux propriétés:

  • Type de données: en machine learning, les vecteurs contiennent généralement des nombres à virgule flottante.
  • Nombre d'éléments: il s'agit de la longueur du vecteur ou de sa dimension.

Prenons l'exemple d'un vecteur de caractéristiques contenant huit les nombres à virgule flottante. Ce vecteur de caractéristiques a une longueur ou une dimension de huit. Notez que les vecteurs de machine learning comportent souvent un très grand nombre de dimensions.

Vous pouvez représenter de nombreux types d'informations différents sous forme de vecteur. Exemple :

  • Toute position sur la surface de la Terre peut être représentée sous la forme d'un graphique vecteur, où une dimension est la latitude et l'autre la longitude.
  • Le cours actuel de chacune des 500 actions peut être représenté sous la forme de 500 dimensions.
  • On peut représenter une distribution de probabilité sur un nombre fini de classes en tant que vecteur. Par exemple, un un système de classification à classes multiples qui prédit qu'une des trois couleurs de sortie (rouge, vert ou jaune) pourrait générer la sortie vecteur (0.3, 0.2, 0.5) pour signifier P[red]=0.3, P[green]=0.2, P[yellow]=0.5.

Les vecteurs peuvent être concaténés. C'est pourquoi divers supports peuvent être représentée par un vecteur unique. Certains modèles fonctionnent directement sur le la concaténation de nombreux encodages one-hot.

Des processeurs spécialisés tels que les TPU sont optimisés pour les opérations mathématiques sur les vecteurs.

Un vecteur est un tensor de rang 1.

W

Perte de Wasserstein

L'une des fonctions de perte couramment utilisées dans réseaux antagonistes génératifs en fonction de la distance entre l'appareil la distribution des données générées et des données réelles.

weight

#fundamentals

Valeur multipliée par un modèle par une autre. L'entraînement est le processus qui consiste à déterminer les pondérations idéales d'un modèle. L'inférence consiste à utiliser les pondérations apprises pour faire des prédictions.

moindres carrés alternés pondérés (WALS)

#recsystems

Algorithme qui permet de minimiser la fonction objectif pendant la factorisation matricielle dans grâce aux systèmes de recommandation, les exemples manquants. La méthode WALS minimise la valeur l'erreur quadratique entre la matrice d'origine et la reconstruction en alternant la correction de la factorisation des lignes et celle des colonnes. Chacune de ces optimisations peut être résolue par les moindres carrés optimisation convexe. Pour en savoir plus, consultez les Recommendation Systems (Systèmes de recommandation).

Somme pondérée

#fundamentals

La somme de toutes les valeurs d'entrée pertinentes multipliée par les valeurs les pondérations. Par exemple, supposons que les entrées pertinentes se composent des éléments suivants:

valeur d'entrée pondération d'entrée
2 -1,3
-1 0,6
3 0,4

La somme pondérée est donc:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Une somme pondérée est l'argument d'entrée d'une fonction d'activation.

modèle wide learning

Un modèle linéaire qui comporte généralement de nombreuses caractéristiques d'entrée creuses. Nous l'appelons « large » depuis un tel modèle est un type particulier de réseau de neurones, un grand nombre d'entrées qui se connectent directement au nœud de sortie. Modèles wide learning sont souvent plus faciles à déboguer et à inspecter que les modèles profonds. Bien que les modèles larges ne peuvent pas exprimer de non-linéarités à l'aide de couches cachées ; les modèles larges peuvent utiliser des transformations le croisement de caractéristiques et binning pour modéliser les non-linéarités de différentes manières.

À comparer au modèle profond.

largeur

Nombre de neurones dans une couche particulière d'un réseau de neurones.

la sagesse de la foule

#df

l’idée que la moyenne des opinions ou des estimations d’un grand groupe de personnes ("la foule") produit souvent des résultats étonnamment bons. Prenons l'exemple d'un jeu dans lequel les utilisateurs devineront des bonbons emballés dans un grand bocal. Bien que la plupart des individus les suppositions seront inexactes, la moyenne de toutes les suppositions empiriquement avéré être étonnamment proche du nombre réel de des bonbons dans le bocal.

Les ensembles sont l'équivalent logiciel de la sagesse du public. Même si des modèles individuels émettent des prédictions très imprécises, la moyenne des prédictions de nombreux modèles génère souvent de bonnes prédictions. Par exemple, même si un individu arbre de décision peut faire de mauvaises prédictions, La forêt de décision permet souvent d'obtenir de très bonnes prédictions.

représentation vectorielle continue de mots

#language

Représentation de chaque mot d'un ensemble de mots dans une vecteur de représentation vectorielle continue; représentant chaque mot comme un vecteur de valeurs à virgule flottante compris entre 0,0 et 1,0. Mots similaires les significations ont des représentations plus similaires que les mots ayant des significations différentes. Par exemple, carottes, celery et concombres auraient tous une valeur relativement qui sont très différentes des représentations avion, lunettes de soleil et dentifrice.

X

XLA (Accelerated Linear Algebra)

Compilateur de machine learning Open Source pour les GPU, les processeurs et les accélérateurs de ML.

Le compilateur XLA utilise des modèles issus de frameworks de ML populaires tels que PyTorch TensorFlow et JAX, et les optimise pour une exécution hautes performances sur différentes plates-formes matérielles, GPU, processeurs et accélérateurs de ML

Z

apprentissage zero-shot

Type d'entraînement de machine learning dans lequel le Le modèle déduit une prédiction pour une tâche. sur lesquels il n'a pas été spécifiquement entraîné. En d'autres termes, le modèle ne reçoit aucun exemple de formation spécifique à une tâche, mais lui demande d'effectuer des inférences pour cette tâche.

requête zero-shot

#language
#generativeAI

Une requête qui ne fournit pas un exemple de la façon dont vous souhaitez le grand modèle de langage à répondre. Exemple :

Composantes d'une requête Remarques
Quelle est la devise officielle du pays spécifié ? Question à laquelle le LLM doit répondre.
Inde : La requête réelle.

Le grand modèle de langage peut répondre avec l'un des éléments suivants:

  • Roupie
  • INR
  • Roupie indienne
  • Roupie
  • Roupie indienne

Toutes les réponses sont correctes, mais vous pouvez préférer un format particulier.

Indiquer les points communs et les différences entre les requêtes zero-shot et les termes suivants:

Normalisation du score Z

#fundamentals

Technique de mise à l'échelle qui remplace une la valeur de feature avec une valeur à virgule flottante représentant le nombre d'écarts types par rapport à la moyenne de cette caractéristique. Prenons l'exemple d'une caractéristique dont la moyenne est 800 et dont la norme est de 100. Le tableau suivant montre comment la normalisation du score Z mapperait la valeur brute à son z-score:

Valeur brute Score Z
800 0
950 +1,5
575 -2,25

Le modèle de machine learning s'entraîne ensuite sur les cotes Z pour cette caractéristique plutôt que sur les valeurs brutes.