Glossaire du machine learning: modèles d'images

Cette page contient des termes du glossaire des modèles d'image. Pour voir tous les termes du glossaire, cliquez ici.

A

réalité augmentée

#image

Technologie qui superpose une image générée par ordinateur à la vue d'un utilisateur du monde réel, fournissant ainsi une vue composite.

auto-encodeur

#language
#image

Système qui apprend à extraire les informations les plus importantes de l'entrée. Les auto-encodeurs combinent un encodeur et un décodeur. Les auto-encodeurs s'appuient sur le processus en deux étapes suivant:

  1. L'encodeur mappe l'entrée dans un format (généralement) avec perte de dimension inférieure (intermédiaire).
  2. Le décodeur crée une version avec pertes de l'entrée d'origine en mappant le format de dimension inférieure au format d'entrée d'origine de dimension supérieure.

Les auto-encodeurs sont entraînés de bout en bout en faisant en sorte que le décodeur tente de reconstruire l'entrée d'origine à partir de son format intermédiaire aussi fidèlement que possible. Comme le format intermédiaire est plus petit (de dimension inférieure) que le format d'origine, l'auto-encodeur est contraint d'apprendre quelles informations d'entrée sont essentielles. La sortie ne sera donc pas parfaitement identique à l'entrée.

Exemple :

  • Si les données d'entrée sont un graphique, la copie non exacte sera semblable au graphique d'origine, mais légèrement modifiée. Il se peut que la copie non exacte supprime le bruit de l'élément graphique d'origine ou remplace certains pixels manquants.
  • Si les données d'entrée sont du texte, un auto-encodeur génère un nouveau texte qui imite (mais n'est pas identique) le texte d'origine.

Consultez également la page consacrée aux auto-encodeurs variés.

modèle autorégressif

#language
#image
#IAgénérative

model qui infère une prédiction à partir de ses propres prédictions précédentes. Par exemple, les modèles de langage autorégressifs prédisent le jeton suivant en fonction des jetons précédemment prédits. Tous les grands modèles de langage basés sur Transformer sont autorégressifs.

En revanche, les modèles d'image basés sur le GAN ne sont généralement pas autorégressifs, car ils génèrent une image en une seule passe avant et non par étapes itérative. Cependant, certains modèles de génération d'images sont autorégressifs, car ils génèrent une image par étapes.

B

cadre de délimitation

#image

Dans une image, coordonnées (x, y) d'un rectangle autour d'une zone d'intérêt, comme le chien dans l'image ci-dessous.

Photographie d'un chien assis sur un canapé. Un cadre de délimitation vert avec les coordonnées en haut à gauche de (275, 1271) et les coordonnées en bas à droite de (2954, 2761) délimite le corps du chien

C

convolution

#image

En mathématiques, plus simplement, il s'agit d'un mélange de deux fonctions. En machine learning, une convolution mélange le filtre convolutif et la matrice d'entrée pour entraîner des pondérations.

En machine learning, le terme "convolution" est souvent une méthode abrégée qui désigne soit une opération convolutive, soit une couche convolutive.

Sans convolutions, un algorithme de machine learning devrait apprendre une pondération distincte pour chaque cellule d'un grand tenseur. Par exemple, un algorithme de machine learning entraîné sur des images 2K x 2K serait forcé de trouver 4 millions de pondérations distinctes. Grâce aux convolutions, un algorithme de machine learning ne doit trouver des pondérations que pour chaque cellule du filtre convolutif, ce qui réduit considérablement la mémoire nécessaire à l'entraînement du modèle. Lorsque le filtre convolutif est appliqué, il est simplement répliqué sur toutes les cellules de sorte que chacune d'elles soit multipliée par le filtre.

filtre convolutif

#image

L'un des deux acteurs d'une opération convolutive. (L'autre acteur est une tranche d'une matrice d'entrée.) Un filtre convolutif est une matrice de même rang que la matrice d'entrée, mais de forme plus petite. Par exemple, pour une matrice d'entrée de 28 x 28, le filtre peut être n'importe quelle matrice 2D d'une taille inférieure à 28 x 28.

Dans la manipulation photographique, toutes les cellules d'un filtre convolutif sont généralement définies sur un modèle constant de uns et de zéros. En machine learning, les filtres convolutifs contiennent généralement des nombres aléatoires, puis le réseau entraîne les valeurs idéales.

couche convolutive

#image

Couche d'un réseau de neurones profond dans laquelle un filtre convolutif transmet une matrice d'entrée. Prenons l'exemple du filtre convolutif 3 x 3 suivant:

Matrice 3x3 avec les valeurs suivantes: [[0,1,0], [1,0,1], [0,1,0]]

L'animation suivante montre une couche convolutive composée de neuf opérations convolutives impliquant la matrice d'entrée 5x5. Notez que chaque opération convolutive fonctionne sur une tranche 3x3 différente de la matrice d'entrée. La matrice 3x3 résultante (à droite) comprend les résultats des neuf opérations convolutives:

Animation montrant deux matrices. La première matrice est la matrice 5x5: [[128,97,53,201,198], [35,22,25,200,195], [37,24,28,197,182], [33,28,92,195,179],[31,4
          La deuxième matrice est la matrice 3x3 : [[181,303,618], [115,338,605], [169,351,560]].
          La deuxième matrice est calculée en appliquant le filtre convolutif [[0, 1, 0], [1, 0, 1], [0, 1, 0]] sur différents sous-ensembles 3x3 de la matrice 5x5.

réseau de neurones convolutif

#image

Réseau de neurones dans lequel au moins une couche est une couche convolutive. Un réseau de neurones convolutif typique consiste en une combinaison des couches suivantes:

Les réseaux de neurones convolutifs ont connu un grand succès dans certains types de problèmes, tels que la reconnaissance d'image.

opération convolutive

#image

L'opération mathématique en deux étapes suivante:

  1. Multiplication élément par élément du filtre convolutif et d'une tranche d'une matrice d'entrée. (La tranche de la matrice d'entrée a le même rang et la même taille que le filtre convolutif.)
  2. Somme de toutes les valeurs de la matrice de produits obtenue.

Prenons l'exemple de la matrice d'entrée 5 x 5 suivante:

La matrice 5x5: [[128,97,53,201,198], [35,22,25,200,195], [37,24,28,197,182], [33,28,92,195,179], [31,40,]100,10,10

Imaginons maintenant le filtre convolutif 2 x 2 suivant:

La matrice 2x2: [[1, 0], [0, 1]]

Chaque opération convolutive implique une seule tranche 2x2 de la matrice d'entrée. Par exemple, supposons que nous utilisons la tranche 2x2 en haut à gauche de la matrice d'entrée. L'opération de convolution sur cette tranche se présente donc comme suit:

Application du filtre convolutif [[1, 0], [0, 1]] à la section 2x2 en haut à gauche de la matrice d'entrée, qui correspond à [[128,97], [35,22]]
          Le filtre convolutif laisse les 128 et 22 intacts, mais remet à zéro les 97 et 35. Par conséquent, l'opération de convolution génère la valeur 150 (128+22).

Une couche convolutive consiste en une série d'opérations convolutives, chacune agissant sur une tranche différente de la matrice d'entrée.

D

augmentation des données

#image

Augmentation artificielle de la gamme et du nombre d'exemples d'entraînement en transformant des exemples existants pour en créer d'autres Par exemple, supposons que les images constituent l'une de vos caractéristiques, mais que votre ensemble de données ne contient pas suffisamment d'exemples d'images pour que le modèle puisse apprendre des associations utiles. Idéalement, vous devez ajouter suffisamment d'images avec étiquette à votre ensemble de données pour permettre à votre modèle de s'entraîner correctement. Si cela n'est pas possible, l'augmentation des données peut faire pivoter, étirer et refléter chaque image pour produire de nombreuses variantes de l'image d'origine, fournissant peut-être suffisamment de données étiquetées pour un entraînement optimal.

Réseau de neurones convolutif séparable en profondeur (sepCNN)

#image

Architecture de réseau de neurones convolutif basée sur Inception, mais dans laquelle les modules Inception sont remplacés par des convolutions séparables en profondeur. (également appelé Xception).

Une convolution séparable en profondeur (également abrégée en convolution séparable) transforme une convolution 3D standard en deux opérations de convolution distinctes plus efficaces en termes de calcul: d'abord, une convolution en profondeur, avec une profondeur de 1 (n × n × 1), puis une convolution pointue, avec une longueur et une largeur de 1 × (1 × 1 ×).

Pour en savoir plus, consultez Xception: Deep Learning with Depthwise Separable Convolutions.

sous-échantillonnage

#image

Terme complexe qui peut signifier l'un des éléments suivants:

  • Réduction de la quantité d'informations dans une caractéristique afin de entraîner un modèle plus efficacement. Par exemple, avant d'entraîner un modèle de reconnaissance d'image, sous-échantillonner des images haute résolution dans un format de résolution inférieure.
  • Entraînement sur un pourcentage disproportionné d'exemples de classes surreprésentées afin d'améliorer l'entraînement de modèle sur les classes sous-représentées. Par exemple, dans un ensemble de données avec déséquilibre des classes, les modèles ont tendance à beaucoup apprendre sur la classe majoritaire et pas assez sur la classe minoritaire. Le sous-échantillonnage permet d'équilibrer la quantité d'entraînement sur les classes majoritaires et minoritaires.

F.

réglage

#language
#image
#IAgénérative

Une deuxième carte d'entraînement spécifique à une tâche effectuée sur un modèle pré-entraîné afin d'affiner ses paramètres pour un cas d'utilisation spécifique. Par exemple, la séquence d'entraînement complète pour certains grands modèles de langage se présente comme suit:

  1. Pré-entraînement:entraînez un grand modèle de langage sur un vaste ensemble de données général, tel que toutes les pages Wikipédia en anglais.
  2. Ajustement:entraînez le modèle pré-entraîné à effectuer une tâche spécifique, comme répondre à des requêtes médicales. L'affinage implique généralement des centaines ou des milliers d'exemples axés sur la tâche spécifique.

Dans cet autre exemple, la séquence d'entraînement complète d'un grand modèle d'images se présente comme suit:

  1. Pré-entraînement:entraînez un grand modèle d'images sur un vaste ensemble de données d'images générales, comme toutes les images de Wikimedia commons.
  2. Ajustement:entraînez le modèle pré-entraîné à effectuer une tâche spécifique, telle que la génération d'images d'orques.

Pour l'affiner, vous pouvez combiner les stratégies suivantes:

  • Modifier tous les paramètres existants du modèle pré-entraîné Ce processus est parfois appelé ajustement complet.
  • Modifier uniquement certains des paramètres existants du modèle pré-entraîné (généralement, les couches les plus proches de la couche de sortie), tout en conservant les autres paramètres existants inchangés (en général, les couches les plus proches de la couche d'entrée). Découvrez comment optimiser l'efficacité des paramètres.
  • L'ajout de couches, généralement au-dessus des couches existantes les plus proches de la couche de sortie

L'affinage est une forme d'apprentissage par transfert. Par conséquent, l'affinage peut utiliser une fonction de perte ou un type de modèle différent de ceux utilisés pour entraîner le modèle pré-entraîné. Par exemple, vous pouvez affiner un grand modèle d'images pré-entraîné pour produire un modèle de régression qui renvoie le nombre d'oiseaux dans une image d'entrée.

Comparez et contrastez avec les termes suivants lors des réglages:

G

IA générative

#language
#image
#IAgénérative

Domaine émergent sans définition formelle Cela dit, la plupart des experts s'accordent à dire que les modèles d'IA générative peuvent créer ("générer") des contenus présentant tous les éléments suivants:

  • complexe
  • cohérentes
  • originale

Par exemple, un modèle d'IA générative peut créer des images ou des essais sophistiqués.

Certaines technologies antérieures, telles que les LSTM et les RNN, peuvent également générer du contenu original et cohérent. Certains experts considèrent ces technologies précédentes comme une IA générative, tandis que d'autres estiment que la véritable IA générative nécessite des résultats plus complexes que ceux que ces technologies plus anciennes peuvent produire.

À comparer au ML prédictif.

I

reconnaissance d'image

#image

Processus qui classe les objets, les motifs ou les concepts d'une image. La reconnaissance d'image est également appelée classification d'images.

Pour plus d'informations, consultez Travaux pratiques sur le ML: Classification d'images.

Intersection sur l'union (IoU)

#image

Intersection de deux ensembles divisé par leur union. Dans les tâches de détection d'images par machine learning, IoU permet de mesurer la précision du cadre de délimitation prédit par le modèle par rapport au cadre de vérité terrain. Dans ce cas, l'IoU des deux cadres correspond au ratio entre la zone de chevauchement et la zone totale. Sa valeur est comprise entre 0 (pas de chevauchement entre le cadre de délimitation prédit et le cadre de délimitation de vérité terrain) à 1 (le cadre de délimitation prédit et le cadre de délimitation de vérité terrain ont exactement les mêmes coordonnées).

Par exemple, dans l'image ci-dessous:

  • Le cadre de délimitation prédit (les coordonnées délimitant l'endroit où le modèle prédit la position de la table de nuit dans la peinture) est encadré en violet.
  • Le cadre de délimitation de vérité terrain (les coordonnées délimitant l'emplacement réel de la table de nuit dans le tableau) est entouré en vert.

Le tableau de Van Gogh "La chambre de Vincent à Arles" avec deux cadres de délimitation différents autour de la table de nuit à côté du lit. Le cadre de délimitation de vérité terrain (en vert) délimite parfaitement la table de nuit. Le cadre de délimitation prédit (en violet) est décalé de 50% vers le bas et vers la droite du cadre de vérité terrain. Il englobe le quart inférieur droit de la table de nuit, mais ignore le reste de la table.

Ici, l'intersection des cadres de délimitation pour la prédiction et la vérité terrain (en bas à gauche) est de 1, et l'union des cadres de délimitation pour la prédiction et la vérité terrain (en bas à droite) est de 7. L'IoU est donc \(\frac{1}{7}\).

Même image que ci-dessus, mais avec chaque cadre de délimitation divisé en quatre quadrants. Il existe sept quadrants au total, car le quadrant inférieur droit du cadre de délimitation de vérité terrain et le quadrant supérieur gauche du cadre de délimitation prédit se chevauchent. Cette section superposée (en vert) représente l'intersection, et sa superficie est de 1. Même image que ci-dessus, mais avec chaque cadre de délimitation divisé en quatre quadrants. Il existe sept quadrants au total, car le quadrant inférieur droit du cadre de délimitation de vérité terrain et le quadrant supérieur gauche du cadre de délimitation prédit se chevauchent.
          L'ensemble de l'intérieur, délimité par les deux cadres de délimitation (en surbrillance en vert), représente l'union, et sa zone est de 7.

K

points clés

#image

Coordonnées de caractéristiques particulières dans une image. Par exemple, pour un modèle de reconnaissance d'images qui distingue les espèces de fleurs, les points clés peuvent être le centre de chaque pétale, de la tige, de l'étamen, etc.

L

landmarks

#image

Synonyme de points clés.

M

MNIST

#image

Ensemble de données du domaine public compilé par LeCun, Cortes et Burges, contenant 60 000 images, chacune montrant comment un humain a écrit manuellement un chiffre spécifique compris entre 0 et 9. Chaque image est stockée sous la forme d'un tableau d'entiers 28x28, où chaque entier correspond à une valeur en nuances de gris comprise entre 0 et 255 inclus.

MNIST est un ensemble de données canonique pour le machine learning, souvent utilisé pour tester de nouvelles approches de machine learning. Pour en savoir plus, consultez la base de données MNIST de chiffres écrits à la main.

P

pooling

#image

Réduction d'une matrice (ou de matrices) créée par une couche convolutive antérieure à une matrice plus petite. Le pooling implique généralement de prendre la valeur maximale ou moyenne de l'ensemble de la zone regroupée. Par exemple, supposons que nous ayons la matrice 3 x 3 suivante:

La matrice 3x3 [[5,3,1], [8,2,5], [9,4,3]].

Une opération de pooling, tout comme une opération convolutive, divise cette matrice en tranches, puis glisse cette opération convolutive à pas. Par exemple, supposons que l'opération de pooling divise la matrice convolutive en tranches de 2 x 2 avec un pas de 1 x 1. Comme l'illustre le schéma suivant, quatre opérations de pooling ont lieu. Imaginez que chaque opération de pooling sélectionne la valeur maximale des quatre valeurs de cette tranche:

La matrice d'entrée est de 3 x 3, avec les valeurs suivantes: [[5,3,1], [8,2,5], [9,4,3]].
          La sous-matrice 2 x 2 supérieure gauche de la matrice d'entrée est [[5,3], [8,2]]. L'opération de pooling en haut à gauche donne donc la valeur 8 (qui est le maximum de 5, 3, 8 et 2). La sous-matrice 2 x 2 supérieure droite de la matrice d'entrée correspond à [[3,1], [2,5]]. L'opération de pooling en haut à droite génère donc la valeur 5. La sous-matrice 2 x 2 située en bas à gauche de la matrice d'entrée correspond à [[8,2], [9,4]]. L'opération de pooling en bas à gauche donne donc la valeur 9. La sous-matrice 2 x 2 située en bas à droite de la matrice d'entrée correspond à [[2,5], [4,3]]. L'opération de pooling en bas à droite donne donc la valeur 5. En résumé, l'opération de pooling donne la matrice 2x2 [[8,5], [9,5]].

Le pooling permet d'appliquer l'invariance par translation dans la matrice d'entrée.

Dans les applications de vision, le pooling est officiellement appelé pooling spatial. Dans les applications de séries temporelles, le pooling est généralement appelé pooling temporel. Plus formellement, le pooling est souvent désigné par les termes de sous-échantillonnage ou sous-échantillonnage.

modèle pré-entraîné

#language
#image
#IAgénérative

Modèles ou composants de modèle (tels qu'un vecteur de représentation vectorielle continue) qui ont déjà été entraînés. Parfois, vous introduisez des vecteurs de représentation vectorielle continue pré-entraînés dans un réseau de neurones. D'autres fois, votre modèle entraîne les vecteurs de représentation vectorielle continue lui-même au lieu de s'appuyer sur les représentations vectorielles continues pré-entraînées.

Le terme modèle de langage pré-entraîné fait référence à un grand modèle de langage qui a fait l'objet d'un pré-entraînement.

pré-entraînement

#language
#image
#IAgénérative

Entraînement initial d'un modèle sur un ensemble de données volumineux. Certains modèles pré-entraînés sont des géants maladroites et doivent généralement être affinés par le biais d'un entraînement supplémentaire. Par exemple, les experts en ML peuvent pré-entraîner un grand modèle de langage sur un vaste ensemble de données textuelles, comme toutes les pages en anglais de Wikipédia. Après le pré-entraînement, le modèle résultant peut être affiné davantage grâce à l'une des techniques suivantes:

R

invariance rotationnelle

#image

Dans un problème de classification d'images, capacité d'un algorithme à classer correctement des images même lorsque l'orientation de l'image change. Par exemple, l'algorithme peut toujours identifier une raquette de tennis, qu'elle pointe vers le haut, le côté ou le bas. Notez que l'invariance rotationnelle n'est pas toujours souhaitable. Par exemple, un 9 à l'envers ne doit pas être classé comme un 9.

Voir aussi invariance par translation et invariance par taille.

S

invariance par taille

#image

Dans un problème de classification d'images, capacité d'un algorithme à classer correctement des images même lorsque leur taille change. Par exemple, l'algorithme peut toujours identifier un chat, qu'il consomme 2 millions de pixels ou 200 000 pixels. Notez que même les meilleurs algorithmes de classification d'images présentent des limites pratiques en termes d'invariance par taille. Par exemple, il est peu probable qu'un algorithme (ou une personne) classe correctement une image de chat de seulement 20 pixels.

Voir aussi invariance par translation et invariance rotationnelle.

pooling spatial

#image

Voir pooling.

stride

#image

Dans une opération convolutive ou de pooling, delta dans chaque dimension de la série de tranches d'entrée suivante. Par exemple, l'animation suivante montre un pas (1,1) lors d'une opération convolutive. Par conséquent, la tranche d'entrée suivante commence une position à droite de la tranche d'entrée précédente. Lorsque l'opération atteint le bord droit, la tranche suivante est complètement à gauche, mais une position vers le bas.

Une matrice d'entrée 5x5 et un filtre convolutif 3x3. Comme le pas correspond à (1,1), un filtre convolutif sera appliqué neuf fois. La première tranche convolutive évalue la sous-matrice 3x3 en haut à gauche de la matrice d'entrée. La deuxième tranche évalue la sous-matrice 3x3 du milieu supérieur. La troisième tranche convolutive évalue la sous-matrice 3x3 en haut à droite.  La quatrième tranche évalue la sous-matrice 3x3 au milieu et à gauche.
     La cinquième tranche évalue la sous-matrice 3x3 centrale. La sixième tranche évalue la sous-matrice 3x3, en milieu à droite. La septième tranche évalue la sous-matrice 3x3 en bas à gauche.  La huitième tranche évalue la sous-matrice 3x3 en bas au milieu. La neuvième tranche évalue la sous-matrice 3x3 en bas à droite.

L'exemple précédent illustre un pas bidimensionnel. Si la matrice d'entrée est tridimensionnelle, le pas est également tridimensionnel.

sous-échantillonnage

#image

Voir pooling.

T

température

#language
#image
#IAgénérative

Hyperparamètre qui contrôle le degré de hasard de la sortie d'un modèle. Des températures plus élevées génèrent une sortie plus aléatoire, tandis qu'une température plus basse produit moins de résultats aléatoires.

Le choix de la température optimale dépend de l'application spécifique et des propriétés souhaitées de la sortie du modèle. Par exemple, vous augmenterez probablement la température lorsque vous créerez une application qui générera des créations. À l'inverse, il est probable que la température baisse lors de la création d'un modèle qui classe des images ou du texte afin d'améliorer la précision et la cohérence du modèle.

La température est souvent utilisée avec softmax.

invariance par translation

#image

Dans un problème de classification d'images, capacité d'un algorithme à classer correctement des images même lorsque la position des objets dans l'image change. Par exemple, l'algorithme peut toujours identifier un chien, qu'il se trouve au centre ou à gauche de l'image.

Voir aussi invariance par taille et invariance rotationnelle.