Cette page a été traduite par l'API Cloud Translation.

Glossaire du machine learning: apprentissage par renforcement

Cette page contient les termes du glossaire du renforcement appris. Pour connaître tous les termes du glossaire, cliquez ici.

A

action

#rl

Dans l'apprentissage par renforcement, mécanisme par lequel l'agent passe d'un état à un autre dans l'environnement. L'agent choisit l'action à l'aide d'une règle.

agent

#rl

Dans le machine learning par renforcement, entité qui utilise une stratégie pour maximiser le rendement attendu obtenu en passant d'un état à un autre de l'environnement.

Plus généralement, un agent est un logiciel qui planifie et exécute de manière autonome une série d'actions en vue d'atteindre un objectif, avec la capacité de s'adapter aux changements de son environnement. Par exemple, un agent basé sur un LLM peut utiliser un LLM pour générer un plan, plutôt que d'appliquer une stratégie de renforcement.

B

Équation de Bellman

#rl

Dans l'apprentissage par renforcement, l'identité suivante est satisfaite par la fonction Q optimale:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

Les algorithmes de l'apprentissage par renforcement appliquent cette identité pour créer un apprentissage par Q-learning à l'aide de la règle de mise à jour suivante:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

Au-delà de l'apprentissage par renforcement, l'équation de Bellman s'applique à la programmation dynamique. Consultez l' article Wikipédia sur l'équation de Bellman.

C

critique

#rl

Synonyme de Deep Q-Network.

D

Réseau Deep Q (DQN)

#rl

Dans l'apprentissage par renforcement, un réseau de neurones profond prédit des fonctions Q.

Critique est un synonyme de réseau Deep Q.

DQN

#rl

Abréviation de Deep Q-Network.

E

de production

#rl

Dans le renforcement, monde qui contient l'agent et qui lui permet d'observer l'état de ce monde. Par exemple, le monde représenté peut être un jeu comme les échecs ou un monde physique comme un labyrinthe. Lorsque l'agent applique une action à l'environnement, celui-ci passe d'un état à un autre.

épisode

#rl

Dans l'apprentissage par renforcement, chacune des tentatives répétées de l'agent pour apprendre un environnement.

règle égoiste epsilon

#rl

En apprentissage par renforcement, stratégie qui suit une stratégie aléatoire avec une probabilité epsilon ou une stratégie avide dans le cas contraire. Par exemple, si epsilon est égal à 0,9, la règle suit une règle aléatoire 90% du temps et une règle avide 10% du temps.

Au cours d'épisodes successifs, l'algorithme réduit la valeur d'épsilon afin de passer d'une politique aléatoire à une politique avide. En modifiant la stratégie, l'agent explore d'abord l'environnement de manière aléatoire, puis exploite de manière gourmande les résultats de l'exploration aléatoire.

enregistrement de l'expérience

#rl

En apprentissage par renforcement, technique DQN utilisée pour réduire les corrélations temporelles dans les données d'entraînement. L'agent stocke les transitions d'état dans un tampon de relecture, puis échantillonne les transitions à partir du tampon de relecture pour créer des données d'entraînement.

G

règle gloutonne

#rl

Dans l'apprentissage par renforcement, stratégie qui choisit toujours l'action dont le rendement attendu est le plus élevé.

M

Processus décisionnel de Markov (MDP)

#rl

Graphique représentant le modèle de prise de décision dans lequel des décisions (ou des actions) sont prises pour naviguer dans une séquence d'états en supposant que la propriété de Markov est respectée. Dans le apprentissage par renforcement, ces transitions entre les états renvoient une récompense numérique.

Propriété de Markov

#rl

Propriété de certains environnements, où les transitions d'état sont entièrement déterminées par les informations implicites dans l'état actuel et l'action de l'agent.

P

policy

#rl

Dans l'apprentissage par renforcement, mappage probabiliste d'un agent entre les états et les actions.

Q

Fonction Q

#rl

Dans l'apprentissage par renforcement, fonction qui prédit le rendement attendu de l'exécution d'une action dans un état, puis en suivant une stratégie donnée.

La fonction Q est également appelée fonction de valeur d'état-action.

Apprentissage Q

#rl

Dans le machine learning par renforcement, algorithme qui permet à un agent d'apprendre la fonction Q optimale d'un processus de décision de Markov en appliquant l'équation de Bellman. Le processus de décision de Markov modélise un environnement.

R

règle aléatoire

#rl

Dans le machine learning par renforcement, règle qui choisit une action au hasard.

apprentissage par renforcement (RL)

#rl

Famille d'algorithmes qui apprennent une stratégie optimale, dont l'objectif est de maximiser le rendement lors de l'interaction avec un environnement. Par exemple, la récompense ultime dans la plupart des jeux est la victoire. Les systèmes d'apprentissage par renforcement peuvent devenir experts dans les jeux complexes en évaluant les séquences d'actions de parties antérieures qui ont finalement conduit à des victoires et les séquences qui ont finalement conduit à des échecs.

Apprentissage automatique par renforcement qui utilise le feedback humain (RLHF)

#generativeAI

#rl

Utilisation des commentaires de réviseurs humains pour améliorer la qualité des réponses d'un modèle Par exemple, un mécanisme RLHF peut demander aux utilisateurs d'évaluer la qualité de la réponse d'un modèle à l'aide d'un emoji 👍 ou 👎. Le système peut ensuite ajuster ses futures réponses en fonction de ces commentaires.

mémoire de rejeu

#rl

Dans les algorithmes de type DQN, la mémoire utilisée par l'agent pour stocker les transitions d'état à utiliser dans la relecture d'expérience.

retour

#rl

Dans l'apprentissage par renforcement, étant donné une certaine stratégie et un certain état, le rendement correspond à la somme de toutes les récompenses que l'agent s'attend à recevoir lorsqu'il suit la stratégie à partir de l'état jusqu'à la fin de l'épisode. L'agent tient compte de la nature différée des récompenses attendues en les réduisant en fonction des transitions d'état requises pour les obtenir.

Par conséquent, si le facteur de remise est $\gamma$et que $r_0, \ldots, r_{N}$indique les récompenses jusqu'à la fin de l'épisode, le calcul du retour est le suivant:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

récompense

#rl

Dans l'apprentissage par renforcement, résultat numérique de l'exécution d'une action dans un état, tel que défini par l'environnement.

S

state

#rl

Dans l'apprentissage par renforcement, valeurs de paramètre qui décrivent la configuration actuelle de l'environnement, que l'agent utilise pour choisir une action.

fonction de valeur d'état-action

#rl

Synonyme de fonction Q.

T

apprentissage Q tabulaire

#rl

Dans le apprentissage par renforcement, implémentation du Q-learning à l'aide d'un tableau pour stocker les fonctions Q pour chaque combinaison d'état et d'action.

réseau cible

#rl

Dans l'apprentissage par renforcement profond, réseau de neurones qui est une approximation stable du réseau de neurones principal, où le réseau de neurones principal implémente une fonction Q ou une stratégie. Vous pouvez ensuite entraîner le réseau principal sur les valeurs Q prédites par le réseau cible. Vous évitez ainsi la boucle de rétroaction qui se produit lorsque le réseau principal s'entraîne sur des valeurs Q prédites par lui-même. En évitant ces retours, la stabilité de l'entraînement est améliorée.

condition de fin

#rl

Dans le apprentissage par renforcement, conditions qui déterminent quand un épisode se termine, par exemple lorsque l'agent atteint un certain état ou dépasse un nombre seuil de transitions d'état. Par exemple, au tic-tac-toe (également appelé "morpion"), un épisode se termine lorsqu'un joueur marque trois cases consécutives ou lorsque toutes les cases sont marquées.

trajectoire

#rl

Dans le apprentissage par renforcement, séquence de tuples représentant une séquence de transitions d'état de l'agent, où chaque tuple correspond à l'état, à l'action, à la récompense et à l'état suivant pour une transition d'état donnée.