Glossaire du machine learning: apprentissage par renforcement

Cette page contient les termes du glossaire de l'apprentissage par renforcement. Pour consulter tous les termes du glossaire, cliquez ici.

A

action

#rl

Dans l'apprentissage par renforcement, le mécanisme par lequel l'agent passe d'un état à l'autre dans l'environnement. L'agent choisit l'action à l'aide d'une règle.

agent

#rl

Dans l'apprentissage par renforcement, l'entité qui utilise une règle pour maximiser le retour attendu obtenu en passant d'états de l'environnement

Plus généralement, un agent est un logiciel qui planifie et exécute de manière autonome une série d'actions dans la poursuite d'un objectif, tout en ayant la capacité de s'adapter aux changements de son environnement. Par exemple, les agents basés sur un LLM peuvent l'utiliser pour générer un plan, plutôt que d'appliquer une règle d'apprentissage par renforcement.

B

Équation de Bellman

#rl

Dans l'apprentissage par renforcement, l'identité suivante est satisfaite par la fonction Q optimale:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

Les algorithmes d'apprentissage par renforcement appliquent cette identité pour créer un apprentissage Q via la règle de mise à jour suivante:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

Au-delà de l'apprentissage par renforcement, l'équation de Bellman s'applique à la programmation dynamique. Consultez l' article Wikipédia pour l'équation de Bellman.

C

critique

#rl

Synonyme de Deep Q-Network.

D

Q-Network profond (DQN)

#rl

Dans l'apprentissage Q, un réseau de neurones profond qui prédit des fonctions Q.

Critic est un synonyme de Deep Q-Network.

DQN

#rl

Abréviation de Deep Q-Network.

E

de production

#rl

Dans l'apprentissage par renforcement, le monde qui contient l'agent et permet à celui-ci d'observer l'état de ce monde. Par exemple, le monde représenté peut être un jeu tel que les échecs, ou un monde physique tel qu'un labyrinthe. Lorsque l'agent applique une action à l'environnement, celui-ci passe d'un état à un autre.

épisode

#rl

Dans l'apprentissage par renforcement, chacune des tentatives répétées de l'agent d'apprendre un environnement.

règlement epsilon greedy

#rl

Dans l'apprentissage par renforcement, il s'agit d'une règle qui suit soit une règle aléatoire avec une probabilité d'epsilon, soit une règle gloutonne dans le cas contraire. Par exemple, si la valeur d'epsilon est de 0,9, la règle suit une règle aléatoire dans 90% des cas et une règle gourmande dans 10% des cas.

Au fil d'épisodes successifs, l'algorithme réduit la valeur d'epsilon afin de passer d'une règle aléatoire à une règle gloutonne. En modifiant la règle, l'agent explore d'abord l'environnement de manière aléatoire, puis exploite les résultats de cette exploration aléatoire.

expérience rediffusion

#rl

Dans l'apprentissage par renforcement, il s'agit d'une technique DQN utilisée pour réduire les corrélations temporelles dans les données d'entraînement. L'agent stocke les transitions d'état dans un tampon de relecture, puis échantillonne les transitions à partir du tampon de relecture pour créer des données d'entraînement.

G

règles gourmandes

#rl

Dans l'apprentissage par renforcement, il s'agit d'une règle qui choisit toujours l'action avec le retour attendu le plus élevé.

Lu

Processus de décision de Markov (MDP)

#rl

Graphique représentant le modèle de prise de décision dans lequel des décisions (ou des actions) sont prises pour naviguer dans une séquence d'états en partant du principe que la propriété de Markov est retenue. Dans l'apprentissage par renforcement, ces transitions entre les états renvoient une récompense numérique.

propriété de Markov

#rl

Propriété de certains environnements, où les transitions d'état sont entièrement déterminées par des informations implicites dans l'état actuel et l'action de l'agent.

P

policy

#rl

Dans l'apprentissage par renforcement, le mappage probabiliste d'un agent entre les états et les actions.

Q

Fonction Q

#rl

Dans l'apprentissage par renforcement, il s'agit de la fonction qui prédit le retour attendu en effectuant une action dans un état, puis en suivant une stratégie donnée.

La fonction Q est également appelée fonction de valeur d'action d'état.

Q-learning

#rl

Dans l'apprentissage par renforcement, un algorithme qui permet à un agent d'apprendre la fonction Q optimale d'un processus de décision de Markov en appliquant l'équation de Bellman. Le processus de décision de Markov modélise un environnement.

R

règle aléatoire

#rl

Dans l'apprentissage par renforcement, une règle qui choisit une action au hasard.

apprentissage par renforcement

#rl

Famille d'algorithmes qui apprennent une règle optimale, et dont le but est de maximiser le retour lors de l'interaction avec un environnement. Par exemple, la récompense ultime dans la plupart des jeux est la victoire. Les systèmes d'apprentissage par renforcement peuvent devenir experts dans les jeux complexes en évaluant les séquences d'actions de jeu précédentes qui ont finalement conduit à des victoires et les séquences qui ont finalement conduit à des pertes.

Apprentissage automatique par renforcement qui utilise le feedback humain (RLHF)

#IAgénérative
#rl

Utiliser les commentaires d'évaluateurs manuels pour améliorer la qualité des réponses d'un modèle. Par exemple, un mécanisme RLHF peut demander aux utilisateurs d'évaluer la qualité de la réponse d'un modèle avec un emoji 👍 ou 👎. Le système peut ensuite ajuster ses futures réponses en fonction de ce feedback.

tampon de relecture

#rl

Dans les algorithmes de type DQN, la mémoire utilisée par l'agent pour stocker les transitions d'état à utiliser dans la rediffusion d'expérience.

return

#rl

Dans l'apprentissage par renforcement, en fonction d'une certaine politique et d'un certain état, le retour est la somme de toutes les récompenses que l'agent s'attend à recevoir en suivant la règle, de l'état à la fin de l'épisode. L'agent prend en compte le caractère retardé des récompenses attendues en les dispensant en fonction des transitions d'états requises pour obtenir la récompense.

Par conséquent, si le facteur de remise est \(\gamma\)et que \(r_0, \ldots, r_{N}\)indique les récompenses jusqu'à la fin de l'épisode, le calcul du retour est le suivant:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

une récompense

#rl

Dans l'apprentissage par renforcement, résultat numérique d'une action dans un état, tel que défini par l'environnement.

S

state

#rl

Dans l'apprentissage par renforcement, il s'agit des valeurs de paramètres qui décrivent la configuration actuelle de l'environnement, que l'agent utilise pour choisir une action.

fonction de valeur d'action d'état

#rl

Synonyme de fonction Q.

T

Q-learning tabulaires

#rl

Dans l'apprentissage par renforcement, il s'agit d'implémenter l'apprentissage Q en utilisant une table pour stocker les fonctions Q pour chaque combinaison d'état et d'action.

réseau cible

#rl

En Deep Q-Learning, réseau de neurones qui est une approximation stable du réseau de neurones principal, le réseau de neurones principal implémente une fonction Q ou une règle. Vous pouvez ensuite entraîner le réseau principal sur les valeurs Q prédites par le réseau cible. Par conséquent, vous évitez la boucle de rétroaction qui se produit lorsque le réseau principal s'entraîne sur les valeurs Q prédites par lui-même. En évitant ces commentaires, la stabilité de l'entraînement s'améliore.

condition de résiliation

#rl

Dans l'apprentissage par renforcement, conditions qui déterminent le moment où un épisode se termine, par exemple lorsque l'agent atteint un certain état ou dépasse un certain nombre de transitions d'état. Par exemple, dans le jeu tic-tac-toe (également appelé "noix et croisements"), un épisode se termine soit lorsqu'un joueur marque trois espaces consécutifs, soit lorsque tous les espaces sont marqués.

trajectoire

#rl

Dans l'apprentissage par renforcement, une séquence de tuples représentant une séquence de transitions d'état de l'agent, où chaque tuple correspond à l'état, à l'action, à la récompense et à l'état suivant pour une transition d'état donnée.