Esta página contiene términos del glosario de Aprendizaje por refuerzo. Para ver todos los términos del glosario, haz clic aquí.
A
acción
En el aprendizaje por refuerzo, el mecanismo mediante el cual el agente hace la transición entre los estados del entorno. El agente elige la acción mediante una política.
agente
En el aprendizaje por refuerzo, la entidad que usa una política para maximizar el retorno esperado de la transición entre los estados del entorno.
En términos más generales, un agente es un software que planifica y ejecuta de forma autónoma una serie de acciones en pos de un objetivo, con la capacidad de adaptarse a los cambios en su entorno. Por ejemplo, los agentes basados en LLM pueden usar el LLM para generar un plan, en lugar de aplicar una política de aprendizaje por refuerzo.
B
Ecuación de Bellman
En el aprendizaje por refuerzo, la función Q óptima cumple con la siguiente identidad:
\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]
Los algoritmos de aprendizaje por refuerzo aplican esta identidad para crear Q-learning a través de la siguiente regla de actualización:
\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]
Además del aprendizaje por refuerzo, la ecuación de Bellman se usa en la programación dinámica. Consulta la entrada de Wikipedia sobre la ecuación de Bellman.
C
crítico
Sinónimo de Deep Q-Network.
D
Deep Q-Network (DQN)
En Q-learning, una red neuronal profunda que predice funciones Q.
Critic es sinónimo de Deep Q-Network.
DQN
Abreviatura de Deep Q-Network.
E
de producción
En el aprendizaje por refuerzo, el mundo que contiene al agente y le permite observar el estado de ese mundo. Por ejemplo, el mundo representado puede ser un juego, como el ajedrez, o un mundo físico, como un laberinto. Cuando el agente aplica una acción al entorno, este pasa de un estado a otro.
episodio
En el aprendizaje por refuerzo, cada uno de los intentos repetidos del agente de aprender un entorno.
política codiciosa de épsilon
En el aprendizaje por refuerzo, una política que sigue una política aleatoria con probabilidad de épsilon o una política voraz en caso contrario. Por ejemplo, si la épsilon es 0.9, entonces la política sigue una política aleatoria el 90% de las veces y una política codiciosa el 10% de las veces.
En episodios sucesivos, el algoritmo reduce el valor de épsilon para pasar de seguir una política aleatoria a seguir una política voraz. Con el cambio de la política, el agente primero explora el entorno de forma aleatoria y, luego, explota con audacia los resultados de la exploración aleatoria.
volver a reproducir la experiencia
En el aprendizaje por refuerzo, se usa una técnica de DQN para reducir las correlaciones temporales en los datos de entrenamiento. El agente almacena las transiciones de estado en un búfer de reproducción y, luego, muestra las transiciones desde el búfer de reproducción para crear datos de entrenamiento.
G
política voraz
En el aprendizaje por refuerzo, una política que siempre elige la acción con el retorno más alto esperado.
M
Proceso de decisión de Markov (MDP)
Gráfico que representa el modelo de toma de decisiones en el que se toman decisiones (o acciones) para navegar por una secuencia de estados bajo la suposición de que contiene la propiedad de Markov. En el aprendizaje por refuerzo, estas transiciones entre estados muestran una recompensa numérica.
Propiedad de Markov
Una propiedad de ciertos entornos, en la que las transiciones de estado se determinan completamente en función de la información implícita en el estado actual y la acción del agente.
P
policy
En el aprendizaje por refuerzo, la asignación probabilística de un agente de estados a acciones.
P.
Función Q
En el aprendizaje por refuerzo, la función que predice el retorno esperado de realizar una acción en un estado y, luego, seguir una política determinada.
La función Q también se conoce como función de valor de la acción de estado.
Aprendizaje de Q
En el aprendizaje por refuerzo, algoritmo que permite que un agente conozca la función Q óptima de un proceso de decisión de Marcos mediante la ecuación de Bellman. El proceso de decisión de Markov modela un entorno.
R
política aleatoria
En el aprendizaje por refuerzo, una política que elige una acción de forma aleatoria.
aprendizaje por refuerzo (RL)
Una familia de algoritmos que aprenden una política óptima, cuyo objetivo es maximizar el retorno cuando interactúa con un entorno. Por ejemplo, la recompensa definitiva de la mayoría de los juegos es la victoria. Los sistemas de aprendizaje por refuerzo pueden convertirse en expertos en juegos complejos evaluando secuencias de movimientos de juego anteriores que finalmente llevaron a victorias y secuencias que finalmente llevaron a pérdidas.
Aprendizaje por refuerzo con retroalimentación humana (RLHF)
Usa comentarios de evaluadores humanos para mejorar la calidad de las respuestas de un modelo. Por ejemplo, un mecanismo de RLHF puede pedirles a los usuarios que califiquen la calidad de la respuesta de un modelo con un emoji 👍 o 👎. Luego, el sistema puede ajustar sus respuestas futuras en función de esos comentarios.
búfer de reproducción
En los algoritmos similares a los DQN, es la memoria que usa el agente para almacenar transiciones de estado y usarlas en la reproducción de la experiencia.
return
En el aprendizaje por refuerzo, dada una política determinada y un estado determinado, el retorno es la suma de todas las recompensas que el agente espera recibir cuando sigue la política desde el estado hasta el final del episodio. El agente da cuenta de la naturaleza retrasada de las recompensas esperadas descontando las recompensas de acuerdo con las transiciones de estado necesarias para obtener la recompensa.
Por lo tanto, si el factor de descuento es \(\gamma\)y \(r_0, \ldots, r_{N}\)indica las recompensas hasta el final del episodio, el cálculo de la devolución es el siguiente:
una recompensa
En el aprendizaje por refuerzo, es el resultado numérico de realizar una acción en un estado, como lo define el entorno.
S
state
En el aprendizaje por refuerzo, los valores de los parámetros que describen la configuración actual del entorno, que el agente usa para elegir una acción.
función de valor de acción de estado
Sinónimo de función Q.
T
aprendizaje de preguntas tabular
En el aprendizaje por refuerzo, implementar Q-learning mediante el uso de una tabla para almacenar las funciones Q para cada combinación de estado y acción.
red de destino
En Deep Q-learning, una red neuronal que es una aproximación estable de la red neuronal principal, en la que esta implementa una función Q o una política. Luego, puedes entrenar la red principal con los valores Q que predijo la red de destino. Por lo tanto, evitas el ciclo de retroalimentación que se produce cuando la red principal entrena en los valores Q- predichos por sí misma. Cuando se evita esta retroalimentación, la estabilidad del entrenamiento aumenta.
condición de finalización
En el aprendizaje por refuerzo, las condiciones que determinan cuándo finaliza un episodio, como cuando el agente alcanza un cierto estado o supera un umbral de transiciones de estado. Por ejemplo, en el caso del taco en línea (también conocido como “noughts and crosss”), un episodio termina cuando un jugador marca tres espacios consecutivos o cuando todos los espacios están marcados.
trayectoria
En el aprendizaje por refuerzo, una secuencia de tuplas que representan una secuencia de transiciones de estado del agente, en la que cada tupla corresponde al estado, la acción, la recompensa y el siguiente estado para una transición de estado determinada.