Se usó la API de Cloud Translation para traducir esta página.

Glosario de aprendizaje automático: Aprendizaje por refuerzo

Esta página contiene términos del glosario de aprendizaje reforzado. Para ver todos los términos del glosario, haz clic aquí.

A

acción

#rl

En el aprendizaje por refuerzo, el mecanismo a través del cual el agente hace transiciones entre estados del entorno. El agente elige la acción con una política.

agente

#rl

En el aprendizaje por refuerzo, la entidad que usa una política para maximizar el rendimiento esperado que se obtiene de la transición entre los estados del entorno.

En términos más generales, un agente es un software que planifica y ejecuta de forma autónoma una serie de acciones para lograr un objetivo, con la capacidad de adaptarse a los cambios en su entorno. Por ejemplo, un agente basado en un LLM podría usar un LLM para generar un plan, en lugar de aplicar una política de aprendizaje por refuerzo.

B

Ecuación de Bellman

#rl

En el aprendizaje por refuerzo, la siguiente identidad es satisfecha por la función Q óptima:

Q (s, a) = r (s, a) + γ E_{s^{'} | s, a} max_{a^{'}} Q (s^{'}, a^{'})

$Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')$

Los algoritmos de aprendizaje por refuerzo aplican esta identidad para crear aprendizaje Q con la siguiente regla de actualización:

Q (s, a) \leftarrow Q (s, a) + α [r (s, a) + γ max_{\begin{matrix} a_{1} \end{matrix}} Q (s^{'}, a^{'}) - Q (s, a)]

$Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right]$

Más allá del aprendizaje reforzado, la ecuación de Bellman tiene aplicaciones para la programación dinámica. Consulta la entrada de Wikipedia sobre la ecuación de Bellman.

C

crítico

#rl

Es un sinónimo de red de Deep Q.

D

Red de Deep Q (DQN)

#rl

En el aprendizaje Q, se usa una red neuronal profunda que predice las funciones Q.

Crítico es un sinónimo de red de Deep Q.

DQN

#rl

Abreviatura de red de Deep Q.

E

de producción

#rl

En el aprendizaje por refuerzo, el mundo que contiene el agente y le permite observar el estado de ese mundo. Por ejemplo, el mundo representado puede ser un juego como el ajedrez o un mundo físico como un laberinto. Cuando el agente aplica una acción al entorno, este realiza transiciones entre estados.

episodio

#rl

En el aprendizaje por refuerzo, cada uno de los intentos repetidos del agente para aprender un entorno.

política de codicia de epsilon

#rl

En el aprendizaje por refuerzo, una política que sigue una política aleatoria con probabilidad de epsilon o una política codiciosa de lo contrario. Por ejemplo, si epsilon es 0.9, la política sigue una política aleatoria el 90% del tiempo y una política codiciosa el 10% del tiempo.

En episodios sucesivos, el algoritmo reduce el valor de epsilon para pasar de seguir una política aleatoria a seguir una política codiciosa. Cuando se cambia la política, el agente primero explora el entorno de forma aleatoria y, luego, aprovecha con avidez los resultados de la exploración aleatoria.

repetición de la experiencia

#rl

En el aprendizaje reforzado, es una técnica de DQN que se usa para reducir las correlaciones temporales en los datos de entrenamiento. El agente almacena las transiciones de estado en un búfer de repetición y, luego, toma muestras de las transiciones del búfer de repetición para crear datos de entrenamiento.

G

política avara

#rl

En el aprendizaje por refuerzo, una política que siempre elige la acción con el rendimiento esperado más alto.

M

Proceso de decisión de Markov (MDP)

#rl

Un gráfico que representa el modelo de toma de decisiones en el que se toman decisiones (o acciones) para navegar por una secuencia de estados, suponiendo que se cumple la propiedad de Markov. En el aprendizaje por refuerzo, estas transiciones entre estados devuelven una recompensa numérica.

Propiedad de Markov

#rl

Es una propiedad de ciertos entornos, en los que las transiciones de estado están determinadas por completo por la información implícita en el estado actual y la acción del agente.

P

política

#rl

En el aprendizaje por refuerzo, es la asignación probabilística de un agente de estados a acciones.

P

Función Q

#rl

En el aprendizaje por refuerzo, la función que predice el rendimiento esperado de realizar una acción en un estado y, luego, seguir una política determinada.

La función Q también se conoce como función de valor de estado-acción.

Aprendizaje Q

#rl

En el aprendizaje por refuerzo, un algoritmo que permite que un agente aprenda la función Q óptima de un proceso de decisión de Markov aplicando la ecuación de Bellman. El proceso de toma de decisiones de Markov modela un entorno.

R

política aleatoria

#rl

En el aprendizaje por refuerzo, es una política que elige una acción al azar.

aprendizaje por refuerzo (RL)

#rl

Es una familia de algoritmos que aprenden una política óptima, cuyo objetivo es maximizar el rendimiento cuando interactúa con un entorno. Por ejemplo, la máxima recompensa para la mayoría de los juegos es la victoria. Los sistemas de aprendizaje de refuerzo pueden convertirse en expertos en juegos complejos mediante la evaluación de secuencias de movimientos de juego anteriores que finalmente llevaron a victorias y secuencias que finalmente llevaron a fracasos.

Aprendizaje por refuerzo con retroalimentación humana (RLHF)

#generativeAI

#rl

Usar los comentarios de los calificadores humanos para mejorar la calidad de las respuestas de un modelo Por ejemplo, un mecanismo de RLHF puede pedirles a los usuarios que califiquen la calidad de la respuesta de un modelo con un emoji 👍 o 👎. Luego, el sistema puede ajustar sus respuestas futuras en función de esos comentarios.

búfer de reproducción

#rl

En los algoritmos similares a DQN, la memoria que usa el agente para almacenar transiciones de estado para usar en la repetición de experiencias.

retorno

#rl

En el aprendizaje por refuerzo, dada una política y un estado determinados, el rendimiento es la suma de todas las recompensas que el agente espera recibir cuando sigue la política desde el estado hasta el final del episodio. El agente tiene en cuenta la naturaleza retrasada de las recompensas esperadas descontando las recompensas según las transiciones de estado necesarias para obtenerlas.

Por lo tanto, si el factor de descuento es $\gamma$ y $r_0, \ldots, r_{N}$ representa las recompensas hasta el final del episodio, el cálculo del retorno es el siguiente:

Return = r_{0} + γ r_{1} + γ^{2} r_{2} + \dots + γ^{N - 1} r_{N - 1}

$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$

una recompensa

#rl

En el aprendizaje por refuerzo, el resultado numérico de realizar una acción en un estado, según lo define el entorno.

S

state

#rl

En el aprendizaje por refuerzo, los valores de los parámetros que describen la configuración actual del entorno, que el agente usa para elegir una acción.

función de valor de estado-acción

#rl

Sinónimo de función Q.

T

aprendizaje Q tabular

#rl

En el aprendizaje por refuerzo, se implementa el aprendizaje Q con una tabla para almacenar las funciones Q para cada combinación de estado y acción.

red de destino

#rl

En el aprendizaje profundo con Q-Learning, una red neuronal que es una aproximación estable de la red neuronal principal, en la que la red neuronal principal implementa una función Q o una política. Luego, puedes entrenar la red principal en los valores de Q que predice la red objetivo. Por lo tanto, evitas el bucle de retroalimentación que se produce cuando la red principal se entrena en valores Q que se predicen por sí mismos. Cuando se evita este tipo de comentarios, mejora la estabilidad del entrenamiento.

condición de rescisión

#rl

En el aprendizaje por refuerzo, las condiciones que determinan cuándo finaliza un episodio, como cuando el agente alcanza un estado determinado o supera una cantidad umbral de transiciones de estado. Por ejemplo, en el tres en raya (también conocido como tic-tac-toe), un episodio finaliza cuando un jugador marca tres espacios consecutivos o cuando se marcan todos los espacios.

trayectoria

#rl

En el aprendizaje por refuerzo, es una secuencia de tuplas que representan una secuencia de transiciones de estado del agente, en la que cada tupla corresponde al estado, la acción, la recompensa y el estado siguiente para una transición de estado determinada.