Glosario sobre aprendizaje automático: aprendizaje por refuerzo

Esta página contiene términos del glosario de aprendizaje por refuerzo. Para ver todos los términos del glosario, haz clic aquí.

A

acción

#rl

En el aprendizaje por refuerzo, es el mecanismo por el que el agente realiza la transición entre los estados del entorno. El agente elige la acción mediante una política.

agente

#rl

En el aprendizaje por refuerzo, es la entidad que utiliza una política para maximizar el retorno esperado que se obtuvo de la transición entre los estados del entorno.

B

Ecuación de Bellman

#rl

En el aprendizaje por refuerzo, se satisface la siguiente identidad por la función Q óptima:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

Los algoritmos de aprendizaje por refuerzo aplican esta identidad para crear Q-learning a través de la siguiente regla de actualización:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s’,a’) - Q(s,a) \right] \]

Además del aprendizaje por refuerzo, la ecuación de Bellman tiene aplicaciones para la programación dinámica. Consulta la entrada de Wikipedia sobre la ecuación de Bellman.

C

crítico

#rl

Sinónimo de Red Q profunda.

D.

Red de Q profunda (DQN)

#rl

En Q-learning, es una red neuronal profunda que predice funciones Q.

Crítico es un sinónimo de Deep Q-Network.

DQN

#rl

Abreviatura de Deep Q-Network.

E

de producción

#rl

En el aprendizaje por refuerzo, el mundo que contiene el agente y le permite observar el estado de ese mundo. Por ejemplo, el mundo representado puede ser un juego como el ajedrez o un mundo físico como un laberinto. Cuando el agente aplica una acción al entorno, este pasa entre los estados.

episod.

#rl

En el aprendizaje por refuerzo, cada vez que el agente intenta aprender un entorno.

política de épsilon codicioso

#rl

En el aprendizaje por refuerzo, una política que sigue una política aleatoria con probabilidad de épsilon o, de lo contrario, una política codiciosa. Por ejemplo, si el valor de épsilon es 0.9, la política sigue una política aleatoria el 90% de las veces y una codiciosa el 10% de las veces.

En los episodios sucesivos, el algoritmo reduce el valor de épsilon para pasar de seguir una política aleatoria a seguir una codiciosa. Si cambia la política, el agente primero explora el entorno de forma aleatoria y, luego, explota con avidez los resultados de la exploración aleatoria.

experiencia de repetición

#rl

En el aprendizaje por refuerzo, se usa una técnica de DQN para reducir las correlaciones temporales en los datos de entrenamiento. El agente almacena las transiciones de estado en un búfer de reproducción y, luego, muestra las transiciones del búfer de reproducción para crear datos de entrenamiento.

G

política codiciosa

#rl

En el aprendizaje por refuerzo, una política que siempre elige la acción con el retorno más alto esperado.

M

Proceso de decisión de Markov (MDP)

#rl

Un gráfico que representa el modelo de toma de decisiones en el que se toman decisiones (o acciones) para navegar por una secuencia de estados bajo la suposición de que contiene la propiedad de Markov. En el aprendizaje por refuerzo, estas transiciones entre estados muestran una recompensa numérica.

Propiedad de Markov

#rl

Una propiedad de ciertos entornos, en la que las transiciones de estado están completamente determinadas por la información implícita en el estado actual y la acción del agente.

P

policy

#rl

En el aprendizaje por refuerzo, la asignación probabilística de un agente de estados a acciones.

Q

Función Q

#rl

En el aprendizaje por refuerzo, es la función que predice el retorno esperado que realiza una acción en un estado y que sigue una política determinada.

La función Q también se conoce como función de valor de acción de estado.

Q‐Learning

#rl

En el aprendizaje por refuerzo, se usa un algoritmo que permite que un agente aprenda la función Q óptima de un proceso de decisión de Markov mediante la aplicación de la ecuación de Bellman. El proceso de decisión de Markov modela un entorno.

(der.)

política aleatoria

#rl

En el aprendizaje por refuerzo, es una política que elige una acción de forma aleatoria.

aprendizaje por refuerzo (RL)

#rl

Una familia de algoritmos que aprenden una política óptima, cuyo objetivo es maximizar el retorno cuando interactúan con un entorno. Por ejemplo, la máxima recompensa para la mayoría de los juegos es la victoria. Los sistemas de aprendizaje por refuerzo pueden convertirse en expertos en juegos complejos mediante la evaluación de secuencias de movimientos de juegos anteriores que finalmente llevaron a victorias y secuencias que finalmente llevaron a derrotas.

Aprendizaje por refuerzo a partir de los comentarios humanos (RLHF)

#generativaIA
#rl

Usar comentarios de evaluadores humanos para mejorar la calidad de las respuestas de un modelo Por ejemplo, un mecanismo RLHF puede solicitar a los usuarios que califiquen la calidad de la respuesta de un modelo con un emoji 👍 o 鉛. Luego, el sistema puede ajustar sus respuestas futuras en función de esos comentarios.

búfer de reproducción

#rl

En los algoritmos similares a DQN, la memoria que usa el agente para almacenar las transiciones de estado a fin de usarla en la reproducción de la experiencia.

return

#rl

En el aprendizaje por refuerzo, dada una determinada política y un cierto estado, la devolución es la suma de todas las recompensas que el agente espera recibir cuando sigue la política desde el estado hasta el final del episodio. El agente explica la naturaleza retrasada de las recompensas esperadas mediante un descuento en función de las transiciones de estado necesarias para obtenerla.

Por lo tanto, si el factor de los descuentos es \(\gamma\)y \(r_0, \ldots, r_{N}\)denota las recompensas hasta el final del episodio, el cálculo que se muestra es el siguiente:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

una recompensa

#rl

En el aprendizaje por refuerzo, es el resultado numérico de realizar una acción en un estado, según lo definido por el entorno.

S

final

#rl

En el aprendizaje por refuerzo, son los valores de parámetros que describen la configuración actual del entorno, que el agente utiliza para elegir una acción.

función de valor de acción de estado

#rl

Sinónimo de función Q.

T

aprendizaje por tablas tabular

#rl

En el aprendizaje por refuerzo, se implementa Q-learning mediante una tabla que almacena las Q-functions para cada combinación de estado y acción.

red de destino

#rl

En Aprendizaje Q profundo, una red neuronal que es una aproximación estable de la red neuronal principal, en la que la red neuronal principal implementa una función Q o una política. Luego, puedes entrenar la red principal con los valores del Q que predice la red de destino. Por lo tanto, evitas el ciclo de reacción que ocurre cuando la red principal se entrena en valores Q previstos por sí misma. Si evitas estos comentarios, aumentará la estabilidad del entrenamiento.

condición de rescisión

#rl

En el aprendizaje por refuerzo, se consideran las condiciones que determinan cuándo finaliza un episodio, como cuando el agente alcanza un determinado estado o supera un umbral de transiciones de estado. Por ejemplo, en tic-tac-toe (también conocido como noughs y cruces), un episodio finaliza cuando un jugador marca tres espacios consecutivos o cuando todos los espacios están marcados.

trayectoria

#rl

En el aprendizaje por refuerzo, se muestra una secuencia de tuplas que representan una secuencia de transiciones de estado del agente, en la que cada tupla corresponde al estado, acción, recompensa y el siguiente estado para una transición de estado determinada.