Glossário de machine learning: aprendizado por reforço

Nesta página, você encontra os termos do glossário do aprendizado por reforço. Para ver todos os termos do glossário, clique aqui.

A

ação

#rl

No aprendizado por reforço, o mecanismo pelo qual o agente faz a transição entre os estados do ambiente. O agente escolhe a ação usando uma política.

agente

#rl

No aprendizado por reforço, a entidade que usa uma política para maximizar o retorno esperado recebido da transição entre os estados do ambiente.

De modo mais geral, um agente é um software que planeja e executa de maneira autônoma uma série de ações em busca de um objetivo, com a capacidade de se adaptar às mudanças no ambiente. Por exemplo, agentes baseados em LLM podem usar o LLM para gerar um plano em vez de aplicar uma política de aprendizado por reforço.

B

Equação de Bellman

#rl

No aprendizado por reforço, a seguinte identidade é atendida pela função Q ideal:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

Os algoritmos de aprendizado por reforço aplicam essa identidade para criar o Q-learning usando a seguinte regra de atualização:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

Além do aprendizado por reforço, a equação Bellman tem aplicações à programação dinâmica. Veja a entrada da Wikipédia sobre a equação de Bellman (em inglês).

C

crítica

#rl

Sinônimo de Deep Q-Network.

D

Rede Q profunda (DQN)

#rl

No Q-learning, uma rede neural profunda que prevê funções Q.

Critic é um sinônimo de rede Q profunda.

DQN

#rl

Abreviação de Deep Q-Network.

E

de produção

#rl

No aprendizado por reforço, o mundo que contém o agente e permite que o agente observe o estado desse mundo. Por exemplo, o mundo representado pode ser um jogo de xadrez ou um mundo físico como um labirinto. Quando o agente aplica uma ação ao ambiente, o ambiente transita entre os estados.

episódio

#rl

No aprendizado por reforço, cada uma das tentativas repetidas do agente de aprender um ambiente.

política gananciosa épsilon

#rl

No aprendizado por reforço, uma política que segue uma política aleatória com probabilidade de épsilon ou uma política gananciosa. Por exemplo, se épsilon for 0,9, a política seguirá uma política aleatória 90% das vezes e uma política gananciosa 10% das vezes.

Ao longo de episódios sucessivos, o algoritmo reduz o valor do épsilon para mudar de uma política aleatória para uma gulosa. Ao mudar a política, o agente primeiro explora aleatoriamente o ambiente e depois explora gananciosamente os resultados da exploração aleatória.

repetição da experiência

#rl

No aprendizado por reforço, uma técnica de DQN é usada para reduzir as correlações temporais nos dados de treinamento. O agente armazena as transições de estado em um buffer de reprodução e, em seguida, amostra as transições do buffer de repetição para criar dados de treinamento.

G

política gananciosa

#rl

No aprendizado por reforço, uma política que sempre escolhe a ação com o maior retorno esperado.

M

Processo de decisão de Markov (MDP)

#rl

Um grafo que representa o modelo de tomada de decisões em que as decisões (ou ações) são tomadas para navegar por uma sequência de estados, supondo que a propriedade de Markov seja válida. No aprendizado por reforço, essas transições entre estados retornam uma recompensa numérica.

Propriedade de Markov

#rl

Uma propriedade de certos ambientes, em que as transições de estado são totalmente determinadas por informações implícitas no estado atual e pela ação do agente.

P

policy

#rl

No aprendizado por reforço, é o mapeamento probabilístico de um agente de estados para ações.

P

Função Q

#rl

No aprendizado por reforço, a função que prevê o retorno esperado de realizar uma ação em um estado e seguir uma determinada política.

A função Q também é conhecida como função de valor de ação de estado.

Aprendizagem comparativa

#rl

No aprendizado por reforço, um algoritmo que permite que um agente aprenda a função Q ideal de um processo de decisão de Markov aplicando a equação de Bellman. O processo de decisão de Markov modela um ambiente.

R

política aleatória

#rl

No aprendizado por reforço, uma política que escolhe uma ação aleatoriamente.

aprendizado por reforço (RL)

#rl

Uma família de algoritmos que aprendem uma política ideal, com o objetivo de maximizar o retorno ao interagir com um ambiente. Por exemplo, a recompensa final da maioria dos jogos é a vitória. Os sistemas de aprendizado por reforço podem se tornar especialistas em jogos complexos, avaliando sequências de movimentos anteriores de jogos que resultaram em vitórias e sequências que resultaram em derrotas.

Aprendizado por reforço com feedback humano (RLHF)

#IAgenerativa
#rl

Usar feedback de avaliadores humanos para melhorar a qualidade das respostas de um modelo. Por exemplo, um mecanismo de RLHF pode pedir que os usuários classifiquem a qualidade da resposta de um modelo com um emoji 👍 ou 👎. O sistema pode ajustar as respostas futuras com base nesse feedback.

buffer de repetição

#rl

Em algoritmos do tipo DQN, a memória usada pelo agente para armazenar transições de estado para uso na repetição da experiência.

return

#rl

No aprendizado por reforço, dada uma determinada política e um determinado estado, o retorno é a soma de todas as recompensas que o agente espera receber ao seguir a política do estado até o final do episódio. O agente considera a natureza atrasada das recompensas esperadas, descontando as recompensas de acordo com as transições de estado necessárias para receber a recompensa.

Portanto, se o fator de desconto for \(\gamma\)e \(r_0, \ldots, r_{N}\) denotar os prêmios até o final do episódio, o cálculo de retorno será este:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

recompensa (recompensar)

#rl

No aprendizado por reforço, o resultado numérico de realizar uma ação em um estado, conforme definido pelo ambiente.

S

state

#rl

No aprendizado por reforço, os valores de parâmetro que descrevem a configuração atual do ambiente, que o agente usa para escolher uma ação.

função de valor da ação de estado

#rl

Sinônimo de Q-function.

T

Q-learning tabular

#rl

No aprendizado por reforço, implementar Q-learning usando uma tabela para armazenar as funções Q de cada combinação de estado e ação.

rede de destino

#rl

No aprendizado de qualidade profundo, uma rede neural que é uma aproximação estável da rede neural principal, em que a rede neural principal implementa uma função Q ou uma política. Em seguida, você pode treinar a rede principal com os valores Q previstos pela rede de destino. Portanto, você evita o loop de feedback que ocorre quando a rede principal treina com valores Q previstos por si só. Ao evitar esse feedback, a estabilidade do treinamento aumenta.

condição de encerramento

#rl

No aprendizado por reforço, as condições que determinam quando um episódio termina, como quando o agente atinge um determinado estado ou excede um número limite de transições de estado. Por exemplo, em tic-tac-toe, também conhecido como quebras e cruzes, um episódio termina quando um jogador marca três espaços consecutivos ou quando todos os espaços são marcados.

trajetória

#rl

No aprendizado por reforço, uma sequência de tuplas que representa uma sequência de transições de estado do agente, em que cada tupla corresponde ao estado, ação, recompensa e ao próximo estado de uma determinada transição de estado.