Esta página contém os termos do glossário de aprendizado por reforço. Para conferir todos os termos do glossário, clique aqui.
A
ação
No aprendizado por reforço, o mecanismo pelo qual o agente faz transições entre estados do ambiente. O agente escolhe a ação usando uma política.
agente
No aprendizado por reforço, a entidade que usa uma política para maximizar o retorno esperado da transição entre estados do ambiente.
De forma mais geral, um agente é um software que planeja e executa de forma autônoma uma série de ações em busca de uma meta, com a capacidade de se adaptar a mudanças no ambiente. Por exemplo, um agente baseado em LLM pode usar um LLM para gerar um plano, em vez de aplicar uma política de aprendizado por reforço.
B
Equação de Bellman
No aprendizado por reforço, a seguinte identidade é satisfeita pela função Q ideal:
\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]
Os algoritmos de aprendizagem por reforço aplicam essa identidade para criar aprendizagem Q usando a seguinte regra de atualização:
\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]
Além do aprendizado por reforço, a equação de Bellman tem aplicações para programação dinâmica. Consulte a entrada da Wikipédia sobre a equação de Bellman.
C
crítico
Sinônimo de rede Q profunda.
D
Rede Q profunda (DQN)
No aprendizado por Q, uma rede neural profunda prevê funções Q.
Critic é um sinônimo de rede Q profunda.
DQN
Abreviação de rede Q profunda.
E
ambiente
No aprendizado por reforço, o mundo que contém o agente e permite que ele observe o estado desse mundo. Por exemplo, o mundo representado pode ser um jogo como o xadrez ou um mundo físico como um labirinto. Quando o agente aplica uma ação ao ambiente, ele transita entre os estados.
episódio
No aprendizado por reforço, cada uma das tentativas repetidas do agente para aprender um ambiente.
política de epsilon greedy
No aprendizado por reforço, uma política que segue uma política aleatória com probabilidade ϵ ou uma política gananciosa. Por exemplo, se epsilon for 0,9, a política vai seguir uma política aleatória 90% do tempo e uma política gananciosa 10% do tempo.
Em episódios sucessivos, o algoritmo reduz o valor de epsilon para mudar de uma política aleatória para uma política avarenta. Ao mudar a política, o agente primeiro explora o ambiente aleatoriamente e depois explora avidamente os resultados da exploração aleatória.
Repetição da experiência
No aprendizado por reforço, uma técnica de DQN usada para reduzir correlações temporais nos dados de treinamento. O agente armazena transições de estado em um buffer de repetição e, em seguida, amostra transições do buffer de repetição para criar dados de treinamento.
G
política gananciosa
No aprendizado por reforço, uma política que sempre escolhe a ação com a maior retorno esperado.
M
Processo de decisão de Markov (MDP)
Um gráfico que representa o modelo de tomada de decisão em que decisões (ou ações) são tomadas para navegar em uma sequência de estados com a suposição de que a propriedade de Markov é válida. No aprendizado por reforço, essas transições entre estados retornam uma recompensa numérica.
Propriedade de Markov
Uma propriedade de determinados ambientes, em que as transições de estado são totalmente determinadas por informações implícitas no estado atual e a ação do agente.
P
política
No aprendizado por reforço, o mapeamento probabilístico de um agente de estados para ações.
P
Função Q
No aprendizado por reforço, a função que prevê o retorno esperado de uma ação em um estado e, em seguida, segue uma determinada política.
A função Q também é conhecida como função de valor de estado-ação.
Aprendizagem Q
No aprendizado por reforço, um algoritmo que permite que um agente aprenda a função Q ideal de um processo de decisão de Markov aplicando a equação de Bellman. O processo de decisão de Markov modela um ambiente.
R
política aleatória
No aprendizado por reforço, uma política que escolhe uma ação aleatoriamente.
aprendizado por reforço (RL, na sigla em inglês)
Uma família de algoritmos que aprende uma política ideal, com o objetivo de maximizar o retorno ao interagir com um ambiente. Por exemplo, a recompensa final da maioria dos jogos é a vitória. Os sistemas de aprendizado de reforço podem se tornar especialistas em jogos complexos avaliando sequências de jogadas anteriores que levaram a vitórias e sequências que levaram a derrotas.
Aprendizado por reforço com feedback humano (RLHF)
Usar o feedback de avaliadores humanos para melhorar a qualidade das respostas de um modelo. Por exemplo, um mecanismo de RLHF pode pedir que os usuários avaliem a qualidade da resposta de um modelo com um emoji 👍 ou 👎. O sistema pode ajustar as respostas futuras com base nesse feedback.
buffer de repetição
Em algoritmos semelhantes ao DQN, a memória usada pelo agente para armazenar transições de estado para uso em repetição de experiência.
return
No aprendizado por reforço, dada uma determinada política e um determinado estado, o retorno é a soma de todas as recompensas que o agente espera receber ao seguir a política do estado até o final do episódio. O agente considera a natureza atrasada das recompensas esperadas descontando as recompensas de acordo com as transições de estado necessárias para receber a recompensa.
Portanto, se o fator de desconto for \(\gamma\)e \(r_0, \ldots, r_{N}\) indicar as recompensas até o fim do episódio, o cálculo do retorno será o seguinte:
prêmio
No aprendizado por reforço, o resultado numérico de realizar uma ação em um estado, conforme definido pelo ambiente.
S
estado
No aprendizado por reforço, os valores de parâmetro que descrevem a configuração atual do ambiente, que o agente usa para escolher uma ação.
função de valor de estado-ação
Sinônimo de função Q.
T
Aprendizagem Q tabular
No aprendizado por reforço, implemente o aprendizado por Q usando uma tabela para armazenar as funções Q para cada combinação de estado e ação.
rede de destino
No aprendizado por Q profundo, uma rede neural que é uma aproximação estável da rede neural principal, em que a rede neural principal implementa uma função Q ou uma política. Em seguida, você pode treinar a rede principal com os valores Q previstos pela rede alvo. Portanto, você evita o ciclo de feedback que ocorre quando a rede principal é treinada com valores Q previstos por ela mesma. Ao evitar esse feedback, a estabilidade do treinamento aumenta.
condição de encerramento
Na aprendizagem por reforço, as condições que determinam quando um episódio termina, como quando o agente alcança um determinado estado ou excede um número de transição de estado. Por exemplo, no jogo da velha (também conhecido como jogo da velha cruzada), um episódio termina quando um jogador marca três espaços consecutivos ou quando todos os espaços são marcados.
trajetória
No aprendizado por reforço, uma sequência de tuplas que representam uma sequência de transições de estado do agente, em que cada tupla corresponde ao estado, ação, recompensa e o próximo estado para uma determinada transição de estado.