Nesta página, você encontra os termos do glossário do aprendizado por reforço. Para ver todos os termos do glossário, clique aqui.
A
ação
No aprendizado por reforço, o mecanismo pelo qual o agente faz a transição entre os estados do ambiente. O agente escolhe a ação usando uma política.
agente
No aprendizado por reforço, a entidade que usa uma política para maximizar o retorno esperado recebido da transição entre os estados do ambiente.
De modo mais geral, um agente é um software que planeja e executa de maneira autônoma uma série de ações em busca de um objetivo, com a capacidade de se adaptar às mudanças no ambiente. Por exemplo, agentes baseados em LLM podem usar o LLM para gerar um plano em vez de aplicar uma política de aprendizado por reforço.
B
Equação de Bellman
No aprendizado por reforço, a seguinte identidade é atendida pela função Q ideal:
\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]
Os algoritmos de aprendizado por reforço aplicam essa identidade para criar o Q-learning usando a seguinte regra de atualização:
\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]
Além do aprendizado por reforço, a equação Bellman tem aplicações à programação dinâmica. Veja a entrada da Wikipédia sobre a equação de Bellman (em inglês).
C
crítica
Sinônimo de Deep Q-Network.
D
Rede Q profunda (DQN)
No Q-learning, uma rede neural profunda que prevê funções Q.
Critic é um sinônimo de rede Q profunda.
DQN
Abreviação de Deep Q-Network.
E
de produção
No aprendizado por reforço, o mundo que contém o agente e permite que o agente observe o estado desse mundo. Por exemplo, o mundo representado pode ser um jogo de xadrez ou um mundo físico como um labirinto. Quando o agente aplica uma ação ao ambiente, o ambiente transita entre os estados.
episódio
No aprendizado por reforço, cada uma das tentativas repetidas do agente de aprender um ambiente.
política gananciosa épsilon
No aprendizado por reforço, uma política que segue uma política aleatória com probabilidade de épsilon ou uma política gananciosa. Por exemplo, se épsilon for 0,9, a política seguirá uma política aleatória 90% das vezes e uma política gananciosa 10% das vezes.
Ao longo de episódios sucessivos, o algoritmo reduz o valor do épsilon para mudar de uma política aleatória para uma gulosa. Ao mudar a política, o agente primeiro explora aleatoriamente o ambiente e depois explora gananciosamente os resultados da exploração aleatória.
repetição da experiência
No aprendizado por reforço, uma técnica de DQN é usada para reduzir as correlações temporais nos dados de treinamento. O agente armazena as transições de estado em um buffer de reprodução e, em seguida, amostra as transições do buffer de repetição para criar dados de treinamento.
G
política gananciosa
No aprendizado por reforço, uma política que sempre escolhe a ação com o maior retorno esperado.
M
Processo de decisão de Markov (MDP)
Um grafo que representa o modelo de tomada de decisões em que as decisões (ou ações) são tomadas para navegar por uma sequência de estados, supondo que a propriedade de Markov seja válida. No aprendizado por reforço, essas transições entre estados retornam uma recompensa numérica.
Propriedade de Markov
Uma propriedade de certos ambientes, em que as transições de estado são totalmente determinadas por informações implícitas no estado atual e pela ação do agente.
P
policy
No aprendizado por reforço, é o mapeamento probabilístico de um agente de estados para ações.
P
Função Q
No aprendizado por reforço, a função que prevê o retorno esperado de realizar uma ação em um estado e seguir uma determinada política.
A função Q também é conhecida como função de valor de ação de estado.
Aprendizagem comparativa
No aprendizado por reforço, um algoritmo que permite que um agente aprenda a função Q ideal de um processo de decisão de Markov aplicando a equação de Bellman. O processo de decisão de Markov modela um ambiente.
R
política aleatória
No aprendizado por reforço, uma política que escolhe uma ação aleatoriamente.
aprendizado por reforço (RL)
Uma família de algoritmos que aprendem uma política ideal, com o objetivo de maximizar o retorno ao interagir com um ambiente. Por exemplo, a recompensa final da maioria dos jogos é a vitória. Os sistemas de aprendizado por reforço podem se tornar especialistas em jogos complexos, avaliando sequências de movimentos anteriores de jogos que resultaram em vitórias e sequências que resultaram em derrotas.
Aprendizado por reforço com feedback humano (RLHF)
Usar feedback de avaliadores humanos para melhorar a qualidade das respostas de um modelo. Por exemplo, um mecanismo de RLHF pode pedir que os usuários classifiquem a qualidade da resposta de um modelo com um emoji 👍 ou 👎. O sistema pode ajustar as respostas futuras com base nesse feedback.
buffer de repetição
Em algoritmos do tipo DQN, a memória usada pelo agente para armazenar transições de estado para uso na repetição da experiência.
return
No aprendizado por reforço, dada uma determinada política e um determinado estado, o retorno é a soma de todas as recompensas que o agente espera receber ao seguir a política do estado até o final do episódio. O agente considera a natureza atrasada das recompensas esperadas, descontando as recompensas de acordo com as transições de estado necessárias para receber a recompensa.
Portanto, se o fator de desconto for \(\gamma\)e \(r_0, \ldots, r_{N}\) denotar os prêmios até o final do episódio, o cálculo de retorno será este:
recompensa (recompensar)
No aprendizado por reforço, o resultado numérico de realizar uma ação em um estado, conforme definido pelo ambiente.
S
state
No aprendizado por reforço, os valores de parâmetro que descrevem a configuração atual do ambiente, que o agente usa para escolher uma ação.
função de valor da ação de estado
Sinônimo de Q-function.
T
Q-learning tabular
No aprendizado por reforço, implementar Q-learning usando uma tabela para armazenar as funções Q de cada combinação de estado e ação.
rede de destino
No aprendizado de qualidade profundo, uma rede neural que é uma aproximação estável da rede neural principal, em que a rede neural principal implementa uma função Q ou uma política. Em seguida, você pode treinar a rede principal com os valores Q previstos pela rede de destino. Portanto, você evita o loop de feedback que ocorre quando a rede principal treina com valores Q previstos por si só. Ao evitar esse feedback, a estabilidade do treinamento aumenta.
condição de encerramento
No aprendizado por reforço, as condições que determinam quando um episódio termina, como quando o agente atinge um determinado estado ou excede um número limite de transições de estado. Por exemplo, em tic-tac-toe, também conhecido como quebras e cruzes, um episódio termina quando um jogador marca três espaços consecutivos ou quando todos os espaços são marcados.
trajetória
No aprendizado por reforço, uma sequência de tuplas que representa uma sequência de transições de estado do agente, em que cada tupla corresponde ao estado, ação, recompensa e ao próximo estado de uma determinada transição de estado.