Questa pagina contiene i termini del glossario per il reinforcement learning. Per tutti i termini del glossario, fai clic qui.
A
azione
Nell'apprendimento per rinforzo, il meccanismo mediante il quale l'agente passa tra gli stati dell'ambiente. L'agente sceglie l'azione utilizzando un criterio.
agente
Nel reinforcement learning, l'entità che utilizza una norma per massimizzare il ritorno previsto ottenuto dalla transizione tra gli stati dell'ambiente.
Più in generale, un agente è un software che pianifica ed esegue autonomamente una serie di azioni per perseguire un obiettivo, con la capacità di adattarsi ai cambiamenti nel proprio ambiente. Ad esempio, gli agenti basati su LLM potrebbero utilizzare l'LLM per generare un piano, anziché applicare un criterio di apprendimento per rinforzo.
B
Equazione di Bellman
Nell'apprendimento per rinforzo, la seguente identità è soddisfatta dalla funzione Q ottimale:
\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]
Gli algoritmi di apprendimento per rinforzo applicano questa identità per creare Q-learning tramite la seguente regola di aggiornamento:
\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]
Oltre all'apprendimento per rinforzo, l'equazione di Bellman ha applicazioni alla programmazione dinamica. Consulta la voce di Wikipedia relativa all'equazione di Bellman.
C
critico
Sinonimo di Deep Q-Network.
D
Deep Q-Network (DQN)
In Q-learning, una rete neurale approfondita che prevede le funzioni Q.
Critico è un sinonimo di Deep Q-Network.
DQN
Abbreviazione di Deep Q-Network.
E
produzione
Nel reinforcement learning, il mondo che contiene l'agente e consente all'agente di osservare lo stato del mondo. Ad esempio, il mondo rappresentato può essere un gioco come gli scacchi o un mondo fisico come un labirinto. Quando l'agente applica un'azione all'ambiente, l'ambiente passa da uno stato all'altro.
puntata
Nell'apprendimento per rinforzo, ciascuno dei tentativi ripetuti da parte dell'agente di apprendere un ambiente.
norme epsilon greedy
Nel reinforcement learning, una norma che segue una norma casuale con una probabilità di epsilon o una norma greedy. Ad esempio, se epsilon è 0.9, la norma segue una norma casuale il 90% delle volte e una norma greedy il 10% delle volte.
Negli episodi successivi, l'algoritmo riduce il valore di epsilon per passare da un criterio casuale a un criterio greedy. Cambiando il criterio, l'agente prima esplora in modo casuale l'ambiente e poi sfrutta avidamente i risultati di un'esplorazione casuale.
riproduzione dell'esperienza
Nel reinforcement learning, è stata utilizzata una tecnica DQN per ridurre le correlazioni temporali nei dati di addestramento. L'agente memorizza le transizioni di stato in un buffer di riproduzione, quindi campiona le transizioni dal buffer di ripetizione per creare i dati di addestramento.
G
norme greedy
Nell'apprendimento per rinforzo, una norma che sceglie sempre l'azione con il ritorno previsto più alto.
L
Processo decisionale di Markov (MDP)
Un grafico che rappresenta il modello decisionale in cui vengono prese le decisioni (o le azioni) per esplorare una sequenza di stati partendo dal presupposto che la proprietà di Markov è in possesso. Nell'apprendimento per rinforzo, queste transizioni tra gli stati restituiscono una ricompensa numerica.
Proprietà di Markov
Una proprietà di alcuni ambienti, in cui le transizioni di stato sono interamente determinate dalle informazioni implicite nello stato corrente e dall'azione dell'agente.
P
policy
Nell'apprendimento per rinforzo, la mappatura probabilistica di un agente da stati ad azioni.
D
Funzione Q
Nell'apprendimento per rinforzo, la funzione che prevede il ritorno previsto dall'esecuzione di un' azione in uno stato e dal seguito di un determinato criterio.
La funzione Q è anche nota come funzione valore stato-azione.
Q-learning
Nell'apprendimento per rinforzo, un algoritmo che consente a un agente di apprendere la funzione Q ottimale di un processo decisionale di Markov applicando l'equazione di Bellman. Il processo decisionale di Markov modella un ambiente.
R
criterio casuale
Nell'apprendimento per rinforzo, un criterio che sceglie un' azione a caso.
apprendimento per rinforzo
Una famiglia di algoritmi che apprende una norma ottimale, il cui obiettivo è massimizzare il ritorno quando si interagisce con un ambiente. Ad esempio, la ricompensa definitiva della maggior parte dei giochi è la vittoria. I sistemi di apprendimento per rinforzo possono imparare a giocare a giochi complessi valutando sequenze di mosse precedenti che hanno portato a vittorie e sequenze che alla fine hanno portato a perdite.
Apprendimento per rinforzo con feedback umano (RLHF)
Utilizzo del feedback di revisori umani per migliorare la qualità delle risposte di un modello. Ad esempio, un meccanismo RLHF può chiedere agli utenti di valutare la qualità della risposta di un modello con un'emoji 👍 o 👎. Il sistema può quindi modificare le risposte future in base a quel feedback.
ripeti buffer
Negli algoritmi simili a DQN, la memoria utilizzata dall'agente per archiviare le transizioni di stato per l'utilizzo nella riproduzione dell'esperienza.
return
Nell'apprendimento per rinforzo, in base a una determinata norma e a un certo stato, il ritorno è la somma di tutti i premi che l'agente si aspetta di ricevere quando segue le norme dallo stato alla fine della puntata. L'agente tiene conto della natura ritardata dei premi previsti scontando i premi in base alle transizioni di stato richieste per ottenere il premio.
Pertanto, se il fattore di sconto è \(\gamma\)e \(r_0, \ldots, r_{N}\)indica i premi fino alla fine della puntata, il calcolo del ritorno è il seguente:
premio
Nell'apprendimento per rinforzo, il risultato numerico dell'esecuzione di un'azione in uno stato, come definito dall'ambiente.
S
state
Nel reinforcement learning, i valori parametro che descrivono l'attuale configurazione dell'ambiente, utilizzati dall'agente per scegliere un'azione.
funzione valore-azione-stato
Sinonimo di funzione Q.
T
Q-learning tabulare
Nell'apprendimento per rinforzo, l'implementazione di Q-learning mediante l'uso di una tabella per archiviare le funzioni Q per ogni combinazione di stato e azione.
rete target
In Deep Q-learning, una rete neurale che rappresenta un'approssimazione stabile della rete neurale principale, in cui la rete neurale principale implementa una funzione Q o un criterio. Quindi, puoi addestrare la rete principale sui valori Q previsti dalla rete target. Di conseguenza, eviti il ciclo di feedback che si verifica quando la rete principale viene addestrata sui valori Q previsti da sé. Evitando questo feedback, la stabilità dell'addestramento aumenta.
condizione di risoluzione
Nell'apprendimento per rinforzo, le condizioni che determinano quando termina una puntata, ad esempio quando l'agente raggiunge un determinato stato o supera una determinata soglia di transizioni di stato. Ad esempio, in tris consecutivi, un episodio termina quando un giocatore segna tre spazi consecutivi o segna tutti gli spazi.
traiettoria
Nell'apprendimento per rinforzo, una sequenza di tuple che rappresenta una sequenza di transizioni di stato dell'agente, in cui ogni tupla corrisponde allo stato, a azione, a ricompensa e allo stato successivo per una determinata transizione di stato.