Questa pagina è stata tradotta dall'API Cloud Translation.

Glossario del machine learning: reinforcement learning

Questa pagina contiene i termini del glossario del reinforcement learning. Per tutti i termini del glossario, fai clic qui.

A

azione

#rl

Nel reinforcement learning, il meccanismo mediante il quale l'agente esegue la transizione tra gli stati dell' ambiente. L'agente sceglie l'azione utilizzando una norma.

agente

#rl

Nell'apprendimento per rinforzo, l'entità che utilizza un regolamento per massimizzare il ritorno previsto ottenuto dalla transizione tra stati dell' ambiente.

Più in generale, un agente è un software che pianifica ed esegue autonomamente una serie di azioni al fine di raggiungere un obiettivo, con la capacità di adattarsi alle variazioni del suo ambiente. Ad esempio, un agente basato su LLM potrebbe utilizzare un LLM per generare un piano anziché applicare un criterio di apprendimento tramite rinforzo.

B

Equazione di Bellman

#rl

Nell'apprendimento tramite rinforzo, la seguente identità soddisfatta dalla funzione Q ottimale:

$Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')$

Gli algoritmi di apprendimento per rinforzo applicano questa identità per creare l'apprendimento con Q-learning utilizzando la seguente regola di aggiornamento:

$Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right]$

Oltre al reinforcement learning, l'equazione di Bellman ha applicazioni alla programmazione dinamica. Consulta la voce di Wikipedia sull'equazione di Bellman.

C

critico

#rl

Sinonimo di Deep Q-Network.

D

Deep Q-Network (DQN)

#rl

In Q-learning, una rete neurale profonda che prevede le funzioni Q.

Critic è un sinonimo di Deep Q-Network.

DQN

#rl

Abbreviazione di Deep Q-Network.

E

produzione

#rl

Nell'apprendimento tramite rinforzo, il mondo che contiene l'agente e consente all'agente di osservare lo stato di quel mondo. Ad esempio, il mondo rappresentato può essere un gioco come gli scacchi o un mondo fisico come un labirinto. Quando l'agente applica un'azione all'ambiente, l'ambiente passa da uno stato all'altro.

puntata

#rl

Nell'apprendimento per rinforzo, ciascuno dei tentativi ripetuti dell'agente di apprendere un ambiente.

Criterio epsilon greedy

#rl

Nell'apprendimento basato su rinforzo, una norma che segue una norma casuale con probabilità epsilon o una norma avida in caso contrario. Ad esempio, se epsilon è uguale a 0,9, il criterio segue un criterio casuale nel 90% dei casi e un criterio avido nel 10% dei casi.

Nelle varie iterazioni, l'algoritmo riduce il valore di epsilon per passare dal seguire un criterio casuale a seguire un criterio avido. Spostando il criterio, l'agente esplora prima l'ambiente in modo casuale e poi sfrutta avidamente i risultati dell'esplorazione casuale.

Esperienza di replay

#rl

Nell'apprendimento per rinforzo, una tecnica DQN utilizzata per ridurre le correlazioni temporali nei dati di addestramento. L'agente immagazzina le transizioni di stato in un buffer di replay e poi campiona le transizioni dal buffer di replay per creare i dati di addestramento.

G

criterio di scelta greedy

#rl

Nell'apprendimento tramite rinforzo, un criterio che sceglie sempre l'azione con il ritorno previsto più elevato.

M

Processo decisionale di Markov (MDP)

#rl

Un grafico che rappresenta il modello decisionale in cui vengono prese decisioni (o azioni) per navigare in una sequenza di stati in base all'ipotesi che la proprietà di Markov sia valida. Nel machine learning con rinforzo, queste transizioni tra stati restituiscono un premio numerico.

Proprietà di Markov

#rl

Una proprietà di determinati ambienti, in cui le transizioni di stato sono interamente determinate dalle informazioni implicite nell'stato corrente e nell'azione dell'agente.

P

policy

#rl

Nell'apprendimento per rinforzo, la mappatura probabilistica di un agente da stati ad azioni.

Q

Funzione Q

#rl

Nell'apprendimento per rinforzo, la funzione che predice il ritorno previsto dall'adozione di un' azione in un stato e poi seguendo una determinata norma.

La funzione Q è nota anche come funzione di valore stato-azione.

Apprendimento Q

#rl

Nell'apprendimento per rinforzo, un algoritmo che consente a un agente di apprendere la funzione Q ottimale di un processo decisionale di Markov applicando l'equazione di Bellman. Il processo decisionale di Markov modella un ambiente.

R

criterio casuale

#rl

Nell'apprendimento per rinforzo, un criterio che sceglie un azione in modo casuale.

apprendimento per rinforzo (RL)

#rl

Una famiglia di algoritmi che apprendono un regolamento ottimale, il cui scopo è massimizzare il ritorno durante l'interazione con un ambiente. Ad esempio, il premio finale della maggior parte dei giochi è la vittoria. I sistemi di reinforcement learning possono diventare esperti nel giocare a giochi complessi valutando sequenze di mosse precedenti che hanno portato a vittorie e sequenze che hanno portato a sconfitte.

Apprendimento per rinforzo con feedback umano (RLHF)

#generativeAI

#rl

Utilizzo del feedback di valutatori umani per migliorare la qualità delle risposte di un modello. Ad esempio, un meccanismo RLHF può chiedere agli utenti di valutare la qualità della risposta di un modello con un'emoji 👍 o 👎. Il sistema può quindi modificare le sue risposte future in base a questo feedback.

replay buffer

#rl

Negli algoritmi simili a DQN, la memoria utilizzata dall'agente per memorizzare le transizioni di stato da utilizzare nella riproduzione dell'esperienza.

invio

#rl

Nell'apprendimento tramite rinforzo, dati un determinato criterio e uno stato specifico, il rendimento è la somma di tutti i premi che l'agente si aspetta di ricevere quando segue il criterio dal stato alla fine dell'episodio. L'agente tiene conto della natura ritardata dei premi previsti scontandoli in base alle transizioni di stato necessarie per ottenerli.

Pertanto, se il fattore di sconto è $\gamma$ e $r_0, \ldots, r_{N}$ indicano i premi fino alla fine della puntata, il calcolo del rendimento è il seguente:

$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$

premio

#rl

Nell'apprendimento per rinforzo, il risultato numerico dell'esecuzione di un'azione in uno stato, come definito dall'ambiente.

S

stato

#rl

Nell'apprendimento tramite rinforzo, i valori dei parametri che descrivono la configurazione corrente dell'ambiente, che l'agente utilizza per scegliere un'azione.

funzione valore stato-azione

#rl

Sinonimo di funzione Q.

T

Apprendimento Q tabulare

#rl

Nel machine learning con rinforzo, implementa il Q-learning utilizzando una tabella per memorizzare le funzioni Q per ogni combinazione di stato e azione.

rete target

#rl

In Deep Q-learning, una rete neurale che è un'approssimazione stabile della rete neurale principale, dove la rete neurale principale implementa una funzione Q o una norma. Poi, puoi addestrare la rete principale sui valori Q previsti dalla rete di destinazione. In questo modo, eviti il loop di feedback che si verifica quando la rete principale viene addestrata sui valori Q previsti da essa stessa. Evitando questo feedback, la stabilità dell'allenamento aumenta.

condizione di interruzione

#rl

Nell'apprendimento per rinforzo, le condizioni che determinano quando termina un'espiazione, ad esempio quando l'agente raggiunge un determinato stato o supera un numero di transizioni di stato di soglia. Ad esempio, nel gioco del tris (noto anche come morra), una partita termina quando un giocatore contrassegna tre caselle consecutive o quando tutte le caselle sono contrassegnate.

traiettoria

#rl

Nell'apprendimento per rinforzo, una sequenza di tuple che rappresentano una sequenza di transizioni di stato dell'agente, dove ogni tupla corrisponde allo stato, all'azione, ricompensa e allo stato successivo per una determinata transizione di stato.