Słowniczek z systemami uczącymi się: uczenie się przez wzmacnianie

Ta strona zawiera hasła z glosariusza uczenia się przez wzmacnianie. Aby poznać wszystkie terminy z glosariusza, kliknij tutaj.

A

działanie

#rl

nauce przez wzmacnianie jest to mechanizm, za pomocą którego agent przechodzi między stanami środowiska. Agent wybiera działanie na podstawie polityki.

agent

#rl

W nauczaniu wzmacniającym jest to podmiot, który korzysta z reguły, aby zmaksymalizować oczekiwany zwrot uzyskany z przejścia między stanami otoczenia.

Ogólnie rzecz biorąc, agent to oprogramowanie, które autonomicznie planuje i wykonuje sekwencję działań w celu osiągnięcia celu, przy czym jest w stanie dostosować się do zmian w swoim środowisku. Na przykład agent oparty na LLM może używać LLM do generowania planu zamiast stosować zasady uczenia wzmacniającego.

B

równanie Bellmana

#rl

W uczeniu ze wzmocnieniem ta tożsamość jest zaspokajana przez optymalną funkcję Q:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

Algorytmy uczenia przez wzmacnianie wykorzystują tę tożsamość do tworzenia uczenia przez wzmacnianie za pomocą reguły aktualizacji:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

Poza uczeniem wzmacniającym równanie Bellmana ma zastosowanie w programowaniu dynamicznym. Zapoznaj się z  artykułem na temat równania Bellmana w Wikipedii.

C

krytyk

#rl

Synonim Deep Q-Network.

D

Deep Q-Network (DQN)

#rl

Q-learningu wykorzystuje się głęboką sieci neuronową, która prognozuje funkcje Q.

Krytyk to synonim sieci Deep Q.

DQN

#rl

Skrót od Deep Q-Network.

E

środowisko

#rl

W nagradzaniu świat to świat, który zawiera agenta i pozwala mu obserwować jego stan. Przedstawiany świat może być na przykład grą w szachy lub fizycznym labiryntem. Gdy agent zastosuje działanie do środowiska, środowisko przechodzi między stanami.

odcinek

#rl

W nauce ze wzmocnieniem każda z powtarzanych prób agenta polega na uczeniu się środowiska.

strategia epsilon-greedy

#rl

W nagradzaniu polityka to zbiór reguł, które z poziomem prawdopodobieństwa równym epsilon są losowe lub chłonne. Jeśli na przykład epsilon = 0,9, to w 90% przypadków polityka będzie zgodna z polityka losową, a w 10% przypadków – z polityka chciwą.

W kolejnych odcinkach algorytm zmniejsza wartość epsilona, aby przejść od stosowania losowej strategii do stosowania strategii chciwej. Gdy zmieniasz politykę, agent najpierw losowo eksploruje środowisko, a potem wykorzystuje wyniki tej eksploracji.

odtwarzanie

#rl

W uczeniu się przez wzmocnienie technika DQN służąca do zmniejszania korelacji czasowych w danych treningowych. Agent przechowuje przejścia stanu w buforze odtwarzania, a potem pobiera próbki przejść z bufora odtwarzania, aby utworzyć dane treningowe.

G

zasada zachłanności

#rl

W uczeniu ze wzmocnieniem polityka, która zawsze wybiera działanie o najwyższym oczekiwanym zwrocie.

M

Proces decyzyjny Markowa (MDP)

#rl

Graf przedstawiający model podejmowania decyzji, w którym decyzje (czyli działania) są podejmowane w celu przejścia przez sekwencję stanów przy założeniu, że zachodzi właściwość Markowa. W nauce ze wzmocnieniem te przejścia między stanami zwracają liczbową nagrodę.

Właściwość Markowa

#rl

Właściwość niektórych środowisk, w których przejścia między stanami są całkowicie określane przez informacje zawarte w bieżącym stanie i działaniu agenta.

P

zasada

#rl

W uczeniu się przez wzmacnianie agent korzysta z mapowania probabilistycznego stanów na działania.

P

Funkcja Q

#rl

W nauczaniu wzmacniającym funkcja, która przewiduje oczekiwany zwrot z wykonania działaniastanie, a następnie działa zgodnie z danym regułem.

Funkcja Q jest też nazywana funkcją wartości stanu i działania.

Q-learning

#rl

Uczenie ze wzmocnieniem to algorytm, który pozwala agentowi uczyć się optymalnej funkcji Q procesu decyzyjnego Markova przez zastosowanie równania Bellmana. Proces decyzyjny Markowa modeluje otoczenie.

R

zasada losowa

#rl

nauce wzmacniającej polityka, która losowo wybiera działanie.

uczenie się przez wzmacnianie (RL);

#rl

Rodzina algorytmów, które uczą się optymalnej polityki, której celem jest maksymalizacja zysku w interakcjach z otoczeniem. Na przykład w większości gier ostateczną nagrodą jest zwycięstwo. Systemy uczenia się przez wzmacnianie mogą stać się ekspertami w zaawansowanych grach, oceniając sekwencję poprzednich ruchów, które doprowadziły do wygranej, i sekwencje, które doprowadziły do przegranej.

Uczenie przez wzmacnianie na podstawie opinii użytkowników (RLHF)

#generativeAI
#rl

Korzystanie z opinii weryfikatorów, aby poprawić jakość odpowiedzi modelu. Na przykład mechanizm RLHF może prosić użytkowników o ocena jakości odpowiedzi modelu za pomocą emotikonów 👍 lub 👎. System może następnie dostosować swoje przyszłe odpowiedzi na podstawie tych informacji.

bufor powtórki

#rl

W przypadku algorytmów podobnych do DQN pamięć używana przez agenta do przechowywania przejść stanu na potrzeby odtwarzania doświadczeń.

powrót

#rl

W nauce wzmacniającej, przy założeniu określonej strategii i stanu, zwrot to suma wszystkich nagród, które agent oczekuje otrzymać, gdy będzie przestrzegać strategii od stanu do końca sesji. Agent uwzględnia opóźnienie w przyznawaniu nagród, stosując dyskonto na podstawie stanów przejściowych wymaganych do uzyskania nagrody.

Jeśli więc współczynnik rabatu wynosi \(\gamma\), a  \(r_0, \ldots, r_{N}\) oznacza nagrody do końca odcinka, to obliczenie zwrotu wygląda tak:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

nagrody

#rl

W uczeniu się przez wzmocnienie jest to wynik liczbowy wykonania działaniastanie określonym przez środowisko.

S

stan

#rl

W nagradzaniu wartości parametrów opisujące bieżącą konfigurację środowiska, których agent używa do wyboru działania.

funkcja wartości stanu-działania

#rl

Synonim funkcji Q.

T

tablicowy algorytm Q-learning

#rl

W uczeniu ze wzmocnieniem można zastosować naukę Q, korzystając z tabeli do przechowywania funkcji Q dla każdej kombinacji stanudziałania.

sieć docelowa

#rl

uczeniu głębokim Q-learning jest to sieć neuronowa, która jest stabilną przybliżeniem głównej sieci neuronowej, gdzie główna sieć neuronowa implementuje albo funkcję Q, albo zasady. Następnie możesz trenować główną sieć na podstawie wartości Q przewidywanych przez sieć docelową. Dzięki temu zapobiegasz pętli sprzężenia zwrotnego, która występuje, gdy główna sieć uczy się na podstawie wartości Q, które sama przewiduje. Dzięki temu zwiększysz stabilność treningu.

warunek zakończenia,

#rl

W nauce ze wzmocnieniem warunki określające, kiedy kończy się etap, takie jak osiągnięcie przez agenta określonego stanu lub przekroczenie progowego poziomu liczby przejść między stanami. Na przykład w grze kółko i krzyżyk (znanej też jako kółko i krzyżyk) rozgrywka kończy się, gdy gracz zaznaczy 3 kolejne pola lub gdy zaznaczy wszystkie pola.

trajektoria

#rl

W nauce ze wzmocnieniem sekwencja tupli reprezentujących sekwencję stanów agenta, przy czym każda tupla odpowiada stanowi, działaniu, nagradzeniu i następnemu stanowi w przypadku danego przejścia między stanami.