Diese Seite enthält Glossarbegriffe zum Reinforcement Learning. Alle Glossarbegriffe finden Sie hier.
A
Aktion
Beim Reinforcement Learning der Mechanismus, mit dem der Agent zwischen Zuständen der Umgebung wechselt. Der Agent wählt die Aktion mithilfe einer Richtlinie aus.
Agent
Beim Bestärkendes Lernen die Entität, die eine Richtlinie verwendet, um die erwartete Rendite des Wechsels zwischen den Zuständen der Umgebung zu maximieren.
Im Allgemeinen ist ein Agent eine Software, die autonom eine Reihe von Aktionen zur Erreichung eines Ziels plant und ausführt und sich in der Lage ist, sich an Änderungen in der Umgebung anzupassen. Beispielsweise könnten LLM-basierte Agents das LMM verwenden, um einen Plan zu erstellen, anstatt eine Richtlinie für Reinforcement Learning anzuwenden.
B
Bellman-Gleichung
Beim Reinforcement Learning wird die folgende Identität durch die optimale Q-Funktion erfüllt:
\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]
Die Algorithmen des Reinforcement Learning wenden diese Identität über die folgende Aktualisierungsregel an, um Q-learning zu erstellen:
\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]
Neben Reinforcement Learning ist die Bellman-Gleichung auch auf die dynamische Programmierung anwendbar. Weitere Informationen finden Sie im Wikipedia-Eintrag zur Bellman-Gleichung.
C
Kritiker
Synonym für Deep Q-Network.
D
Deep Q-Network (DQN)
In Q-learning ein tiefes neuronales Netzwerk, das Q-Funktionen vorhersagt.
Kritik ist ein Synonym für Deep Q-Network.
DQN
Abkürzung für Deep Q-Network
E
Umgebung
Beim Reinforcement Learning die Welt, die den Agent enthält und dem Agent die Beobachtung des Status dieser Welt ermöglicht. Die repräsentierte Welt kann beispielsweise ein Spiel wie Schach oder eine physische Welt wie ein Labyrinth sein. Wenn der Agent eine Aktion auf die Umgebung anwendet, wechselt die Umgebung zwischen den Status.
Folge
Beim Reinforcement Learning jeder der wiederholten Versuche des Agents, eine Umgebung zu lernen.
Epsilon-Greedy-Richtlinie
Beim Reinforcement Learning eine Richtlinie, die entweder einer Zufallsrichtlinie mit Epsilon-Wahrscheinlichkeit oder einer Greedy-Richtlinie folgt. Wenn der Wert für Epsilon beispielsweise 0, 9 beträgt, dann folgt die Richtlinie in 90% der Fälle einer Zufallsrichtlinie und in 10% der Fälle einer Greedy-Richtlinie.
Über aufeinanderfolgende Folgen reduziert der Algorithmus den Wert von Epsilon, um von einer zufälligen Richtlinie hin eine gierige Richtlinie zu befolgen. Durch die Verschiebung der Richtlinie untersucht der Agent zuerst die Umgebung nach dem Zufallsprinzip und nutzt dann gierig die Ergebnisse der zufälligen explorativen Datenanalyse aus.
Erneute Wiedergabe
Beim Reinforcement Learning wird ein DQN-Verfahren verwendet, um zeitliche Korrelationen in Trainingsdaten zu reduzieren. Der Agent speichert Zustandsübergänge in einem Wiederholungspuffer und probiert dann Übergänge aus dem Wiederholungspuffer aus, um Trainingsdaten zu erstellen.
G
Greedy-Richtlinie
Beim Reinforcement Learning eine Richtlinie, die immer die Aktion mit der höchsten erwarteten Rendite auswählt.
M
Markov-Entscheidungsprozess (MDP)
Diagramm, das das Entscheidungsmodell darstellt, bei dem Entscheidungen (oder Aktionen) zum Navigieren durch eine Folge von Bundesstaaten unter der Annahme der Markov-Property getroffen werden. Beim Bestärkendes Lernen geben diese Übergänge zwischen Stadien eine numerische Prämie zurück.
Markov-Property
Eigenschaft bestimmter Umgebungen, bei denen Statusübergänge vollständig durch die Informationen im aktuellen Status und die Aktion des Agents bestimmt werden.
P
policy
Beim Reinforcement Learning die probabilistische Zuordnung eines Agents von Bundesstaaten zu Aktionen.
F
Q-Funktion
Beim Bestärkendes Lernen ist dies die Funktion, die die erwartete Rückgabe einer Aktion in einem Status und anschließendes Befolgen einer bestimmten Richtlinie vorhersagt.
Die Q-Funktion wird auch als Status-Aktionswert-Funktion bezeichnet.
Q-Learning
Reinforcement Learning, ein Algorithmus, mit dem ein Agent die optimale Q-Funktion eines Markov-Entscheidungsprozesses anhand der Bellman-Gleichung erlernt. Der Markov-Entscheidungsprozess modelliert eine Umgebung.
R
Zufallsrichtlinie
Beim bestärkenden Lernen eine Richtlinie, die eine Aktion nach dem Zufallsprinzip auswählt.
Reinforcement Learning (RL)
Eine Familie von Algorithmen, die eine optimale Richtlinie erlernen, deren Ziel darin besteht, bei der Interaktion mit einer Umgebung den Return zu maximieren. Die ultimative Belohnung der meisten Spiele ist beispielsweise der Sieg. Bestärkende Lernsysteme können zu Experten für komplexe Spiele werden, indem sie Sequenzen früherer Spielzüge bewerten, die schließlich zu Siegen und Sequenzen, die letztendlich zu Niederlagen führen, ausgewertet werden.
Bestärkendes Lernen durch menschliches Feedback (RLHF)
Das Feedback von Prüfern nutzen, um die Qualität der Antworten eines Modells zu verbessern. Beispielsweise kann ein RLHF-Mechanismus Nutzer bitten, die Qualität der Antwort eines Modells mit einem 👍 oder 👎-Emoji zu bewerten. Anhand dieses Feedbacks kann das System dann seine zukünftigen Antworten anpassen.
Wiederholungspuffer
In DQN-ähnlichen Algorithmen der Arbeitsspeicher, der vom Agent zum Speichern von Statusübergängen zur Verwendung in der Erholung von Erfahrungen verwendet wird.
return
Beim Reinforcement Learning ist die Summe bei einer bestimmten Richtlinie und einem bestimmten Bundesstaat die Summe aller Belohnungen, die der Agent erhält, wenn er die Richtlinie vom Bundesstaat bis zum Ende der Folge befolgt. Der Agent berücksichtigt die Verzögerung erwarteter Prämien, indem er Prämien entsprechend den für den Erhalt der Prämie erforderlichen Statusumstellungen reduziert.
Wenn also der Rabattfaktor \(\gamma\)beträgt und \(r_0, \ldots, r_{N}\)die Prämien bis zum Ende der Folge angibt, wird die Rendite so berechnet:
eine Belohnung
Beim Reinforcement Learning ist das numerische Ergebnis der Ausführung einer Aktion in einem Zustand, wie von der Umgebung definiert.
S
state
Beim Reinforcement Learning die Parameterwerte, die die aktuelle Konfiguration der Umgebung beschreiben, mit der der Agent eine Aktion auswählt.
State-Action-Wert-Funktion
Synonym für Q-Funktion.
T
Tabellarisches Q-Learning
Implementieren Sie beim bestärkenden Lernen Q-learning mithilfe einer Tabelle, in der die Q-Funktionen für jede Kombination aus Zustand und Aktion gespeichert werden.
Zielnetzwerk
In Deep Q-learning ein neuronales Netzwerk, das eine stabile Näherung des neuronalen Hauptnetzwerks ist, wobei das neuronale Hauptnetzwerk entweder eine Q-Funktion oder eine Richtlinie implementiert. Anschließend können Sie das Hauptnetzwerk mit den vom Zielnetzwerk vorhergesagten Q-Werten trainieren. Daher verhindern Sie die Feedbackschleife, die auftritt, wenn das Hauptnetzwerk anhand von selbst vorhergesagten Q-Werten trainiert. Durch das Vermeiden dieses Feedbacks erhöht sich die Stabilität des Trainings.
Kündigungsbedingung
Beim Bestärkendes Lernen werden die Bedingungen definiert, die bestimmen, wann eine Folge endet, z. B. wenn der Agent einen bestimmten Status erreicht oder einen Schwellenwert für Statusübergänge überschreitet. Bei Tic-Tac-Toe (auch als „Noughts“ und „Crosses“ bezeichnet) endet eine Folge entweder, wenn ein Spieler drei aufeinanderfolgende Leerzeichen markiert oder wenn alle Leerzeichen markiert sind.
Flugbahn
Beim Reinforcement Learning ist eine Folge von Tupeln, die eine Folge von Statusübergängen des Agents darstellen, wobei jedes Tupel dem Zustand, Aktion, Belohnung und dem nächsten Zustand für einen bestimmten Zustandsübergang entspricht.