Diese Seite enthält Begriffe aus dem Glossar für die Reinforcement Learning. Hier finden Sie alle Begriffe aus dem Glossar.
A
Aktion
Bei Reinforcement Learning ist das der Mechanismus, mit dem der Agent zwischen Zuständen der Umgebung wechselt. Der Kundenservicemitarbeiter wählt die Aktion anhand einer Richtlinie aus.
Agent
Beim Verstärkungslernen ist das Entitätsobjekt, das eine Richtlinie verwendet, um den erwarteten Rücklauf zu maximieren, der durch den Übergang zwischen Zuständen der Umgebung erzielt wird.
Allgemein gesagt ist ein Agent eine Software, die eine Reihe von Aktionen zur Erreichung eines Ziels autonom plant und ausführt und sich an Änderungen in der Umgebung anpassen kann. Ein LLM-basierter Agent kann beispielsweise einen LLM verwenden, um einen Plan zu generieren, anstatt eine Richtlinie für bestärkendes Lernen anzuwenden.
B
Bellman-Gleichung
Beim Reinforcement Learning muss die folgende Identität durch die optimale Q-Funktion erfüllt sein:
\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]
Lernalgorithmen für die Verstärkung wenden diese Identität an, um mithilfe der folgenden Aktualisierungsregel Q-Lernen zu erstellen:
\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]
Neben dem Reinforcement Learning findet die Bellman-Gleichung auch Anwendung in der dynamischen Programmierung. Wikipedia-Eintrag zur Bellman-Gleichung
C
Kritiker
Synonym für Deep-Q-Netzwerk.
D
Deep-Q-Network (DQN)
Beim Q-Lernen wird ein tiefes neuronales Netzwerk verwendet, das Q-Funktionen vorhersagt.
Critic ist ein Synonym für Deep-Q-Netzwerk.
DQN
Abkürzung für Deep-Q-Netzwerk.
E
Umgebung
Bei der Verstärkungslernen ist das die Welt, die den Agenten enthält und es dem Agenten ermöglicht, den Zustand dieser Welt zu beobachten. Die dargestellte Welt kann beispielsweise ein Spiel wie Schach oder eine physische Welt wie ein Labyrinth sein. Wenn der Agent eine Aktion auf die Umgebung anwendet, wechselt die Umgebung zwischen den Status.
Folge
Beim Reinforcement Learning bezeichnet ein Agent einen einzelnen Versuch, eine Umgebung zu lernen.
Epsilon-Greedy-Richtlinie
Bei der Verstärkungslernen handelt es sich um eine Richtlinie, die entweder einer Zufallsrichtlinie mit einer Epsilon-Wahrscheinlichkeit oder einer Greedy-Richtlinie folgt. Wenn Epsilon beispielsweise 0, 9 ist, wird die Richtlinie 90% der Zeit nach einer zufälligen und 10% der Zeit nach einer gierigen Richtlinie angewendet.
Im Laufe der einzelnen Folgen reduziert der Algorithmus den Wert von Epsilon, um von einer zufälligen zu einer gierigen Strategie überzugehen. Durch die Änderung der Richtlinie erkundet der Agent zuerst die Umgebung nach dem Zufallsprinzip und nutzt dann die Ergebnisse der zufälligen Erkundung aus.
Wiedergabe der Erfahrung
Beim Reinforcement Learning wird mithilfe einer DQN-Methode die zeitliche Korrelation in Trainingsdaten reduziert. Der Agent speichert Zustandsübergänge in einem Replay-Puffer und wählt dann Übergänge aus dem Replay-Puffer aus, um Trainingsdaten zu erstellen.
G
Greedy-Richtlinie
Bei der Verstärkungslernen ist eine Richtlinie, die immer die Aktion mit dem höchsten erwarteten Rücklauf auswählt.
M
Markov-Entscheidungsprozess (MDP)
Ein Graph, der das Entscheidungsmodell darstellt, bei dem Entscheidungen (oder Aktionen) getroffen werden, um eine Sequenz von Zuständen zu durchlaufen, unter der Annahme, dass die Markov-Eigenschaft erfüllt ist. Beim Verstärkungslernen geben diese Übergänge zwischen Zuständen eine numerische Belohnung zurück.
Markov-Eigenschaft
Eine Eigenschaft bestimmter Umgebungen, bei denen Statusübergänge vollständig durch Informationen bestimmt werden, die im aktuellen Status und in der Aktion des Agents implizit enthalten sind.
P
policy
Bei der Verstärkungslernen ist die probabilistische Zuordnung eines Agenten von Zuständen zu Aktionen gemeint.
Q
Q-Funktion
Im Lernen mit Verstärkung ist dies die Funktion, die den erwarteten Rückkehr vorhersagt, der sich aus der Ausführung einer Aktion in einem Zustand ergibt und der dann einer bestimmten Richtlinie folgt.
Die Q-Funktion wird auch als Zustands-Aktion-Wertfunktion bezeichnet.
Q-Lernen
Beim Verstärkungslernen ist ein Algorithmus, mit dem ein Agent die optimale Q-Funktion eines Markov-Entscheidungsprozesses durch Anwenden der Bellman-Gleichung lernen kann. Der Markov-Entscheidungsprozess modelliert eine Umgebung.
R
Zufallsrichtlinie
Beim Verstärkungslernen eine Richtlinie, die eine Aktion zufällig auswählt.
Reinforcement Learning (RL)
Eine Familie von Algorithmen, die eine optimale Richtlinie lernen, mit dem Ziel, den Ertrag bei der Interaktion mit einer Umgebung zu maximieren. In den meisten Spielen ist der Sieg beispielsweise die ultimative Belohnung. Systeme für die Verstärkungslernen können Experten im Spielen komplexer Spiele werden, indem sie Sequenzen früherer Spielzüge auswerten, die letztendlich zu Siegen und Sequenzen geführt haben, die letztendlich zu Niederlagen geführt haben.
Bestärkendes Lernen durch menschliches Feedback (RLHF)
Feedback von menschlichen Bewertern nutzen, um die Qualität der Antworten eines Modells zu verbessern. Ein RLHF-Mechanismus kann Nutzer beispielsweise bitten, die Qualität der Antwort eines Modells mit einem 👍 oder 👎-Emoji zu bewerten. Das System kann dann seine zukünftigen Antworten anhand dieses Feedbacks anpassen.
Replay-Buffer
In DQN-ähnlichen Algorithmen ist das der Speicher, den der Agent zum Speichern von Zustandsübergängen für die Verwendung in der Erlebniswiederholung verwendet.
Zeilenumbruch
Beim Reinforcement Learning ist der Rückgabewert bei einer bestimmten Richtlinie und einem bestimmten Zustand die Summe aller Boni, die der Agent erwartet, wenn er der Richtlinie vom Zustand bis zum Ende der Episode folgt. Der Agent berücksichtigt die Verzögerung bei erwarteten Prämien, indem er die Prämien entsprechend den Statusübergängen rabattiert, die für den Erhalt der Prämie erforderlich sind.
Wenn der Rabattfaktor also \(\gamma\)ist und \(r_0, \ldots, r_{N}\)die Prämien bis zum Ende der Folge angibt, erfolgt die Rückgabeberechnung so:
Prämie
Bei der Reinforcement Learning ist das numerische Ergebnis der Ausführung einer Aktion in einem Zustand, wie von der Umgebung definiert.
S
Bundesstaat
Bei der Verstärkungslernen sind das die Parameterwerte, die die aktuelle Konfiguration der Umgebung beschreiben, anhand derer der Agent eine Aktion auswählt.
Zustands-Aktion-Wertfunktion
Synonym für Q-Funktion.
T
Tabellen-Q-Lernen
Beim Verstärkungslernen wird Q-Lernen implementiert, indem die Q-Funktionen für jede Kombination aus Zustand und Aktion in einer Tabelle gespeichert werden.
Zielnetzwerk
Bei Deep-Q-Learning ist ein neuronales Netzwerk eine stabile Approximation des Hauptneuronalen Netzwerks, in dem entweder eine Q-Funktion oder eine Richtlinie implementiert ist. Anschließend können Sie das Hauptnetzwerk anhand der vom Zielnetzwerk vorhergesagten Q-Werte trainieren. So wird die Feedbackschleife verhindert, die auftritt, wenn das Hauptnetzwerk anhand von selbst vorhergesagten Q-Werten trainiert wird. Indem Sie dieses Feedback vermeiden, steigt die Trainingsstabilität.
Beendigungsbedingung
Bei Verstärkungslernen sind das die Bedingungen, die bestimmen, wann eine Episode endet, z. B. wenn der Agent einen bestimmten Status erreicht oder eine Grenzzahl von Statusübergängen überschreitet. Bei Tic-Tac-Toe (auch als „Mensch ärgere dich nicht“ bekannt) endet eine Folge beispielsweise, wenn ein Spieler drei aufeinanderfolgende Felder markiert oder alle Felder markiert sind.
Entwicklung
Beim Lernen mit Verstärkung ist eine Sequenz von Tupeln, die eine Sequenz von Zustandsübergängen des Agenten darstellen, wobei jedes Tupel dem Status, der Aktion, dem Belohnungswert und dem nächsten Status für einen bestimmten Zustandsübergang entspricht.