Diese Seite wurde von der Cloud Translation API übersetzt.

Glossar zum maschinellen Lernen: Reinforcement Learning

Diese Seite enthält Glossarbegriffe zu Reinforcement Learning. Hier finden Sie alle Begriffe aus dem Glossar.

A

Aktion

#rl

Bei Reinforcement Learning ist das der Mechanismus, mit dem der Agent zwischen Zuständen der Umgebung wechselt. Der Kundenservicemitarbeiter wählt die Aktion anhand einer Richtlinie aus.

Agent

#rl

Beim Verstärkungslernen ist das Entitätsobjekt, das eine Richtlinie verwendet, um den erwarteten Rücklauf zu maximieren, der durch den Übergang zwischen Zuständen der Umgebung erzielt wird.

Allgemein gesagt ist ein Agent eine Software, die eine Reihe von Aktionen zur Erreichung eines Ziels eigenständig plant und ausführt. Dabei kann er sich an Änderungen in seiner Umgebung anpassen. Ein LLM-basierter Agent kann beispielsweise einen LLM verwenden, um einen Plan zu generieren, anstatt eine Richtlinie für bestärkendes Lernen anzuwenden.

B

Bellman-Gleichung

#rl

Beim Reinforcement Learning muss die folgende Identität durch die optimale Q-Funktion erfüllt sein:

$Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')$

Lernalgorithmen für die Verstärkung wenden diese Identität an, um Q-Lernen mit der folgenden Aktualisierungsregel zu erstellen:

$Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right]$

Neben dem Reinforcement Learning findet die Bellman-Gleichung auch Anwendung in der dynamischen Programmierung. Wikipedia-Eintrag zur Bellman-Gleichung

C

Kritiker

#rl

Synonym für Deep-Q-Netzwerk.

D

Deep-Q-Network (DQN)

#rl

Beim Q-Lernen wird ein tiefes neuronales Netzwerk verwendet, das Q-Funktionen vorhersagt.

Critic ist ein Synonym für Deep-Q-Netzwerk.

DQN

#rl

Abkürzung für Deep-Q-Netzwerk.

E

Umgebung

#rl

Bei der Verstärkungslernen ist das die Welt, die den Agenten enthält und es dem Agenten ermöglicht, den Zustand dieser Welt zu beobachten. Die dargestellte Welt kann beispielsweise ein Spiel wie Schach oder eine physische Welt wie ein Labyrinth sein. Wenn der Agent eine Aktion auf die Umgebung anwendet, wechselt die Umgebung zwischen den Status.

Folge

#rl

Beim Reinforcement Learning bezeichnet ein Agent einen einzelnen Versuch, eine Umgebung zu lernen.

Epsilon-Greedy-Richtlinie

#rl

Bei der Verstärkungslernen handelt es sich um eine Richtlinie, die entweder einer Zufallsrichtlinie mit einer Epsilon-Wahrscheinlichkeit oder einer Greedy-Richtlinie folgt. Wenn Epsilon beispielsweise 0, 9 ist, wird die Richtlinie 90% der Zeit nach einer zufälligen Richtlinie und 10% der Zeit nach einer gierigen Richtlinie ausgeführt.

Im Laufe der aufeinanderfolgenden Folgen reduziert der Algorithmus den Wert von Epsilon, um von einer zufälligen zu einer gierigen Strategie überzugehen. Durch die Änderung der Richtlinie erkundet der Agent zuerst die Umgebung nach dem Zufallsprinzip und nutzt dann die Ergebnisse der zufälligen Erkundung aus.

Wiedergabe der Erfahrung

#rl

Beim Reinforcement Learning wird mithilfe einer DQN-Methode die zeitliche Korrelation in Trainingsdaten reduziert. Der Agent speichert Zustandsübergänge in einem Replay-Puffer und wählt dann Übergänge aus dem Replay-Puffer aus, um Trainingsdaten zu erstellen.

G

Greedy-Richtlinie

#rl

Bei der Verstärkungslernen ist eine Richtlinie, die immer die Aktion mit dem höchsten erwarteten Rücklauf auswählt.

M

Markov-Entscheidungsprozess (MDP)

#rl

Ein Graph, der das Entscheidungsmodell darstellt, bei dem Entscheidungen (oder Aktionen) getroffen werden, um eine Sequenz von Zuständen zu durchlaufen, unter der Annahme, dass die Markov-Eigenschaft erfüllt ist. Beim Verstärkungslernen geben diese Übergänge zwischen Zuständen eine numerische Belohnung zurück.

Markov-Eigenschaft

#rl

Eine Eigenschaft bestimmter Umgebungen, bei denen Statusübergänge vollständig durch Informationen bestimmt werden, die im aktuellen Status und in der Aktion des Agents implizit enthalten sind.

P

policy

#rl

Bei der Verstärkungslernen ist die probabilistische Zuordnung eines Agenten von Zuständen zu Aktionen gemeint.

Q

Q-Funktion

#rl

Im Lernen mit Verstärkung ist dies die Funktion, die den erwarteten Rückkehr vorhersagt, der sich aus der Ausführung einer Aktion in einem Zustand ergibt und der dann einer bestimmten Richtlinie folgt.

Die Q-Funktion wird auch als Zustands-Aktion-Wertfunktion bezeichnet.

Q-Lernen

#rl

Beim Verstärkungslernen ist ein Algorithmus, mit dem ein Agent die optimale Q-Funktion eines Markov-Entscheidungsprozesses durch Anwenden der Bellman-Gleichung lernen kann. Der Markov-Entscheidungsprozess modelliert eine Umgebung.

R

Zufallsrichtlinie

#rl

Beim Verstärkungslernen eine Richtlinie, die eine Aktion zufällig auswählt.

Reinforcement Learning (RL)

#rl

Eine Familie von Algorithmen, die eine optimale Richtlinie lernen, mit dem Ziel, den Ertrag bei der Interaktion mit einer Umgebung zu maximieren. In den meisten Spielen ist der Sieg beispielsweise die ultimative Belohnung. Systeme für die Verstärkungslernen können Experten im Spielen komplexer Spiele werden, indem sie Sequenzen früherer Spielzüge auswerten, die letztendlich zu Siegen und Sequenzen geführt haben, die letztendlich zu Niederlagen geführt haben.

Bestärkendes Lernen durch menschliches Feedback (RLHF)

#generativeAI

#rl

Feedback von menschlichen Bewertern nutzen, um die Qualität der Antworten eines Modells zu verbessern. Ein RLHF-Mechanismus kann Nutzer beispielsweise bitten, die Qualität der Antwort eines Modells mit einem 👍 oder 👎-Emoji zu bewerten. Das System kann dann seine zukünftigen Antworten anhand dieses Feedbacks anpassen.

Replay-Buffer

#rl

In DQN-ähnlichen Algorithmen ist das der Speicher, den der Agent zum Speichern von Zustandsübergängen für die Verwendung in der Erlebniswiederholung verwendet.

Zeilenumbruch

#rl

Beim Reinforcement Learning ist der Rückgabewert bei einer bestimmten Richtlinie und einem bestimmten Zustand die Summe aller Boni, die der Agent erwartet, wenn er der Richtlinie vom Zustand bis zum Ende der Episode folgt. Der Agent berücksichtigt die Verzögerung bei erwarteten Prämien, indem er die Prämien entsprechend den Statusübergängen rabattiert, die für den Erhalt der Prämie erforderlich sind.

Wenn der Rabattfaktor also $\gamma$ ist und $r_0, \ldots, r_{N}$ die Prämien bis zum Ende der Folge angibt, erfolgt die Rückgabeberechnung so:

$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$

Prämie

#rl

Bei der Reinforcement Learning ist das numerische Ergebnis der Ausführung einer Aktion in einem Zustand, wie von der Umgebung definiert.

S

Bundesstaat

#rl

Bei der Verstärkungslernen sind dies die Parameterwerte, die die aktuelle Konfiguration der Umgebung beschreiben, anhand derer der Agent eine Aktion auswählt.

Zustands-Aktionswertfunktion

#rl

Synonym für Q-Funktion.

T

Tabellen-Q-Lernen

#rl

Beim Verstärkungslernen wird Q-Lernen implementiert, indem die Q-Funktionen für jede Kombination aus Zustand und Aktion in einer Tabelle gespeichert werden.

Zielnetzwerk

#rl

Bei Deep-Q-Learning ist ein neuronales Netzwerk eine stabile Approximation des Hauptneuronalen Netzwerks, in dem entweder eine Q-Funktion oder eine Richtlinie implementiert ist. Anschließend können Sie das Hauptnetzwerk anhand der vom Zielnetzwerk vorhergesagten Q-Werte trainieren. So wird die Feedbackschleife verhindert, die auftritt, wenn das Hauptnetzwerk anhand von selbst vorhergesagten Q-Werten trainiert wird. Indem Sie dieses Feedback vermeiden, steigt die Trainingsstabilität.

Beendigungsbedingung

#rl

Bei Verstärkungslernen sind das die Bedingungen, die bestimmen, wann eine Episode endet, z. B. wenn der Agent einen bestimmten Status erreicht oder eine Grenzzahl von Statusübergängen überschreitet. Bei Tic-Tac-Toe (auch als „Mensch ärgere dich nicht“ bekannt) endet eine Folge beispielsweise, wenn ein Spieler drei aufeinanderfolgende Felder markiert oder alle Felder markiert sind.

Entwicklung

#rl

Beim Lernen mit Verstärkung ist eine Sequenz von Tupeln, die eine Sequenz von Zustandsübergängen des Agenten darstellen, wobei jedes Tupel dem Status, der Aktion, dem Belohnungswert und dem nächsten Status für einen bestimmten Zustandsübergang entspricht.