Glossar zum maschinellen Lernen: Reinforcement Learning

Diese Seite enthält Glossarbegriffe zum Reinforcement Learning. Alle Glossarbegriffe finden Sie hier.

A

Aktion

#rl

Im Reforcement Learning erfolgt der Mechanismus, über den der Agent zwischen Zuständen der Umgebung wechselt. Der Agent wählt die Aktion mithilfe einer Richtlinie aus.

Agent

#rl

Im Reforcement Learning wird die Entität, die eine Richtlinie verwendet, um den erwarteten Return on Advertising Spend durch die Umstellung zwischen Zuständen der Umgebung zu maximieren.

B

Bellman-Gleichung

#rl

Im verstärkenden Lernen wird die folgende Identität durch die optimale Q-Funktion erfüllt:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

Die Algorithmen Reforced Learning wenden diese Identität an, um Q-Learning über die folgende Aktualisierungsregel zu erstellen:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s’,a’) - Q(s,a) \right] \]

Abgesehen von bestärkendem Lernen bietet die Bellman-Gleichung Anwendungen für das dynamische Programmieren. Weitere Informationen finden Sie im Wikipedia-Eintrag für Bellman-Gleichung.

C

Kritiker

#rl

Synonym für Deep Q-Network.

D

FQ-Netzwerk (Deep Q-Network)

#rl

In Q-Learning ein tiefes neuronales Netzwerk, das Q-Funktionen vorhersagt.

Critic ist ein Synonym für Deep Q-Network.

DQN

#rl

Abkürzung für Deep Q-Network.

E

Umgebung

#rl

Im verstärkten Lernen, das die Agent enthält, kann der Agent den Status der Welt beobachten. Die dargestellte Welt kann beispielsweise ein Spiel wie Schach oder eine reale Welt wie ein Labyrinth sein. Wenn der Agent eine Aktion auf die Umgebung anwendet, wechselt die Umgebung zwischen den Zuständen.

Folge

#rl

Beim wiederholten Lernen wird jeder wiederholte Versuch des Agents, eine Umgebung zu lernen.

Epsilon-gierig

#rl

Im verstärkenden Lernen ist eine Richtlinie, die entweder einer Zufallsrichtlinie mit Epsilon-Wahrscheinlichkeit oder einer Gierrichtlinien entspricht. Wenn Epsilon beispielsweise 0, 9 ist, folgt die Richtlinie in 90% der Fälle einer zufälligen Richtlinie und in 10% der Fälle einer gierigem Richtlinie.

Bei aufeinanderfolgenden Folgen reduziert der Algorithmus den Wert von Epsilon, um von einer zufälligen Richtlinie auf eine geldgierige Richtlinie umzustellen. Wenn die Richtlinie verschoben wird, erkundet der Agent zuerst die Umgebung und verwendet dann die Ergebnisse zufällig.

erneute Wiedergabe

#rl

Im verstärkenden Lernen wurde mit einer DQN-Methode die zeitliche Korrelation in Trainingsdaten reduziert. Der Agent speichert Statusübergänge in einem Wiedergabepuffer und stützt dann Stichproben aus dem Wiedergabezwischenspeicher auf die Zwischenspeicherung, um Trainingsdaten zu erstellen.

G

Gierige Richtlinie

#rl

Im verstärkenden Lernen eine Richtlinie, die immer die Aktion mit der höchsten erwarteten Rückgabe auswählt.

M

Markov-Entscheidungsprozess

#rl

Ein Diagramm, das das Entscheidungsmodell darstellt, bei dem Entscheidungen (oder Aktionen) getroffen werden, um eine Sequenz von Bundesländern unter der Annahme zu bedienen, dass die Markov-Property gilt. Beim Reinforcement Learning geben diese Übergänge zwischen Bundesstaaten eine numerische Prämie zurück.

Markov-Property

#rl

Ein Attribut von bestimmten Umgebungen, bei denen Statusübergänge vollständig durch Informationen zustande kommen, die im aktuellen Status und der Aktion des Agents implizit sind.

P

policy

#rl

Im verstärkenden Lernen wird die probabilistische Zuordnung eines Agents von Status zu Aktionen berücksichtigt.

F

Q-Funktion

#rl

Im Reforcement Learning sagt die Funktion, die die erwartete Rückgabe von einer Aktion in einem Status vorhergeht und dann eine bestimmte Richtlinie befolgt.

Die Funktion „Q“ wird auch als Funktion für Wert-Aktion-Status bezeichnet.

Q-Learning

#rl

Beim Reforced Learning wird ein Algorithmus, der es einem Agent ermöglicht, die optimale Q-Funktion eines Markov-Entscheidungsprozesses zu lernen, indem er die Bellman-Gleichung anwendet. Der Markov-Entscheidungsprozess modelliert eine Umgebung.

R

zufällige Richtlinie

#rl

Beim Reforced Learning ist es eine Richtlinie, die nach dem Zufallsprinzip eine Aktion auswählt.

Reinforcement Learning (RL)

#rl

Eine Reihe von Algorithmen, die eine optimale Richtlinie zum Ziel haben, den Return on Advertising Spend bei der Interaktion mit einer Umgebung zu maximieren. Beispielsweise ist der Sieg für die meisten Spiele der Sieg. Verstärkende Lernsysteme können sich durch komplexes Bewerten komplexer Sequenzen in komplexen Spielen ausbreiten, die letztlich zu Siegen und Sequenzen geführt haben, die schließlich zu Verlusten geführt haben.

Bestärkendes Lernen durch menschliches Feedback (RLHF)

#generative KI
#rl

Nutzen Sie das Feedback von Prüfern, um die Qualität der Antworten eines Modells zu verbessern. Bei einem RLHF-Mechanismus können Nutzer beispielsweise die Qualität der Antwort eines Modells mit einem 👍- oder 👎-Emoji bewerten. Das System kann seine zukünftigen Antworten dann anhand dieses Feedbacks anpassen.

Wiedergabepuffer

#rl

In Algorithmen, die DQN ähneln, wird der Arbeitsspeicher, der vom Agent zum Speichern von Statusübergängen für die Testwiedergabe verwendet wird.

Ballrückgabe

#rl

Beim verstärkenden Lernen gibt die Rückgabe angesichts einer bestimmten Richtlinie und eines bestimmten Status die Summe aller Prämien an, die der Agent beim Ausführen der Richtlinie vom Status bis zum Ende der Folge erwartet. Der Agent berücksichtigt die verspätete Art von erwarteten Prämien, indem er Rabatte gemäß den Statusübergängen gewährt, um die Prämie zu erhalten.

Wenn der Rabattfaktor \(\gamma\)ist und \(r_0, \ldots, r_{N}\)die Prämien bis zum Ende der Folge angeben, wird die Berechnung der Rückgabe so durchgeführt:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

eine Belohnung

#rl

Beim verstärkten Lernen ist es das numerische Ergebnis einer Aktion in einem Zustand, wie in der Umgebung definiert.

S

Bundesland

#rl

Im verstärkten Lernen werden die Parameterwerte, die die aktuelle Konfiguration der Umgebung beschreiben, verwendet, die der Agent zur Auswahl einer Aktion verwendet.

Funktion für Wert-Aktion-Wert

#rl

Synonym für Q-Funktion.

D

tabellarisches Q-Learning

#rl

Implementieren Sie in Reforcement Learning Q-Learning. Verwenden Sie dazu eine Tabelle, um die Q-Funktionen für jede Kombination aus Status und Aktion zu speichern.

Zielnetzwerk

#rl

In Deep Q-Learning ist ein neuronales Netzwerk eine stabile Näherung des neuronalen Hauptnetzwerks, in dem das neuronale Netzwerk entweder eine Q-Funktion oder eine Richtlinie implementiert. Anschließend können Sie das Hauptnetzwerk mit den vom Zielnetzwerk vorhergesagten Q-Werten trainieren. Sie verhindern daher die Feedbackschleife, die stattfindet, wenn das Hauptnetzwerk selbst anhand von selbst vorhergesagten Q-Werten trainiert. Durch Vermeiden dieses Feedbacks wird die Stabilität des Trainings erhöht.

Kündigungsbedingung

#rl

In Reforced Learning sind die Bedingungen, die festlegen, wann eine Folge endet, z. B. wenn der Agent einen bestimmten Status erreicht oder eine bestimmte Anzahl von Statusübergängen überschreitet. In tic-tac-toe (auch als Noughts und Crosses bezeichnet) endet eine Folge beispielsweise, wenn ein Spieler drei aufeinanderfolgende Leerzeichen oder alle Gruppenbereiche markiert hat.

Flugbahn

#rl

Reforced Learning: Eine Sequenz von Guppls, die eine Sequenz von Statusübergängen des Agents darstellen, wobei jedes Semikolon dem Status, der Aktion und dem Prämie entspricht.