Auf dieser Seite finden Sie Begriffe aus dem Glossar für Generative AI. Hier finden Sie alle Begriffe aus dem Glossar.
A
Automatische Bewertung
Software zur Beurteilung der Qualität der Ausgabe eines Modells.
Wenn die Modellausgabe relativ einfach ist, kann ein Script oder Programm die Ausgabe des Modells mit einer Golden Response vergleichen. Diese Art der automatischen Bewertung wird manchmal auch als programmatische Bewertung bezeichnet. Messwerte wie ROUGE oder BLEU sind oft nützlich für die programmatische Bewertung.
Wenn die Modellausgabe komplex ist oder keine eindeutige richtige Antwort hat, wird die automatische Bewertung manchmal von einem separaten ML-Programm namens Autorater durchgeführt.
Im Gegensatz zur menschlichen Bewertung.
Autorater-Bewertung
Ein Hybridmechanismus zur Beurteilung der Qualität der Ausgabe eines generativen KI-Modells, der eine menschliche Bewertung mit einer automatischen Bewertung kombiniert. Ein Autorator ist ein ML-Modell, das mit Daten trainiert wird, die durch menschliche Bewertung erstellt wurden. Im Idealfall lernt ein Autorator, einen menschlichen Prüfer nachzuahmen.Es sind vordefinierte automatische Rater verfügbar, die besten sind jedoch speziell auf die Aufgabe abgestimmt, die Sie bewerten.
autoregressives Modell
Ein Modell, das eine Vorhersage auf der Grundlage seiner eigenen bisherigen Vorhersagen ableitet. Autoregressive Language Models sagen beispielsweise das nächste Token anhand der zuvor vorhergesagten Tokens voraus. Alle Transformer-basierten Large Language Models sind autoregressiv.
GAN-basierte Bildmodelle sind dagegen in der Regel nicht autoregressiv, da sie ein Bild in einem einzigen Vorwärtsdurchlauf und nicht iterativ in Schritten generieren. Bestimmte Modelle zur Bildgenerierung sind jedoch autoregressiv, da sie ein Bild in Schritten generieren.
C
Chain-of-Thought Prompting
Eine Prompt-Engineering-Technik, die ein Large Language Model (LLM) dazu anregt, seine Argumentation Schritt für Schritt zu erklären. Betrachten Sie beispielsweise den folgenden Prompt und achten Sie dabei besonders auf den zweiten Satz:
Wie viele g-Kräfte wirken auf einen Fahrer in einem Auto, das in 7 Sekunden von 0 auf 100 km/h beschleunigt? Geben Sie in der Antwort alle relevanten Berechnungen an.
Die Antwort des LLM würde wahrscheinlich:
- Zeigen Sie eine Reihe von Physikformeln an und setzen Sie an den entsprechenden Stellen die Werte 0, 60 und 7 ein.
- Erläutern Sie, warum diese Formeln ausgewählt wurden und was die verschiedenen Variablen bedeuten.
Prompts mit einer Gedankenkette zwingen das LLM, alle Berechnungen durchzuführen, was zu einer korrekteren Antwort führen kann. Außerdem können Nutzer mithilfe von Prompts zur Denkkette die Schritte des LLM prüfen, um festzustellen, ob die Antwort sinnvoll ist.
Chat
Der Inhalt eines Dialogs mit einem ML-System, in der Regel einem Large Language Model. Die vorherige Interaktion in einem Chat (was Sie eingegeben haben und wie das Large Language Model geantwortet hat) wird zum Kontext für nachfolgende Teile des Chats.
Ein Chatbot ist eine Anwendung eines Large Language Models.
Kontextbezogene Sprach-Embeddings
Eine Embedding-Technologie, die Wörter und Wortgruppen so „versteht“, wie es Muttersprachler tun. Kontextbezogene Sprach-Embeddings können komplexe Syntax, Semantik und Kontext verstehen.
Betrachten wir beispielsweise die Einbettungen des englischen Wortes cow. Ältere Einbettungen wie word2vec können englische Wörter so darstellen, dass die Entfernung im Embedding-Raum von Kuh zu Stier der Entfernung von Schaf zu Bock oder von weiblich zu männlich entspricht. Kontextbezogene Sprach-Embeddings können noch einen Schritt weiter gehen, indem sie erkennen, dass englischsprachige Personen das Wort cow manchmal ungezwungen für „Kuh“ oder „Stier“ verwenden.
Kontextfenster
Die Anzahl der Tokens, die ein Modell in einem bestimmten Prompt verarbeiten kann. Je größer das Kontextfenster ist, desto mehr Informationen kann das Modell verwenden, um kohärente und konsistente Antworten auf den Prompt zu geben.
D
Direkte Aufforderung
Synonym für Zero-Shot-Prompts.
Destillation
Das Verfahren, die Größe eines Modells (Lehrermodell) auf ein kleineres Modell (Schülermodell) zu reduzieren, das die Vorhersagen des ursprünglichen Modells so genau wie möglich emuliert. Die Destillation ist nützlich, da das kleinere Modell zwei wichtige Vorteile gegenüber dem größeren Modell (dem Lehrer) hat:
- Schnellere Inferenzzeit
- Reduzierter Arbeitsspeicher- und Energieverbrauch
Die Vorhersagen der Schüler sind jedoch in der Regel nicht so gut wie die der Lehrkräfte.
Bei der Destillation wird das Schülermodell trainiert, um eine Verlustfunktion basierend auf der Differenz zwischen den Ausgaben der Vorhersagen der Schüler- und Lehrermodelle zu minimieren.
Vergleichen Sie die Destillation mit den folgenden Begriffen:
Weitere Informationen finden Sie im Machine Learning Crash Course unter LLMs: Fine-tuning, distillation, and prompt engineering.
E
evals
Wird hauptsächlich als Abkürzung für LLM-Bewertungen verwendet. Im weiteren Sinne ist evals eine Abkürzung für jede Form der Bewertung.
Evaluierung
Prozess, bei dem die Qualität eines Modells gemessen oder verschiedene Modelle miteinander verglichen werden.
Um ein Modell für beaufsichtigtes maschinelles Lernen zu bewerten, wird es in der Regel anhand eines Validierungs-Sets und eines Test-Sets beurteilt. Die Bewertung eines LLM umfassen in der Regel umfassendere Qualität- und Sicherheitsbewertungen.
F
Faktentreue
In der Welt der KI eine Property, die ein Modell beschreibt, dessen Ausgabe auf der Realität basiert. Sachlichkeit ist eher ein Konzept als ein Messwert. Angenommen, Sie senden den folgenden Prompt an ein Large Language Model:
Wie lautet die chemische Formel für Kochsalz?
Ein Modell, das auf Sachlichkeit optimiert ist, würde so antworten:
NaCl
Es ist verlockend, anzunehmen, dass alle Modelle auf Fakten basieren sollten. Bei einigen Prompts, wie dem folgenden, sollte ein generatives KI-Modell jedoch die Kreativität und nicht die Sachlichkeit optimieren.
Erzähl mir einen Limerick über einen Astronauten und eine Raupe.
Es ist unwahrscheinlich, dass das resultierende Limerick auf der Realität basiert.
Im Gegensatz zu Geerdetheit.
Few-Shot-Prompting
Ein Prompt, der mehr als ein (ein „paar“) Beispiel enthält, das zeigt, wie das Large Language Model reagieren soll. Der folgende ausführliche Prompt enthält beispielsweise zwei Beispiele, die einem Large Language Model zeigen, wie eine Suchanfrage beantwortet werden kann.
Teile eines Prompts | Hinweise |
---|---|
Was ist die offizielle Währung des angegebenen Landes? | Die Frage, die das LLM beantworten soll. |
Frankreich: EUR | Ein Beispiel: |
Vereinigtes Königreich: GBP | Ein weiteres Beispiel: |
Indien: | Die tatsächliche Suchanfrage. |
Few-Shot-Prompts liefern in der Regel bessere Ergebnisse als Zero-Shot-Prompts und One-Shot-Prompts. Für Few-Shot-Prompting ist jedoch ein längerer Prompt erforderlich.
Few-Shot-Prompting ist eine Form des Few-Shot-Lernens, die auf das promptbasierte Lernen angewendet wird.
Weitere Informationen finden Sie im Machine Learning Crash Course unter Prompt-Design.
Feinabstimmung
Ein zweiter, aufgabenspezifischer Trainingsdurchlauf, der auf einem vortrainierten Modell durchgeführt wird, um seine Parameter für einen bestimmten Anwendungsfall zu optimieren. Die vollständige Trainingssequenz für einige Large Language Models sieht beispielsweise so aus:
- Vortraining: Ein Large Language Model wird mit einem umfangreichen generellen Dataset trainiert, z. B. mit allen englischsprachigen Wikipedia-Seiten.
- Optimierung: Das vortrainierte Modell wird für die Ausführung einer bestimmten Aufgabe trainiert, z. B. für die Beantwortung von medizinischen Suchanfragen. Die Feinabstimmung umfasst in der Regel Hunderte oder Tausende von Beispielen, die sich auf die jeweilige Aufgabe konzentrieren.
Hier ist ein weiteres Beispiel für die vollständige Trainingssequenz für ein Modell mit großen Bildern:
- Vortraining: Trainieren Sie ein großes Bildmodell mit einem umfangreichen allgemeinen Bild-Dataset, z. B. mit allen Bildern in Wikimedia Commons.
- Optimierung: Das vortrainierte Modell wird für eine bestimmte Aufgabe trainiert, z. B. für die Generierung von Bildern von Orcas.
Die Optimierung kann eine beliebige Kombination der folgenden Strategien umfassen:
- Alle vorhandenen Parameter des vortrainierten Modells ändern. Dieser Vorgang wird auch als volle Feinabstimmung bezeichnet.
- Sie ändern nur einige der vorhandenen Parameter des vorab trainierten Modells (in der Regel die Schichten, die der Ausgabeschicht am nächsten sind), während andere vorhandene Parameter unverändert bleiben (in der Regel die Schichten, die der Eingabeschicht am nächsten sind). Weitere Informationen finden Sie unter Parametereffiziente Abstimmung.
- Durch Hinzufügen weiterer Ebenen, in der Regel über den vorhandenen Ebenen, die der Ausgabeebene am nächsten sind.
Die Feinabstimmung ist eine Form des Übertragungslernens. Daher kann für die Feinabstimmung eine andere Verlustfunktion oder ein anderer Modelltyp verwendet werden als für das Training des vorab trainierten Modells. Sie können beispielsweise ein vortrainiertes Modell für große Bilder optimieren, um ein Regressionsmodell zu erstellen, das die Anzahl der Vögel in einem Eingabebild zurückgibt.
Vergleichen Sie die Feinabstimmung mit den folgenden Begriffen:
Weitere Informationen finden Sie im Machine Learning Crash Course unter Feintuning.
Anteil der positiven Ergebnisse
Ein Messwert zur Bewertung des generierten Texts eines ML-Modells. Der Anteil der erfolgreichen Antworten ist die Anzahl der „erfolgreichen“ generierten Textausgaben geteilt durch die Gesamtzahl der generierten Textausgaben. Wenn ein Large Language Model beispielsweise 10 Codeblöcke generiert, von denen fünf erfolgreich waren, beträgt der Anteil der erfolgreichen Blöcke 50%.
Obwohl der Anteil der Erfolge in der Statistik allgemein nützlich ist, ist dieser Messwert in der ML hauptsächlich für die Messung überprüfbarer Aufgaben wie Codegenerierung oder Mathematikprobleme geeignet.
G
Gemini
Das Ökosystem mit der innovativsten KI von Google. Zu den Elementen dieses Ökosystems gehören:
- Verschiedene Gemini-Modelle
- Die interaktive Konversationsoberfläche für ein Gemini-Modell. Nutzer geben Prompts ein und Gemini antwortet darauf.
- Verschiedene Gemini APIs
- Verschiedene Geschäftsprodukte, die auf Gemini-Modellen basieren, z. B. Gemini for Google Cloud.
Gemini-Modelle
Die neuesten Transformer-basierten multimodalen Modelle von Google Gemini-Modelle sind speziell für die Einbindung in Kundenservicemitarbeiter konzipiert.
Nutzer können auf verschiedene Weise mit Gemini-Modellen interagieren, z. B. über eine interaktive Dialogoberfläche und über SDKs.
generierter Text
Im Allgemeinen der Text, der von einem ML-Modell ausgegeben wird. Bei der Bewertung von Large Language Models wird bei einigen Messwerten der generierte Text mit einem Referenztext verglichen. Angenommen, Sie möchten herausfinden, wie effektiv ein ML-Modell vom Französischen ins Niederländische übersetzt. In diesem Fall gilt:
- Der generierte Text ist die niederländische Übersetzung, die vom ML-Modell ausgegeben wird.
- Der Referenztext ist die niederländische Übersetzung, die von einem menschlichen Übersetzer (oder einer Software) erstellt wird.
Hinweis: Bei einigen Bewertungsstrategien wird kein Referenztext verwendet.
generative KI
Ein neues, transformatives Feld ohne formale Definition. Die meisten Experten sind sich jedoch einig, dass generative KI-Modelle Inhalte erstellen („generieren“) können, die
- Komplex
- kohärent
- ursprünglich
So kann ein generatives KI-Modell beispielsweise anspruchsvolle Essays oder Bilder erstellen.
Einige ältere Technologien, darunter LSTMs und RNNs, können ebenfalls originelle und kohärente Inhalte generieren. Einige Experten betrachten diese früheren Technologien als generative KI, während andere der Meinung sind, dass echte generative KI eine komplexere Ausgabe erfordert, als diese früheren Technologien produzieren können.
Im Gegensatz zu vorhersageorientiertem ML.
Goldene Antwort
Eine Antwort, die als gut bekannt ist. Angenommen, Sie haben den folgenden Prompt:
2 + 2
Die ideale Antwort lautet:
4
H
manuelle Überprüfung
Ein Prozess, bei dem Menschen die Qualität der Ausgabe eines ML-Modells beurteilen, z. B. zweisprachige Personen, die die Qualität eines ML-Übersetzungsmodells beurteilen. Die manuelle Bewertung ist besonders nützlich, um Modelle zu beurteilen, für die es keine eindeutige richtige Antwort gibt.
Im Gegensatz zur automatischen Bewertung und zur Bewertung durch den Autorater.
Human in the Loop (HITL)
Ein locker definiertes Idiom, das eines der folgenden Dinge bedeuten kann:
- Eine Richtlinie, die vorsieht, dass die Ergebnisse generativer KI kritisch oder skeptisch betrachtet werden. Die Menschen, die diesen ML-Glossar verfassen, sind beispielsweise erstaunt, was Large Language Models leisten können, sind sich aber auch der Fehler bewusst, die sie machen.
- Eine Strategie oder ein System, mit dem sichergestellt wird, dass Menschen das Verhalten eines Modells mitgestalten, bewerten und optimieren. Wenn ein Mensch in den Prozess eingebunden ist, kann eine KI sowohl von der Maschinen- als auch von der menschlichen Intelligenz profitieren. Ein Beispiel für ein System mit Mensch-in-der-Schleife ist ein System, in dem eine KI Code generiert, den Softwareentwickler dann prüfen.
I
Kontextbezogenes Lernen
Synonym für Few-Shot-Prompting.
Instruction Tuning
Eine Form der Feinabstimmung, die die Fähigkeit eines generativen KI-Modells, Anweisungen zu befolgen, verbessert. Bei der Anleitungsabstimmung wird ein Modell anhand einer Reihe von Anleitungsprompts trainiert, die in der Regel eine Vielzahl von Aufgaben abdecken. Das daraus resultierende anhand von Anleitungen optimierte Modell generiert dann in der Regel nützliche Antworten auf Zero-Shot-Prompts für eine Vielzahl von Aufgaben.
Vergleichen Sie mit:
L
LLM
Abkürzung für Large Language Model.
LLM-Bewertungen (evals)
Eine Reihe von Messwerten und Benchmarks zur Bewertung der Leistung von Large Language Models (LLMs). LLM-Bewertungen bieten folgende Vorteile:
- Sie helfen Forschern, Bereiche zu identifizieren, in denen LLMs verbessert werden müssen.
- Sie sind nützlich, um verschiedene LLMs zu vergleichen und das beste LLM für eine bestimmte Aufgabe zu ermitteln.
- Sie tragen dazu bei, dass LLMs sicher und ethisch eingesetzt werden.
LoRA
Abkürzung für Low-Rank Adaptability (Niedrigrangige Anpassungsfähigkeit).
Low-Rank Adaptation (LoRA)
Eine parametereffiziente Methode zur Feinabstimmung, bei der die vortrainierten Gewichte des Modells „eingefroren“ (d. h. nicht mehr geändert) und dann eine kleine Gruppe trainierbarer Gewichte in das Modell eingefügt werden. Dieser Satz trainierbarer Gewichte (auch als „Aktualisierungsmatrizen“ bezeichnet) ist deutlich kleiner als das Basismodell und daher viel schneller zu trainieren.
LoRA bietet folgende Vorteile:
- Verbessert die Qualität der Vorhersagen eines Modells für die Domain, in der die Feinabstimmung angewendet wird.
- Die Feinabstimmung erfolgt schneller als bei Verfahren, bei denen alle Parameter eines Modells angepasst werden müssen.
- Reduziert die Rechenkosten für die Inferenz, indem die gleichzeitige Bereitstellung mehrerer spezialisierter Modelle mit demselben Basismodell ermöglicht wird.
M
maschinelle Übersetzung
Mithilfe von Software (in der Regel einem Modell für maschinelles Lernen) wird Text von einer menschlichen Sprache in eine andere menschliche Sprache umgewandelt, z. B. vom Englischen ins Japanische.
Mittlere durchschnittliche Precision bei k (mAP@k)
Der statistische Mittelwert aller durchschnittlichen Precision bei k-Werte in einem Validierungsdatensatz. Die mittlere durchschnittliche Präzision bei k kann beispielsweise verwendet werden, um die Qualität der Empfehlungen zu beurteilen, die von einem Empfehlungssystem generiert werden.
Auch wenn der Ausdruck „durchschnittlicher Mittelwert“ redundant klingt, ist der Name des Messwerts angemessen. Schließlich wird mit diesem Messwert der Mittelwert mehrerer durchschnittlicher Precision bei k berechnet.
Experten aus verschiedenen Bereichen
Ein Verfahren zur Steigerung der Effizienz eines Neural-Netzwerks, bei dem nur ein Teil seiner Parameter (Experte) zur Verarbeitung eines bestimmten Eingabe-Tokens oder Beispiels verwendet wird. Ein Gating-Netzwerk leitet jedes Eingabetoken oder Beispiel an die zuständigen Experten weiter.
Weitere Informationen finden Sie in den folgenden Artikeln:
- Unverschämt große neuronale Netze: Die Schicht mit der spärlichen Gatterung von Expertenmischung
- Mixture-of-Experts mit Expert Choice-Routing
MMIT
Abkürzung für multimodal instruction-tuned (multimodale Anweisungen abgestimmt).
Modellkaskaden
Ein System, das das ideale Modell für eine bestimmte Inferenzanfrage auswählt.
Stellen Sie sich eine Gruppe von Modellen vor, die von sehr groß (viele Parameter) bis hin zu viel kleiner (viel weniger Parameter) reichen. Sehr große Modelle verbrauchen bei der Inferenz mehr Rechenressourcen als kleinere Modelle. Sehr große Modelle können jedoch in der Regel komplexere Anfragen ableiten als kleinere Modelle. Bei der Modellkaskade wird die Komplexität der Inferenzabfrage bestimmt und dann das geeignete Modell für die Inferenz ausgewählt. Der Hauptgrund für die Modellkaskade besteht darin, die Inferenzkosten zu senken, indem in der Regel kleinere Modelle ausgewählt und nur bei komplexeren Abfragen ein größeres Modell verwendet wird.
Angenommen, ein kleines Modell wird auf einem Smartphone und eine größere Version dieses Modells auf einem Remote-Server ausgeführt. Eine gute Modellabfolge reduziert Kosten und Latenz, da das kleinere Modell einfache Anfragen verarbeiten kann und nur das Remote-Modell für komplexe Anfragen aufgerufen wird.
Siehe auch Modell-Router.
Modellrouter
Der Algorithmus, der das ideale Modell für die Inferenz bei der Modellkaskade bestimmt. Ein Modell-Router ist in der Regel selbst ein Modell für maschinelles Lernen, das nach und nach lernt, das beste Modell für eine bestimmte Eingabe auszuwählen. Ein Modell-Router kann jedoch manchmal ein einfacherer Algorithmus ohne maschinelles Lernen sein.
MOE
Abkürzung für Mix aus Experten.
MT
Abkürzung für Maschinelle Übersetzung.
N
Keine richtige Antwort (NORA)
Ein Prompt mit mehreren geeigneten Antworten. Für den folgenden Prompt gibt es beispielsweise keine richtige Antwort:
Erzählen Sie mir einen Witz über Elefanten.
Die Bewertung von Aufgaben, bei denen es keine richtige Antwort gibt, kann schwierig sein.
NORA
Abkürzung für keine richtige Antwort.
O
One-Shot-Prompts
Ein Prompt mit einem Beispiel, das zeigt, wie das Large Language Model reagieren soll. Der folgende Prompt enthält beispielsweise ein Beispiel, in dem einem Large Language Model gezeigt wird, wie es eine Suchanfrage beantworten soll.
Teile eines Prompts | Hinweise |
---|---|
Was ist die offizielle Währung des angegebenen Landes? | Die Frage, die das LLM beantworten soll. |
Frankreich: EUR | Ein Beispiel: |
Indien: | Die tatsächliche Suchanfrage. |
Vergleichen Sie One-Shot-Prompts mit den folgenden Begriffen:
P
Parametereffiziente Abstimmung
Eine Reihe von Techniken, mit denen ein großes vortrainiertes Sprachmodell (PLM) fein abgestimmt werden kann, was effizienter ist als eine vollständige Feinabstimmung. Bei der parametereffizienten Optimierung werden in der Regel deutlich weniger Parameter optimiert als bei der vollständigen Optimierung. Trotzdem wird in der Regel ein Large Language Model erstellt, das genauso gut (oder fast genauso gut) funktioniert wie ein Large Language Model, das durch vollständige Optimierung erstellt wurde.
Vergleichen Sie die parametereffiziente Abstimmung mit:
Die parametereffiziente Abstimmung wird auch als parametereffiziente Feinabstimmung bezeichnet.
PLM
Abkürzung für vortrainiertes Language Model.
Nach dem Training
Weitgehend unscharfer Begriff, der in der Regel auf ein vortrainiertes Modell verweist, das einer Nachbearbeitung unterzogen wurde, z. B. einer oder mehreren der folgenden:
vortrainiertes Modell
Normalerweise ein Modell, das bereits trainiert wurde. Der Begriff kann auch einen zuvor trainierten Embedding-Vektor bezeichnen.
Der Begriff vortrainiertes Sprachmodell bezieht sich in der Regel auf ein bereits trainiertes Large Language Model.
Vortraining
Das erste Training eines Modells mit einem großen Dataset. Einige vortrainierte Modelle sind sperrige Riesen und müssen in der Regel durch zusätzliches Training optimiert werden. So können ML-Experten beispielsweise ein Large Language Model mit einem riesigen Text-Dataset vortrainieren, z. B. mit allen englischsprachigen Seiten in Wikipedia. Nach dem Vortraining kann das resultierende Modell mithilfe einer der folgenden Methoden weiter optimiert werden:
prompt
Jeder Text, der als Eingabe in ein Large Language Model eingegeben wird, um das Modell auf eine bestimmte Weise zu steuern. Prompts können so kurz wie eine Wortgruppe oder beliebig lang sein (z. B. der gesamte Text eines Romans). Prompts lassen sich in mehrere Kategorien unterteilen, darunter die in der folgenden Tabelle aufgeführten:
Prompt-Kategorie | Beispiel | Hinweise |
---|---|---|
Frage | Wie schnell kann eine Taube fliegen? | |
Anleitung | Schreib ein lustiges Gedicht über Arbitrage. | Ein Prompt, in dem das Large Language Model aufgefordert wird, etwas zu tun. |
Beispiel | Markdown-Code in HTML umwandeln. Beispiel:
Markdown: * Listenelement HTML: <ul> <li>Listenelement</li> </ul> |
Der erste Satz in diesem Beispiel ist eine Anweisung. Der Rest des Prompts ist das Beispiel. |
Rolle | Erläutern Sie einem Doktoranden in Physik, warum der Gradientenabstieg beim Training von Machine-Learning-Modellen verwendet wird. | Der erste Teil des Satzes ist eine Anweisung; der Ausdruck „mit einem Doktortitel in Physik“ ist der Teil zur Rolle. |
Teilweise Eingabe, die das Modell vervollständigen soll | Der Premierminister des Vereinigten Königreichs wohnt unter folgender Adresse: | Ein Prompt für die teilweise Eingabe kann entweder abrupt enden (wie in diesem Beispiel) oder mit einem Unterstrich. |
Ein Modell für generative KI kann auf einen Prompt mit Text, Code, Bildern, Embeddings, Videos und so weiter reagieren.
Promptbasiertes Lernen
Eine Funktion bestimmter Modelle, die es ihnen ermöglicht, ihr Verhalten auf beliebige Texteingaben (Prompts) anzupassen. Bei einem typischen promptbasierten Lernparadigma antwortet ein Large Language Model auf einen Prompt, indem es Text generiert. Angenommen, ein Nutzer gibt den folgenden Prompt ein:
Fassen Sie das dritte Newtonsche Gesetz zusammen.
Ein Modell, das promptbasiertes Lernen unterstützt, ist nicht speziell darauf trainiert, den vorherigen Prompt zu beantworten. Vielmehr „weiß“ das Modell viele Fakten über die Physik, viele allgemeine Sprachregeln und viel darüber, was allgemein nützliche Antworten ausmacht. Dieses Wissen reicht aus, um eine (hoffentlich) nützliche Antwort zu geben. Durch zusätzliches Feedback von Menschen („Diese Antwort war zu kompliziert.“ oder „Was ist eine Reaktion?“) können einige promptbasierte Lernsysteme die Nützlichkeit ihrer Antworten nach und nach verbessern.
Prompt-Design
Synonym für Prompt Engineering.
Prompt Engineering
Die Kunst, Prompts zu erstellen, die die gewünschten Antworten aus einem Large Language Model hervorrufen. Menschen führen Prompt Engineering aus. Gut strukturierte Prompts sind wichtig, um nützliche Antworten von einem Large Language Model zu erhalten. Die Prompt-Entwicklung hängt von vielen Faktoren ab, darunter:
- Das Dataset, das zum Vortrainieren und gegebenenfalls zur Feinabstimmung des Large Language Models verwendet wird.
- Die Temperatur und andere Dekodierungsparameter, die das Modell zum Generieren von Antworten verwendet.
Weitere Informationen zum Verfassen hilfreicher Prompts finden Sie unter Einführung in das Prompt-Design.
Prompt-Design ist ein Synonym für Prompt Engineering.
Prompt-Tuning
Ein parametereffizienter Tuning-Mechanismus, der ein „Präfix“ lernt, das dem tatsächlichen Prompt vorangestellt wird.
Eine Variante der Prompt-Optimierung, die manchmal als Präfix-Optimierung bezeichnet wird, besteht darin, das Präfix vor jeder Ebene einzufügen. Bei der meisten Prompt-Optimierung wird der Eingabeebene dagegen nur ein Präfix hinzugefügt.
R
Referenztext
Die Antwort eines Experten auf einen Prompt. Angenommen, Sie erhalten den folgenden Prompt:
Übersetzen Sie die Frage „Wie heißen Sie?“ vom Englischen ins Französische.
Eine Antwort eines Experten könnte so lauten:
Comment vous appelez-vous?
Mit verschiedenen Messwerten wie ROUGE wird der Grad gemessen, in dem der Referenztext mit dem generierten Text eines ML-Modells übereinstimmt.
Bestärkendes Lernen durch menschliches Feedback (RLHF)
Feedback von menschlichen Bewertern nutzen, um die Qualität der Antworten eines Modells zu verbessern. Ein RLHF-Mechanismus kann Nutzer beispielsweise bitten, die Qualität der Antwort eines Modells mit einem 👍 oder 👎-Emoji zu bewerten. Das System kann dann seine zukünftigen Antworten anhand dieses Feedbacks anpassen.
Rollenaufforderungen
Optionaler Teil eines Prompts, mit dem eine Zielgruppe für die Antwort eines generativen KI-Modells angegeben wird. Ohne einen Rollen-Prompt liefert ein Large Language Model eine Antwort, die für die Person, die die Fragen stellt, nützlich sein kann oder auch nicht. Mit einem Rollen-Prompt kann ein Large Language Model auf eine Weise antworten, die für eine bestimmte Zielgruppe angemessener und hilfreicher ist. In den folgenden Prompts ist beispielsweise der Teil mit dem Rollenvorschlag fett formatiert:
- Fassen Sie diesen Artikel für einen Doktoranden in Wirtschaftswissenschaften zusammen.
- Beschreiben Sie die Funktionsweise der Gezeiten für ein zehnjähriges Kind.
- Erläutern Sie die Finanzkrise von 2008. Sprechen Sie so, wie Sie es mit einem kleinen Kind oder einem Golden Retriever tun würden.
S
Feinabstimmung von Prompts
Eine Methode zum Optimieren eines Large Language Models für eine bestimmte Aufgabe, ohne ressourcenintensive Feinabstimmung. Anstatt alle Gewichte im Modell neu zu trainieren, passt die Soft-Prompt-Optimierung automatisch einen Prompt an, um dasselbe Ziel zu erreichen.
Bei der weichen Prompt-Optimierung werden einem Textprompt in der Regel zusätzliche Token-Ebenen hinzugefügt und die Eingabe wird mithilfe der Backpropagation optimiert.
Ein „harter“ Prompt enthält tatsächliche Tokens anstelle von Token-Embeddings.
T
Temperatur
Ein Hyperparameter, der den Grad der Zufälligkeit der Ausgabe eines Modells steuert. Höhere Temperaturen führen zu einer stärker zufälligen Ausgabe, während niedrigere Temperaturen zu einer weniger zufälligen Ausgabe führen.
Die Auswahl der optimalen Temperatur hängt von der jeweiligen Anwendung und den gewünschten Eigenschaften der Ausgabe des Modells ab. Sie würden die Temperatur beispielsweise wahrscheinlich erhöhen, wenn Sie eine Anwendung erstellen, die kreative Inhalte generiert. Umgekehrt würden Sie die Temperatur wahrscheinlich senken, wenn Sie ein Modell erstellen, das Bilder oder Text klassifiziert, um die Genauigkeit und Konsistenz des Modells zu verbessern.
Die Temperatur wird häufig mit softmax verwendet.
Z
Zero-Shot-Prompts
Ein Prompt, der kein Beispiel dafür enthält, wie das Large Language Model antworten soll. Beispiel:
Teile eines Prompts | Hinweise |
---|---|
Was ist die offizielle Währung des angegebenen Landes? | Die Frage, die das LLM beantworten soll. |
Indien: | Die tatsächliche Suchanfrage. |
Das Large Language Model könnte mit einer der folgenden Antworten antworten:
- Rupie
- INR
- ₹
- Indische Rupie
- Die Rupie
- Die indische Rupie
Alle Antworten sind richtig, aber Sie bevorzugen möglicherweise ein bestimmtes Format.
Vergleichen Sie Zero-Shot-Prompts mit den folgenden Begriffen: