Diese Seite wurde von der Cloud Translation API übersetzt.

Machine Learning Glossary

In diesem Glossar werden Begriffe im Zusammenhang mit künstlicher Intelligenz definiert.

A

Ablation

Eine Methode zur Bewertung der Wichtigkeit eines Features oder einer Komponente, indem es vorübergehend aus einem Modell entfernt wird. Anschließend trainieren Sie das Modell ohne dieses Feature oder diese Komponente neu. Wenn das neu trainierte Modell deutlich schlechter abschneidet, war das entfernte Feature oder die entfernte Komponente wahrscheinlich wichtig.

Angenommen, Sie trainieren ein Klassifizierungsmodell mit 10 Features und erreichen eine Präzision von 88% für das Test-Dataset. Um die Wichtigkeit des ersten Merkmals zu prüfen, können Sie das Modell nur mit den neun anderen Merkmalen neu trainieren. Wenn das neu trainierte Modell deutlich schlechter abschneidet (z. B. 55% Präzision), war das entfernte Feature wahrscheinlich wichtig. Wenn das neu trainierte Modell dagegen eine ebenso gute Leistung erbringt, war dieses Merkmal wahrscheinlich nicht so wichtig.

Mit der Ablation lässt sich auch die Bedeutung von Folgendem ermitteln:

Größere Komponenten, z. B. ein ganzes Subsystem eines größeren ML-Systems
Prozesse oder Techniken, z. B. ein Schritt zur Datenvorverarbeitung

In beiden Fällen beobachten Sie, wie sich die Leistung des Systems ändert (oder nicht ändert), nachdem Sie die Komponente entfernt haben.

A/B-Tests

Eine statistische Methode zum Vergleichen von zwei (oder mehr) Techniken – der A und der B. Normalerweise ist A eine vorhandene und B eine neue Technik. Beim A/B-Test wird nicht nur ermittelt, welche Technik besser funktioniert, sondern auch, ob der Unterschied statistisch signifikant ist.

Beim A/B-Test wird in der Regel eine einzelne Messgröße für zwei Techniken verglichen. Wie schneidet beispielsweise die Genauigkeit des Modells für zwei Techniken ab? Bei A/B-Tests können jedoch auch eine beliebige endliche Anzahl von Messwerten verglichen werden.

Beschleuniger-Chip

#GoogleCloud

Eine Kategorie von spezialisierten Hardwarekomponenten, die für die Durchführung wichtiger Berechnungen entwickelt wurden, die für Deep-Learning-Algorithmen erforderlich sind.

Beschleunigerchips (oder kurz Beschleuniger) können die Geschwindigkeit und Effizienz von Trainings- und Inferenzaufgaben im Vergleich zu einer Allzweck-CPU erheblich steigern. Sie eignen sich ideal für das Trainieren neuronaler Netze und ähnliche rechenintensive Aufgaben.

Beispiele für Beschleunigerchips:

Tensor Processing Units (TPUs) von Google mit dedizierter Hardware für Deep Learning.
NVIDIA-GPUs, die zwar ursprünglich für die Grafikverarbeitung entwickelt wurden, aber für die parallele Verarbeitung ausgelegt sind, was die Verarbeitungsgeschwindigkeit erheblich steigern kann.

Genauigkeit

#fundamentals

#Messwert

Die Anzahl der richtigen Klassifizierungsvorhersagen, dividiert durch die Gesamtzahl der Vorhersagen. Das bedeutet:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Ein Modell, das beispielsweise 40 korrekte und 10 falsche Vorhersagen getroffen hat, hätte eine Genauigkeit von:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

Bei der binären Klassifizierung werden bestimmte Namen für die verschiedenen Kategorien von richtigen Vorhersagen und falschen Vorhersagen verwendet. Die Formel für die Genauigkeit bei der binären Klassifizierung lautet also:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

Dabei gilt:

TP ist die Anzahl der richtig positiven Ergebnisse (richtige Vorhersagen).
TN ist die Anzahl der richtig negativen Ergebnisse (richtige Vorhersagen).
FP ist die Anzahl der falsch positiven Ergebnisse (falsche Vorhersagen).
FN ist die Anzahl der falsch negativen Ergebnisse (falsche Vorhersagen).

Vergleichen Sie die Genauigkeit mit der Trefferquote und der Erinnerung.

Klicken Sie auf das Symbol, um Details zur Genauigkeit und zu Datasets mit ungleichmäßiger Klassenverteilung zu erhalten.

Die Genauigkeit ist zwar in einigen Situationen ein nützlicher Messwert, kann aber in anderen Fällen sehr irreführend sein. Die Genauigkeit ist in der Regel ein schlechter Messwert für die Bewertung von Klassifizierungsmodellen, die Datasets mit ungleichmäßiger Klassenverteilung verarbeiten.

Angenommen, in einer bestimmten subtropischen Stadt schneit es nur 25 Tage pro Jahrhundert. Da es in dieser Stadt viel mehr Tage ohne Schnee (die negative Klasse) als Tage mit Schnee (die positive Klasse) gibt, ist das Dataset für Schnee klassenungleichgewichtig. Stellen Sie sich ein binäres Klassifizierungsmodell vor, das jeden Tag entweder Schnee oder keinen Schnee vorhersagen soll, aber einfach jeden Tag „kein Schnee“ vorhersagt. Dieses Modell ist sehr genau, hat aber keine Vorhersagekraft. In der folgenden Tabelle sind die Ergebnisse für ein Jahrhundert von Vorhersagen zusammengefasst:

Kategorie	Zahl
RPE	0
TN	36499
FP	0
FNE	25

Die Genauigkeit dieses Modells ist also:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (0 + 36499) / (0 + 36499 + 0 + 25) = 0.9993 = 99.93%

Obwohl 99,93% Genauigkeit ein sehr beeindruckender Prozentsatz zu sein scheinen, hat das Modell tatsächlich keine Vorhersagekraft.

Precision und Recall sind in der Regel nützlichere Messwerte als Accuracy, um Modelle zu bewerten, die mit klassenungleichgewichteten Datasets trainiert wurden.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Klassifizierung: Genauigkeit, Trefferquote, Präzision und zugehörige Messwerte.

Aktion

Beim Reinforcement Learning ist das der Mechanismus, mit dem der Agent zwischen den Zuständen der Umgebung wechselt. Der Agent wählt die Aktion anhand einer Richtlinie aus.

Aktivierungsfunktion

#fundamentals

Eine Funktion, mit der neuronale Netze nicht lineare (komplexe) Beziehungen zwischen den Features und dem Label lernen können.

Beliebte Aktivierungsfunktionen sind:

ReLU
Sigmoid

Die Diagramme von Aktivierungsfunktionen sind nie einzelne gerade Linien. Das Diagramm der ReLU-Aktivierungsfunktion besteht beispielsweise aus zwei geraden Linien:

Ein kartesisches Diagramm mit zwei Linien. Die erste Zeile hat einen konstanten y-Wert von 0 und verläuft entlang der x-Achse von -infinity,0 bis 0,-0.
Die zweite Zeile beginnt bei 0,0. Diese Linie hat eine Steigung von +1 und verläuft daher von 0,0 bis +unendlich,+unendlich.

Ein Diagramm der Sigmoid-Aktivierungsfunktion sieht so aus:

Ein zweidimensionales gekrümmtes Diagramm mit x-Werten, die den Bereich von minus unendlich bis plus unendlich abdecken, und y-Werten, die den Bereich von fast 0 bis fast 1 abdecken. Wenn x = 0 ist, ist y = 0,5. Die Steigung der Kurve ist immer positiv.Sie ist bei 0,05 am höchsten und nimmt mit zunehmendem Absolutwert von x allmählich ab.

Klicken Sie auf das Symbol, um ein Beispiel zu sehen.

In einem neuronalen Netzwerk bearbeiten Aktivierungsfunktionen die gewichtete Summe aller Eingaben für ein Neuron. Um eine gewichtete Summe zu berechnen, addiert das Neuron die Produkte der relevanten Werte und Gewichte. Angenommen, die relevanten Eingaben für ein Neuron bestehen aus Folgendem:

Eingabewert	Gewichtung der Eingabe
2	–1,3
-1	0,6
3	0,4

Die gewichtete Summe ist also:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Angenommen, der Designer dieses neuronalen Netzwerks wählt die Sigmoid-Funktion als Aktivierungsfunktion aus. In diesem Fall berechnet das Neuron den Sigmoid von -2,0, der ungefähr 0,12 beträgt. Daher übergibt das Neuron 0,12 (und nicht -2,0) an die nächste Ebene im neuronalen Netzwerk. Die folgende Abbildung veranschaulicht den relevanten Teil des Prozesses:

Weitere Informationen finden Sie im Machine Learning Crash Course unter Neuronale Netze: Aktivierungsfunktionen.

aktives Lernen

Ein Trainingsansatz, bei dem der Algorithmus einige der Daten auswählt, aus denen er lernt. Aktives Lernen ist besonders wertvoll, wenn gelabelte Beispiele selten oder teuer zu beschaffen sind. Statt blind nach einer Vielzahl von gekennzeichneten Beispielen zu suchen, sucht ein Algorithmus für aktives Lernen selektiv nach den Beispielen, die er zum Lernen benötigt.

AdaGrad

Ein ausgefeilter Gradientenabstiegsalgorithmus, der die Gradienten jedes Parameters neu skaliert und jedem Parameter effektiv eine unabhängige Lernrate zuweist. Eine ausführliche Erklärung finden Sie unter Adaptive Subgradient Methods for Online Learning and Stochastic Optimization.

Anpassung

#generativeAI

Synonym für Optimierung oder Feinabstimmung.

Agent

#generativeAI

Software, die multimodale Nutzereingaben analysieren kann, um Aktionen im Namen des Nutzers zu planen und auszuführen.

Beim Reinforcement Learning ist ein Agent die Einheit, die eine Richtlinie verwendet, um den erwarteten Return zu maximieren, der durch den Übergang zwischen Zuständen der Umgebung erzielt wird.

agentisch

#generativeAI

Die Adjektivform von Agent. „Agentic“ bezieht sich auf die Eigenschaften, die Agents haben (z. B. Autonomie).

Agentischer Workflow

#generativeAI

Ein dynamischer Prozess, bei dem ein Agent autonom Aktionen plant und ausführt, um ein Ziel zu erreichen. Der Prozess kann das Ziehen von Schlussfolgerungen, das Aufrufen externer Tools und das selbstständige Korrigieren des Plans umfassen.

agglomeratives Clustering

#clustering

Weitere Informationen finden Sie unter hierarchisches Clustering.

KI-Schlupf

#generativeAI

Ausgabe eines generativen KI-Systems, bei dem die Quantität über der Qualität steht. Eine Webseite mit KI-Schrott ist beispielsweise mit billig produzierten, KI-generierten Inhalten von geringer Qualität gefüllt.

Anomalieerkennung

Der Prozess der Identifizierung von Ausreißern. Wenn der Mittelwert für ein bestimmtes Merkmal beispielsweise 100 mit einer Standardabweichung von 10 ist, sollte die Anomalieerkennung einen Wert von 200 als verdächtig kennzeichnen.

AR

Abkürzung für Augmented Reality.

Bereich unter der PR-Kurve

#Messwert

Weitere Informationen finden Sie unter PR AUC (Area under the PR Curve).

Bereich unter der ROC-Kurve

#Messwert

Weitere Informationen finden Sie unter AUC (Area under the ROC curve).

allgemeine künstliche Intelligenz

Ein nicht menschlicher Mechanismus, der eine breite Palette an Problemlösungs-, Kreativitäts- und Anpassungsfähigkeiten demonstriert. Ein Programm, das allgemeine künstliche Intelligenz demonstriert, könnte beispielsweise Texte übersetzen, Sinfonien komponieren und Spiele, die noch nicht erfunden wurden, mit Bravour meistern.

künstliche Intelligenz

#fundamentals

Ein nicht menschliches Programm oder Modell, das anspruchsvolle Aufgaben lösen kann. Ein Programm oder Modell, das Text übersetzt, oder ein Programm oder Modell, das Krankheiten anhand von radiologischen Bildern erkennt, sind Beispiele für künstliche Intelligenz.

Maschinelles Lernen ist ein Teilbereich der künstlichen Intelligenz. In den letzten Jahren haben einige Organisationen jedoch begonnen, die Begriffe künstliche Intelligenz und maschinelles Lernen synonym zu verwenden.

aufmerksamkeit

Ein Mechanismus, der in einem neuronalen Netzwerk verwendet wird und die Wichtigkeit eines bestimmten Wortes oder Wortteils angibt. Durch die Aufmerksamkeit wird die Menge an Informationen komprimiert, die ein Modell benötigt, um das nächste Token/Wort vorherzusagen. Ein typischer Aufmerksamkeitsmechanismus kann aus einer gewichteten Summe über eine Reihe von Eingaben bestehen, wobei das Gewicht für jede Eingabe von einem anderen Teil des neuronalen Netzwerks berechnet wird.

Weitere Informationen finden Sie unter Self-Attention und Multi-Head Self-Attention, den Bausteinen von Transformern.

Weitere Informationen zu Self-Attention finden Sie im Machine Learning Crash Course unter LLMs: What's a large language model?.

Attribut

#responsible

Synonym für Funktion.

Beim maschinellen Lernen beziehen sich Attribute oft auf Merkmale von Personen.

Attribut-Sampling

#df

Eine Taktik zum Trainieren eines Entscheidungsbaums, bei dem jeder Entscheidungsbaum beim Lernen der Bedingung nur eine zufällige Teilmenge der möglichen Features berücksichtigt. Im Allgemeinen wird für jeden Knoten eine andere Teilmenge von Features ausgewählt. Beim Trainieren eines Entscheidungsbaums ohne Attribut-Sampling werden dagegen alle möglichen Features für jeden Knoten berücksichtigt.

AUC (Area Under the ROC Curve, Bereich unter der ROC-Kurve)

#fundamentals

#Messwert

Eine Zahl zwischen 0,0 und 1,0, die angibt, wie gut ein binäres Klassifizierungsmodell positive Klassen von negativen Klassen trennen kann. Je näher die AUC an 1,0 liegt, desto besser kann das Modell Klassen voneinander trennen.

Die folgende Abbildung zeigt beispielsweise ein Klassifikationsmodell, das positive Klassen (grüne Ovale) perfekt von negativen Klassen (lila Rechtecke) trennt. Dieses unrealistisch perfekte Modell hat einen AUC-Wert von 1,0:

Ein Zahlenstrahl mit 8 positiven Beispielen auf der einen Seite und 9 negativen Beispielen auf der anderen Seite.

Die folgende Abbildung zeigt dagegen die Ergebnisse für ein Klassifizierungsmodell, das zufällige Ergebnisse generiert hat. Dieses Modell hat einen AUC-Wert von 0,5:

Ein Zahlenstrahl mit 6 positiven und 6 negativen Beispielen.
Die Reihenfolge der Beispiele ist positiv, negativ, positiv, negativ, positiv, negativ, positiv, negativ, positiv, negativ, positiv, negativ.

Ja, das vorherige Modell hat einen AUC-Wert von 0,5, nicht 0,0.

Die meisten Modelle liegen irgendwo zwischen den beiden Extremen. Im folgenden Modell werden beispielsweise positive und negative Ergebnisse etwas getrennt. Daher liegt die AUC zwischen 0, 5 und 1, 0:

Ein Zahlenstrahl mit 6 positiven und 6 negativen Beispielen.
Die Reihenfolge der Beispiele ist negativ, negativ, negativ, negativ,
positiv, negativ, positiv, positiv, negativ, positiv, positiv,
positiv.

Bei der AUC wird jeder Wert ignoriert, den Sie für Klassifizierungsschwellenwert festlegen. Stattdessen werden bei der AUC alle möglichen Klassifizierungsschwellenwerte berücksichtigt.

Klicken Sie auf das Symbol, um mehr über die Beziehung zwischen AUC und ROC-Kurven zu erfahren.

AUC steht für den Bereich unter einer ROC-Kurve. Die ROC-Kurve für ein Modell, das positive und negative Werte perfekt trennt, sieht beispielsweise so aus:

AUC ist die Fläche des grauen Bereichs in der Abbildung oben. In diesem ungewöhnlichen Fall ist die Fläche einfach die Länge des grauen Bereichs (1,0) multipliziert mit der Breite des grauen Bereichs (1,0). Das Produkt von 1,0 und 1,0 ergibt also eine AUC von genau 1,0, was der höchstmögliche AUC-Wert ist.

Die ROC-Kurve für ein Klassifikationsmodell, das Klassen überhaupt nicht trennen kann, sieht so aus: Die Fläche dieses grauen Bereichs beträgt 0,5.

Eine typischere ROC-Kurve sieht ungefähr so aus:

Die Fläche unter dieser Kurve manuell zu berechnen, wäre mühsam. Daher werden die meisten AUC-Werte in der Regel von einem Programm berechnet.

Klicken Sie auf das Symbol, um eine formellere Definition von AUC zu erhalten.

Die AUC ist die Wahrscheinlichkeit, dass ein Klassifikationsmodell mit höherer Konfidenz davon ausgeht, dass ein zufällig ausgewähltes positives Beispiel tatsächlich positiv ist, als dass ein zufällig ausgewähltes negatives Beispiel positiv ist.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Klassifizierung: ROC und AUC.

Augmented Reality

Eine Technologie, die ein computergeneriertes Bild über die Sicht eines Nutzers auf die reale Welt legt und so eine zusammengesetzte Ansicht erzeugt.

Autoencoder

Ein System, das lernt, die wichtigsten Informationen aus der Eingabe zu extrahieren. Autoencoder sind eine Kombination aus einem Encoder und einem Decoder. Autoencoder basieren auf dem folgenden zweistufigen Prozess:

Der Encoder bildet die Eingabe auf ein (in der Regel) verlustbehaftetes, niedrigdimensionales (Zwischen-)Format ab.
Der Decoder erstellt eine verlustbehaftete Version der ursprünglichen Eingabe, indem er das niedrigdimensionale Format dem ursprünglichen höherdimensionalen Eingabeformat zuordnet.

Autoencoder werden End-to-End trainiert, indem der Decoder versucht, die ursprüngliche Eingabe aus dem Zwischenformat des Encoders so genau wie möglich zu rekonstruieren. Da das Zwischenformat kleiner (niedriger dimensioniert) als das Originalformat ist, muss der Autoencoder lernen, welche Informationen in der Eingabe wichtig sind. Die Ausgabe ist daher nicht perfekt mit der Eingabe identisch.

Beispiel:

Wenn die Eingabedaten eine Grafik sind, wäre die nicht exakte Kopie der Originalgrafik ähnlich, aber etwas modifiziert. Vielleicht werden bei der nicht exakten Kopie Rauschen aus der Originalgrafik entfernt oder einige fehlende Pixel eingefügt.
Wenn die Eingabedaten Text sind, generiert ein Autoencoder neuen Text, der dem Originaltext ähnelt, aber nicht identisch ist.

Weitere Informationen finden Sie unter Variations-Autoencoder.

automatische Auswertung

#generativeAI

Software verwenden, um die Qualität der Ausgabe eines Modells zu beurteilen.

Wenn die Modellausgabe relativ einfach ist, kann ein Skript oder Programm die Modellausgabe mit einer Referenzantwort vergleichen. Diese Art der automatischen Auswertung wird manchmal als programmatische Auswertung bezeichnet. Messwerte wie ROUGE oder BLEU sind oft für die programmatische Bewertung nützlich.

Wenn die Modellausgabe komplex ist oder keine richtige Antwort hat, wird die automatische Bewertung manchmal von einem separaten ML-Programm, dem Autorater, durchgeführt.

Menschliche Bewertung

Automatisierungsbias

#responsible

Wenn ein menschlicher Entscheidungsträger Empfehlungen eines automatisierten Entscheidungssystems Informationen vorzieht, die ohne Automatisierung erstellt wurden, auch wenn das automatisierte Entscheidungssystem Fehler macht.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Fairness: Types of bias.

AutoML

Jeder automatisierte Prozess zum Erstellen von Machine-Learning-Modellen. AutoML kann Aufgaben wie die folgenden automatisch ausführen:

Suchen Sie nach dem am besten geeigneten Modell.
Hyperparameter abstimmen.
Daten vorbereiten (einschließlich Feature Engineering).
Stellen Sie das resultierende Modell bereit.

AutoML ist für Data Scientists nützlich, da es ihnen Zeit und Aufwand bei der Entwicklung von Pipelines für maschinelles Lernen ersparen und die Vorhersagegenauigkeit verbessern kann. Auch für Nicht-Experten ist es nützlich, da es komplizierte Aufgaben im Bereich des maschinellen Lernens zugänglicher macht.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Automated Machine Learning (AutoML).

Autorater-Bewertung

#generativeAI

Ein hybrider Mechanismus zur Beurteilung der Qualität der Ausgabe eines generativen KI-Modells, der menschliche Bewertung mit automatischer Bewertung kombiniert. Ein Autorater ist ein ML-Modell, das mit Daten trainiert wird, die durch menschliche Bewertung erstellt wurden. Im Idealfall lernt ein Autorater, einen menschlichen Prüfer zu imitieren.

Es sind zwar vorgefertigte Autorater verfügbar, aber die besten Autorater sind speziell auf die Aufgabe abgestimmt, die Sie bewerten.

autoregressives Modell

#generativeAI

Ein Modell, das eine Vorhersage auf Grundlage seiner eigenen vorherigen Vorhersagen ableitet. Autoregressive Sprachmodelle sagen beispielsweise das nächste Token auf Grundlage der zuvor vorhergesagten Tokens voraus. Alle Transformer-basierten Large Language Models sind autoregressiv.

Im Gegensatz dazu sind GAN-basierte Bildmodelle in der Regel nicht autoregressiv, da sie ein Bild in einem einzigen Forward-Pass und nicht iterativ in Schritten generieren. Bestimmte Modelle zur Bildgenerierung sind jedoch autoregressiv, da sie ein Bild in Schritten generieren.

Hilfsverlust

Eine Verlustfunktion, die in Verbindung mit der Hauptverlustfunktion eines Modells für neuronale Netzwerke verwendet wird, um das Training in den ersten Iterationen zu beschleunigen, wenn die Gewichte zufällig initialisiert werden.

Hilfsverlustfunktionen senden effektive Gradienten an die früheren Ebenen. Dies erleichtert die Konvergenz während des Trainings, indem das Problem des verschwindenden Gradienten behoben wird.

Durchschnittliche Precision bei k

#Messwert

Ein Messwert zur Zusammenfassung der Leistung eines Modells bei einem einzelnen Prompt, der sortierte Ergebnisse generiert, z. B. eine nummerierte Liste mit Buchempfehlungen. Die durchschnittliche Precision bei k ist der Durchschnitt der Precision bei k-Werte für jedes relevante Ergebnis. Die Formel für die durchschnittliche Precision bei k lautet daher:

\[{\text{average precision at k}} = \frac{1}{n} \sum_{i=1}^n {\text{precision at k for each relevant item} } \]

Dabei gilt:

$n$ ist die Anzahl der relevanten Elemente in der Liste.

Im Gegensatz dazu steht Recall at k.

Klicken Sie auf das Symbol für ein Beispiel.

Angenommen, ein Large Language Model erhält die folgende Anfrage:

List the 6 funniest movies of all time in order.

Das Large Language Model gibt die folgende Liste zurück:

The General
Mean Girls
Platoon
Brautalarm
Citizen Kane
This is Spinal Tap

Vier der Filme in der zurückgegebenen Liste sind sehr lustig (d. h. sie sind relevant), aber zwei Filme sind Dramen (nicht relevant). Die Ergebnisse sind in der folgenden Tabelle aufgeführt:

Position	Film	Relevant?	Precision bei k
1	The General	Ja	1.0
2	Mean Girls	Ja	1.0
3	Platoon	Nein	nicht relevant
4	Brautalarm	Ja	0,75
5	Citizen Kane	Nein	nicht relevant
6	This is Spinal Tap	Ja	0,67

Die Anzahl der relevanten Ergebnisse beträgt 4. Daher können Sie die durchschnittliche Precision bei 6 so berechnen:

$${\text{average precision at 6}} = \frac{1}{4} {\text{(1.0 + 1.0 + 0.75 + 0.67)} } $$ $${\text{average precision at 6}} = {\text{~0.85} } $$

achsensymmetrische Bedingung

#df

In einem Entscheidungsbaum ist eine Bedingung, die nur ein einzelnes Attribut umfasst. Wenn area beispielsweise ein Feature ist, ist Folgendes eine achsenorientierte Bedingung:

area > 200

Kontrast zur schrägen Bedingung.

B

Rückpropagation

#fundamentals

Der Algorithmus, der den Gradientenabstieg in neuronalen Netzwerken implementiert.

Das Trainieren eines neuronalen Netzwerks umfasst viele Wiederholungen des folgenden Zwei-Pass-Zyklus:

Während des Forward Pass verarbeitet das System einen Batch von Beispielen, um Vorhersagen zu treffen. Das System vergleicht jede Vorhersage mit jedem Label-Wert. Die Differenz zwischen der Vorhersage und dem Labelwert ist der Verlust für dieses Beispiel. Das System fasst die Verluste für alle Beispiele zusammen, um den Gesamtverlust für den aktuellen Batch zu berechnen.
Während des Rückwärtsdurchlaufs (Backpropagation) wird der Verlust reduziert, indem die Gewichte aller Neuronen in allen verborgenen Schichten angepasst werden.

Neuronale Netze enthalten oft viele Neuronen in vielen verborgenen Schichten. Jedes dieser Neuronen trägt auf unterschiedliche Weise zum Gesamtrisiko bei. Bei der Backpropagation wird ermittelt, ob die Gewichte, die auf bestimmte Neuronen angewendet werden, erhöht oder verringert werden müssen.

Die Lernrate ist ein Multiplikator, der steuert, in welchem Maße jeder Backward-Pass jedes Gewicht erhöht oder verringert. Bei einer großen Lernrate wird jedes Gewicht stärker erhöht oder verringert als bei einer kleinen Lernrate.

In der Analysis wird mit der Backpropagation die Kettenregel> implementiert. Bei der Backpropagation wird die partielle Ableitung des Fehlers in Bezug auf jeden Parameter berechnet.

Vor einigen Jahren mussten ML-Experten noch Code schreiben, um die Backpropagation zu implementieren. Moderne APIs für maschinelles Lernen wie Keras implementieren die Backpropagation für Sie. Geschafft!

Weitere Informationen finden Sie im Machine Learning Crash Course unter Neuronale Netze.

Bagging

#df

Eine Methode zum Trainieren eines Ensembles, bei dem jedes Modell auf einer zufälligen Teilmenge von Trainingsbeispielen mit Zurücklegen trainiert wird. Ein Random Forest ist beispielsweise eine Sammlung von Entscheidungsbäumen, die mit Bagging trainiert wurden.

Der Begriff Bagging ist eine Abkürzung für Bootstrap Aggregating.

Weitere Informationen finden Sie im Kurs „Entscheidungsbäume“ unter Random Forests.

Bag of Words

Eine Darstellung der Wörter in einem Ausdruck oder Abschnitt, unabhängig von der Reihenfolge. „Bag of Words“ stellt beispielsweise die folgenden drei Formulierungen identisch dar:

Der Hund springt.
springt über den Hund
Hund springt

Jedes Wort wird einem Index in einem dünnbesetzten Vektor zugeordnet, wobei der Vektor einen Index für jedes Wort im Vokabular hat. Der Ausdruck the dog jumps wird beispielsweise in einen Feature-Vektor mit Werten ungleich null an den drei Indexen abgebildet, die den Wörtern the, dog und jumps entsprechen. Der Wert ungleich null kann einer der folgenden sein:

Eine 1, um das Vorhandensein eines Worts anzugeben.
Die Anzahl der Vorkommen eines Worts im Bag. Wenn der Ausdruck beispielsweise Der kastanienbraune Hund ist ein Hund mit kastanienbraunem Fell lautet, werden sowohl kastanienbraun als auch Hund als 2 dargestellt, während die anderen Wörter als 1 dargestellt werden.
Ein anderer Wert, z. B. der Logarithmus der Anzahl der Vorkommen eines Worts im Bag.

baseline

#Messwert

Ein Modell, das als Referenzpunkt für den Vergleich der Leistung eines anderen Modells (in der Regel eines komplexeren) verwendet wird. Ein logistisches Regressionsmodell kann beispielsweise als gute Baseline für ein Deep-Learning-Modell dienen.

Für ein bestimmtes Problem hilft die Baseline den Modellentwicklern, die minimale erwartete Leistung zu quantifizieren, die ein neues Modell erreichen muss, damit es nützlich ist.

Basismodell

#generativeAI

Ein vortrainiertes Modell, das als Ausgangspunkt für die Feinabstimmung für bestimmte Aufgaben oder Anwendungen dienen kann.

Siehe auch Vortrainiertes Modell und Foundation Model.

Batch

#fundamentals

Die Menge der Beispiele, die in einer Trainings-Iteration verwendet werden. Die Batchgröße bestimmt die Anzahl der Beispiele in einem Batch.

Eine Erläuterung, wie sich ein Batch auf eine Epoche bezieht, finden Sie unter Epoche.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Lineare Regression: Hyperparameter.

Batchinferenz

#GoogleCloud

Der Prozess des Schlussfolgerns von Vorhersagen für mehrere nicht gelabelte Beispiele, die in kleinere Teilmengen („Batches“) unterteilt sind.

Bei der Batch-Inferenz können die Parallelisierungsfunktionen von Beschleunigerchips genutzt werden. Das bedeutet, dass mehrere Beschleuniger gleichzeitig Vorhersagen für verschiedene Batches von ungelabelten Beispielen ableiten können, was die Anzahl der Inferenzen pro Sekunde erheblich steigert.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Production ML systems: Static versus dynamic inference.

Batchnormalisierung

Normalisieren der Ein- oder Ausgabe der Aktivierungsfunktionen in einer verborgenen Schicht. Die Batch-Normalisierung kann folgende Vorteile bieten:

Neuronale Netzwerke werden stabiler, indem sie vor Ausreißer-Gewichten geschützt werden.
Höhere Lernraten aktivieren, um das Training zu beschleunigen.
Overfitting reduzieren

Batchgröße

#fundamentals

Die Anzahl der Beispiele in einem Batch. Wenn die Batchgröße beispielsweise 100 ist, verarbeitet das Modell 100 Beispiele pro Iteration.

Im Folgenden finden Sie einige beliebte Strategien für die Batchgröße:

Stochastic Gradient Descent (SGD), bei der die Batchgröße 1 ist.
Vollständiger Batch, bei dem die Batchgröße der Anzahl der Beispiele im gesamten Trainingsset entspricht. Wenn der Trainingssatz beispielsweise eine Million Beispiele enthält, beträgt die Batchgröße eine Million Beispiele. Die Verarbeitung des gesamten Batches ist in der Regel eine ineffiziente Strategie.
Minibatch, bei dem die Batch-Größe in der Regel zwischen 10 und 1.000 liegt. Die Mini-Batch-Strategie ist in der Regel die effizienteste.

Weitere Informationen finden Sie hier:

ML-Produktionssysteme: Statische und dynamische Inferenz im Crashkurs zum maschinellen Lernen.
Playbook zum Optimieren von Deep Learning

Bayessches neuronales Netzwerk

Ein probabilistisches neuronales Netzwerk, das die Unsicherheit bei Gewichtungen und Ausgaben berücksichtigt. Ein Standardmodell für die Regression mit neuronalen Netzen sagt in der Regel einen Skalarwert vorher, z. B. einen Immobilienpreis von 853.000. Im Gegensatz dazu sagt ein bayessches neuronales Netzwerk eine Verteilung von Werten vorher. Ein bayessches Modell sagt beispielsweise einen Hauspreis von 853.000 € mit einer Standardabweichung von 67.200 € vorher.

Ein bayessches neuronales Netzwerk verwendet das Bayes'sche Theorem, um Unsicherheiten bei Gewichten und Vorhersagen zu berechnen. Ein bayessches neuronales Netzwerk kann nützlich sein, wenn es wichtig ist, Unsicherheit zu quantifizieren, z. B. in Modellen, die sich auf Pharmazeutika beziehen. Bayessche neuronale Netze können auch dazu beitragen, eine Überanpassung zu verhindern.

Bayes'sche Optimierung

Ein probabilistisches Regressionsmodell ist eine Technik zur Optimierung rechenintensiver Zielfunktionen, indem stattdessen ein Surrogat optimiert wird, das die Unsicherheit mithilfe einer bayesschen Lernmethode quantifiziert. Da die bayessche Optimierung selbst sehr aufwendig ist, wird sie in der Regel zur Optimierung von Aufgaben verwendet, die nur wenige Parameter haben und deren Auswertung kostspielig ist, z. B. die Auswahl von Hyperparametern.

Bellman-Gleichung

Im Reinforcement Learning gilt die folgende Identität für die optimale Q-Funktion:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

Algorithmen für bestärkendes Lernen wenden diese Identität an, um Q-Learning mit der folgenden Aktualisierungsregel zu erstellen:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

Neben dem bestärkenden Lernen wird die Bellman-Gleichung auch für die dynamische Programmierung verwendet. Weitere Informationen finden Sie im Wikipedia-Artikel zur Bellman-Gleichung.

BERT (Bidirectional Encoder Representations from Transformers)

Eine Modellarchitektur für die Darstellung von Text. Ein trainiertes BERT-Modell kann als Teil eines größeren Modells für die Textklassifizierung oder andere ML-Aufgaben dienen.

BERT hat die folgenden Eigenschaften:

Das Modell basiert auf der Transformer-Architektur und verwendet daher Self-Attention.
Verwendet den Encoder-Teil des Transformers. Die Aufgabe des Encoders besteht darin, gute Textdarstellungen zu erstellen, anstatt eine bestimmte Aufgabe wie die Klassifizierung auszuführen.
Ist bidirektional.
Verwendet Maskierung für unbeaufsichtigtes Training.

Zu den Varianten von BERT gehören:

ALBERT, ein Akronym für A Light BERT.
LaBSE

Eine Übersicht über BERT finden Sie unter BERT als Open-Source-Modell: Hochmodernes Training im Voraus für die natürliche Sprachverarbeitung.

Bias (Ethik/Fairness)

#responsible

#fundamentals

1. Stereotypisierung, Vorurteile oder Bevorzugung bestimmter Dinge, Personen oder Gruppen gegenüber anderen. Diese Verzerrungen können sich auf die Erhebung und Interpretation von Daten, das Design eines Systems und die Interaktion von Nutzern mit einem System auswirken. Beispiele für diese Art von Bias:

Automation Bias
Bestätigungsfehler
Experimentatorverzerrung
Gruppenattributionsbias
Implizites Bias
Gruppenintern
Homogenitätsbias außerhalb der Gruppe

2. Systematischer Fehler, der durch ein Sampling- oder Reportingverfahren eingeführt wird. Beispiele für diese Art von Bias:

Coverage Bias
Schweigeverzerrung
Bias durch Teilnahme
Reporting Bias
Stichproben-Bias
Stichproben-Bias

Nicht zu verwechseln mit dem Bias-Term in Modellen für maschinelles Lernen oder dem Vorhersage-Bias.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Fairness: Types of bias.

Bias (mathematisch) oder Bias-Term

#fundamentals

Ein Achsenabschnitt oder ein Offset von einem Ursprung. Bias ist ein Parameter in Modellen für maschinelles Lernen, der durch einen der folgenden Werte symbolisiert wird:

b
w₀

Bias ist beispielsweise das b in der folgenden Formel:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

In einer einfachen zweidimensionalen Linie entspricht der Bias dem Y-Achsenabschnitt. In der folgenden Abbildung ist der Bias der Linie beispielsweise 2.

Das Diagramm einer Linie mit einer Steigung von 0,5 und einem Bias (y-Achsenabschnitt) von 2.

Bias ist vorhanden, da nicht alle Modelle vom Ursprung (0,0) ausgehen. Ein Beispiel: Der Eintritt in einen Vergnügungspark kostet 2 € und für jede Stunde, die ein Kunde dort verbringt, werden zusätzlich 0,50 € berechnet. Ein Modell, das die Gesamtkosten abbildet, hat daher einen Bias von 2, da die niedrigsten Kosten 2 € betragen.

Bias ist nicht mit Bias in Ethik und Fairness oder Vorhersage-Bias zu verwechseln.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Lineare Regression.

bidirektional

Ein Begriff, der ein System beschreibt, das den Text bewertet, der einem Zielabschnitt des Texts vorangeht und folgt. Im Gegensatz dazu wird bei einem unidirektionalen System nur der Text ausgewertet, der einem Zielabschnitt des Textes vorangeht.

Betrachten Sie beispielsweise ein Masked Language Model, das Wahrscheinlichkeiten für das Wort oder die Wörter bestimmen muss, die den Unterstrich in der folgenden Frage darstellen:

Was ist los mit dir?

Ein unidirektionales Sprachmodell müsste seine Wahrscheinlichkeiten nur auf den Kontext stützen, der durch die Wörter „What“, „is“ und „the“ bereitgestellt wird. Ein bidirektionales Sprachmodell könnte dagegen auch Kontext aus „mit“ und „Sie“ gewinnen, was dem Modell helfen könnte, bessere Vorhersagen zu treffen.

Bidirektionales Sprachmodell

Ein Sprachmodell, das die Wahrscheinlichkeit dafür bestimmt, dass ein bestimmtes Token an einer bestimmten Stelle in einem Textausschnitt vorhanden ist, basierend auf dem vorherigen und nachfolgenden Text.

Bigramm

Ein N-Gramm, bei dem N=2.

Binärklassifizierung

#fundamentals

Eine Art von Klassifizierungsaufgabe, bei der eine von zwei sich gegenseitig ausschließenden Klassen vorhergesagt wird:

die positive Klasse
die negative Klasse

Die folgenden beiden Modelle für maschinelles Lernen führen beispielsweise jeweils eine binäre Klassifizierung durch:

Ein Modell, das bestimmt, ob E‑Mail-Nachrichten Spam (die positive Klasse) oder kein Spam (die negative Klasse) sind.
Ein Modell, das medizinische Symptome bewertet, um festzustellen, ob eine Person eine bestimmte Krankheit (die positive Klasse) hat oder nicht (die negative Klasse).

Im Gegensatz zur Klassifizierung mit mehreren Klassen.

Weitere Informationen finden Sie unter Logistische Regression und Klassifizierungsschwellenwert.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Classification.

Binärbedingung

#df

In einem Entscheidungsbaum ist eine Bedingung, die nur zwei mögliche Ergebnisse hat, in der Regel Ja oder Nein. Beispiel:

temperature >= 100

Im Gegensatz dazu steht die nicht binäre Bedingung.

Weitere Informationen finden Sie im Kurs „Entscheidungsbäume“ unter Arten von Bedingungen.

Gruppieren

Synonym für Klassierung.

Blackbox-Modell

Ein Modell, dessen „Argumentation“ für Menschen unmöglich oder schwer zu verstehen ist. Das heißt, obwohl Menschen sehen können, wie sich Prompts auf Antworten auswirken, können sie nicht genau bestimmen, wie ein Blackbox-Modell die Antwort ermittelt. Mit anderen Worten: Ein Blackbox-Modell hat keine Interpretierbarkeit.

Die meisten Deep-Learning-Modelle und Large Language Models sind Blackbox-Modelle.

BLEU (Bilingual Evaluation Understudy)

Ein Messwert zwischen 0,0 und 1,0 zur Bewertung von maschinellen Übersetzungen, z.B.von Spanisch nach Japanisch.

Um einen Wert zu berechnen, vergleicht BLEU in der Regel die Übersetzung eines ML-Modells (generierter Text) mit der Übersetzung eines menschlichen Experten (Referenztext). Der BLEU-Wert wird durch den Grad bestimmt, in dem N-Gramme im generierten Text und im Referenztext übereinstimmen.

Das Original-Paper zu diesem Messwert ist BLEU: a Method for Automatic Evaluation of Machine Translation.

Siehe auch BLEURT.

BLEURT (Bilingual Evaluation Understudy from Transformers)

Ein Messwert zur Bewertung von maschinellen Übersetzungen von einer Sprache in eine andere, insbesondere in und aus dem Englischen.

Bei Übersetzungen ins und aus dem Englischen stimmt BLEURT stärker mit menschlichen Bewertungen überein als BLEU. Im Gegensatz zu BLEU werden bei BLEURT semantische (Bedeutungs-)Ähnlichkeiten berücksichtigt und Paraphrasierungen können berücksichtigt werden.

BLEURT basiert auf einem vortrainierten Large Language Model (genauer gesagt BERT), das dann mit Text von menschlichen Übersetzern abgestimmt wird.

Das Original-Paper zu diesem Messwert ist BLEURT: Learning Robust Metrics for Text Generation.

Steigerung

Eine Machine-Learning-Technik, bei der eine Reihe einfacher und nicht sehr genauer Klassifizierungsmodelle (sogenannte „schwache Klassifizierer“) iterativ zu einem Klassifizierungsmodell mit hoher Genauigkeit (einem „starken Klassifizierer“) kombiniert werden, indem die Beispiele, die das Modell derzeit falsch klassifiziert, gewichtet werden.

Weitere Informationen finden Sie im Kurs „Entscheidungsbäume“ im Abschnitt Gradient Boosted Decision Trees?.

Begrenzungsrahmen

Die (x, y)-Koordinaten eines Rechtecks um einen interessanten Bereich in einem Bild, z. B. den Hund im Bild unten.

Foto eines Hundes, der auf einem Sofa sitzt. Ein grüner Begrenzungsrahmen mit den Koordinaten (275, 1271) für die obere linke Ecke und (2954, 2761) für die untere rechte Ecke umreißt den Körper des Hundes.

Broadcasting

Die Form eines Operanden in einer Matrix-Mathematikoperation wird auf Dimensionen erweitert, die für diese Operation kompatibel sind. In der linearen Algebra müssen beispielsweise die beiden Operanden in einer Matrixadditionsoperation dieselben Dimensionen haben. Daher können Sie eine Matrix mit der Form (m, n) nicht zu einem Vektor der Länge n hinzufügen. Beim Broadcasting wird der Vektor der Länge n virtuell in eine Matrix der Form (m, n) erweitert, indem die gleichen Werte in jeder Spalte repliziert werden.

Klicken Sie auf das Symbol für ein Beispiel.

Angesichts der folgenden Definitionen von A und B ist A+B aufgrund der unterschiedlichen Dimensionen von A und B in der linearen Algebra nicht zulässig:

A = [[7, 10, 4],
     [13, 5, 9]]
B = [2]

Durch Broadcasting wird jedoch der Vorgang A+B ermöglicht, indem B virtuell erweitert wird:

 [[2, 2, 2],
  [2, 2, 2]]

A+B ist jetzt ein gültiger Vorgang:

[[7, 10, 4],  +  [[2, 2, 2],  =  [[ 9, 12, 6],
 [13, 5, 9]]      [2, 2, 2]]      [15, 7, 11]]

Weitere Informationen finden Sie in der folgenden Beschreibung zum Broadcasting in NumPy.

Bucketing

#fundamentals

Umwandlung eines einzelnen Features in mehrere binäre Features, die in der Regel auf einem Wertebereich basieren und als Buckets oder Klassen bezeichnet werden. Das gehackte Feature ist in der Regel ein kontinuierliches Feature.

Anstatt die Temperatur als einzelnes kontinuierliches Gleitkomma-Feature darzustellen, können Sie beispielsweise Temperaturbereiche in diskrete Gruppen unterteilen, z. B.:

<= 10 °C wäre der „kalte“ Bucket.
11–24 °C fallen in die Kategorie „gemäßigt“.
>= 25 °C wäre die Kategorie „warm“.

Im Modell werden alle Werte im selben Bucket identisch behandelt. Die Werte 13 und 22 befinden sich beispielsweise beide im Bucket „gemäßigt“, sodass das Modell die beiden Werte identisch behandelt.

Klicken Sie auf das Symbol, um zusätzliche Hinweise zu erhalten.

Wenn Sie die Temperatur als kontinuierliches Feature darstellen, wird sie im Modell als einzelnes Feature behandelt. Wenn Sie die Temperatur in drei Gruppen einteilen, behandelt das Modell jede Gruppe als separates Feature. Das bedeutet, dass ein Modell separate Beziehungen der einzelnen Buckets zum Label lernen kann. Ein lineares Regressionsmodell kann beispielsweise separate Gewichtungen für jeden Bucket lernen.

Wenn Sie die Anzahl der Klassen erhöhen, wird Ihr Modell komplexer, da es mehr Beziehungen lernen muss. Die Kategorien „Kalt“, „Gemäßigt“ und „Warm“ sind im Grunde drei separate Features, mit denen Ihr Modell trainiert wird. Wenn Sie zwei weitere Klassen hinzufügen, z. B. „Gefrierend“ und „Heiß“, muss Ihr Modell jetzt mit fünf separaten Features trainiert werden.

Woher wissen Sie, wie viele Klassen Sie erstellen oder welche Bereiche für die einzelnen Klassen gelten sollen? Die Antworten erfordern in der Regel eine Menge Tests.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Numerical Data: Binning.

C

Abstimmungsebene

Eine Anpassung nach der Vorhersage, in der Regel zur Berücksichtigung von Vorhersagebias. Die angepassten Vorhersagen und Wahrscheinlichkeiten sollten der Verteilung einer beobachteten Gruppe von Labels entsprechen.

Kandidatengenerierung

Die erste Gruppe von Empfehlungen, die von einem Empfehlungssystem ausgewählt wurde. Angenommen, ein Buchhändler bietet 100.000 Titel an. In der Phase der Kandidatengenerierung wird eine viel kleinere Liste mit geeigneten Büchern für einen bestimmten Nutzer erstellt, z. B. 500. Aber selbst 500 Bücher sind viel zu viele, um sie einem Nutzer zu empfehlen. Nachfolgende, kostspieligere Phasen eines Empfehlungssystems (z. B. Bewertung und Neuberechnung des Rangs) reduzieren diese 500 auf eine viel kleinere, nützlichere Menge von Empfehlungen.

Weitere Informationen finden Sie im Kurs „Empfehlungssysteme“ in der Übersicht zur Kandidatengenerierung.

Kandidaten-Sampling

Eine Optimierung zur Trainingszeit, bei der eine Wahrscheinlichkeit für alle positiven Labels berechnet wird, z. B. mit Softmax, aber nur für eine zufällige Stichprobe negativer Labels. Angenommen, ein Beispiel ist mit Beagle und Hund gekennzeichnet. Beim Kandidatensampling werden die vorhergesagten Wahrscheinlichkeiten und entsprechenden Verlustterme für Folgendes berechnet:

Beagle
Hund
eine zufällige Teilmenge der verbleibenden negativen Klassen (z. B. Katze, Lutscher, Zaun).

Die Idee ist, dass die negativen Klassen aus weniger häufiger negativer Verstärkung lernen können, solange die positiven Klassen immer eine angemessene positive Verstärkung erhalten. Das wird auch empirisch beobachtet.

Das Kandidatensampling ist recheneffizienter als Trainingsalgorithmen, die Vorhersagen für alle negativen Klassen berechnen, insbesondere wenn die Anzahl der negativen Klassen sehr groß ist.

Kategoriale Daten

#fundamentals

Merkmale mit einer bestimmten Menge möglicher Werte. Nehmen wir als Beispiel ein kategoriales Feature namens traffic-light-state an, das nur einen der folgenden drei möglichen Werte haben kann:

red
yellow
green

Wenn traffic-light-state als kategoriales Feature dargestellt wird, kann ein Modell die unterschiedlichen Auswirkungen von red, green und yellow auf das Fahrverhalten lernen.

Kategoriale Features werden manchmal auch als diskrete Features bezeichnet.

Im Gegensatz zu numerischen Daten.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Mit kategorischen Daten arbeiten.

kausales Sprachmodell

Synonym für unidirektionales Sprachmodell.

Weitere Informationen zu den verschiedenen Richtungsansätzen bei der Sprachmodellierung finden Sie unter Bidirektionales Sprachmodell.

Schwerpunkt

#clustering

Der Mittelpunkt eines Clusters, der durch einen k-Means- oder k-Median-Algorithmus bestimmt wird. Wenn k beispielsweise 3 ist, werden mit dem k-Means- oder k-Median-Algorithmus 3 Schwerpunkte ermittelt.

Weitere Informationen finden Sie im Kurs „Clustering“ unter Clustering-Algorithmen.

zentroidbasiertes Clustering

#clustering

Eine Kategorie von Clustering-Algorithmen, mit denen Daten in nicht hierarchischen Clustern organisiert werden. k-Means ist der am häufigsten verwendete zentroidbasierte Clustering-Algorithmus.

Kontrast zu Algorithmen für hierarchisches Clustering

Weitere Informationen finden Sie im Kurs „Clustering“ unter Clustering-Algorithmen.

Chain-of-Thought-Prompting

#generativeAI

Eine Prompt-Engineering-Technik, die ein Large Language Model (LLM) dazu anregt, seine Argumentation Schritt für Schritt zu erläutern. Betrachten Sie beispielsweise den folgenden Prompt und achten Sie besonders auf den zweiten Satz:

Wie viele G-Kräfte würde ein Fahrer in einem Auto erfahren, das in 7 Sekunden von 0 auf 60 Meilen pro Stunde beschleunigt? Zeige in der Antwort alle relevanten Berechnungen.

Die Antwort des LLM würde wahrscheinlich:

Zeige eine Reihe von physikalischen Formeln und setze die Werte 0, 60 und 7 an den entsprechenden Stellen ein.
Erklären Sie, warum diese Formeln ausgewählt wurden und was die verschiedenen Variablen bedeuten.

Durch Chain-of-Thought-Prompts wird das LLM gezwungen, alle Berechnungen durchzuführen, was zu einer korrekteren Antwort führen kann. Außerdem kann der Nutzer durch Chain-of-Thought-Prompting die Schritte des LLM untersuchen, um festzustellen, ob die Antwort sinnvoll ist.

Chat

#generativeAI

Die Inhalte eines Dialogs mit einem ML-System, in der Regel einem Large Language Model. Die vorherige Interaktion in einem Chat (was Sie eingegeben haben und wie das Large Language Model reagiert hat) wird zum Kontext für nachfolgende Teile des Chats.

Ein Chatbot ist eine Anwendung eines Large Language Model.

CHECKPOINT

Daten, die den Status der Parameter eines Modells entweder während des Trainings oder nach Abschluss des Trainings erfassen. Während des Trainings haben Sie beispielsweise folgende Möglichkeiten:

Das Training wird beendet, möglicherweise absichtlich oder aufgrund bestimmter Fehler.
Erfassen Sie den Prüfpunkt.
Laden Sie den Prüfpunkt später neu, möglicherweise auf anderer Hardware.
Starte das Training neu.

Klasse

#fundamentals

Eine Kategorie, zu der ein Label gehören kann. Beispiel:

In einem binären Klassifizierungsmodell, das Spam erkennt, könnten die beiden Klassen Spam und Kein Spam sein.
In einem Klassifizierungsmodell mit mehreren Klassen, das Hunderassen identifiziert, könnten die Klassen Pudel, Beagle, Mops usw. sein.

Ein Klassifizierungsmodell sagt eine Klasse vorher. Im Gegensatz dazu sagt ein Regressionsmodell eine Zahl und keine Klasse vorher.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Classification.

Klassenausgeglichenes Dataset

Ein Dataset mit kategorialen Labels, in denen die Anzahl der Instanzen jeder Kategorie ungefähr gleich ist. Betrachten Sie beispielsweise ein botanisches Dataset, dessen binäres Label entweder einheimische Pflanze oder nicht einheimische Pflanze sein kann:

Ein Dataset mit 515 einheimischen Pflanzen und 485 nicht einheimischen Pflanzen ist ein klassenbalanciertes Dataset.
Ein Dataset mit 875 einheimischen Pflanzen und 125 nicht einheimischen Pflanzen ist ein Dataset mit unausgewogenen Klassen.

Es gibt keine formale Trennlinie zwischen Datasets mit ausgeglichenen Klassen und Datasets mit unausgeglichenen Klassen. Die Unterscheidung wird erst wichtig, wenn ein Modell, das mit einem stark klassenungleichgewichteten Dataset trainiert wurde, nicht konvergieren kann. Weitere Informationen finden Sie im Machine Learning Crash Course unter Datasets: imbalanced datasets.

Klassifikationsmodell

#fundamentals

Ein Modell, dessen Vorhersage eine Klasse ist. Beispiele für Klassifizierungsmodelle:

Ein Modell, das die Sprache eines Eingabesatzes vorhersagt (Französisch? Spanisch? Italienisch?).
Ein Modell, das Baumarten vorhersagt (Ahorn? Eiche? Baobab?).
Ein Modell, das die positive oder negative Klasse für einen bestimmten medizinischen Zustand vorhersagt.

Regressionsmodelle sagen im Gegensatz dazu Zahlen und nicht Klassen vorher.

Zwei gängige Arten von Klassifizierungsmodellen sind:

Binärklassifizierung
Klassifizierung mehrerer Klassen

Klassifizierungsschwellenwert

#fundamentals

Bei der binären Klassifizierung wird die Rohausgabe eines logistischen Regressionsmodells in eine Vorhersage für die positive Klasse oder die negative Klasse umgewandelt. Der Klassifizierungsschwellenwert wird von einem Menschen ausgewählt, nicht durch das Modelltraining.

Ein logistisches Regressionsmodell gibt einen Rohwert zwischen 0 und 1 aus. Dann:

Wenn dieser Rohwert größer als der Klassifizierungsschwellenwert ist, wird die positive Klasse vorhergesagt.
Wenn dieser Rohwert kleiner als der Klassifizierungsschwellenwert ist, wird die negative Klasse vorhergesagt.

Angenommen, der Klassifizierungsschwellenwert ist 0,8. Wenn der Rohwert 0,9 ist, sagt das Modell die positive Klasse vorher. Wenn der Rohwert 0,7 ist, sagt das Modell die negative Klasse vorher.

Die Wahl des Klassifizierungsschwellenwerts hat einen großen Einfluss auf die Anzahl der falsch positiven und falsch negativen Ergebnisse.

Klicken Sie auf das Symbol, um zusätzliche Hinweise zu erhalten.

Wenn sich Modelle oder Datasets weiterentwickeln, ändern Entwickler manchmal auch den Klassifizierungsschwellenwert. Wenn sich der Klassifizierungsschwellenwert ändert, können Vorhersagen für die positive Klasse plötzlich zu negativen Klassen werden und umgekehrt.

Betrachten Sie beispielsweise ein binäres Klassifizierungsmodell zur Vorhersage von Krankheiten. Angenommen, im ersten Jahr gilt Folgendes:

Der Rohwert für einen bestimmten Patienten ist 0,95.
Der Klassifizierungsschwellenwert ist 0,94.

Daher diagnostiziert das System die positive Klasse. (Der Patient keucht.) Oh nein! Ich bin krank!“

Ein Jahr später sehen die Werte vielleicht so aus:

Der Rohwert für denselben Patienten bleibt bei 0,95.
Der Klassifizierungsschwellenwert wird auf 0,97 geändert.

Daher klassifiziert das System diesen Patienten jetzt als die negative Klasse. („Happy day! Ich bin nicht krank.“) Derselbe Patient. Andere Diagnose.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Schwellenwerte und die Konfusionsmatrix.

Klassifikator

#fundamentals

Umgangssprachliche Bezeichnung für ein Klassifizierungsmodell.

Dataset mit Klassenungleichgewicht

#fundamentals

Ein Dataset für eine Klassifizierung, in dem sich die Gesamtzahl der Labels jeder Klasse deutlich unterscheidet. Betrachten Sie beispielsweise ein Dataset für die binäre Klassifizierung, dessen zwei Labels so aufgeteilt sind:

1.000.000 Labels für negative Balken
10 positive Labels

Das Verhältnis von negativen zu positiven Labels beträgt 100.000 zu 1. Es handelt sich also um einen Datensatz mit unausgewogenen Klassen.

Im Gegensatz dazu ist das folgende Dataset klassenbalanciert, da das Verhältnis von negativen zu positiven Labels relativ nahe bei 1 liegt:

517 Labels für negative Balken
483 positive Labels

Datasets mit mehreren Klassen können auch ein Klassenungleichgewicht aufweisen. Das folgende Klassifizierungs-Dataset mit mehreren Klassen ist beispielsweise auch klassenungleichgewichtig, da ein Label viel mehr Beispiele als die anderen beiden hat:

1.000.000 Labels mit der Klasse „green“ (grün)
200 Labels mit der Klasse „Lila“
350 Labels mit der Klasse „orange“

Das Trainieren von Datasets mit ungleichmäßiger Klassenverteilung kann besondere Herausforderungen mit sich bringen. Weitere Informationen finden Sie im Machine Learning Crash Course unter Imbalanced datasets.

Siehe auch Entropie, Mehrheitsklasse und Minderheitsklasse.

Clipping

#fundamentals

Eine Methode zum Verarbeiten von Ausreißern, indem Sie eine oder beide der folgenden Aktionen ausführen:

Feature-Werte, die über einem maximalen Schwellenwert liegen, werden auf diesen maximalen Schwellenwert reduziert.
Erhöhen von Feature-Werten, die unter einem Mindestschwellenwert liegen, bis zu diesem Mindestschwellenwert.

Angenommen, weniger als 0,5% der Werte für ein bestimmtes Merkmal liegen außerhalb des Bereichs 40–60. In diesem Fall haben Sie folgende Möglichkeiten:

Alle Werte über 60 (dem maximalen Schwellenwert) werden auf genau 60 gekürzt.
Alle Werte unter 40 (dem Mindestschwellenwert) werden auf genau 40 gekürzt.

Ausreißer können Modelle beschädigen und manchmal dazu führen, dass Gewichtungen während des Trainings überlaufen. Einige Ausreißer können auch Messwerte wie die Genauigkeit erheblich beeinträchtigen. Clipping ist eine gängige Methode, um Schäden zu begrenzen.

Gradient Clipping erzwingt Gradient-Werte innerhalb eines bestimmten Bereichs während des Trainings.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Numerische Daten: Normalisierung.

Cloud TPU

#TensorFlow

#GoogleCloud

Ein spezieller Hardwarebeschleuniger, der entwickelt wurde, um Arbeitslasten für maschinelles Lernen in Google Cloud zu beschleunigen.

Clustering

#clustering

Zusammenfassen ähnlicher Beispiele, insbesondere beim unbeaufsichtigten Lernen. Sobald alle Beispiele gruppiert sind, kann ein Mensch optional jedem Cluster eine Bedeutung zuweisen.

Es gibt viele Clustering-Algorithmen. Der k-Means-Algorithmus gruppiert Beispiele beispielsweise anhand ihrer Nähe zu einem Schwerpunkt, wie im folgenden Diagramm dargestellt:

Ein menschlicher Researcher könnte sich die Cluster dann ansehen und Cluster 1 beispielsweise als „Zwergbäume“ und Cluster 2 als „Bäume in voller Größe“ kennzeichnen.

Ein weiteres Beispiel ist ein Clustering-Algorithmus, der auf der Entfernung eines Beispiels von einem Mittelpunkt basiert:

Dutzende von Datenpunkten sind in konzentrischen Kreisen angeordnet, fast wie Löcher um die Mitte einer Dartscheibe. Der innerste Ring von Datenpunkten wird als Cluster 1, der mittlere Ring als Cluster 2 und der äußerste Ring als Cluster 3 kategorisiert.

Weitere Informationen finden Sie im Clustering-Kurs.

Koanpassung

Ein unerwünschtes Verhalten, bei dem Neuronen Muster in Trainingsdaten vorhersagen, indem sie sich fast ausschließlich auf die Ausgaben bestimmter anderer Neuronen verlassen, anstatt auf das Verhalten des Netzwerks als Ganzes. Wenn die Muster, die eine Co-Anpassung verursachen, nicht in den Validierungsdaten vorhanden sind, führt die Co-Anpassung zu einer Überanpassung. Die Dropout-Regularisierung reduziert die Co-Anpassung, da durch Dropout sichergestellt wird, dass Neuronen nicht ausschließlich auf bestimmte andere Neuronen angewiesen sind.

kollaboratives Filtern

Vorhersagen zu den Interessen eines Nutzers basierend auf den Interessen vieler anderer Nutzer treffen. Kollaboratives Filtern wird häufig in Empfehlungssystemen verwendet.

Weitere Informationen finden Sie im Kurs „Empfehlungssysteme“ unter Collaborative Filtering.

kompaktes Modell

Alle kleinen Modelle, die für die Ausführung auf kleinen Geräten mit begrenzten Rechenressourcen entwickelt wurden. Kompakte Modelle können beispielsweise auf Smartphones, Tablets oder eingebetteten Systemen ausgeführt werden.

compute

(Substantiv) Die von einem Modell oder System verwendeten Rechenressourcen, z. B. Rechenleistung, Arbeitsspeicher und Speicher.

Weitere Informationen finden Sie unter Beschleunigerchips.

Konzeptabweichung

Eine Änderung der Beziehung zwischen den Features und dem Label. Im Laufe der Zeit verringert die Konzeptdrift die Qualität eines Modells.

Während des Trainings lernt das Modell die Beziehung zwischen den Features und ihren Labels im Trainingsset. Wenn die Labels im Trainingsset gute Proxys für die reale Welt sind, sollte das Modell gute Vorhersagen für die reale Welt treffen. Aufgrund von Konzeptabweichungen verschlechtert sich die Vorhersageleistung des Modells jedoch im Laufe der Zeit.

Nehmen wir als Beispiel ein binäres Klassifizierungsmodell, das vorhersagt, ob ein bestimmtes Automodell „kraftstoffsparend“ ist. Die Funktionen könnten also Folgendes umfassen:

Gewicht des Fahrzeugs
Engine-Komprimierung
Übertragungsart

Das Label ist entweder:

kraftstoffsparend
nicht kraftstoffeffizient

Das Konzept des „kraftstoffeffizienten Autos“ ändert sich jedoch ständig. Ein Automodell, das 1994 als kraftstoffsparend eingestuft wurde, würde 2024 mit ziemlicher Sicherheit als nicht kraftstoffsparend eingestuft werden. Ein Modell, das unter Konzeptdrift leidet, liefert im Laufe der Zeit immer weniger nützliche Vorhersagen.

Nicht-Stationarität vergleichen und gegenüberstellen.

Klicken Sie auf das Symbol, um zusätzliche Hinweise zu erhalten.

Um Konzeptabweichungen zu kompensieren, müssen Modelle schneller neu trainiert werden als die Rate der Konzeptabweichung. Wenn die Modellgenauigkeit beispielsweise alle zwei Monate aufgrund von Konzeptabweichungen um einen erheblichen Betrag sinkt, sollten Sie Ihr Modell häufiger als alle zwei Monate neu trainieren.

Bedingung

#df

In einem Entscheidungsbaum ist jeder Knoten, in dem ein Test durchgeführt wird. Der folgende Entscheidungsbaum enthält beispielsweise zwei Bedingungen:

Ein Entscheidungsbaum mit zwei Bedingungen: (x > 0) und (y > 0).

Eine Bedingung wird auch als Aufteilung oder Test bezeichnet.

Kontrastbedingung mit leaf.

Siehe auch:

Binärbedingung
Nicht binäre Bedingung:
axis-aligned-condition
oblique-condition

Weitere Informationen finden Sie im Kurs „Entscheidungsbäume“ unter Arten von Bedingungen.

Konfabulation

Synonym für Halluzination.

„Konfabulation“ ist wahrscheinlich ein technisch korrekterer Begriff als „Halluzination“. Halluzinationen wurden jedoch zuerst populär.

Konfiguration

Der Prozess der Zuweisung der anfänglichen Property-Werte, die zum Trainieren eines Modells verwendet werden, einschließlich:

die Ebenen des Modells
den Speicherort der Daten
Hyperparameter wie:

In Machine-Learning-Projekten kann die Konfiguration über eine spezielle Konfigurationsdatei oder mithilfe von Konfigurationsbibliotheken wie den folgenden erfolgen:

Bestätigungsfehler

#responsible

Die Tendenz, Informationen so zu suchen, zu interpretieren, zu bevorzugen und abzurufen, dass bereits bestehende Überzeugungen oder Hypothesen bestätigt werden. Entwickler von maschinellem Lernen können Daten unbeabsichtigt so erheben oder labeln, dass ein Ergebnis unterstützt wird, das ihren bestehenden Überzeugungen entspricht. Der Bestätigungsfehler ist eine Form des impliziten Bias.

Experimenter Bias ist eine Form des Bestätigungsfehlers, bei dem ein Experimentator Modelle so lange trainiert, bis eine vorgefasste Hypothese bestätigt wird.

Wahrheitsmatrix

#fundamentals

Eine NxN-Tabelle, in der die Anzahl der richtigen und falschen Vorhersagen eines Klassifizierungsmodells zusammengefasst wird. Betrachten Sie beispielsweise die folgende Konfusionsmatrix für ein binäres Klassifikationsmodell:

	Tumor (prognostiziert)	Kein Tumor (prognostiziert)
Tumor (Ground Truth)	18 (TP)	1 (FN)
Kein Tumor (Ground Truth)	6 (FP)	452 (TN)

Die obige Wahrheitsmatrix zeigt Folgendes:

Von den 19 Vorhersagen, bei denen die Grundwahrheit „Tumor“ war, hat das Modell 18 richtig und 1 falsch klassifiziert.
Von den 458 Vorhersagen, bei denen die Grundwahrheit „Kein Tumor“ war, hat das Modell 452 richtig und 6 falsch klassifiziert.

Die Wahrheitsmatrix für ein Klassifizierungsproblem mit mehreren Klassen kann Ihnen helfen, Fehlermuster zu erkennen. Betrachten Sie beispielsweise die folgende Konfusionsmatrix für ein Multiklassen-Klassifikationsmodell mit drei Klassen, das drei verschiedene Schwertlilienarten (Virginica, Versicolor und Setosa) kategorisiert. Wenn die Ground Truth „Virginica“ war, zeigt die Wahrheitsmatrix, dass das Modell viel wahrscheinlicher fälschlicherweise „Versicolor“ als „Setosa“ vorhergesagt hat:

	Setosa (prognostiziert)	Versicolor (prognostiziert)	Virginica (prognostiziert)
Setosa (Ground Truth)	88	12	0
Versicolor (Ground Truth)	6	141	7
Virginica (Ground Truth)	2	27	109

Ein weiteres Beispiel: Eine Konfusionsmatrix könnte zeigen, dass ein Modell, das zum Erkennen handschriftlicher Ziffern trainiert wurde, dazu neigt, fälschlicherweise 9 anstelle von 4 oder 1 anstelle von 7 vorherzusagen.

Konfusionsmatrizen enthalten genügend Informationen, um eine Vielzahl von Leistungsmesswerten zu berechnen, darunter Genauigkeit und Trefferquote.

Konstituentenanalyse

Einen Satz in kleinere grammatische Strukturen („Konstituenten“) unterteilen. Ein späterer Teil des ML-Systems, z. B. ein Modell für das Verständnis natürlicher Sprache, kann die Bestandteile leichter parsen als den ursprünglichen Satz. Betrachten Sie beispielsweise den folgenden Satz:

Meine Freundin hat zwei Katzen adoptiert.

Ein Constituency Parser kann diesen Satz in die folgenden zwei Bestandteile unterteilen:

Mein Freund ist eine Nominalphrase.
zwei Katzen adoptiert ist eine Wortgruppe mit Verb.

Diese Bestandteile können weiter in kleinere Bestandteile unterteilt werden. Zum Beispiel die Wortgruppe

zwei Katzen adoptiert

könnte weiter unterteilt werden in:

Adopted ist ein Verb.
two cats (zwei Katzen) ist eine weitere Nominalphrase.

kontextbezogene Spracheinbettung

#generativeAI

Eine Einbettung, die sich dem „Verständnis“ von Wörtern und Wortgruppen durch fließend sprechende Menschen annähert. Kontextbezogene Spracheinbettungen können komplexe Syntax, Semantik und Kontext verstehen.

Betrachten Sie beispielsweise die Einbettungen des englischen Worts cow (Kuh). Ältere Einbettungen wie word2vec können englische Wörter so darstellen, dass der Abstand im Einbettungsraum von cow (Kuh) zu bull (Bulle) ähnlich dem Abstand von ewe (weibliches Schaf) zu ram (männliches Schaf) oder von female (weiblich) zu male (männlich) ist. Kontextbezogene Spracheinbettungen können noch einen Schritt weiter gehen, indem sie erkennen, dass englischsprachige Personen das Wort cow (Kuh) manchmal umgangssprachlich für Kuh oder Stier verwenden.

Kontextfenster

#generativeAI

Die Anzahl der Tokens, die ein Modell in einem bestimmten Prompt verarbeiten kann. Je größer das Kontextfenster ist, desto mehr Informationen kann das Modell verwenden, um kohärente und konsistente Antworten auf den Prompt zu geben.

stetiges Feature

#fundamentals

Ein Gleitkomma-Feature mit einem unendlichen Bereich möglicher Werte, z. B. Temperatur oder Gewicht.

Im Gegensatz zu einem diskreten Feature

willkürliche Stichproben

Verwendung eines Datasets, das nicht wissenschaftlich erhoben wurde, um schnelle Tests durchzuführen. Später ist es wichtig, zu einem wissenschaftlich erhobenen Dataset zu wechseln.

Konvergenz

#fundamentals

Ein Zustand, der erreicht wird, wenn sich die Werte für Verlust mit jeder Iteration nur sehr wenig oder gar nicht ändern. Die folgende Verlustkurve deutet beispielsweise auf eine Konvergenz bei etwa 700 Iterationen hin:

Kartesisches Diagramm. Die X-Achse ist der Verlust. Die Y-Achse gibt die Anzahl der Trainingsiterationen an. Der Verlust ist in den ersten Iterationen sehr hoch, sinkt dann aber stark. Nach etwa 100 Iteration sinkt der Verlust immer noch, aber viel langsamer. Nach etwa 700 Iterationen bleibt der Verlust konstant.

Ein Modell konvergiert, wenn zusätzliches Training das Modell nicht verbessert.

Beim Deep Learning bleiben die Verlustwerte manchmal über viele Iterationen hinweg konstant oder nahezu konstant, bevor sie schließlich sinken. Bei einem langen Zeitraum mit konstanten Verlustwerten kann es vorübergehend zu einem falschen Gefühl der Konvergenz kommen.

Weitere Informationen finden Sie unter Vorzeitiges Beenden.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Model convergence and loss curves.

Konversationelles Programmieren

#generativeAI

Ein iterativer Dialog zwischen Ihnen und einem generativen KI‑Modell zum Erstellen von Software. Sie geben einen Prompt ein, in dem Sie eine Software beschreiben. Anschließend verwendet das Modell diese Beschreibung, um Code zu generieren. Anschließend geben Sie einen neuen Prompt ein, um die Fehler im vorherigen Prompt oder im generierten Code zu beheben. Das Modell generiert dann aktualisierten Code. Sie und die KI tauschen sich so lange aus, bis die generierte Software gut genug ist.

Die Konversationscodierung entspricht im Wesentlichen der ursprünglichen Bedeutung von Vibe Coding.

Im Gegensatz zur Spezifikationscodierung.

konvexe Funktion

Eine Funktion, bei der der Bereich über dem Funktionsgraphen eine konvexe Menge ist. Die prototypische konvexe Funktion hat in etwa die Form des Buchstabens U. Die folgenden Funktionen sind beispielsweise alle konvex:

U-förmige Kurven mit jeweils einem einzelnen Minimalpunkt.

Die folgende Funktion ist dagegen nicht konvex. Die Region über dem Diagramm ist keine konvexe Menge:

Eine W-förmige Kurve mit zwei verschiedenen lokalen Minimalpunkten.

Eine streng konvexe Funktion hat genau einen lokalen Minimalpunkt, der auch der globale Minimalpunkt ist. Die klassischen U-förmigen Funktionen sind streng konvexe Funktionen. Einige konvexe Funktionen (z. B. gerade Linien) sind jedoch nicht U-förmig.

Klicken Sie auf das Symbol, um sich die Berechnung genauer anzusehen.

Viele der gängigen Verlustfunktionen, einschließlich der folgenden, sind konvexe Funktionen:

L₂-Verlust
Logarithmischer Verlust
L₁-Regularisierung
L₂-Regularisierung

Viele Varianten des Gradientenabstiegs finden garantiert einen Punkt in der Nähe des Minimums einer streng konvexen Funktion. Viele Varianten des stochastischen Gradientenverfahrens haben eine hohe Wahrscheinlichkeit (aber keine Garantie), einen Punkt in der Nähe des Minimums einer streng konvexen Funktion zu finden.

Die Summe zweier konvexer Funktionen (z. B. L₂-Verlust + L₁-Regularisierung) ist eine konvexe Funktion.

Tiefe Modelle sind niemals konvexe Funktionen. Bemerkenswerterweise finden Algorithmen, die für die konvexe Optimierung entwickelt wurden, in der Regel auch in Deep-Learning-Netzwerken recht gute Lösungen, auch wenn diese Lösungen nicht garantiert ein globales Minimum sind.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Konvergenz und konvexe Funktionen.

konvexe Optimierung

Der Prozess, bei dem mathematische Verfahren wie der Gradientenabstieg verwendet werden, um das Minimum einer konvexen Funktion zu finden. Ein Großteil der Forschung im Bereich des maschinellen Lernens hat sich darauf konzentriert, verschiedene Probleme als konvexe Optimierungsprobleme zu formulieren und diese Probleme effizienter zu lösen.

Ausführliche Informationen finden Sie in Boyd und Vandenberghe, Convex Optimization.

konvexe Menge

Eine Teilmenge des euklidischen Raums, in der eine Linie, die zwischen zwei beliebigen Punkten in der Teilmenge gezogen wird, vollständig innerhalb der Teilmenge verläuft. Die folgenden beiden Formen sind beispielsweise konvexe Mengen:

Eine Abbildung eines Rechtecks. Eine weitere Abbildung eines Ovals.

Die folgenden beiden Formen sind dagegen keine konvexen Mengen:

Eine Abbildung eines Kreisdiagramms mit einem fehlenden Segment.
Eine weitere Abbildung eines sehr unregelmäßigen Polygons.

Faltung

In der Mathematik wird damit eine Mischung aus zwei Funktionen bezeichnet. Beim maschinellen Lernen wird bei einer Faltung der Faltungsfilter mit der Eingabematrix kombiniert, um Gewichtungen zu trainieren.

Der Begriff „Faltung“ im maschinellen Lernen ist oft eine Kurzform für den Faltungsvorgang oder die Faltungsschicht.

Ohne Faltungen müsste ein Machine-Learning-Algorithmus ein separates Gewicht für jede Zelle in einem großen Tensor lernen. Wenn ein Algorithmus für maschinelles Lernen beispielsweise mit 2.000 × 2.000 Pixel großen Bildern trainiert wird, muss er 4 Millionen separate Gewichte finden. Dank der Faltungen muss ein Algorithmus für maschinelles Lernen nur Gewichte für jede Zelle im Faltungsfilter finden. Dadurch wird der für das Training des Modells erforderliche Speicherplatz erheblich reduziert. Wenn der Faltungsfilter angewendet wird, wird er einfach auf die Zellen repliziert, sodass jede Zelle mit dem Filter multipliziert wird.

Weitere Informationen finden Sie im Kurs „Bildklassifizierung“ unter Convolutional Neural Networks.

Faltungsfilter

Einer der beiden Operanden in einer Faltungsoperation. Der andere Akteur ist ein Ausschnitt einer Eingabematrix. Ein Faltungsfilter ist eine Matrix mit demselben Rang wie die Eingabematrix, aber einer kleineren Form. Bei einer 28 × 28-Eingabematrix kann der Filter beispielsweise eine beliebige 2D-Matrix sein, die kleiner als 28 × 28 ist.

Bei der fotografischen Bearbeitung werden alle Zellen in einem Faltungsfilter in der Regel auf ein konstantes Muster aus Einsen und Nullen gesetzt. Im maschinellen Lernen werden Faltungsfilter in der Regel mit Zufallszahlen initialisiert und dann werden die idealen Werte vom Netzwerk trainiert.

Weitere Informationen finden Sie im Kurs zur Bildklassifizierung unter Convolution.

Faltungsschicht

Eine Ebene eines neuronalen Deep-Learning-Netzwerks, in der ein Faltungsfilter eine Eingabematrix durchläuft. Betrachten Sie beispielsweise den folgenden 3×3-Faltungsfilter:

Eine 3×3-Matrix mit den folgenden Werten: [[0,1,0], [1,0,1], [0,1,0]]

Die folgende Animation zeigt eine Faltungsschicht, die aus neun Faltungsoperationen mit der 5‑×‑5-Eingabematrix besteht. Jede Faltungsoperation wird auf einen anderen 3×3-Ausschnitt der Eingabematrix angewendet. Die resultierende 3×3-Matrix (rechts) besteht aus den Ergebnissen der neun Faltungsvorgänge:

Weitere Informationen finden Sie im Kurs „Bildklassifizierung“ unter Vollständig verbundene Ebenen.

Convolutional Neural Network (CNN)

Ein neuronales Netzwerk, in dem mindestens eine Ebene eine faltende Ebene ist. Ein typisches faltendes neuronales Netzwerk besteht aus einer Kombination der folgenden Ebenen:

Faltungsebenen
Pooling-Ebenen
Dense-Ebenen

Convolutional Neural Networks (CNNs) haben bei bestimmten Arten von Problemen, z. B. bei der Bilderkennung, große Erfolge erzielt.

Faltungsvorgang

Die folgende zweistufige mathematische Operation:

Elementweise Multiplikation des Faltungsfilters und eines Ausschnitts einer Eingabematrix. Der Ausschnitt der Eingabematrix hat denselben Rang und dieselbe Größe wie der Faltungsfilter.
Summe aller Werte in der resultierenden Produktmatrix.

Betrachten Sie beispielsweise die folgende 5×5-Eingabematrix:

Die 5‑mal-5-Matrix: [[128,97,53,201,198], [35,22,25,200,195],
[37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]].

Stellen Sie sich nun den folgenden 2×2-Faltungsfilter vor:

Die 2×2-Matrix: [[1, 0], [0, 1]]

Bei jeder Faltungsoperation wird ein einzelner 2×2-Ausschnitt der Eingabematrix verwendet. Angenommen, wir verwenden den 2×2-Ausschnitt oben links in der Eingabematrix. Die Faltungsoperation für diesen Slice sieht so aus:

Anwenden des Faltungsfilters [[1, 0], [0, 1]] auf den 2‑×‑2-Abschnitt oben links der Eingabematrix, der [[128,97], [35,22]] ist.
Der Faltungsfilter lässt die 128 und 22 intakt, setzt aber die 97 und 35 auf null. Folglich ergibt die Faltungsoperation den Wert 150 (128 + 22).

Eine Faltungsschicht besteht aus einer Reihe von Faltungsvorgängen, die jeweils auf einen anderen Ausschnitt der Eingabematrix angewendet werden.

Kosten

#Messwert

Synonym für Verlust.

Co-Training

Ein semi-supervised learning-Ansatz ist besonders nützlich, wenn alle folgenden Bedingungen erfüllt sind:

Das Verhältnis von Beispielen ohne Label zu Beispielen mit Label im Dataset ist hoch.
Dies ist ein Klassifizierungsproblem (binär oder mit mehreren Klassen).
Das Dataset enthält zwei verschiedene Gruppen von Vorhersage-Features, die unabhängig voneinander und komplementär sind.

Beim Co-Training werden unabhängige Signale verstärkt. Angenommen, Sie haben ein Klassifizierungsmodell, mit dem einzelne Gebrauchtwagen entweder als Gut oder Schlecht kategorisiert werden. Eine Gruppe von Vorhersage-Features kann sich auf aggregierte Merkmale wie das Jahr, die Marke und das Modell des Autos konzentrieren. Eine andere Gruppe von Vorhersage-Features kann sich auf die Fahrweise des Vorbesitzers und die Wartungshistorie des Autos konzentrieren.

Das grundlegende Paper zum Co-Training ist Combining Labeled and Unlabeled Data with Co-Training von Blum und Mitchell.

Kontrafaktische Fairness

#responsible

#Messwert

Eine Fairness-Messwert, mit dem geprüft wird, ob ein Klassifizierungsmodell für eine Person das gleiche Ergebnis liefert wie für eine andere Person, die mit der ersten identisch ist, mit Ausnahme von einem oder mehreren vertraulichen Attributen. Die Bewertung eines Klassifizierungsmodells hinsichtlich kontrafaktischer Fairness ist eine Methode, um potenzielle Quellen für Bias in einem Modell aufzudecken.

Weitere Informationen finden Sie hier:

Fairness: Kontrafaktische Fairness im Crashkurs „Maschinelles Lernen“
When Worlds Collide: Integrating Different Counterfactual Assumptions in Fairness

Coverage Bias

#responsible

Weitere Informationen finden Sie unter Stichproben-Bias.

Crash Blossom

Ein Satz oder eine Wortgruppe mit einer mehrdeutigen Bedeutung. Crash Blossoms stellen ein erhebliches Problem beim Verständnis natürlicher Sprache dar. Die Überschrift Red Tape Holds Up Skyscraper (Bürokratie verzögert Wolkenkratzer) ist ein Beispiel für einen Crash Blossom, da ein NLU-Modell die Überschrift wörtlich oder bildlich interpretieren könnte.

Klicken Sie auf das Symbol, um zusätzliche Hinweise zu erhalten.

Zur Erklärung der mysteriösen Überschrift:

Red Tape kann sich auf Folgendes beziehen:
- Ein Klebstoff
- Übermäßige Bürokratie
Holds Up kann sich auf Folgendes beziehen:
- Strukturelle Unterstützung
- Verzögerungen

Kritiker

Synonym für Deep-Q-Netzwerk.

Cross-Entropy

#Messwert

Eine Verallgemeinerung des Log-Verlusts für Klassifizierungsprobleme mit mehreren Klassen. Die Kreuzentropie quantifiziert den Unterschied zwischen zwei Wahrscheinlichkeitsverteilungen. Siehe auch Perplexity.

Kreuzvalidierung

Ein Mechanismus zum Schätzen, wie gut ein Modell auf neue Daten generalisiert werden kann. Dazu wird das Modell anhand von einem oder mehreren nicht überlappenden Datenteilmengen getestet, die aus dem Trainings-Dataset entfernt wurden.

Verteilungsfunktion

#Messwert

Eine Funktion, die die Häufigkeit von Stichproben definiert, die kleiner oder gleich einem Zielwert sind. Betrachten wir beispielsweise eine Normalverteilung von kontinuierlichen Werten. Eine kumulative Verteilungsfunktion gibt an, dass etwa 50% der Stichproben kleiner oder gleich dem Mittelwert sein sollten und etwa 84% der Stichproben kleiner oder gleich einer Standardabweichung über dem Mittelwert sein sollten.

D

Datenanalyse

Daten anhand von Stichproben, Messungen und Visualisierungen verstehen Die Datenanalyse kann besonders nützlich sein, wenn ein Datensatz zum ersten Mal empfangen wird, bevor das erste Modell erstellt wird. Außerdem ist es wichtig, um Tests zu verstehen und Probleme mit dem System zu beheben.

Datenerweiterung

Die Bandbreite und Anzahl der Trainingsbeispiele werden künstlich erhöht, indem vorhandene Beispiele transformiert werden, um zusätzliche Beispiele zu erstellen. Angenommen, Bilder sind eines Ihrer Features, aber Ihr Dataset enthält nicht genügend Bildbeispiele, damit das Modell nützliche Assoziationen lernen kann. Im Idealfall fügen Sie Ihrem Dataset genügend gelabelte Bilder hinzu, damit Ihr Modell richtig trainiert werden kann. Wenn das nicht möglich ist, kann durch Datenaugmentation jedes Bild gedreht, gestreckt und gespiegelt werden, um viele Varianten des Originalbilds zu erzeugen. So erhalten Sie möglicherweise genügend gelabelte Daten für ein hervorragendes Training.

DataFrame

#fundamentals

Ein beliebter pandas-Datentyp zur Darstellung von Datasets im Arbeitsspeicher.

Ein DataFrame ist analog zu einer Tabelle oder einer Tabellenkalkulation. Jede Spalte eines DataFrames hat einen Namen (einen Header) und jede Zeile wird durch eine eindeutige Nummer identifiziert.

Jede Spalte in einem DataFrame ist wie ein zweidimensionales Array strukturiert, mit der Ausnahme, dass jeder Spalte ein eigener Datentyp zugewiesen werden kann.

Weitere Informationen finden Sie auf der offiziellen Referenzseite zu pandas.DataFrame.

Datenparallelität

Eine Methode zum Skalieren von Training oder Inferenz, bei der ein gesamtes Modell auf mehrere Geräte repliziert und dann eine Teilmenge der Eingabedaten an jedes Gerät übergeben wird. Mit Datenparallelität können Training und Inferenz mit sehr großen Batchgrößen durchgeführt werden. Dazu muss das Modell jedoch klein genug sein, um auf alle Geräte zu passen.

Datenparallelität beschleunigt in der Regel Training und Inferenz.

Siehe auch Modellparallelität.

Dataset API (tf.data)

#TensorFlow

Eine übergeordnete TensorFlow-API zum Lesen von Daten und zum Transformieren von Daten in ein Format, das für einen Algorithmus für maschinelles Lernen erforderlich ist. Ein tf.data.Dataset-Objekt stellt eine Sequenz von Elementen dar, in der jedes Element einen oder mehrere Tensoren enthält. Ein tf.data.Iterator-Objekt bietet Zugriff auf die Elemente eines Dataset.

Dataset oder Dataset

#fundamentals

Eine Sammlung von Rohdaten, die in der Regel (aber nicht ausschließlich) in einem der folgenden Formate organisiert sind:

eine Tabelle
eine Datei im CSV-Format (Comma Separated Values, kommagetrennte Werte)

Entscheidungsgrenze

Die Trennlinie zwischen den Klassen, die von einem Modell in einem binären Klassifizierungsproblem oder Klassifizierungsproblem mit mehreren Klassen gelernt werden. Im folgenden Bild, das ein binäres Klassifizierungsproblem darstellt, ist die Entscheidungsgrenze beispielsweise die Grenze zwischen der orangefarbenen und der blauen Klasse:

Eine klar definierte Grenze zwischen einer Klasse und einer anderen.

Entscheidungsbaumgruppe

#df

Ein Modell, das aus mehreren Entscheidungsbäumen erstellt wurde. Bei einem Entscheidungsbaum wird eine Vorhersage getroffen, indem die Vorhersagen der einzelnen Entscheidungsbäume zusammengefasst werden. Beliebte Arten von Entscheidungsbäumen sind Random Forests und Gradient Boosted Trees.

Weitere Informationen finden Sie im Kurs „Decision Forests“ im Abschnitt Decision Forests.

Entscheidungsschwellenwert

Synonym für Klassifizierungsschwellenwert.

Entscheidungsbaum

#df

Ein Modell für überwachtes Lernen, das aus einer Reihe von hierarchisch organisierten Bedingungen und Blättern besteht. Hier ist ein Beispiel für einen Entscheidungsbaum:

Ein Entscheidungsbaum mit vier hierarchisch angeordneten Bedingungen, die zu fünf Blättern führen.

Decoder

Im Allgemeinen jedes ML-System, das eine konvertierte, dichte oder interne Darstellung in eine rohere, spärliche oder externe Darstellung umwandelt.

Decoder sind oft eine Komponente eines größeren Modells, in dem sie häufig mit einem Encoder kombiniert werden.

Bei Sequence-to-Sequence-Aufgaben beginnt ein Decoder mit dem vom Encoder generierten internen Status, um die nächste Sequenz vorherzusagen.

Weitere Informationen zur Definition eines Decoders in der Transformer-Architektur finden Sie unter Transformer.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Large language models.

Deep-Learning-Modell

#fundamentals

Ein neuronales Netzwerk mit mehr als einer ausgeblendeten Ebene.

Ein Deep-Learning-Modell wird auch als neuronales Deep-Learning-Netzwerk bezeichnet.

Kontrast zum weiten Modell.

neuronales Deep-Learning-Netzwerk

Synonym für Deep-Learning-Modell.

Deep Q-Network (DQN)

Beim Q-Learning wird ein tiefes neuronales Netzwerk verwendet, um Q-Funktionen vorherzusagen.

Critic ist ein Synonym für Deep-Q-Network.

demografische Parität

#responsible

#Messwert

Ein Fairness-Messwert, der erfüllt ist, wenn die Ergebnisse der Klassifizierung eines Modells nicht von einem bestimmten sensiblen Attribut abhängen.

Wenn sich beispielsweise sowohl Lilliputaner als auch Brobdingnagianer an der Glubbdubdrib University bewerben, wird demografische Parität erreicht, wenn der Prozentsatz der zugelassenen Lilliputaner dem Prozentsatz der zugelassenen Brobdingnagianer entspricht, unabhängig davon, ob eine Gruppe im Durchschnitt qualifizierter ist als die andere.

Im Gegensatz dazu erlauben gleichberechtigte Chancen und Chancengleichheit, dass Klassifizierungsergebnisse insgesamt von sensiblen Attributen abhängen, aber nicht, dass Klassifizierungsergebnisse für bestimmte angegebene Grundwahrheitslabels von sensiblen Attributen abhängen. Im Google Research-Blogpost zum Thema „Diskriminierung durch intelligentes maschinelles Lernen“ finden Sie eine Visualisierung, in der die Kompromisse bei der Optimierung für demografische Parität dargestellt werden.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Fairness: demographic parity.

Entrauschen

Ein gängiger Ansatz für selbstüberwachtes Lernen, bei dem:

Rauschen wird dem Dataset künstlich hinzugefügt.
Das Modell versucht, das Rauschen zu entfernen.

Durch Denoising kann aus Beispielen ohne Labels gelernt werden. Das ursprüngliche Dataset dient als Ziel oder Label und die verrauschten Daten als Eingabe.

Einige maskierte Sprachmodelle verwenden Denoising so:

Einem nicht gelabelten Satz wird künstlich Rauschen hinzugefügt, indem einige der Tokens maskiert werden.
Das Modell versucht, die ursprünglichen Tokens vorherzusagen.

vollbesetztes Feature

#fundamentals

Eine Funktion, bei der die meisten oder alle Werte ungleich null sind, in der Regel ein Tensor mit Gleitkommawerten. Der folgende Tensor mit 10 Elementen ist beispielsweise dicht, da 9 seiner Werte ungleich null sind:

Im Gegensatz dazu steht das dünnbesetzte Feature.

Dense-Layer

Synonym für vollständig verbundene Ebene.

Tiefe

#fundamentals

Die Summe der folgenden Elemente in einem neuronalen Netzwerk:

die Anzahl der ausgeblendeten Ebenen
die Anzahl der Ausgabelayer, die in der Regel 1 ist
die Anzahl der Einbettungsebenen

Ein neuronales Netzwerk mit fünf verborgenen Schichten und einer Ausgabeschicht hat beispielsweise eine Tiefe von 6.

Die Eingabeebene hat keinen Einfluss auf die Tiefe.

Tiefenweise separable Convolutional Neural Networks (sepCNN)

Eine Convolutional Neural Network-Architektur, die auf Inception basiert, wobei Inception-Module durch tiefenweise separable Faltungen ersetzt werden. Auch als Xception bekannt.

Bei einer tiefenweise separablen Faltung (auch als separable Faltung bezeichnet) wird eine standardmäßige 3D-Faltung in zwei separate Faltungsvorgänge zerlegt, die recheneffizienter sind: zuerst eine tiefenweise Faltung mit einer Tiefe von 1 (n × n × 1) und dann eine punktweise Faltung mit einer Länge und Breite von 1 (1 × 1 × n).

Weitere Informationen finden Sie unter Xception: Deep Learning with Depthwise Separable Convolutions.

abgeleitetes Label

Synonym für Proxy-Label.

Gerät

#TensorFlow

#GoogleCloud

Ein überladener Begriff mit den folgenden zwei möglichen Definitionen:

Eine Kategorie von Hardware, auf der eine TensorFlow-Sitzung ausgeführt werden kann, einschließlich CPUs, GPUs und TPUs.
Beim Trainieren eines ML-Modells auf Beschleunigerchips (GPUs oder TPUs) ist dies der Teil des Systems, der Tensoren und Einbettungen verarbeitet. Das Gerät wird von Beschleunigerchips angetrieben. Im Gegensatz dazu wird der Host in der Regel auf einer CPU ausgeführt.

Differential Privacy

In Machine Learning wird ein Anonymisierungsansatz verwendet, um vertrauliche Daten (z. B. personenbezogene Daten) zu schützen, die im Trainingsset eines Modells enthalten sind. So wird sichergestellt, dass das Modell nicht viel über eine bestimmte Person lernt oder sich daran erinnert. Dies wird durch Sampling und Hinzufügen von Rauschen während des Modelltrainings erreicht, um einzelne Datenpunkte zu verschleiern und das Risiko zu minimieren, dass sensible Trainingsdaten offengelegt werden.

Differential Privacy wird auch außerhalb von Machine Learning verwendet. Data Scientists verwenden beispielsweise manchmal Differential Privacy, um die Privatsphäre von Einzelpersonen zu schützen, wenn sie Statistiken zur Produktnutzung für verschiedene demografische Gruppen berechnen.

Dimensionsreduktion

Verringern der Anzahl der Dimensionen, die zur Darstellung eines bestimmten Merkmals in einem Merkmalsvektor verwendet werden, in der Regel durch Konvertierung in einen Einbettungsvektor.

Dimensionen

Überladener Begriff mit einer der folgenden Definitionen:

Die Anzahl der Koordinatenebenen in einem Tensor. Beispiel:
- Ein Skalar hat keine Dimensionen, z. B. ["Hello"].
- Ein Vektor hat eine Dimension, z. B. [3, 5, 7, 11].
- Eine Matrix hat zwei Dimensionen, z. B. [[2, 4, 18], [5, 7, 14]]. Sie können eine bestimmte Zelle in einem eindimensionalen Vektor mit einer Koordinate eindeutig angeben. Für eine bestimmte Zelle in einer zweidimensionalen Matrix benötigen Sie zwei Koordinaten.
Die Anzahl der Einträge in einem Merkmalsvektor.
Die Anzahl der Elemente in einer Einbettungsebene.

Direktes Prompting

#generativeAI

Synonym für Zero-Shot-Prompting.

diskretes Feature

#fundamentals

Ein Feature mit einer endlichen Menge möglicher Werte. Ein Feature, dessen Werte beispielsweise nur Tier, Pflanze oder Mineral sein können, ist ein diskretes (oder kategorisches) Feature.

Im Gegensatz dazu steht das stetige Feature.

diskriminatives Modell

Ein Modell, das Labels aus einer Gruppe von einem oder mehreren Merkmalen vorhersagt. Formaler ausgedrückt definieren diskriminative Modelle die bedingte Wahrscheinlichkeit einer Ausgabe in Abhängigkeit von den Features und Gewichtungen, d. h.:

p(output | features, weights)

Ein Modell, das anhand von Features und Gewichten vorhersagt, ob es sich bei einer E-Mail um Spam handelt, ist beispielsweise ein diskriminatives Modell.

Die meisten Modelle für überwachtes Lernen, einschließlich Klassifizierungs- und Regressionsmodelle, sind diskriminative Modelle.

Im Gegensatz zum generativen Modell.

Diskriminator

Ein System, das bestimmt, ob Beispiele echt oder gefälscht sind.

Alternativ das Subsystem in einem generativen kontradiktorischen Netzwerk, das bestimmt, ob die vom Generator erstellten Beispiele echt oder gefälscht sind.

Weitere Informationen finden Sie im GAN-Kurs unter The discriminator.

Ungleichbehandlung

#responsible

Entscheidungen über Personen treffen, die sich unverhältnismäßig auf verschiedene Untergruppen der Bevölkerung auswirken. Dies bezieht sich in der Regel auf Situationen, in denen ein algorithmischer Entscheidungsprozess einigen Untergruppen mehr schadet oder nützt als anderen.

Angenommen, ein Algorithmus, der die Berechtigung eines Lilliputaners für ein Miniaturhausdarlehen bestimmt, stuft ihn eher als „nicht berechtigt“ ein, wenn seine Postanschrift eine bestimmte Postleitzahl enthält. Wenn Big-Endian-Lilliputaner mit höherer Wahrscheinlichkeit Postadressen mit dieser Postleitzahl haben als Little-Endian-Lilliputaner, kann dieser Algorithmus zu ungleichen Auswirkungen führen.

Im Gegensatz dazu konzentriert sich ungleiche Behandlung auf Ungleichheiten, die entstehen, wenn Untergruppenmerkmale explizite Eingaben für einen algorithmischen Entscheidungsprozess sind.

Ungleichbehandlung

#responsible

Die sensiblen Attribute von Testpersonen werden in einen algorithmischen Entscheidungsprozess einbezogen, sodass verschiedene Untergruppen von Personen unterschiedlich behandelt werden.

Angenommen, ein Algorithmus ermittelt, ob Lilliputaner Anspruch auf ein Darlehen für ein Miniaturhaus haben, basierend auf den Daten, die sie in ihrem Darlehensantrag angeben. Wenn der Algorithmus die Zugehörigkeit eines Lilliputaners als Big-Endian oder Little-Endian als Eingabe verwendet, wird eine ungleiche Behandlung entlang dieser Dimension vorgenommen.

Im Gegensatz dazu konzentriert sich ungleiche Auswirkungen auf Ungleichheiten bei den gesellschaftlichen Auswirkungen algorithmischer Entscheidungen auf Untergruppen, unabhängig davon, ob diese Untergruppen Eingaben für das Modell sind.

Destillation

#generativeAI

Bei diesem Verfahren wird die Größe eines Modells (des Lehrers) auf ein kleineres Modell (den Schüler) reduziert, das die Vorhersagen des ursprünglichen Modells so genau wie möglich emuliert. Die Destillation ist nützlich, weil das kleinere Modell zwei wesentliche Vorteile gegenüber dem größeren Modell (dem Lehrer) hat:

Schnellere Inferenzzeiten
Geringerer Arbeitsspeicher- und Energieverbrauch

Die Vorhersagen des Schülers sind jedoch in der Regel nicht so gut wie die des Lehrers.

Bei der Destillation wird das Schülermodell so trainiert, dass eine Verlustfunktion basierend auf der Differenz zwischen den Ausgaben der Vorhersagen des Schüler- und des Lehrermodells minimiert wird.

Vergleichen Sie die Destillation mit den folgenden Begriffen und stellen Sie sie ihnen gegenüber:

Feinabstimmung
Prompt-basiertes Lernen

Weitere Informationen finden Sie im Machine Learning Crash Course unter LLMs: Fine-tuning, distillation, and prompt engineering.

Verteilung

Die Häufigkeit und der Bereich der verschiedenen Werte für ein bestimmtes Feature oder Label. Eine Verteilung gibt an, wie wahrscheinlich ein bestimmter Wert ist.

Das folgende Bild zeigt Histogramme von zwei verschiedenen Verteilungen:

Links sehen Sie eine Potenzgesetzverteilung des Vermögens im Vergleich zur Anzahl der Personen, die dieses Vermögen besitzen.
Rechts ist eine Normalverteilung der Körpergröße im Vergleich zur Anzahl der Personen mit dieser Körpergröße zu sehen.

Wenn Sie die Verteilung der einzelnen Funktionen und Labels kennen, können Sie die Werte normalisieren und Ausreißer erkennen.

Der Begriff nicht in der Verteilung enthalten bezieht sich auf einen Wert, der im Dataset nicht oder nur sehr selten vorkommt. Ein Bild des Planeten Saturn würde beispielsweise als „nicht in der Verteilung“ für ein Dataset mit Katzenbildern betrachtet.

Divisives Clustering

#clustering

Weitere Informationen finden Sie unter hierarchisches Clustering.

Downsampling

Überladener Begriff, der Folgendes bedeuten kann:

Die Menge an Informationen in einem Feature wird reduziert, um ein Modell effizienter zu trainieren. Vor dem Training eines Bilderkennungsmodells können Sie beispielsweise hochauflösende Bilder in ein Format mit niedrigerer Auflösung umwandeln.
Training mit einem unverhältnismäßig niedrigen Prozentsatz von überrepräsentierten Klassen, um das Modelltraining für unterrepräsentierte Klassen zu verbessern. Bei einem Datensatz mit unausgeglichenen Klassen lernen Modelle beispielsweise viel über die Mehrheitsklasse, aber nicht genug über die Minderheitsklasse. Durch Downsampling wird die Menge an Training für die Mehrheits- und Minderheitsklassen ausgeglichen.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Datasets: Imbalanced datasets.

DQN

Abkürzung für Deep-Q-Netzwerk.

Dropout-Regularisierung

Eine Form der Regularisierung, die beim Trainieren von neuronalen Netzwerken nützlich ist. Bei der Dropout-Regularisierung wird für einen einzelnen Gradientenschritt eine zufällige Auswahl einer festen Anzahl von Einheiten in einer Netzwerkschicht entfernt. Je mehr Einheiten entfernt wurden, desto stärker ist die Regularisierung. Das ist vergleichbar mit dem Training des Netzwerks, um ein exponentiell großes Ensemble kleinerer Netzwerke zu emulieren. Weitere Informationen finden Sie unter Dropout: A Simple Way to Prevent Neural Networks from Overfitting.

dynamic

#fundamentals

Etwas, das häufig oder kontinuierlich getan wird. Die Begriffe dynamisch und online sind im Bereich des maschinellen Lernens Synonyme. Im Folgenden finden Sie gängige Anwendungsfälle für dynamisch und online im Bereich des maschinellen Lernens:

Ein dynamisches Modell (oder Onlinemodell) ist ein Modell, das häufig oder kontinuierlich neu trainiert wird.
Dynamisches Training (oder Online-Training) ist der Prozess des häufigen oder kontinuierlichen Trainings.
Dynamische Inferenz (oder Online-Inferenz) ist der Prozess, bei dem Vorhersagen auf Anfrage generiert werden.

dynamisches Modell

#fundamentals

Ein Modell, das häufig (vielleicht sogar kontinuierlich) neu trainiert wird. Ein dynamisches Modell ist ein „lebenslanger Lernender“, der sich ständig an sich ändernde Daten anpasst. Ein dynamisches Modell wird auch als Onlinemodell bezeichnet.

Kontrast zum statischen Modell.

E

sofortige Ausführung

#TensorFlow

Eine TensorFlow-Programmierumgebung, in der Vorgänge sofort ausgeführt werden. Im Gegensatz dazu werden Vorgänge, die im Graph-Ausführungsmodus aufgerufen werden, erst ausgeführt, wenn sie explizit ausgewertet werden. Die sofortige Ausführung ist eine imperative Schnittstelle, ähnlich wie der Code in den meisten Programmiersprachen. Programme mit Eager Execution lassen sich in der Regel viel einfacher debuggen als Programme mit Graph Execution.

Vorzeitiges Beenden

#fundamentals

Eine Methode zur Regularisierung, bei der das Training beendet wird, bevor der Trainingsverlust abnimmt. Beim vorzeitigen Beenden wird das Training des Modells absichtlich beendet, wenn der Verlust in einem Validierungs-Dataset zu steigen beginnt, d. h., wenn sich die Generalisierungsleistung verschlechtert.

Klicken Sie auf das Symbol, um zusätzliche Hinweise zu erhalten.

Das vorzeitige Beenden mag kontraintuitiv erscheinen. Einem Modell zu sagen, dass das Training beendet werden soll, während der Verlust noch abnimmt, ist, als würde man einem Koch sagen, er solle aufhören zu kochen, bevor das Dessert fertig gebacken ist. Wenn Sie ein Modell jedoch zu lange trainieren, kann dies zu einer Überanpassung führen. Wenn Sie ein Modell zu lange trainieren, kann es die Trainingsdaten so genau anpassen, dass es keine guten Vorhersagen für neue Beispiele trifft.

Vorzeitiger Ausstieg

Earth Mover’s Distance (EMD)

#Messwert

Ein Maß für die relative Ähnlichkeit zweier Verteilungen. Je geringer die Earth Mover’s Distance, desto ähnlicher sind die Verteilungen.

Bearbeitungsdistanz

#Messwert

Ein Maß dafür, wie ähnlich sich zwei Textstrings sind. Im maschinellen Lernen ist die Bearbeitungsdistanz aus folgenden Gründen nützlich:

Die Distanz lässt sich leicht berechnen.
Mit der Edit-Distanz können zwei Strings verglichen werden, die sich ähneln.
Mit der Edit-Distanz lässt sich ermitteln, wie ähnlich verschiedene Strings einem bestimmten String sind.

Es gibt verschiedene Definitionen von „Edit Distance“, bei denen jeweils unterschiedliche String-Operationen verwendet werden. Ein Beispiel finden Sie unter Levenshtein-Distanz.

Einsum-Notation

Eine effiziente Notation zur Beschreibung der Kombination zweier Tensoren. Die Tensoren werden kombiniert, indem die Elemente des einen Tensors mit den Elementen des anderen Tensors multipliziert und die Produkte dann summiert werden. In der Einsum-Notation werden Symbole verwendet, um die Achsen der einzelnen Tensoren zu identifizieren. Diese Symbole werden neu angeordnet, um die Form des neuen resultierenden Tensors anzugeben.

NumPy bietet eine gemeinsame Einsum-Implementierung.

Einbettungsebene

#fundamentals

Eine spezielle verdeckte Ebene, die auf einem hochdimensionalen kategorialen Merkmal trainiert wird, um nach und nach einen Einbettungsvektor mit niedrigerer Dimension zu lernen. Eine Einbettungsebene ermöglicht es einem neuronalen Netzwerk, viel effizienter zu trainieren, als wenn nur das hochdimensionale kategorische Merkmal verwendet wird.

Google Earth unterstützt derzeit beispielsweise etwa 73.000 Baumarten. Angenommen, die Baumart ist ein Feature in Ihrem Modell. Die Eingabeschicht Ihres Modells enthält also einen One-Hot-Vektor mit 73.000 Elementen. baobab könnte beispielsweise so dargestellt werden:

Ein Array mit 73.000 Elementen. Die ersten 6.232 Elemente haben den Wert 0. Das nächste Element enthält den Wert 1. Die letzten 66.767 Elemente haben den Wert 0.

Ein Array mit 73.000 Elementen ist sehr lang. Wenn Sie dem Modell keine Einbettungsebene hinzufügen, wird das Training sehr zeitaufwendig,da 72.999 Nullen multipliziert werden. Vielleicht wählen Sie die Einbettungsebene mit 12 Dimensionen aus. Folglich lernt die Einbettungsebene nach und nach einen neuen Einbettungsvektor für jede Baumart.

In bestimmten Situationen ist Hashing eine sinnvolle Alternative zu einer Einbettungsebene.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Embeddings.

Einbettungsbereich

Der d-dimensionale Vektorraum, auf den Features aus einem höherdimensionalen Vektorraum abgebildet werden. Der Einbettungsraum wird so trainiert, dass er eine Struktur erfasst, die für die beabsichtigte Anwendung sinnvoll ist.

Das Skalarprodukt zweier Einbettungen ist ein Maß für ihre Ähnlichkeit.

Einbettungsvektor

Im Allgemeinen ein Array von Gleitkommazahlen aus einer beliebigen verborgenen Schicht, die die Eingaben für diese verborgene Schicht beschreiben. Häufig ist ein Einbettungsvektor das Array von Gleitkommazahlen, das in einer Einbettungsebene trainiert wird. Angenommen, eine Einbettungsebene muss einen Einbettungsvektor für jede der 73.000 Baumarten auf der Erde lernen. Vielleicht ist das folgende Array der Einbettungsvektor für einen Affenbrotbaum:

Ein Array mit 12 Elementen, die jeweils eine Gleitkommazahl zwischen 0,0 und 1,0 enthalten.

Ein Einbettungsvektor besteht nicht aus einer Reihe zufälliger Zahlen. Eine Einbettungsebene bestimmt diese Werte durch Training, ähnlich wie ein neuronales Netzwerk andere Gewichte während des Trainings lernt. Jedes Element des Arrays ist eine Bewertung einer bestimmten Eigenschaft einer Baumart. Welches Element repräsentiert die Merkmale welcher Baumart? Das ist für Menschen sehr schwer zu bestimmen.

Das mathematisch Bemerkenswerte an einem Einbettungsvektor ist, dass ähnliche Elemente ähnliche Mengen von Gleitkommazahlen haben. Ähnliche Baumarten haben beispielsweise eine ähnliche Menge an Gleitkommazahlen als unähnliche Baumarten. Mammutbäume und Küstenmammutbäume sind verwandte Baumarten. Daher haben sie eine ähnliche Menge an Gleitkommazahlen als Mammutbäume und Kokospalmen. Die Zahlen im Einbettungsvektor ändern sich jedes Mal, wenn Sie das Modell neu trainieren, auch wenn Sie das Modell mit identischen Eingaben neu trainieren.

Empirische Verteilungsfunktion (eCDF oder EDF)

#Messwert

Eine kumulative Verteilungsfunktion, die auf empirischen Messungen aus einem realen Datensatz basiert. Der Wert der Funktion an einem beliebigen Punkt entlang der x-Achse ist der Anteil der Beobachtungen im Dataset, die kleiner oder gleich dem angegebenen Wert sind.

Empirische Risikominimierung (Empirical Risk Minimization, ERM)

Die Funktion auswählen, die den Verlust im Trainingssatz minimiert. Im Gegensatz zur Minimierung des strukturellen Risikos.

Encoder

Im Allgemeinen jedes ML-System, das eine rohe, spärliche oder externe Darstellung in eine verarbeitete, dichtere oder internere Darstellung umwandelt.

Encoder sind oft eine Komponente eines größeren Modells, in dem sie häufig mit einem Decoder kombiniert werden. Bei einigen Transformers werden Encoder mit Decodern kombiniert, bei anderen wird nur der Encoder oder nur der Decoder verwendet.

Bei einigen Systemen wird die Ausgabe des Encoders als Eingabe für ein Klassifikations- oder Regressionsnetzwerk verwendet.

Bei Sequence-to-Sequence-Aufgaben nimmt ein Encoder eine Eingabesequenz entgegen und gibt einen internen Status (einen Vektor) zurück. Der Decoder verwendet diesen internen Status dann, um die nächste Sequenz vorherzusagen.

Die Definition eines Encoders in der Transformer-Architektur finden Sie unter Transformer.

Weitere Informationen finden Sie im Machine Learning Crash Course unter LLMs: What's a large language model.

Endpunkte

Ein über das Netzwerk erreichbarer Ort (in der Regel eine URL), über den ein Dienst erreicht werden kann.

Ensemble

Eine Sammlung von Modellen, die unabhängig voneinander trainiert wurden und deren Vorhersagen gemittelt oder aggregiert werden. In vielen Fällen liefert ein Ensemble bessere Vorhersagen als ein einzelnes Modell. Ein Random Forest ist beispielsweise ein Ensemble, das aus mehreren Entscheidungsbäumen besteht. Nicht alle Entscheidungsbäume sind Ensembles.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Random Forest.

Entropie

#df

#Messwert

In der Informationstheorie wird die Unvorhersehbarkeit einer Wahrscheinlichkeitsverteilung beschrieben. Alternativ wird die Entropie auch als die Menge an Informationen definiert, die jedes Beispiel enthält. Eine Verteilung hat die höchstmögliche Entropie, wenn alle Werte einer Zufallsvariablen gleich wahrscheinlich sind.

Die Entropie einer Menge mit zwei möglichen Werten „0“ und „1“ (z. B. die Labels in einem binären Klassifizierungsproblem) wird mit der folgenden Formel berechnet:

H = -p log p - q log q = -p log p - (1-p) * log (1-p)

Dabei gilt:

H ist die Entropie.
p ist der Anteil der Beispiele mit dem Wert „1“.
q ist der Anteil der Beispiele mit dem Wert „0“. Hinweis: q = (1 – p)
log ist im Allgemeinen log₂. In diesem Fall ist die Entropieeinheit ein Bit.

Nehmen wir beispielsweise Folgendes an:

100 Beispiele enthalten den Wert „1“.
300 Beispiele enthalten den Wert „0“

Der Entropiewert ist also:

p = 0,25
q = 0,75
H = (-0,25)log₂(0,25) – (0,75)log₂(0,75) = 0,81 Bit pro Beispiel

Ein perfekt ausgeglichener Satz (z. B. 200 „0“ und 200 „1“) hätte eine Entropie von 1, 0 Bit pro Beispiel. Je unausgewogener ein Set wird, desto mehr nähert sich seine Entropie dem Wert 0,0 an.

In Entscheidungsbäumen wird mit Entropie der Informationsgewinn formuliert, damit der Splitter beim Erstellen eines Klassifizierungsentscheidungsbaums die Bedingungen auswählen kann.

Entropie vergleichen mit:

Gini-Unreinheit
Kreuzentropie-Verlustfunktion

Entropie wird oft als Shannon-Entropie bezeichnet.

Weitere Informationen finden Sie im Kurs „Entscheidungsbäume“ unter Exact splitter for binary classification with numerical features (Genaue Aufteilung für die binäre Klassifizierung mit numerischen Features).

Umgebung

Beim Reinforcement Learning ist die Umgebung die Welt, in der sich der Agent befindet und in der er den Zustand der Umgebung beobachten kann. Die dargestellte Welt kann beispielsweise ein Spiel wie Schach oder eine physische Welt wie ein Labyrinth sein. Wenn der Agent eine Aktion auf die Umgebung anwendet, wechselt die Umgebung zwischen den Status.

Folge

Beim Reinforcement Learning ist jeder der wiederholten Versuche des Agenten, eine Umgebung zu erlernen.

Epoche

#fundamentals

Ein vollständiger Trainingsdurchlauf über den gesamten Trainingsdatensatz, bei dem jedes Beispiel einmal verarbeitet wurde.

Eine Epoche entspricht N/Batchgröße TrainingsIterationen, wobei N die Gesamtzahl der Beispiele ist.

Nehmen wir beispielsweise Folgendes an:

Das Dataset besteht aus 1.000 Beispielen.
Die Batchgröße beträgt 50 Beispiele.

Daher sind für eine Epoche 20 Iterationen erforderlich:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

Weitere Informationen finden Sie im Machine Learning Crash Course unter Lineare Regression: Hyperparameter.

Epsilon-Greedy-Strategie

Beim Reinforcement Learning wird eine Richtlinie verwendet, die entweder mit einer Wahrscheinlichkeit von Epsilon einer zufälligen Richtlinie oder andernfalls einer greedy-Richtlinie folgt. Wenn Epsilon beispielsweise 0, 9 ist, folgt die Richtlinie zu 90% einer zufälligen Richtlinie und zu 10% einer Greedy-Richtlinie.

Im Laufe der Episoden verringert der Algorithmus den Wert von Epsilon, um von einer zufälligen zu einer Greedy-Richtlinie zu wechseln. Durch die Verlagerung der Richtlinie erkundet der Agent zuerst zufällig die Umgebung und nutzt dann die Ergebnisse der zufälligen Erkundung.

Chancengleichheit

#responsible

#Messwert

Ein Fairness-Messwert, um zu bewerten, ob ein Modell das gewünschte Ergebnis für alle Werte eines sensiblen Attributs gleich gut vorhersagt. Wenn das gewünschte Ergebnis für ein Modell die positive Klasse ist, sollte die Rate der richtig positiven Ergebnisse für alle Gruppen gleich sein.

Die Chancengleichheit hängt mit gleichberechtigten Chancen zusammen, bei denen sowohl die Richtig-Positiv-Raten als auch die Falsch-Positiv-Raten für alle Gruppen gleich sein müssen.

Angenommen, die Glubbdubdrib University nimmt sowohl Lilliputaner als auch Brobdingnagianer in ein anspruchsvolles Mathematikprogramm auf. Die weiterführenden Schulen der Lilliputaner bieten einen soliden Lehrplan für Mathematik, und die überwiegende Mehrheit der Schüler ist für das Universitätsprogramm qualifiziert. Die weiterführenden Schulen in Brobdingnag bieten überhaupt keine Mathematikunterricht an, weshalb viel weniger Schüler qualifiziert sind. Chancengleichheit für das bevorzugte Label „zugelassen“ in Bezug auf die Nationalität (Lilliputaner oder Brobdingnagianer) ist gegeben, wenn qualifizierte Studenten unabhängig davon, ob sie Lilliputaner oder Brobdingnagianer sind, mit gleicher Wahrscheinlichkeit zugelassen werden.

Nehmen wir beispielsweise an, dass sich 100 Lilliputaner und 100 Brobdingnagianer für die Glubbdubdrib University bewerben und die Zulassungsentscheidungen wie folgt getroffen werden:

Tabelle 1. Lilliputian-Bewerber (90% sind qualifiziert)

	Qualifiziert	Unqualifiziert
Zugelassen	45	3
Abgelehnt	45	7
Gesamt	90	10
Prozentsatz der zugelassenen qualifizierten Studenten: 45/90 = 50% Prozentsatz der abgelehnten nicht qualifizierten Studenten: 7/10 = 70% Gesamtprozentsatz der zugelassenen Lilliputian-Studenten: (45+3)/100 = 48%

Tabelle 2 Brobdingnagian-Bewerber (10% sind qualifiziert):

	Qualifiziert	Unqualifiziert
Zugelassen	5	9
Abgelehnt	5	81
Gesamt	10	90
Prozentsatz der zugelassenen qualifizierten Studenten: 5/10 = 50% Prozentsatz der abgelehnten nicht qualifizierten Studenten: 81/90 = 90% Gesamtprozentsatz der zugelassenen Brobdingnagian-Studenten: (5+9)/100 = 14%

Die vorherigen Beispiele erfüllen die Chancengleichheit für die Aufnahme qualifizierter Studierender, da sowohl qualifizierte Lilliputianer als auch Brobdingnagianer eine 50-prozentige Chance haben, aufgenommen zu werden.

Die Gleichheit der Chancen ist erfüllt, die folgenden beiden Fairnessmesswerte jedoch nicht:

Demografische Parität: Lilliputaner und Brobdingnagianer werden mit unterschiedlichen Raten an der Universität zugelassen. 48% der Lilliputaner werden zugelassen, aber nur 14% der Brobdingnagianer.
Gleiche Chancen: Qualifizierte Lilliputian- und Brobdingnagian-Studenten haben zwar die gleiche Chance, zugelassen zu werden, die zusätzliche Einschränkung, dass nicht qualifizierte Lilliputian- und Brobdingnagian-Studenten die gleiche Chance haben, abgelehnt zu werden, wird jedoch nicht erfüllt. Bei nicht qualifizierten Lilliput-Kandidaten liegt die Ablehnungsrate bei 70 %, bei nicht qualifizierten Brobdingnag-Kandidaten bei 90 %.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Fairness: Equality of opportunity.

ausgeglichene Chancen

#responsible

#Messwert

Ein Fairness-Messwert, mit dem bewertet wird, ob ein Modell Ergebnisse für alle Werte eines sensiblen Attributs in Bezug auf die positive Klasse und die negative Klasse gleichermaßen gut vorhersagt. Mit anderen Worten: Sowohl die Richtig-Positiv-Rate als auch die Falsch-Negativ-Rate sollten für alle Gruppen gleich sein.

Die gleichberechtigten Chancen hängen mit der Chancengleichheit zusammen, die sich nur auf Fehlerraten für eine einzelne Klasse (positiv oder negativ) konzentriert.

Angenommen, die Glubbdubdrib University nimmt sowohl Lilliputaner als auch Brobdingnagianer in ein anspruchsvolles Mathematikprogramm auf. Die weiterführenden Schulen von Lilliput bieten einen umfassenden Lehrplan für Mathematik, und die überwiegende Mehrheit der Schüler ist für das Universitätsprogramm qualifiziert. Die weiterführenden Schulen in Brobdingnag bieten überhaupt keine Mathematikunterricht an, weshalb viel weniger Schüler qualifiziert sind. Die Bedingung „Equalized Odds“ ist erfüllt, wenn ein Bewerber unabhängig davon, ob er ein Lilliputaner oder ein Brobdingnagianer ist, bei Eignung mit gleicher Wahrscheinlichkeit für das Programm zugelassen wird und bei Nichteignung mit gleicher Wahrscheinlichkeit abgelehnt wird.

Angenommen, 100 Lilliputaner und 100 Brobdingnagianer bewerben sich an der Glubbdubdrib University und die Zulassungsentscheidungen werden so getroffen:

Tabelle 3 Lilliputian-Bewerber (90% sind qualifiziert)

	Qualifiziert	Unqualifiziert
Zugelassen	45	2
Abgelehnt	45	8
Gesamt	90	10
Prozentsatz der zugelassenen qualifizierten Schüler: 45/90 = 50% Prozentsatz der abgelehnten nicht qualifizierten Schüler: 8/10 = 80% Gesamtprozentsatz der zugelassenen Lilliputian-Schüler: (45+2)/100 = 47%

Tabelle 4. Brobdingnagian-Bewerber (10% sind qualifiziert):

	Qualifiziert	Unqualifiziert
Zugelassen	5	18
Abgelehnt	5	72
Gesamt	10	90
Prozentsatz der zugelassenen qualifizierten Studenten: 5/10 = 50% Prozentsatz der abgelehnten nicht qualifizierten Studenten: 72/90 = 80% Gesamtprozentsatz der zugelassenen Brobdingnagian-Studenten: (5+18)/100 = 23%

Die Bedingung „Equalized Odds“ ist erfüllt, da qualifizierte liliputanische und brobdingnagische Studenten beide eine 50-prozentige Chance haben, zugelassen zu werden, und nicht qualifizierte liliputanische und brobdingnagische Studenten eine 80-prozentige Chance haben, abgelehnt zu werden.

„Equalized Odds“ wird in „Equality of Opportunity in Supervised Learning“ formal so definiert: „Der Vorhersagewert Ŷ erfüllt die Bedingung ‚Equalized Odds‘ in Bezug auf das geschützte Attribut A und das Ergebnis Y, wenn Ŷ und A unabhängig sind, bedingt durch Y.“

Estimator

#TensorFlow

Eine eingestellte TensorFlow API. Verwenden Sie stattdessen tf.keras.

evals

#generativeAI

#Messwert

Wird hauptsächlich als Abkürzung für LLM-Bewertungen verwendet. Im Allgemeinen ist Evals eine Abkürzung für jede Form von Bewertung.

Agentenbewertung

#generativeAI

#Messwert

Der Prozess, bei dem die Qualität eines Modells gemessen oder verschiedene Modelle miteinander verglichen werden.

Um ein Modell für beaufsichtigtes maschinelles Lernen zu bewerten, vergleichen Sie es in der Regel mit einem Validierungsset und einem Testset. Bewertung eines LLM: Hier werden in der Regel umfassendere Qualitäts- und Sicherheitsbewertungen durchgeführt.

Beispiel

#fundamentals

Die Werte einer Zeile von features und möglicherweise ein label. Beispiele für überwachtes Lernen lassen sich in zwei allgemeine Kategorien einteilen:

Ein beispielhaftes Label besteht aus einem oder mehreren Merkmalen und einem Label. Während des Trainings werden gelabelte Beispiele verwendet.
Ein Beispiel ohne Label besteht aus einem oder mehreren Merkmalen, aber keinem Label. Beispiele ohne Label werden während der Inferenz verwendet.

Angenommen, Sie trainieren ein Modell, um den Einfluss von Wetterbedingungen auf die Prüfungsergebnisse von Schülern zu ermitteln. Hier sind drei Beispiele mit Labels:

Funktionen			Label
Temperatur	Luftfeuchtigkeit	Luftdruck	Testergebnis
15	47	998	Gut
19	34	1020	Sehr gut
18	92	1012	Schlecht

Hier sind drei Beispiele ohne Label:

Temperatur	Luftfeuchtigkeit	Luftdruck
12	62	1014
21	47	1017
19	41	1021

Die Zeile eines Datasets ist in der Regel die Rohquelle für ein Beispiel. Ein Beispiel besteht in der Regel aus einer Teilmenge der Spalten im Dataset. Außerdem können die Features in einem Beispiel auch synthetische Features wie Feature-Kombinationen enthalten.

Weitere Informationen finden Sie im Kurs „Einführung in maschinelles Lernen“ unter Supervised Learning.

Erfahrungs-Replay

Beim Reinforcement Learning wird die DQN-Technik verwendet, um temporale Korrelationen in Trainingsdaten zu reduzieren. Der Agent speichert Zustandsübergänge in einem Replay-Puffer und verwendet dann Stichproben aus dem Replay-Puffer, um Trainingsdaten zu erstellen.

Experimentatorverzerrung

#responsible

Weitere Informationen finden Sie unter Bestätigungsverzerrung.

Problem des explodierenden Gradienten

Die Tendenz, dass Gradienten in neuronalen Deep-Learning-Netzwerken (insbesondere rekurrenten neuronalen Netzwerken) überraschend steil (hoch) werden. Steile Gradienten führen oft zu sehr großen Aktualisierungen der Gewichte jedes Knotens in einem tiefen neuronalen Netzwerk.

Modelle, die unter dem Problem des explodierenden Gradienten leiden, sind schwer oder gar nicht zu trainieren. Gradient Clipping kann dieses Problem beheben.

Vergleichen Sie dies mit dem Problem des verschwindenden Gradienten.

F

F₁

#Messwert

Ein Messwert für die binäre Klassifizierung, der sowohl auf Precision als auch auf Recall basiert. Hier ist die Formel:

$$F{_1} = \frac{\text{2 * precision * recall}} {\text{precision + recall}}$$

Klicken Sie auf das Symbol, um Beispiele zu sehen.

Angenommen, Genauigkeit und Trefferquote haben die folgenden Werte:

precision = 0,6
recall = 0.4

F₁ wird so berechnet:

$$F{_1} = \frac{\text{2 * 0.6 * 0.4}} {\text{0.6 + 0.4}} = 0.48$$

Wenn Genauigkeit und Trefferquote relativ ähnlich sind (wie im vorherigen Beispiel), liegt der F₁-Wert nahe an ihrem Mittelwert. Wenn sich Precision und Recall deutlich unterscheiden, liegt der _F1-Wert näher am niedrigeren Wert. Beispiel:

precision = 0,9
recall = 0.1

$$F{_1} = \frac{\text{2 * 0.9 * 0.1}} {\text{0.9 + 0.1}} = 0.18$$

Faktizität

#generativeAI

In der Welt des maschinellen Lernens eine Eigenschaft, die ein Modell beschreibt, dessen Ausgabe auf der Realität basiert. Faktualität ist ein Konzept und kein Messwert. Angenommen, Sie senden den folgenden Prompt an ein Large Language Model:

Wie lautet die chemische Formel für Kochsalz?

Ein Modell, das auf Faktualität optimiert ist, würde so antworten:

NaCl

Es liegt nahe, anzunehmen, dass alle Modelle auf Fakten basieren sollten. Bei einigen Prompts, wie dem folgenden, sollte ein generatives KI-Modell jedoch eher auf Kreativität als auf Fakten optimieren.

Erzähl mir einen Limerick über einen Astronauten und eine Raupe.

Es ist unwahrscheinlich, dass der resultierende Limerick auf der Realität basiert.

Kontrast zu Fundierung.

Fairness-Einschränkung

#responsible

Eine Einschränkung auf einen Algorithmus anwenden, um sicherzustellen, dass eine oder mehrere Definitionen von Fairness erfüllt werden. Beispiele für Fairness-Einschränkungen:

Nachverarbeitung der Modellausgabe.
Ändern der Verlustfunktion, um eine Strafe für die Verletzung eines Fairness-Messwerts einzufügen.
Direktes Hinzufügen einer mathematischen Einschränkung zu einem Optimierungsproblem.

Fairnessmesswert

#responsible

#Messwert

Eine messbare mathematische Definition von „Fairness“. Häufig verwendete Fairness-Messwerte sind:

Ausgeglichene Chancen
Vorhersageparität
Kontrafaktische Fairness
Demografische Parität

Viele Fairnessmesswerte schließen sich gegenseitig aus. Weitere Informationen finden Sie unter Inkompatibilität von Fairnessmesswerten.

#fundamentals

#Messwert

Der Anteil der tatsächlich negativen Beispiele, für die das Modell fälschlicherweise die positive Klasse vorhergesagt hat. Die Falsch-positiv-Rate wird mit der folgenden Formel berechnet:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

Die Rate falsch positiver Ergebnisse ist die x-Achse in einer ROC-Kurve.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Klassifizierung: ROC und AUC.

schnelles Abklingen

#generativeAI

Eine Trainingstechnik zur Verbesserung der Leistung von LLMs. Beim schnellen Abklingen wird die Lernrate während des Trainings schnell verringert. Diese Strategie trägt dazu bei, dass das Modell nicht überangepasst wird, und verbessert die Verallgemeinerung.

Feature

#fundamentals

Eine Eingabevariable für ein Modell für maschinelles Lernen. Ein Beispiel besteht aus einem oder mehreren Merkmalen. Angenommen, Sie trainieren ein Modell, um den Einfluss von Wetterbedingungen auf die Prüfungsergebnisse von Schülern zu ermitteln. Die folgende Tabelle enthält drei Beispiele mit jeweils drei Features und einem Label:

Funktionen			Label
Temperatur	Luftfeuchtigkeit	Luftdruck	Testergebnis
15	47	998	92
19	34	1020	84
18	92	1012	87

Kontrast mit dem Label.

Weitere Informationen finden Sie im Kurs „Einführung in maschinelles Lernen“ unter Supervised Learning.

Featureverknüpfung

#fundamentals

Ein synthetisches Feature, das durch „Kreuzen“ von kategorialen oder in Buckets aufgeteilten Features gebildet wird.

Betrachten Sie beispielsweise ein Modell zur „Stimmungsprognose“, das die Temperatur in einem der folgenden vier Bereiche darstellt:

freezing
chilly
temperate
warm

und steht für die Windgeschwindigkeit in einem der folgenden drei Buckets:

still
light
windy

Ohne Feature-Kombinationen wird das lineare Modell unabhängig für jede der sieben vorherigen verschiedenen Gruppen trainiert. Das Modell wird also beispielsweise anhand von freezing unabhängig vom Training anhand von windy trainiert.

Alternativ können Sie auch eine Feature-Kombination aus Temperatur und Windgeschwindigkeit erstellen. Dieses synthetische Feature hätte die folgenden 12 möglichen Werte:

freezing-still
freezing-light
freezing-windy
chilly-still
chilly-light
chilly-windy
temperate-still
temperate-light
temperate-windy
warm-still
warm-light
warm-windy

Dank der Feature-Kombinationen kann das Modell Stimmungsunterschiede zwischen einem freezing-windy- und einem freezing-still-Tag erkennen.

Wenn Sie ein synthetisches Feature aus zwei Features erstellen, die jeweils viele verschiedene Klassen haben, hat die resultierende Feature-Kombination eine große Anzahl möglicher Kombinationen. Wenn beispielsweise ein Merkmal 1.000 Buckets und das andere Merkmal 2.000 Buckets hat, enthält das resultierende Feature-Cross 2.000.000 Buckets.

Formal ist ein Cross ein kartesisches Produkt.

Feature-Kombinationen werden hauptsächlich mit linearen Modellen verwendet und nur selten mit neuronalen Netzen.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Kategorische Daten: Feature-Kombinationen.

Feature Engineering

#fundamentals

#TensorFlow

Ein Prozess, der die folgenden Schritte umfasst:

Ermitteln, welche Features für das Training eines Modells nützlich sein könnten.
Rohdaten aus dem Dataset in effiziente Versionen dieser Features umwandeln.

Sie stellen beispielsweise fest, dass temperature eine nützliche Funktion sein könnte. Anschließend können Sie mit Klassierung experimentieren, um zu optimieren, was das Modell aus verschiedenen temperature-Bereichen lernen kann.

Feature Engineering wird manchmal auch als Feature-Extraktion oder Featurisierung bezeichnet.

Klicken Sie auf das Symbol, um zusätzliche Hinweise zu TensorFlow zu erhalten.

In TensorFlow bedeutet Feature Engineering oft, dass Einträge in Rohlogdateien in tf.Example-Protokollpuffer konvertiert werden. Siehe auch tf.Transform.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Numerische Daten: Wie ein Modell Daten mithilfe von Feature-Vektoren aufnimmt.

Featureextraktion

Überladener Begriff mit einer der folgenden Definitionen:

Abrufen von Zwischenfeature-Darstellungen, die von einem unüberwachten oder vortrainierten Modell berechnet wurden (z. B. Werte der verborgenen Schicht in einem neuronalen Netzwerk), um sie als Eingabe in einem anderen Modell zu verwenden.
Synonym für Feature Engineering.

Featurewichtigkeiten

#df

#Messwert

Synonym für Variablenwichtigkeit.

Feature-Set

#fundamentals

Die Gruppe von Features, mit denen Ihr Modell für maschinelles Lernen trainiert wird. Ein einfaches Feature-Set für ein Modell, das Immobilienpreise vorhersagt, könnte beispielsweise aus Postleitzahl, Grundstücksgröße und Zustand des Grundstücks bestehen.

Featurespezifikation

#TensorFlow

Beschreibt die Informationen, die zum Extrahieren von Feature-Daten aus dem tf.Example-Protokollpuffer erforderlich sind. Da der tf.Example-Protokollpuffer nur ein Container für Daten ist, müssen Sie Folgendes angeben:

Die zu extrahierenden Daten (d. h. die Schlüssel für die Funktionen)
Der Datentyp (z. B. „float“ oder „int“)
Die Länge (fest oder variabel)

Featurevektor

#fundamentals

Das Array von feature-Werten, aus denen ein example besteht. Der Featurevektor wird während des Trainings und der Inferenz eingegeben. Der Merkmalsvektor für ein Modell mit zwei diskreten Merkmalen könnte beispielsweise so aussehen:

[0.92, 0.56]

Vier Ebenen: eine Eingabeebene, zwei verborgene Ebenen und eine Ausgabebene.
Die Eingabeschicht enthält zwei Knoten, einen mit dem Wert 0,92 und den anderen mit dem Wert 0,56.

In jedem Beispiel werden unterschiedliche Werte für den Featurevektor angegeben. Der Featurevektor für das nächste Beispiel könnte so aussehen:

[0.73, 0.49]

Beim Feature Engineering wird festgelegt, wie Features im Featurevektor dargestellt werden. Ein binäres kategorisches Feature mit fünf möglichen Werten kann beispielsweise mit One-Hot-Codierung dargestellt werden. In diesem Fall würde der Teil des Feature-Vektors für ein bestimmtes Beispiel aus vier Nullen und einer einzelnen 1,0 an der dritten Position bestehen:

[0.0, 0.0, 1.0, 0.0, 0.0]

Angenommen, Ihr Modell besteht aus drei Features:

ein binäres kategorisches Merkmal mit fünf möglichen Werten, die mit One-Hot-Codierung dargestellt werden, z. B. [0.0, 1.0, 0.0, 0.0, 0.0]
ein weiteres binäres kategorisches Merkmal mit drei möglichen Werten, die mit One-Hot-Codierung dargestellt werden, z. B. [0.0, 0.0, 1.0]
ein Gleitkomma-Feature, z. B. 8.3.

In diesem Fall würde der Featurevektor für jedes Beispiel durch neun Werte dargestellt. Bei den Beispielwerten in der vorherigen Liste wäre der Featurevektor:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

Weitere Informationen finden Sie im Machine Learning Crash Course unter Numerische Daten: Wie ein Modell Daten mithilfe von Feature-Vektoren aufnimmt.

Featurisierung

Der Prozess, bei dem Features aus einer Eingabequelle wie einem Dokument oder Video extrahiert und in einen Feature-Vektor abgebildet werden.

Einige ML-Experten verwenden „Featurization“ als Synonym für Feature Engineering oder Feature-Extraktion.

föderiertes Lernen

Bei diesem verteilten Machine-Learning-Ansatz werden ML-Modelle mithilfe dezentraler Beispiele trainiert, die auf Geräten wie Smartphones gespeichert sind. Beim föderierten Lernen lädt eine Teilmenge von Geräten das aktuelle Modell von einem zentralen Koordinierungsserver herunter. Die Geräte verwenden die auf den Geräten gespeicherten Beispiele, um das Modell zu verbessern. Die Geräte laden dann die Modellverbesserungen (aber nicht die Trainingsbeispiele) auf den koordinierenden Server hoch, wo sie mit anderen Updates zusammengeführt werden, um ein verbessertes globales Modell zu erhalten. Nach der Aggregation werden die von den Geräten berechneten Modellaktualisierungen nicht mehr benötigt und können verworfen werden.

Da die Trainingsbeispiele nie hochgeladen werden, entspricht föderiertes Lernen den Datenschutzgrundsätzen der fokussierten Datenerhebung und Datenminimierung.

Weitere Informationen finden Sie im Comic zum föderierten Lernen.

Feedbackschleife

#fundamentals

Im maschinellen Lernen eine Situation, in der die Vorhersagen eines Modells die Trainingsdaten für dasselbe oder ein anderes Modell beeinflussen. Ein Modell, das Filme empfiehlt, beeinflusst beispielsweise die Filme, die Nutzer sehen, was wiederum nachfolgende Modelle für Filmempfehlungen beeinflusst.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Production ML systems: Questions to ask.

Neuronales Feedforward-Netzwerk (FFN)

Ein neuronales Netzwerk ohne zyklische oder rekursive Verbindungen. Beispielsweise sind herkömmliche neuronale Deep-Learning-Netzwerke Feed-Forward-Netzwerke. Im Gegensatz dazu sind wiederkehrende neuronale Netzwerke zyklisch.

Few-Shot-Lernen

Ein Ansatz für maschinelles Lernen, der häufig für die Objektklassifizierung verwendet wird und mit dem effektive Klassifizierungsmodelle mit nur wenigen Trainingsbeispielen trainiert werden können.

Siehe auch One-Shot Learning und Zero-Shot Learning.

Few-Shot-Prompting

#generativeAI

Eine Prompt, die mehr als ein (einige) Beispiel enthält, das zeigt, wie das Large Language Model reagieren soll. Der folgende lange Prompt enthält beispielsweise zwei Beispiele, die einem Large Language Model zeigen, wie es eine Anfrage beantworten soll.

Bestandteile eines Prompts	Hinweise
`Was ist die offizielle Währung des angegebenen Landes?`	Die Frage, die das LLM beantworten soll.
`Frankreich: EUR`	Hier ein Beispiel.
`Vereinigtes Königreich: GBP`	Ein weiteres Beispiel:
`Indien`:	Die eigentliche Abfrage.

Few-Shot-Prompts führen in der Regel zu besseren Ergebnissen als Zero-Shot-Prompts und One-Shot-Prompts. Für Few-Shot-Prompting ist jedoch ein längerer Prompt erforderlich.

Few-Shot-Prompting ist eine Form des Few-Shot-Learning, das auf Prompt-basiertes Lernen angewendet wird.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Prompt-Engineering.

Geige

Eine Python-basierte Konfigurationsbibliothek, mit der die Werte von Funktionen und Klassen ohne invasiven Code oder invasive Infrastruktur festgelegt werden. Im Fall von Pax – und anderen ML-Codebases – stellen diese Funktionen und Klassen Modelle und Training Hyperparameter dar.

Bei Fiddle wird davon ausgegangen, dass Machine-Learning-Codebasen in der Regel in folgende Bereiche unterteilt sind:

Bibliothekscode, der die Ebenen und Optimierer definiert.
„Glue“-Code für das Dataset, der die Bibliotheken aufruft und alles miteinander verbindet.

Fiddle erfasst die Aufrufstruktur des Glue-Codes in einer nicht ausgewerteten und veränderbaren Form.

Abstimmung

#generativeAI

Ein zweiter, aufgabenspezifischer Trainingsdurchlauf, der für ein vortrainiertes Modell durchgeführt wird, um seine Parameter für einen bestimmten Anwendungsfall zu optimieren. Die vollständige Trainingssequenz für einige Large Language Models sieht beispielsweise so aus:

Vortraining:Ein Large Language Model wird mit einem riesigen allgemeinen Dataset trainiert, z. B. mit allen englischsprachigen Wikipedia-Seiten.
Abstimmung:Das vortrainierte Modell wird trainiert, um eine bestimmte Aufgabe auszuführen, z. B. auf medizinische Anfragen zu reagieren. Für die Feinabstimmung sind in der Regel Hunderte oder Tausende von Beispielen erforderlich, die sich auf die jeweilige Aufgabe konzentrieren.

Ein weiteres Beispiel: Die vollständige Trainingssequenz für ein großes Bildmodell sieht so aus:

Vortraining:Trainieren Sie ein großes Bildmodell mit einem riesigen allgemeinen Bild-Dataset, z. B. mit allen Bildern in Wikimedia Commons.
Feinabstimmung:Das vortrainierte Modell wird trainiert, um eine bestimmte Aufgabe auszuführen, z. B. Bilder von Orcas zu generieren.

Das Feinabstimmen kann eine beliebige Kombination der folgenden Strategien umfassen:

Alle vorhandenen Parameter des vortrainierten Modells werden geändert. Das wird auch als vollständiges Fine-Tuning bezeichnet.
Es werden nur einige der vorhandenen Parameter des vortrainierten Modells geändert (in der Regel die Ebenen, die der Ausgabeebene am nächsten sind), während andere vorhandene Parameter unverändert bleiben (in der Regel die Ebenen, die der Eingabeebene am nächsten sind). Weitere Informationen finden Sie unter Parametereffiziente Abstimmung.
Hinzufügen weiterer Ebenen, in der Regel über den vorhandenen Ebenen, die der Ausgabeschicht am nächsten sind.

Die Feinabstimmung ist eine Form des Transfer Learning. Daher kann beim Fine-Tuning eine andere Verlustfunktion oder ein anderer Modelltyp als beim Training des vortrainierten Modells verwendet werden. Sie könnten beispielsweise ein vortrainiertes großes Bildmodell optimieren, um ein Regressionsmodell zu erstellen, das die Anzahl der Vögel in einem Eingabebild zurückgibt.

Vergleichen Sie das Fine-Tuning mit den folgenden Begriffen und stellen Sie es ihnen gegenüber:

Destillation
Prompt-basiertes Lernen

Weitere Informationen finden Sie im Machine Learning Crash Course unter Fine-tuning.

Flash-Modell

#generativeAI

Eine Familie relativ kleiner Gemini-Modelle, die für Geschwindigkeit und niedrige Latenz optimiert sind. Flash-Modelle sind für eine Vielzahl von Anwendungen konzipiert, bei denen schnelle Antworten und ein hoher Durchsatz entscheidend sind.

Flax

Eine leistungsstarke Open-Source- Bibliothek für Deep Learning, die auf JAX basiert. Flax bietet Funktionen für das Training neuronaler Netze sowie Methoden zur Bewertung ihrer Leistung.

Flaxformer

Eine Open-Source-Transformer-Bibliothek>, die auf Flax basiert und hauptsächlich für die Verarbeitung natürlicher Sprache und multimodale Forschung entwickelt wurde.

Vergessens-Gate

Der Teil einer Long Short-Term Memory-Zelle, der den Informationsfluss durch die Zelle reguliert. Forget-Gates behalten den Kontext bei, indem sie entscheiden, welche Informationen aus dem Zellstatus verworfen werden.

Foundation Model

#generativeAI

#Messwert

Ein sehr großes vortrainiertes Modell, das mit einem enormen und vielfältigen Trainingsset trainiert wurde. Ein Foundation Model kann beides:

Auf eine Vielzahl von Anfragen gut reagieren.
Als Basismodell für zusätzliches Feinabstimmung oder andere Anpassungen dienen.

Mit anderen Worten: Ein Foundation Model ist bereits sehr leistungsfähig, kann aber weiter angepasst werden, um für eine bestimmte Aufgabe noch nützlicher zu sein.

Anteil der Erfolge

#generativeAI

#Messwert

Eine Messgröße zur Bewertung des generierten Texts eines ML-Modells. Der Anteil der Erfolge ist die Anzahl der „erfolgreichen“ generierten Textausgaben geteilt durch die Gesamtzahl der generierten Textausgaben. Wenn beispielsweise ein Large Language Model 10 Codeblöcke generiert hat, von denen fünf erfolgreich waren, beträgt der Anteil der Erfolge 50%.

Der Anteil der Erfolge ist in der Statistik allgemein nützlich. Im Bereich des maschinellen Lernens ist er jedoch in erster Linie für die Messung überprüfbarer Aufgaben wie der Code-Generierung oder mathematischer Probleme geeignet.

Vollständige Softmax-Funktion

Synonym für softmax.

Im Gegensatz dazu steht das Auswählen von Kandidaten.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Neuronale Netze: Multiklassenklassifizierung.

Vollständig verbundene Ebene

Eine versteckte Ebene, in der jeder Knoten mit jedem Knoten in der nachfolgenden versteckten Ebene verbunden ist.

Eine vollständig verbundene Ebene wird auch als dichte Ebene bezeichnet.

Funktionstransformation

Eine Funktion, die eine Funktion als Eingabe akzeptiert und eine transformierte Funktion als Ausgabe zurückgibt. JAX verwendet Funktionstransformationen.

G

GAN

Abkürzung für Generative Adversarial Network (generatives kontradiktorisches Netzwerk).

Gemini

#generativeAI

Das Ökosystem, das die leistungsstärkste KI von Google umfasst. Dazu gehören:

Verschiedene Gemini-Modelle
Die interaktive dialogorientierte Benutzeroberfläche für ein Gemini-Modell. Nutzer geben Prompts ein und Gemini antwortet darauf.
Verschiedene Gemini APIs.
Verschiedene Geschäftsprodukte, die auf Gemini-Modellen basieren, z. B. Gemini for Google Cloud.

Gemini-Modelle

#generativeAI

Die hochmodernen Transformer-basierten multimodalen Modelle von Google. Gemini-Modelle sind speziell für die Integration mit KI-Agenten konzipiert.

Nutzer können auf verschiedene Weise mit Gemini-Modellen interagieren, z. B. über eine interaktive Dialogoberfläche und über SDKs.

Gemma

#generativeAI

Eine Familie von leichtgewichtigen offenen Modellen, die auf derselben Forschung und Technologie basieren, die auch für die Erstellung der Gemini-Modelle verwendet werden. Es sind verschiedene Gemma-Modelle verfügbar, die jeweils unterschiedliche Funktionen bieten, z. B. Vision, Code und Befolgung von Anweisungen. Weitere Informationen finden Sie unter Gemma.

GenAI oder genAI

#generativeAI

Abkürzung für generative KI.

Generalisierung

#fundamentals

Die Fähigkeit eines Modells, korrekte Vorhersagen für neue, bisher unbekannte Daten zu treffen. Ein Modell, das generalisieren kann, ist das Gegenteil eines Modells, das überangepasst ist.

Klicken Sie auf das Symbol, um zusätzliche Hinweise zu erhalten.

Sie trainieren ein Modell anhand der Beispiele im Trainingsset. Folglich lernt das Modell die Besonderheiten der Daten im Trainings-Dataset. Bei der Generalisierung geht es im Wesentlichen darum, ob Ihr Modell gute Vorhersagen für Beispiele treffen kann, die nicht im Trainingsset enthalten sind.

Um die Verallgemeinerung zu fördern, hilft die Regularisierung einem Modell, weniger genau auf die Besonderheiten der Daten im Trainings-Dataset zu reagieren.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Generalization.

Verallgemeinerungskurve

#fundamentals

Ein Diagramm mit dem Trainingsverlust und dem Validierungsverlust als Funktion der Anzahl der Iteration.

Mithilfe einer Generalisierungskurve können Sie Overfitting erkennen. Die folgende Generalisierungskurve deutet beispielsweise auf eine Überanpassung hin, da der Validierungsverlust letztendlich deutlich höher als der Trainingsverlust ist.

Ein kartesisches Diagramm, in dem die Y-Achse mit „Verlust“ und die X-Achse mit „Iteration“ beschriftet ist. Es werden zwei Diagramme angezeigt. In einem Diagramm wird der Trainingsverlust und im anderen der Validierungsverlust dargestellt.
Die beiden Diagramme beginnen ähnlich, aber der Trainingsverlust sinkt schließlich viel niedriger als der Validierungsverlust.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Generalization.

Generalisiertes lineares Modell

Eine Verallgemeinerung von Modellen für die lineare Regression, die auf Gaußschem Rauschen basieren, auf andere Arten von Modellen, die auf anderen Arten von Rauschen basieren, z. B. Poisson-Rauschen oder kategorisches Rauschen. Beispiele für verallgemeinerte lineare Modelle:

Logistische Regression
Mehrklassenregression
Regression der kleinsten Quadrate

Die Parameter eines generalisierten linearen Modells können durch konvexe Optimierung ermittelt werden.

Generalisierte lineare Modelle haben die folgenden Eigenschaften:

Die durchschnittliche Vorhersage des optimalen Regressionsmodells mit der Methode der kleinsten Quadrate entspricht dem durchschnittlichen Label in den Trainingsdaten.
Die durchschnittliche Wahrscheinlichkeit, die vom optimalen logistischen Regressionsmodell vorhergesagt wird, entspricht dem durchschnittlichen Label in den Trainingsdaten.

Die Leistungsfähigkeit eines verallgemeinerten linearen Modells wird durch seine Features begrenzt. Im Gegensatz zu einem Deep-Learning-Modell kann ein verallgemeinertes lineares Modell keine neuen Merkmale lernen.

generierter Text

#generativeAI

Im Allgemeinen der Text, den ein ML-Modell ausgibt. Bei der Bewertung von Large Language Models werden in einigen Messwerten generierte Texte mit Referenztexten verglichen. Angenommen, Sie möchten herausfinden, wie effektiv ein ML-Modell vom Französischen ins Niederländische übersetzt. In diesem Fall gilt:

Der generierte Text ist die niederländische Übersetzung, die vom ML-Modell ausgegeben wird.
Der Referenztext ist die niederländische Übersetzung, die von einem menschlichen Übersetzer oder einer Software erstellt wird.

Bei einigen Bewertungsstrategien wird kein Referenztext verwendet.

Generative Adversarial Network (GAN)

Ein System zum Erstellen neuer Daten, in dem ein Generator Daten erstellt und ein Diskriminator bestimmt, ob die erstellten Daten gültig oder ungültig sind.

Weitere Informationen finden Sie im Kurs zu generativen kontradiktorischen Netzwerken.

generative KI

#generativeAI

Ein aufstrebendes Transformationsfeld ohne formale Definition. Die meisten Experten sind sich jedoch einig, dass generative KI-Modelle Inhalte erstellen („generieren“) können, die alle der folgenden Kriterien erfüllen:

komplex
kohärent
ursprünglich

Beispiele für generative KI:

Large Language Models, die anspruchsvolle Originaltexte generieren und Fragen beantworten können.
Modell zur Bildgenerierung, mit dem einzigartige Bilder erstellt werden können.
Modelle zur Audio- und Musikgenerierung, die Originalmusik komponieren oder realistische Sprache generieren können.
Modelle zur Videogenerierung, die Originalvideos generieren können.

Mit einigen älteren Technologien, darunter LSTMs und RNNs, lassen sich ebenfalls Originalinhalte und kohärente Inhalte erstellen. Einige Experten betrachten diese früheren Technologien als generative KI, während andere der Meinung sind, dass echte generative KI komplexere Ergebnisse erfordert, als diese früheren Technologien liefern können.

Kontrast zu vorhersagendem maschinellen Lernen

Generatives Modell

In der Praxis ist ein Modell, das eine der folgenden Aktionen ausführt:

Erstellt (generiert) neue Beispiele aus dem Trainingsdataset. Ein generatives Modell könnte beispielsweise Gedichte erstellen, nachdem es mit einem Dataset von Gedichten trainiert wurde. Der Generator eines Generative Adversarial Network fällt in diese Kategorie.
Bestimmt die Wahrscheinlichkeit, dass ein neues Beispiel aus dem Trainingsset stammt oder mit demselben Mechanismus erstellt wurde, mit dem das Trainingsset erstellt wurde. Nach dem Training mit einem Dataset, das aus englischen Sätzen besteht, kann ein generatives Modell beispielsweise die Wahrscheinlichkeit ermitteln, dass eine neue Eingabe ein gültiger englischer Satz ist.

Ein generatives Modell kann theoretisch die Verteilung von Beispielen oder bestimmten Features in einem Dataset erkennen. Das bedeutet:

p(examples)

Modelle für unüberwachtes Lernen sind generativ.

Diskriminative Modelle

Generator

Das Subsystem in einem generativen kontradiktorischen Netzwerk, das neue Beispiele erstellt.

Diskriminatives Modell

Gini-Unreinheit

#df

#Messwert

Ein Messwert ähnlich der Entropie. Splitter verwenden Werte, die entweder aus der Gini-Unreinheit oder der Entropie abgeleitet werden, um Bedingungen für die Klassifizierung Entscheidungsbäume zu erstellen. Information Gain wird aus der Entropie abgeleitet. Es gibt keinen allgemein akzeptierten Begriff für den Messwert, der aus der Gini-Unreinheit abgeleitet wird. Dieser unbenannte Messwert ist jedoch genauso wichtig wie der Informationsgewinn.

Die Gini-Unreinheit wird auch als Gini-Index oder einfach als Gini bezeichnet.

Klicken Sie auf das Symbol, um mathematische Details zur Gini-Unreinheit zu sehen.

Die Gini-Unreinheit ist die Wahrscheinlichkeit, dass ein neuer Datensatz aus derselben Verteilung falsch klassifiziert wird. Die Gini-Unreinheit einer Menge mit zwei möglichen Werten „0“ und „1“ (z. B. die Labels in einem binären Klassifizierungsproblem) wird mit der folgenden Formel berechnet:

I = 1 – (p² + q²) = 1 – (p² + (1–p)²)

Dabei gilt:

I ist die Gini-Unreinheit.
p ist der Anteil der Beispiele mit dem Wert „1“.
q ist der Anteil der Beispiele mit dem Wert „0“. q = 1–p

Betrachten Sie beispielsweise das folgende Dataset:

100 Labels (0,25 % des Datasets) enthalten den Wert „1“.
300 Labels (0,75 des Datasets) enthalten den Wert „0“.

Daher ist die Gini-Unreinheit:

p = 0,25
q = 0,75
I = 1 – (0,25² + 0,75²) = 0,375

Folglich hätte ein zufälliges Label aus demselben Dataset eine Wahrscheinlichkeit von 37,5 %, falsch klassifiziert zu werden, und eine Wahrscheinlichkeit von 62,5 %, richtig klassifiziert zu werden.

Ein perfekt ausgeglichenes Label (z. B. 200 „0“ und 200 „1“) hätte eine Gini-Unreinheit von 0, 5. Ein stark unausgewogenes Label hätte eine Gini-Unreinheit nahe 0,0.

Golden Dataset

Eine Gruppe manuell zusammengestellter Daten, die die Grundwahrheit erfassen. Teams können ein oder mehrere Golden Datasets verwenden, um die Qualität eines Modells zu bewerten.

Einige Golden-Datasets erfassen verschiedene Unterdomänen der Ground Truth. Ein Golden Dataset für die Bildklassifizierung kann beispielsweise Beleuchtungsbedingungen und Bildauflösung erfassen.

Goldene Antwort

#generativeAI

Eine Antwort, die als gut bekannt ist. Beispiel für einen Prompt:

2 + 2

Die goldene Antwort lautet hoffentlich:

4

Hier finden Sie Hinweise zur goldenen Antwort und zum Referenztext.

Bei einigen Bewertungsmetriken, z. B. ROUGE, wird Referenztext mit dem generierten Text eines Modells verglichen. Wenn es nur eine richtige Antwort auf einen Prompt gibt, dient die goldene Antwort in der Regel als Referenztext.

Für einige Prompts gibt es keine richtige Antwort. Für den Prompt Fasse dieses Dokument zusammen gibt es wahrscheinlich viele richtige Antworten. Bei solchen Prompts ist Referenztext oft unpraktisch, da ein Modell eine sehr große Bandbreite an möglichen Zusammenfassungen generieren kann. Eine goldene Antwort kann in dieser Situation jedoch hilfreich sein. Eine optimale Antwort mit einer guten Dokumentzusammenfassung kann beispielsweise dazu beitragen, einen Autorater zu trainieren, um Muster guter Dokumentzusammenfassungen zu erkennen.

Google AI Studio

Ein Google-Tool mit einer nutzerfreundlichen Oberfläche zum Testen und Entwickeln von Anwendungen mit den LLMs von Google. Weitere Informationen finden Sie auf der Google AI Studio-Startseite.

GPT (Generative Pre-trained Transformer)

#generativeAI

Eine Familie von Transformer-basierten Large Language Models, die von OpenAI entwickelt wurden.

GPT-Varianten können für mehrere Modalitäten verwendet werden, darunter:

Bildgenerierung (z. B. ImageGPT)
Text-zu-Bild-Generierung (z. B. DALL-E).

Farbverlauf

Der Vektor der partiellen Ableitungen in Bezug auf alle unabhängigen Variablen. Im maschinellen Lernen ist der Gradient der Vektor der partiellen Ableitungen der Modellfunktion. Der Gradient zeigt in die Richtung des steilsten Anstiegs.

Gradientenakkumulierung

Eine Backpropagation-Technik, bei der die Parameter nur einmal pro Epoche und nicht einmal pro Iteration aktualisiert werden. Nach der Verarbeitung jedes Mini-Batchs wird durch die Gradientenakkumulierung einfach eine laufende Summe der Gradienten aktualisiert. Nach der Verarbeitung des letzten Mini-Batch in der Epoche werden die Parameter schließlich auf Grundlage der Summe aller Gradientenänderungen aktualisiert.

Die Gradientenakkumulierung ist nützlich, wenn die Batchgröße im Vergleich zum verfügbaren Arbeitsspeicher für das Training sehr groß ist. Wenn Speicher ein Problem ist, liegt es nahe, die Batchgröße zu reduzieren. Wenn Sie die Batchgröße bei der normalen Backpropagation reduzieren, erhöht sich die Anzahl der Parameteraktualisierungen. Durch die Gradientenakkumulierung können Speicherprobleme vermieden und das Modell trotzdem effizient trainiert werden.

Gradient Boosted Trees (GBT)

#df

Eine Art von Entscheidungsbaum, in der:

Training basiert auf Gradient Boosting.
Das schwache Modell ist ein Entscheidungsbaum.

Weitere Informationen finden Sie im Kurs „Entscheidungsbäume“ unter Gradient Boosted Decision Trees.

Gradient Boosting

#df

Ein Trainingsalgorithmus, bei dem schwache Modelle iterativ trainiert werden, um die Qualität (Verlust) eines starken Modells zu verbessern. Ein schwaches Modell kann beispielsweise ein lineares Modell oder ein kleines Entscheidungsbaummodell sein. Das starke Modell ist die Summe aller zuvor trainierten schwachen Modelle.

In der einfachsten Form von Gradient Boosting wird in jeder Iteration ein schwaches Modell trainiert, um den Verlustgradienten des starken Modells vorherzusagen. Die Ausgabe des starken Modells wird dann aktualisiert, indem der vorhergesagte Gradient subtrahiert wird, ähnlich wie beim Gradientenabstieg.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

Dabei gilt:

$F_{0}$ ist das Ausgangsmodell.
$F_{i+1}$ ist das nächste starke Modell.
$F_{i}$ ist das aktuelle starke Modell.
$\xi$ ist ein Wert zwischen 0,0 und 1,0, der als Shrinkage bezeichnet wird und analog zur Lernrate beim Gradientenabstieg ist.
$f_{i}$ ist das schwache Modell, das darauf trainiert wird, den Verlustgradienten von $F_{i}$ vorherzusagen.

Moderne Varianten von Gradient Boosting berücksichtigen auch die zweite Ableitung (Hessian) des Verlusts in ihren Berechnungen.

Entscheidungsbäume werden häufig als schwache Modelle beim Gradient Boosting verwendet. Weitere Informationen finden Sie unter Gradient Boosted-Entscheidungsbäume.

Gradientenbeschneidung

Ein häufig verwendeter Mechanismus zur Behebung des Problems mit explodierenden Gradienten besteht darin, den Maximalwert von Gradienten bei der Verwendung von Gradientenabstieg zum Trainieren eines Modells künstlich zu begrenzen (Clipping).

Gradientenabstieg

#fundamentals

Eine mathematische Methode zur Minimierung von Verlust. Beim Gradientenabstieg werden Gewichte und Biasse iterativ angepasst, um nach und nach die beste Kombination zur Minimierung des Verlusts zu finden.

Der Gradientenabstieg ist viel älter als das maschinelle Lernen.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Lineare Regression: Gradientenabstieg.

Graph

#TensorFlow

In TensorFlow eine Berechnungsspezifikation. Knoten im Diagramm stellen Vorgänge dar. Kanten sind gerichtet und stellen das Übergeben des Ergebnisses eines Vorgangs (eines Tensor) als Operand an einen anderen Vorgang dar. Verwenden Sie TensorBoard, um ein Diagramm zu visualisieren.

Graph Execution

#TensorFlow

Eine TensorFlow-Programmierumgebung, in der das Programm zuerst einen Graphen erstellt und dann den gesamten oder einen Teil dieses Graphen ausführt. Die Grafikausführung ist der Standardausführungsmodus in TensorFlow 1.x.

Kontrast zur sofortigen Ausführung.

Greedy-Richtlinie

Beim Reinforcement Learning wird eine Richtlinie verwendet, bei der immer die Aktion mit dem höchsten erwarteten Return ausgewählt wird.

Fundierung

Eine Eigenschaft eines Modells, dessen Ausgabe auf bestimmten Quellmaterialien basiert. Angenommen, Sie geben ein ganzes Physiklehrbuch als Eingabe („Kontext“) für ein Large Language Model ein. Anschließend stellen Sie dem Large Language Model eine physikalische Frage. Wenn die Antwort des Modells Informationen aus diesem Lehrbuch enthält, ist das Modell fundiert auf diesem Lehrbuch.

Ein fundiertes Modell ist nicht immer ein faktisches Modell. So könnte das eingegebene Physiklehrbuch Fehler enthalten.

Ground Truth

#fundamentals

Realität.

Was ist stattdessen passiert?

Stellen Sie sich beispielsweise ein binäres Klassifizierungsmodell vor, das vorhersagt, ob ein Student im ersten Studienjahr innerhalb von sechs Jahren seinen Abschluss machen wird. Die Grundwahrheit für dieses Modell ist, ob der Schüler oder Student tatsächlich innerhalb von sechs Jahren seinen Abschluss gemacht hat.

Klicken Sie auf das Symbol, um zusätzliche Hinweise zu erhalten.

Wir bewerten die Modellqualität anhand der Grundwahrheit. Die Grundwahrheit ist jedoch nicht immer ganz wahr. Hier einige Beispiele für potenzielle Unvollkommenheiten in der Ground Truth:

Sind wir im Beispiel mit dem Schulabschluss sicher, dass die Abschlussdaten für jeden Schüler immer korrekt sind? Ist die Dokumentation der Universität fehlerfrei?
Angenommen, das Label ist ein Gleitkommawert, der mit Instrumenten (z. B. Barometern) gemessen wird. Wie können wir sicher sein, dass jedes Instrument identisch kalibriert ist oder dass jede Messung unter denselben Umständen durchgeführt wurde?
Wenn die Kennzeichnung auf menschlicher Meinung beruht, wie können wir sicher sein, dass jeder Rater Ereignisse auf dieselbe Weise bewertet? Um die Konsistenz zu verbessern, greifen manchmal erfahrene menschliche Prüfer ein.

Gruppenattributionsbias

#responsible

Annahme, dass das, was für eine Person gilt, auch für alle anderen in dieser Gruppe gilt. Die Auswirkungen von Group Attribution Bias können verstärkt werden, wenn für die Datenerhebung Convenience Sampling verwendet wird. Bei einer nicht repräsentativen Stichprobe können Attributionen vorgenommen werden, die nicht der Realität entsprechen.

Weitere Informationen finden Sie unter Homogenitätsbias außerhalb der Gruppe und Bias innerhalb der Gruppe. Weitere Informationen finden Sie auch im Machine Learning Crash Course unter Fairness: Types of bias.

H

KI-Halluzination

#generativeAI

Die Erstellung von plausibel erscheinenden, aber faktisch falschen Ausgaben durch ein generatives KI-Modell, das eine Behauptung über die reale Welt aufstellt. Ein generatives KI-Modell, das behauptet, Barack Obama sei 1865 gestorben, halluziniert.

Hash-Technologie

Beim maschinellen Lernen ein Mechanismus zum Gruppieren kategorialer Daten, insbesondere wenn die Anzahl der Kategorien groß ist, die Anzahl der Kategorien, die tatsächlich im Dataset vorkommen, jedoch vergleichsweise gering ist.

Auf der Erde gibt es beispielsweise etwa 73.000 Baumarten. Sie könnten jede der 73.000 Baumarten in 73.000 separaten kategorischen Gruppen darstellen. Wenn in einem Dataset nur 200 Baumarten vorkommen, können Sie Hashing verwenden, um die Baumarten in vielleicht 500 Buckets aufzuteilen.

Ein einzelner Bucket kann mehrere Baumarten enthalten. Beim Hashing könnten beispielsweise Baobab und Rotahorn – zwei genetisch unterschiedliche Arten – in denselben Bucket eingeordnet werden. Unabhängig davon ist Hashing weiterhin eine gute Möglichkeit, große kategorische Mengen in die ausgewählte Anzahl von Buckets zu übertragen. Beim Hashing wird ein kategoriales Merkmal mit einer großen Anzahl möglicher Werte in eine viel kleinere Anzahl von Werten umgewandelt, indem Werte deterministisch gruppiert werden.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Categorical data: Vocabulary and one-hot encoding.

Heuristik

Eine einfache und schnell umzusetzende Lösung für ein Problem. Beispiel: „Mit einer Heuristik haben wir eine Genauigkeit von 86% erreicht. Als wir auf ein tiefes neuronales Netzwerk umgestellt haben, stieg die Genauigkeit auf 98%.“

versteckte Ebene

#fundamentals

Eine Schicht in einem neuronalen Netzwerk zwischen der Eingabeschicht (den Features) und der Ausgabeschicht (der Vorhersage). Jede verborgene Schicht besteht aus einem oder mehreren Neuronen. Das folgende neuronale Netzwerk enthält beispielsweise zwei verborgene Schichten, die erste mit drei Neuronen und die zweite mit zwei Neuronen:

Ein neuronales Deep-Learning-Netzwerk enthält mehr als eine verborgene Ebene. Die Abbildung oben zeigt beispielsweise ein tiefes neuronales Netzwerk, da das Modell zwei verborgene Schichten enthält.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Neuronale Netze: Knoten und verborgene Ebenen.

hierarchisches Clustering

#clustering

Eine Kategorie von Clustering-Algorithmen, mit denen ein Clusterbaum erstellt wird. Hierarchisches Clustering eignet sich gut für hierarchische Daten wie botanische Taxonomien. Es gibt zwei Arten von hierarchischen Clustering-Algorithmen:

Beim agglomerativen Clustering wird zuerst jedes Beispiel einem eigenen Cluster zugewiesen. Anschließend werden die nächstgelegenen Cluster iterativ zusammengeführt, um einen hierarchischen Baum zu erstellen.
Beim divisiven Clustering werden zuerst alle Beispiele in einem Cluster gruppiert und dann iterativ in einen hierarchischen Baum unterteilt.

Im Gegensatz zum zentroidbasierten Clustering

Weitere Informationen finden Sie im Kurs „Clustering“ unter Clustering-Algorithmen.

Bergaufgehen

Ein Algorithmus zum iterativen Verbessern („bergauf gehen“) eines ML-Modells, bis es sich nicht mehr verbessert („den Gipfel eines Berges erreicht“). Die allgemeine Form des Algorithmus ist:

Erstellen Sie ein Startmodell.
Erstellen Sie neue Kandidatenmodelle, indem Sie kleine Anpassungen an der Art und Weise vornehmen, wie Sie trainieren oder abstimmen. Dazu müssen Sie möglicherweise mit einem leicht abweichenden Trainingsset oder mit anderen Hyperparametern arbeiten.
Bewerten Sie die neuen Kandidatenmodelle und führen Sie eine der folgenden Aktionen aus:
- Wenn ein Kandidatenmodell das Ausgangsmodell übertrifft, wird es zum neuen Ausgangsmodell. Wiederholen Sie in diesem Fall die Schritte 1, 2 und 3.
- Wenn kein Modell das Ausgangsmodell übertrifft, haben Sie den Gipfel erreicht und sollten die Iteration beenden.

Weitere Informationen zur Hyperparameter-Abstimmung finden Sie im Deep Learning Tuning Playbook. Im Machine Learning Crash Course finden Sie in den Datenmodulen Anleitungen zum Feature Engineering.

Hinge-Verlust

#Messwert

Eine Familie von Verlustfunktionen für die Klassifizierung, die darauf ausgelegt sind, die Entscheidungsgrenze so weit wie möglich von jedem Trainingsbeispiel entfernt zu finden und so den Abstand zwischen Beispielen und der Grenze zu maximieren. KSVMs verwenden Hinge-Loss (oder eine ähnliche Funktion wie Squared Hinge-Loss). Bei der binären Klassifizierung wird die Hinge-Verlustfunktion so definiert:

$$\text{loss} = \text{max}(0, 1 - (y * y'))$$

Dabei ist y das tatsächliche Label (-1 oder +1) und y' die Rohausgabe des Klassifizierungsmodells:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Daher sieht ein Diagramm des Hinge-Verlusts im Vergleich zu (y * y') so aus:

Ein kartesisches Diagramm, das aus zwei verbundenen Liniensegmenten besteht. Das erste Liniensegment beginnt bei (-3, 4) und endet bei (1, 0). Das zweite Liniensegment beginnt bei (1, 0) und setzt sich unendlich mit einer Steigung von 0 fort.

Historischer Bias

#responsible

Eine Art von Verzerrung, die bereits in der Welt existiert und in ein Dataset gelangt ist. Diese Voreingenommenheiten spiegeln häufig bestehende kulturelle Stereotypen, demografische Ungleichheiten und Vorurteile gegenüber bestimmten sozialen Gruppen wider.

Nehmen wir beispielsweise ein Klassifikationsmodell, das vorhersagt, ob ein Kreditantragsteller seinen Kredit nicht zurückzahlen wird. Es wurde mit historischen Daten zu Kreditausfällen aus den 1980er-Jahren von lokalen Banken in zwei verschiedenen Gemeinden trainiert. Wenn frühere Antragsteller aus Community A sechsmal häufiger mit ihren Krediten in Verzug geraten sind als Antragsteller aus Community B, kann das Modell einen historischen Bias lernen, der dazu führt, dass es weniger wahrscheinlich Kredite in Community A genehmigt, auch wenn die historischen Bedingungen, die zu den höheren Ausfallraten in dieser Community geführt haben, nicht mehr relevant sind.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Fairness: Types of bias.

Holdout-Daten

Beispiele, die während des Trainings absichtlich nicht verwendet werden („zurückgehalten“). Das Validierungs-Dataset und das Test-Dataset sind Beispiele für Holdout-Daten. Mit Holdout-Daten lässt sich bewerten, wie gut sich Ihr Modell auf andere Daten als die Daten verallgemeinern lässt, mit denen es trainiert wurde. Der Verlust im Holdout-Set bietet eine bessere Schätzung des Verlusts in einem unbekannten Dataset als der Verlust im Trainingsset.

Host

#TensorFlow

#GoogleCloud

Beim Trainieren eines ML-Modells auf Beschleunigerchips (GPUs oder TPUs) ist der Teil des Systems, der Folgendes steuert:

Der allgemeine Ablauf des Codes.
Die Extraktion und Transformation der Eingabepipeline.

Der Host wird in der Regel auf einer CPU und nicht auf einem Beschleunigerchip ausgeführt. Das Gerät verarbeitet Tensoren auf den Beschleunigerchips.

manuelle Bewertung

#generativeAI

Ein Prozess, bei dem Menschen die Qualität der Ausgabe eines ML-Modells bewerten, z. B. indem zweisprachige Personen die Qualität eines ML-Übersetzungsmodells bewerten. Die manuelle Bewertung ist besonders nützlich, um Modelle zu beurteilen, bei denen es keine richtige Antwort gibt.

Automatische Bewertung und Bewertung durch Autorater

Human in the Loop (HITL)

#generativeAI

Ein locker definierter Ausdruck, der Folgendes bedeuten kann:

Eine Richtlinie, die besagt, dass die Ausgabe von generativer KI kritisch oder skeptisch betrachtet werden muss.
Eine Strategie oder ein System, mit dem sichergestellt wird, dass Menschen das Verhalten eines Modells mitgestalten, bewerten und optimieren. Wenn ein Mensch in den Prozess eingebunden ist, kann eine KI sowohl von maschineller als auch von menschlicher Intelligenz profitieren. Ein Beispiel für ein System, bei dem der Mensch im Mittelpunkt steht, ist ein System, in dem eine KI Code generiert, der dann von Softwareentwicklern überprüft wird.

Hyperparameter

#fundamentals

Die Variablen, die Sie oder ein Hyperparameter-Abstimmungsdienst >bei aufeinanderfolgenden Trainingsläufen eines Modells anpassen. Die Lernrate ist beispielsweise ein Hyperparameter. Sie könnten die Lernrate vor einer Trainingssitzung auf 0,01 festlegen. Wenn Sie feststellen, dass 0,01 zu hoch ist, könnten Sie die Lernrate für die nächste Trainingssitzung auf 0,003 festlegen.

Im Gegensatz dazu sind Parameter die verschiedenen Gewichtungen und Bias, die das Modell während des Trainings lernt.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Lineare Regression: Hyperparameter.

Hyperebene

Eine Grenze, die einen Raum in zwei Unterräume unterteilt. Eine Linie ist beispielsweise eine Hyperebene in zwei Dimensionen und eine Ebene ist eine Hyperebene in drei Dimensionen. Beim maschinellen Lernen ist eine Hyperebene in der Regel die Grenze, die einen hochdimensionalen Raum trennt. Kernel Support Vector Machines verwenden Hyperebenen, um positive Klassen von negativen Klassen zu trennen, oft in einem sehr hochdimensionalen Raum.

I

i.i.d.

Abkürzung für unabhängig und identisch verteilt.

Bilderkennung

Ein Prozess, bei dem Objekte, Muster oder Konzepte in einem Bild klassifiziert werden. Die Bilderkennung wird auch als Bildklassifizierung bezeichnet.

Weitere Informationen finden Sie unter ML Practicum: Image Classification.

Weitere Informationen finden Sie im ML Practicum: Image Classification-Kurs.

unausgeglichenes Dataset

Synonym für Dataset mit unausgeglichenen Klassen.

impliziter Bias

#responsible

Automatisch eine Verbindung oder Annahme auf der Grundlage von Denkmodellen und Erinnerungen herstellen. Implizite Voreingenommenheit kann sich auf Folgendes auswirken:

Wie Daten erhoben und klassifiziert werden.
Wie Systeme für maschinelles Lernen konzipiert und entwickelt werden.

Wenn ein Entwickler beispielsweise ein Klassifizierungsmodell zum Erkennen von Hochzeitsfotos erstellt, kann er das Vorhandensein eines weißen Kleides auf einem Foto als Merkmal verwenden. Weiße Kleider waren jedoch nur in bestimmten Epochen und in bestimmten Kulturen üblich.

Siehe auch Bestätigungsbias.

Imputation

Kurzform von Wertimputation.

Inkompatibilität von Fairnessmesswerten

#responsible

#Messwert

Die Idee, dass einige Fairnesskonzepte sich gegenseitig ausschließen und nicht gleichzeitig erfüllt werden können. Daher gibt es keinen einzelnen universellen Messwert zur Quantifizierung von Fairness, der auf alle ML-Probleme angewendet werden kann.

Das mag entmutigend klingen, aber die Inkompatibilität von Fairnessmesswerten bedeutet nicht, dass Bemühungen um Fairness vergeblich sind. Stattdessen wird vorgeschlagen, dass Fairness für ein bestimmtes ML-Problem kontextbezogen definiert werden muss, um Schäden zu vermeiden, die für die Anwendungsfälle spezifisch sind.

Eine detailliertere Erläuterung der Inkompatibilität von Fairness-Messwerten finden Sie unter On the (im)possibility of fairness.

Lernen im Kontext

#generativeAI

Synonym für Few-Shot-Prompting.

unabhängig und identisch verteilt (i.i.d.)

#fundamentals

Daten aus einer unveränderlichen Verteilung, bei der jeder gezogene Wert unabhängig von zuvor gezogenen Werten ist. Eine i.i.d. ist das ideale Gas des maschinellen Lernens – ein nützliches mathematisches Konstrukt, das in der realen Welt jedoch fast nie genau zu finden ist. So kann die Verteilung der Besucher einer Webseite beispielsweise über einen kurzen Zeitraum hinweg unabhängig und identisch verteilt sein. Das bedeutet, dass sich die Verteilung in diesem kurzen Zeitraum nicht ändert und der Besuch einer Person im Allgemeinen unabhängig vom Besuch einer anderen Person ist. Wenn Sie diesen Zeitraum jedoch erweitern, können saisonale Unterschiede bei den Besuchern der Webseite auftreten.

Siehe auch Nichtstationarität.

Individuelle Fairness

#responsible

#Messwert

Ein Fairness-Messwert, der prüft, ob ähnliche Personen ähnlich klassifiziert werden. Die Brobdingnagian Academy möchte beispielsweise die individuelle Fairness gewährleisten, indem sie dafür sorgt, dass zwei Schüler mit identischen Noten und standardisierten Testergebnissen die gleiche Wahrscheinlichkeit haben, zugelassen zu werden.

Die individuelle Fairness hängt ganz davon ab, wie Sie „Ähnlichkeit“ definieren (in diesem Fall Noten und Testergebnisse). Es besteht das Risiko, dass neue Fairnessprobleme entstehen, wenn Ihr Ähnlichkeitsmesswert wichtige Informationen (z. B. die Strenge des Lehrplans eines Schülers) nicht berücksichtigt.

Eine detailliertere Erläuterung von individueller Fairness finden Sie unter Fairness Through Awareness.

Inferenz

#fundamentals

#generativeAI

Beim herkömmlichen maschinellen Lernen ist das der Prozess, bei dem Vorhersagen getroffen werden, indem ein trainiertes Modell auf Beispiele ohne Label angewendet wird. Weitere Informationen finden Sie im Kurs „Einführung in ML“ unter Supervised Learning.

Bei Large Language Models ist die Inferenz der Prozess, bei dem ein trainiertes Modell verwendet wird, um eine Antwort auf einen Prompt zu generieren.

In der Statistik hat der Begriff „Inferenz“ eine etwas andere Bedeutung. Weitere Informationen finden Sie im Wikipedia-Artikel zur statistischen Inferenz.

Inferenzpfad

#df

In einem Entscheidungsbaum wird während der Inferenz der Pfad eines bestimmten Beispiels vom Stamm zu anderen Bedingungen verfolgt, bis er in einem Blatt endet. Im folgenden Entscheidungsbaum zeigen die dickeren Pfeile beispielsweise den Inferenzpfad für ein Beispiel mit den folgenden Feature-Werten:

x = 7
y = 12
z = -3

Der Inferenzpfad in der folgenden Abbildung durchläuft drei Bedingungen, bevor er das Blatt (Zeta) erreicht.

Ein Entscheidungsbaum mit vier Bedingungen und fünf Blättern.
Die Stammbedingung ist (x > 0). Da die Antwort „Ja“ lautet, verläuft der Inferenzpfad von der Wurzel zur nächsten Bedingung (y > 0).
Da die Antwort „Ja“ ist, wird der Inferenzpfad zur nächsten Bedingung (z > 0) weitergeleitet. Da die Antwort „Nein“ lautet, wird der Inferenzpfad zum Endknoten (Zeta) weitergeleitet.

Die drei dicken Pfeile zeigen den Inferenzpfad.

Weitere Informationen finden Sie im Kurs „Entscheidungsbäume“ unter Entscheidungsbäume.

Informationsgewinn

#df

#Messwert

In Entscheidungsbäumen ist das die Differenz zwischen der Entropie eines Knotens und der gewichteten (nach Anzahl der Beispiele) Summe der Entropie seiner untergeordneten Knoten. Die Entropie eines Knotens ist die Entropie der Beispiele in diesem Knoten.

Sehen wir uns zum Beispiel die folgenden Entropiewerte an:

Entropie des übergeordneten Knotens = 0,6
Entropie eines untergeordneten Knotens mit 16 relevanten Beispielen = 0,2
Entropie eines anderen untergeordneten Knotens mit 24 relevanten Beispielen = 0,1

40% der Beispiele befinden sich also in einem untergeordneten Knoten und 60% im anderen. Beispiele:

Gewichtete Entropiesumme der untergeordneten Knoten = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Der Informationsgewinn ist also:

Information Gain = Entropie des übergeordneten Knotens – gewichtete Entropiesumme der untergeordneten Knoten
Information Gain = 0,6 – 0,14 = 0,46

Die meisten Splitter versuchen, Bedingungen zu erstellen, die den Informationsgewinn maximieren.

Gruppenintern

#responsible

Bevorzugung der eigenen Gruppe oder der eigenen Merkmale. Wenn Tester oder Bewerter aus Freunden, Familienmitgliedern oder Kollegen des Entwicklers für maschinelles Lernen bestehen, kann eine Ingroup-Verzerrung Produkttests oder den Datensatz ungültig machen.

Der In-Group-Bias ist eine Form des Gruppenattributionsbias. Siehe auch Homogenitätsbias außerhalb der Gruppe.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Fairness: Types of bias.

Eingabegenerator

Ein Mechanismus, mit dem Daten in ein neuronales Netzwerk geladen werden.

Ein Eingabegenerator kann als Komponente betrachtet werden, die für die Verarbeitung von Rohdaten in Tensoren verantwortlich ist, die durchlaufen werden, um Batches für Training, Bewertung und Inferenz zu generieren.

Eingabelayer

#fundamentals

Die Ebene eines neuronalen Netzwerks, die den Merkmalsvektor enthält. Die Eingabeschicht stellt Beispiele für das Training oder die Inferenz bereit. Die Eingabeschicht im folgenden neuronalen Netzwerk besteht beispielsweise aus zwei Features:

Vier Ebenen: eine Eingabeebene, zwei verborgene Ebenen und eine Ausgabeebene.

Bedingung für die Gruppe

#df

In einem Entscheidungsbaum ist eine Bedingung, mit der geprüft wird, ob ein Element in einer Gruppe von Elementen vorhanden ist. Das Folgende ist beispielsweise eine Bedingung für die Anzeige in der Suchergebnisseite:

  house-style in [tudor, colonial, cape]

Wenn der Wert des Features „house-style“ während der Inferenz tudor, colonial oder cape ist, wird diese Bedingung als „Ja“ ausgewertet. Wenn der Wert des Features „Hausstil“ etwas anderes ist (z. B. ranch), wird diese Bedingung als „Nein“ ausgewertet.

In-Set-Bedingungen führen in der Regel zu effizienteren Entscheidungsbäumen als Bedingungen, mit denen One-Hot-codierte Merkmale getestet werden.

Instanz

Synonym für Beispiel.

Optimierung von Anweisungen

#generativeAI

Eine Form der Feinabstimmung, die die Fähigkeit eines generativen KI-Modells verbessert, Anweisungen zu befolgen. Beim Instruction Tuning wird ein Modell mit einer Reihe von Anweisungsprompts trainiert, die in der Regel eine Vielzahl von Aufgaben abdecken. Das resultierende, auf Anweisungen abgestimmte Modell generiert dann in der Regel nützliche Antworten auf Zero-Shot-Prompts für eine Vielzahl von Aufgaben.

Vergleichen und gegenüberstellen mit:

Parametereffiziente Abstimmung
Prompt-Optimierung

Interpretierbarkeit

#fundamentals

Die Fähigkeit, die Argumentation eines ML-Modells in für Menschen verständlicher Form zu erläutern oder zu präsentieren.

Die meisten linearen Regressionsmodelle sind beispielsweise sehr gut interpretierbar. Sie müssen sich lediglich die trainierten Gewichte für jedes Feature ansehen. Entscheidungsbäume sind außerdem sehr gut interpretierbar. Bei einigen Modellen ist jedoch eine komplexe Visualisierung erforderlich, um interpretierbar zu werden.

Mit dem Learning Interpretability Tool (LIT) können Sie ML-Modelle interpretieren.

Übereinstimmung zwischen Ratern

#Messwert

Ein Maß dafür, wie oft menschliche Bewerter bei der Bearbeitung einer Aufgabe übereinstimmen. Wenn sich die Rater nicht einig sind, müssen die Aufgabenanweisungen möglicherweise verbessert werden. Wird auch als Übereinstimmung zwischen Annotatoren oder Interrater-Reliabilität bezeichnet. Siehe auch Cohens Kappa, eine der beliebtesten Messungen der Interrater-Übereinstimmung.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Kategorische Daten: Häufige Probleme.

Intersection over Union (IoU)

Der Schnittpunkt zweier Mengen geteilt durch ihre Vereinigung. Bei Aufgaben zur Bilderkennung mit maschinellem Lernen wird IoU verwendet, um die Genauigkeit des vom Modell vorhergesagten Begrenzungsrahmens im Vergleich zum Ground-Truth-Begrenzungsrahmen zu messen. In diesem Fall ist der IoU-Wert für die beiden Rahmen das Verhältnis zwischen dem Überschneidungsbereich und dem Gesamtbereich. Der Wert reicht von 0 (keine Überschneidung von vorhergesagtem Begrenzungsrahmen und Ground-Truth-Begrenzungsrahmen) bis 1 (vorhergesagter Begrenzungsrahmen und Ground-Truth-Begrenzungsrahmen haben genau dieselben Koordinaten).

Im Bild unten gilt beispielsweise:

Der vorhergesagte Begrenzungsrahmen (die Koordinaten, die die Position des Nachttischs im Gemälde eingrenzen) ist lila umrandet.
Der Ground-Truth-Begrenzungsrahmen (die Koordinaten, die die tatsächliche Position des Nachttischs im Gemälde eingrenzen) ist grün umrandet.

Hier ist die Überschneidung der Begrenzungsrahmen für Vorhersage und Ground Truth (unten links) 1 und die Vereinigung der Begrenzungsrahmen für Vorhersage und Ground Truth (unten rechts) 7. Der IoU-Wert ist also $\frac{1}{7}$.

Gleiches Bild wie oben, aber jeder Begrenzungsrahmen ist in vier Quadranten unterteilt. Es gibt insgesamt sieben Quadranten, da sich der untere rechte Quadrant des Ground-Truth-Begrenzungsrahmens und der obere linke Quadrant des vorhergesagten Begrenzungsrahmens überschneiden. Dieser überlappende Abschnitt (grün hervorgehoben) stellt die Schnittmenge dar und hat eine Fläche von 1.

IoU

Abkürzung für Intersection over Union (Schnittmenge über Vereinigung).

Artikelmatrix

In Empfehlungssystemen wird eine Matrix von Einbettungsvektoren verwendet, die durch Matrixfaktorisierung generiert werden und latente Signale zu jedem Element enthalten. Jede Zeile der Artikelmatrix enthält den Wert eines einzelnen latenten Merkmals für alle Artikel. Nehmen wir als Beispiel ein System zur Empfehlung von Filmen. Jede Spalte in der Artikelmatrix steht für einen einzelnen Film. Die latenten Signale können Genres darstellen oder schwerer zu interpretierende Signale sein, die komplexe Interaktionen zwischen Genre, Stars, Filmalter oder anderen Faktoren beinhalten.

Die Artikelmatrix hat dieselbe Anzahl von Spalten wie die Zielmatrix, die faktorisiert wird. Bei einem Filmempfehlungssystem, das 10.000 Filmtitel bewertet, hat die Artikelmatrix beispielsweise 10.000 Spalten.

Elemente

In einem Empfehlungssystem sind das die Entitäten, die von einem System empfohlen werden. Beispielsweise sind Videos die Artikel, die ein Videoverleih empfiehlt, während Bücher die Artikel sind, die eine Buchhandlung empfiehlt.

Iteration

#fundamentals

Eine einzelne Aktualisierung der Parameter eines Modells – der Gewichtungen und Biasse des Modells – während des Trainings. Die Batchgröße bestimmt, wie viele Beispiele das Modell in einer einzelnen Iteration verarbeitet. Wenn die Batchgröße beispielsweise 20 ist, verarbeitet das Modell 20 Beispiele, bevor die Parameter angepasst werden.

Beim Trainieren eines neuronalen Netzwerks umfasst eine einzelne Iteration die folgenden beiden Durchläufe:

Ein Forward-Pass zur Berechnung des Verlusts für einen einzelnen Batch.
Ein Backward-Pass (Backpropagation), um die Parameter des Modells basierend auf dem Verlust und der Lernrate anzupassen.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Gradient Descent.

J

JAX

Eine Array-Computing-Bibliothek, die XLA (Accelerated Linear Algebra) und automatische Differenzierung für leistungsstarkes numerisches Computing vereint. JAX bietet eine einfache und leistungsstarke API zum Schreiben von beschleunigtem numerischen Code mit zusammensetzbaren Transformationen. JAX bietet unter anderem folgende Funktionen:

grad (automatische Differenzierung)
jit (Just-in-time-Kompilierung)
vmap (automatische Vektorisierung oder Batching)
pmap (Parallelisierung)

JAX ist eine Sprache zum Ausdrücken und Zusammensetzen von Transformationen von numerischem Code, die analog zur NumPy-Bibliothek von Python ist, aber einen viel größeren Umfang hat. Tatsächlich ist die .numpy-Bibliothek unter JAX eine funktional gleichwertige, aber vollständig neu geschriebene Version der Python-NumPy-Bibliothek.

JAX eignet sich besonders gut, um viele Aufgaben im Bereich des maschinellen Lernens zu beschleunigen, indem die Modelle und Daten in eine Form umgewandelt werden, die sich für die Parallelisierung auf GPU- und TPU-Beschleunigerchips eignet.

Flax, Optax, Pax und viele andere Bibliotheken basieren auf der JAX-Infrastruktur.

K

Keras

Eine beliebte Python-API für maschinelles Lernen. Keras kann in verschiedenen Deep-Learning-Frameworks ausgeführt werden, darunter TensorFlow, wo es als tf.keras verfügbar ist.

Kernel Support Vector Machines (KSVMs)

Ein Klassifikationsalgorithmus, mit dem der Abstand zwischen positiven und negativen Klassen maximiert werden soll, indem Eingabedatenvektoren einem höherdimensionalen Raum zugeordnet werden. Stellen Sie sich beispielsweise ein Klassifizierungsproblem vor, bei dem das Eingabedataset 100 Features hat. Um den Abstand zwischen positiven und negativen Klassen zu maximieren, kann ein KSVM diese Merkmale intern in einen Raum mit einer Million Dimensionen abbilden. KSVMs verwenden eine Verlustfunktion namens Hinge-Verlust.

Schlüsselpunkte

Die Koordinaten bestimmter Merkmale in einem Bild. Bei einem Bilderkennungsmodell, das verschiedene Blumenarten unterscheidet, könnten die Schlüsselpunkte beispielsweise die Mitte jedes Blütenblatts, der Stängel und die Staubblätter sein.

k-fache Kreuzvalidierung

Ein Algorithmus zur Vorhersage der Fähigkeit eines Modells, auf neue Daten zu generalisieren. Das k in k-fold bezieht sich auf die Anzahl der gleich großen Gruppen, in die Sie die Beispiele eines Datasets aufteilen. Sie trainieren und testen Ihr Modell also k-mal. Für jede Trainings- und Testrunde ist eine andere Gruppe der Testsatz und alle verbleibenden Gruppen werden zum Trainingssatz. Nach k Runden des Trainings und Testens berechnen Sie den Mittelwert und die Standardabweichung der ausgewählten Testmesswerte.

Angenommen, Ihr Dataset besteht aus 120 Beispielen. Angenommen, Sie legen k auf 4 fest. Daher teilen Sie das Dataset nach dem Mischen der Beispiele in vier gleich große Gruppen mit 30 Beispielen auf und führen vier Trainings- und Testrunden durch:

Für ein lineares Regressionsmodell ist beispielsweise der mittlere quadratische Fehler (Mean Squared Error, MSE) möglicherweise der aussagekräftigste Messwert. Daher würden Sie den Mittelwert und die Standardabweichung des MSE für alle vier Runden berechnen.

k-Means

#clustering

Ein beliebter Clustering-Algorithmus, mit dem Beispiele beim unbeaufsichtigten Lernen gruppiert werden. Der k-Means-Algorithmus führt im Grunde Folgendes aus:

Bestimmt iterativ die besten k Mittelpunkte (Schwerpunkte).
Weist jedes Beispiel dem nächstgelegenen Schwerpunkt zu. Die Beispiele, die dem gleichen Schwerpunkt am nächsten sind, gehören zur selben Gruppe.

Der k-Means-Algorithmus wählt Schwerpunktpositionen aus, um die kumulative quadratische Distanz jedes Beispiels zum nächstgelegenen Schwerpunkt zu minimieren.

Sehen Sie sich beispielsweise das folgende Diagramm mit der Höhe und Breite von Hunden an:

Ein kartesisches Diagramm mit mehreren Dutzend Datenpunkten.

Wenn k=3 ist, bestimmt der k-Means-Algorithmus drei Schwerpunkte. Jedes Beispiel wird dem nächstgelegenen Schwerpunkt zugewiesen. So entstehen drei Gruppen:

Dasselbe kartesische Diagramm wie in der vorherigen Abbildung, jedoch mit drei zusätzlichen Schwerpunkten.
Die vorherigen Datenpunkte werden in drei verschiedene Gruppen geclustert. Jede Gruppe repräsentiert die Datenpunkte, die einem bestimmten Schwerpunkt am nächsten liegen.

Angenommen, ein Hersteller möchte die idealen Größen für kleine, mittlere und große Pullover für Hunde ermitteln. Die drei Schwerpunkte geben die durchschnittliche Höhe und Breite der einzelnen Hunde in diesem Cluster an. Der Hersteller sollte die Pullovergrößen also wahrscheinlich auf diesen drei Zentroiden basieren. Der Schwerpunkt eines Clusters ist in der Regel kein Beispiel im Cluster.

Die vorherigen Abbildungen zeigen k-Means für Beispiele mit nur zwei Features (Höhe und Breite). Mit k-Means können Beispiele anhand vieler Features gruppiert werden.

Weitere Informationen finden Sie im Kurs „Clustering“ unter Was ist K-Means-Clustering?.

k-Median

#clustering

Ein Clustering-Algorithmus, der eng mit k-Means verwandt ist. Der praktische Unterschied zwischen den beiden ist folgender:

Bei k-Means werden Schwerpunkte durch Minimieren der Summe der Quadrate des Abstands zwischen einem Schwerpunktkandidaten und den einzelnen Beispielen bestimmt.
Bei k-Median werden Schwerpunkte ermittelt, indem die Summe der Distanz zwischen einem Schwerpunktkandidaten und den einzelnen Beispielen minimiert wird.

Beachten Sie, dass sich auch die Definitionen von Distanz unterscheiden:

k-Means basiert auf dem euklidischen Abstand vom Schwerpunkt zu einem Beispiel. In zwei Dimensionen wird die euklidische Distanz mit dem Satz des Pythagoras berechnet. Der k-Means-Abstand zwischen (2,2) und (5,-2) wäre beispielsweise:

$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$

k-Median basiert auf der Manhattan-Distanz vom Schwerpunkt zu einem Beispiel. Diese Distanz ist die Summe der absoluten Deltas in jeder Dimension. Der k-Median-Abstand zwischen (2,2) und (5,-2) wäre beispielsweise:

$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

L

L₀-Regularisierung

#fundamentals

Eine Art der Regularisierung, bei der die Gesamtzahl der Gewichtungen in einem Modell, die nicht null sind, bestraft wird. Ein Modell mit 11 Gewichten ungleich null wird beispielsweise stärker bestraft als ein ähnliches Modell mit 10 Gewichten ungleich null.

Die L₀-Regularisierung wird manchmal auch als L0-Norm-Regularisierung bezeichnet.

Klicken Sie auf das Symbol, um zusätzliche Hinweise zu erhalten.

_{Die L₀-Regularisierung ist in großen Modellen in der Regel unpraktisch, da sie das Training in ein konvexes Optimierungsproblem verwandelt.}

L₁-Verlust

#fundamentals

#Messwert

Eine Verlustfunktion, die den absoluten Wert der Differenz zwischen den tatsächlichen Label-Werten und den Werten berechnet, die ein Modell vorhersagt. Hier ist beispielsweise die Berechnung des L₁-Verlusts für einen Batch mit fünf Beispielen:

Tatsächlicher Wert des Beispiels	Vom Modell prognostizierter Wert	Absoluter Wert des Deltas
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
		8 = L₁-Verlust

Der _{L₁-Verlust reagiert weniger empfindlich auf Ausreißer als der L2}-Verlust.

Der mittlere absolute Fehler ist der durchschnittliche L₁-Verlust pro Beispiel.

Klicken Sie auf das Symbol, um die formale Mathematik zu sehen.

$$ L_1 loss = \sum_{i=0}^n | y_i - \hat{y}_i |$$

Dabei gilt:

$n$ ist die Anzahl der Beispiele.
$y$ ist der tatsächliche Wert des Labels.
$\hat{y}$ ist der Wert, den das Modell für $y$ vorhersagt.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Lineare Regression: Verlust.

L₁-Regularisierung

#fundamentals

Eine Art der Regularisierung, bei der Gewichtungen proportional zur Summe der absoluten Werte der Gewichtungen bestraft werden. Die L₁-Regularisierung trägt dazu bei, die Gewichte irrelevanter oder kaum relevanter Features auf genau 0 zu setzen. Eine Funktion mit einem Gewicht von 0 wird effektiv aus dem Modell entfernt.

Kontrast zur L₂-Regularisierung.

L₂-Verlust

#fundamentals

#Messwert

Eine Verlustfunktion, die das Quadrat der Differenz zwischen den tatsächlichen Label-Werten und den Werten berechnet, die ein Modell vorhersagt. Hier ist beispielsweise die Berechnung des L₂-Verlusts für einen Batch mit fünf Beispielen:

Tatsächlicher Wert des Beispiels	Vom Modell prognostizierter Wert	Quadrat des Delta
7	6	1
5	4	1
8	11	9
4	6	4
9	8	1
		16 = L₂-Verlust

Durch die Quadrierung verstärkt der L₂-Verlust den Einfluss von Ausreißern. Das bedeutet, dass der L₂-Verlust stärker auf schlechte Vorhersagen reagiert als der L₁-Verlust. Der L₁-Verlust für den vorherigen Batch wäre beispielsweise 8 statt 16. Ein einzelner Ausreißer macht 9 der 16 Werte aus.

In Regressionsmodellen wird in der Regel der L₂-Verlust als Verlustfunktion verwendet.

Der mittlere quadratische Fehler ist der durchschnittliche L₂-Verlust pro Beispiel. Quadratischer Verlust ist ein anderer Name für den L₂-Verlust.

Klicken Sie auf das Symbol, um die formale Mathematik zu sehen.

$$ L_2 loss = \sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$

Dabei gilt:

$n$ ist die Anzahl der Beispiele.
$y$ ist der tatsächliche Wert des Labels.
$\hat{y}$ ist der Wert, den das Modell für $y$ vorhersagt.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Logistische Regression: Verlust und Regularisierung.

L₂-Regularisierung

#fundamentals

Eine Art der Regularisierung, bei der Gewichtungen proportional zur Summe der Quadrate der Gewichtungen bestraft werden. Die L₂-Regularisierung trägt dazu bei, Ausreißergewichte (mit hohen positiven oder niedrigen negativen Werten) näher an 0 heranzuführen, aber nicht ganz auf 0 zu setzen. Features mit Werten, die sehr nahe an 0 liegen, bleiben im Modell, haben aber nur einen geringen Einfluss auf die Vorhersage des Modells.

Die L₂-Regularisierung verbessert immer die Generalisierung in linearen Modellen.

Kontrast zur L₁-Regularisierung.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Overfitting: L2 regularization.

Label

#fundamentals

Im überwachten maschinellen Lernen ist das der „Antwort“- oder „Ergebnis“-Teil eines Beispiels.

Jedes beispielhafte Element mit Label besteht aus einem oder mehreren Features und einem Label. In einem Dataset zur Spamerkennung wäre das Label beispielsweise wahrscheinlich entweder „Spam“ oder „Kein Spam“. In einem Dataset zu Niederschlagsmengen könnte das Label die Menge an Regen sein, die in einem bestimmten Zeitraum gefallen ist.

Weitere Informationen finden Sie unter Supervised Learning in Introduction to Machine Learning.

Beispiel mit Label

#fundamentals

Ein Beispiel, das ein oder mehrere Merkmale und ein Label enthält. In der folgenden Tabelle sind beispielsweise drei gelabelte Beispiele aus einem Modell zur Hausbewertung aufgeführt, die jeweils drei Features und ein Label enthalten:

Anzahl der Schlafzimmer	Anzahl der Badezimmer	Alter des Hauses	Hauspreis (Label)
3	2	15	345.000 $
2	1	72	179.000 $
4	2	34	392.000 $

Beim überwachten maschinellen Lernen> werden Modelle mit gelabelten Beispielen trainiert und Vorhersagen für nicht gelabelte Beispiele getroffen.

Stellen Sie ein gelabeltes Beispiel nicht gelabelten Beispielen gegenüber.

Weitere Informationen finden Sie unter Supervised Learning in Introduction to Machine Learning.

Label-Leakage

Ein Modellkonstruktionsfehler, bei dem ein Feature als Proxy für das Label verwendet wird. Nehmen wir beispielsweise ein binäres Klassifizierungsmodell an, das vorhersagt, ob ein potenzieller Kunde ein bestimmtes Produkt kaufen wird oder nicht. Angenommen, eines der Features für das Modell ist ein boolescher Wert mit dem Namen SpokeToCustomerAgent. Angenommen, einem potenziellen Kunden wird erst nach dem Kauf des Produkts ein Kundenservicemitarbeiter zugewiesen. Während des Trainings lernt das Modell schnell die Beziehung zwischen SpokeToCustomerAgent und dem Label.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Pipelines überwachen.

Lambda

#fundamentals

Synonym für Regularisierungsrate.

Lambda ist ein überlasteter Begriff. Hier konzentrieren wir uns auf die Definition des Begriffs im Kontext von Regularisierung.

LaMDA (Language Model for Dialogue Applications)

Ein auf Transformer basierendes Large Language Model, das von Google entwickelt und mit einem großen Dialog-Dataset trainiert wurde und realistische Antworten generieren kann.

LaMDA: our breakthrough conversation technology bietet einen Überblick.

landmarks

Synonym für keypoints.

Language Model

Ein Modell, das die Wahrscheinlichkeit des Auftretens eines Tokens oder einer Folge von Tokens in einer längeren Folge von Tokens schätzt.

Klicken Sie auf das Symbol, um zusätzliche Hinweise zu erhalten.

Auch wenn es kontraintuitiv erscheint, sind viele Modelle, die Text bewerten, keine Sprachmodelle. Textklassifizierungsmodelle und Sentimentanalysemodelle sind beispielsweise keine Sprachmodelle.

Weitere Informationen finden Sie im Machine Learning Crash Course unter What is a language model?.

Large Language Model

#generativeAI

Mindestens ein Sprachmodell mit einer sehr hohen Anzahl von Parametern. Informeller ausgedrückt: jedes auf einem Transformer basierende Sprachmodell, z. B. Gemini oder GPT.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Large Language Models (LLMs).

Latenz

#generativeAI

Die Zeit, die ein Modell benötigt, um Eingaben zu verarbeiten und eine Antwort zu generieren. Die Generierung einer Antwort mit hoher Latenz dauert länger als die Generierung einer Antwort mit niedriger Latenz.

Faktoren, die die Latenz von Large Language Models beeinflussen:

Längen von Eingabe- und Ausgabe-Tokens
Modellkomplexität
Die Infrastruktur, auf der das Modell ausgeführt wird

Die Optimierung für Latenz ist entscheidend für die Entwicklung reaktionsschneller und nutzerfreundlicher Anwendungen.

Latenter Bereich

Synonym für Einbettungsbereich.

Layer

#fundamentals

Eine Gruppe von Neuronen in einem neuronalen Netzwerk. Im Folgenden sind drei gängige Arten von Layern aufgeführt:

Die Eingabeschicht, die Werte für alle Features bereitstellt.
Eine oder mehrere verborgene Schichten, die nicht lineare Beziehungen zwischen den Features und dem Label finden.
Die Ausgabeschicht, die die Vorhersage liefert.

Die folgende Abbildung zeigt beispielsweise ein neuronales Netzwerk mit einer Eingabeschicht, zwei verborgenen Schichten und einer Ausgabeschicht:

Ein neuronales Netzwerk mit einer Eingabe-, zwei verborgenen und einer Ausgabeschicht. Die Eingabeschicht besteht aus zwei Features. Die erste verborgene Schicht besteht aus drei Neuronen und die zweite verborgene Schicht aus zwei Neuronen. Die Ausgabeschicht besteht aus einem einzelnen Knoten.

In TensorFlow sind Ebenen auch Python-Funktionen, die Tensoren und Konfigurationsoptionen als Eingabe verwenden und andere Tensoren als Ausgabe erzeugen.

Layers API (tf.layers)

#TensorFlow

Eine TensorFlow-API zum Erstellen eines tiefen neuronalen Netzwerks als Zusammensetzung von Layern. Mit der Layers API können Sie verschiedene Arten von Layern erstellen, z. B.:

tf.layers.Dense für eine vollständig verbundene Ebene.
tf.layers.Conv2D für eine Faltungsebene.

Die Layers API folgt den API-Konventionen für Keras-Ebenen. Abgesehen von einem anderen Präfix haben alle Funktionen in der Layers API dieselben Namen und Signaturen wie ihre Pendants in der Keras Layers API.

Blatt

#df

Jeder Endpunkt in einem Entscheidungsbaum. Im Gegensatz zu einer Bedingung wird bei einem Blatt kein Test durchgeführt. Vielmehr ist ein Blatt eine mögliche Vorhersage. Ein Blatt ist auch der Endknoten eines Inferenzpfads.

Der folgende Entscheidungsbaum enthält beispielsweise drei Blätter:

Ein Entscheidungsbaum mit zwei Bedingungen, die zu drei Blättern führen.

Weitere Informationen finden Sie im Kurs „Entscheidungsbäume“ unter Entscheidungsbäume.

Learning Interpretability Tool (LIT)

Ein visuelles, interaktives Tool zur Modellanalyse und Datenvisualisierung.

Sie können LIT (Language Interpretability Tool) mit Open-Source-Lizenz verwenden, um Modelle zu interpretieren oder Text-, Bild- und Tabellendaten zu visualisieren.

Lernrate

#fundamentals

Eine Gleitkommazahl, die dem Gradientenabstiegsalgorithmus angibt, wie stark Gewichte und Bias bei jeder Iteration angepasst werden sollen. Eine Lernrate von 0,3 würde beispielsweise die Gewichte und Bias dreimal stärker anpassen als eine Lernrate von 0,1.

Die Lernrate ist ein wichtiger Hyperparameter. Wenn Sie die Lernrate zu niedrig festlegen, dauert das Training zu lange. Wenn Sie die Lernrate zu hoch einstellen, hat der Gradientenabstieg oft Schwierigkeiten, Konvergenz zu erreichen.

Klicken Sie auf das Symbol, um eine mathematischere Erklärung zu erhalten.

Bei jedem Durchlauf multipliziert der Algorithmus Gradient Descent die Lernrate mit dem Gradienten. Das resultierende Produkt wird als Gradientenschritt bezeichnet.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Lineare Regression: Hyperparameter.

Regression der kleinsten Quadrate

Ein lineares Regressionsmodell, das durch Minimieren des L₂-Verlusts trainiert wurde.

Levenshtein-Distanz

#metric

Ein Messwert für die Bearbeitungsdistanz, mit dem die geringste Anzahl an Lösch-, Einfüge- und Ersetzungsvorgängen berechnet wird, die erforderlich sind, um ein Wort in ein anderes zu ändern. Die Levenshtein-Distanz zwischen den Wörtern „heart“ und „darts“ beträgt beispielsweise drei, da die folgenden drei Änderungen die geringste Anzahl an Änderungen sind, um ein Wort in das andere zu verwandeln:

heart → deart (ersetze „h“ durch „d“)
deart → dart (Löschen von „e“)
dart → darts (füge „s“ ein)

Beachten Sie, dass die oben genannte Sequenz nicht die einzige Möglichkeit für drei Änderungen ist.

Linear

#fundamentals

Eine Beziehung zwischen zwei oder mehr Variablen, die ausschließlich durch Addition und Multiplikation dargestellt werden kann.

Die Darstellung einer linearen Beziehung ist eine Linie.

Im Gegensatz dazu steht die nicht lineare.

Lineares Modell

#fundamentals

Ein Modell, das jedem Feature eine Gewichtung zuweist, um Vorhersagen zu treffen. Lineare Modelle enthalten auch einen Bias. Im Gegensatz dazu ist die Beziehung von Features zu Vorhersagen in Deep-Learning-Modellen in der Regel nicht linear.

Lineare Modelle sind in der Regel einfacher zu trainieren und besser interpretierbar als Deep-Learning-Modelle. Mit Deep-Learning-Modellen lassen sich jedoch komplexe Beziehungen zwischen Features erkennen.

Lineare Regression und logistische Regression sind zwei Arten von linearen Modellen.

Klicken Sie auf das Symbol, um die Berechnung zu sehen.

Ein lineares Modell folgt dieser Formel:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Dabei gilt:

y' ist die Rohvorhersage. Bei bestimmten Arten von linearen Modellen wird diese Rohvorhersage weiter modifiziert. Ein Beispiel finden Sie unter Logistische Regression.
b ist der Bias.
„w“ ist eine Gewichtung. „w₁“ ist also die Gewichtung des ersten Features, „w₂“ die des zweiten usw.
x ist ein Feature. x₁ ist also der Wert des ersten Features, x₂ der Wert des zweiten Features usw.

Angenommen, ein lineares Modell für drei Merkmale lernt die folgenden Bias- und Gewichtungswerte:

b = 7
w₁ = -2,5
w₂ = -1.2
w₃ = 1,4

Bei drei Features (x₁, x₂ und x₃) wird für jede Vorhersage die folgende Gleichung verwendet:

y' = 7 + (-2.5)(x₁) + (-1.2)(x₂) + (1.4)(x₃)

Angenommen, ein bestimmtes Beispiel enthält die folgenden Werte:

x₁ = 4
x₂ = -10
x₃ = 5

Wenn wir diese Werte in die Formel einsetzen, erhalten wir eine Vorhersage für dieses Beispiel:

y' = 7 + (-2.5)(4) + (-1.2)(-10) + (1.4)(5)
y' = 16

Lineare Modelle umfassen nicht nur Modelle, die nur eine lineare Gleichung für Vorhersagen verwenden, sondern auch eine größere Gruppe von Modellen, die eine lineare Gleichung als nur eine Komponente der Formel verwenden, mit der Vorhersagen getroffen werden. Bei der logistischen Regression wird die Rohvorhersage (y') beispielsweise nachbearbeitet, um einen endgültigen Vorhersagewert zwischen 0 und 1 zu erhalten.

lineare Regression

#fundamentals

Ein Typ von Machine-Learning-Modell, bei dem beides zutrifft:

Das Modell ist ein lineares Modell.
Die Vorhersage ist ein Gleitkommawert. (Dies ist der Regressions-Teil der linearen Regression.)

Stellen Sie die lineare Regression der logistischen Regression gegenüber. Stellen Sie die Kontrastregression der Klassifizierung gegenüber.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Lineare Regression.

LIT

Abkürzung für das Learning Interpretability Tool (LIT), das früher als Language Interpretability Tool bezeichnet wurde.

LLM

#generativeAI

Abkürzung für Large Language Model.

LLM-Bewertungen

#generativeAI

#Messwert

Eine Reihe von Messwerten und Benchmarks zur Bewertung der Leistung von Large Language Models (LLMs). Auf hoher Ebene:

Forschern helfen, Bereiche zu identifizieren, in denen LLMs verbessert werden müssen.
Sie sind nützlich, um verschiedene LLMs zu vergleichen und das beste LLM für eine bestimmte Aufgabe zu ermitteln.
Dazu beitragen, dass LLMs sicher und ethisch vertretbar sind.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Large Language Models (LLMs).

logistische Regression

#fundamentals

Ein Typ von Regressionsmodell, mit dem eine Wahrscheinlichkeit vorhergesagt wird. Logistische Regressionsmodelle haben die folgenden Merkmale:

Das Label ist kategorial. Der Begriff „logistische Regression“ bezieht sich in der Regel auf die binäre logistische Regression, d. h. auf ein Modell, das Wahrscheinlichkeiten für Labels mit zwei möglichen Werten berechnet. Eine weniger häufige Variante, die multinominale logistische Regression, berechnet Wahrscheinlichkeiten für Labels mit mehr als zwei möglichen Werten.
Die Verlustfunktion während des Trainings ist Log Loss. (Mehrere Log Loss-Einheiten können parallel für Labels mit mehr als zwei möglichen Werten platziert werden.)
Das Modell hat eine lineare Architektur und kein neuronales Deep-Learning-Netzwerk. Der Rest dieser Definition gilt jedoch auch für Deep-Modelle, die Wahrscheinlichkeiten für kategorische Labels vorhersagen.

Nehmen wir beispielsweise ein logistisches Regressionsmodell, das die Wahrscheinlichkeit berechnet, dass eine eingegebene E‑Mail entweder Spam oder kein Spam ist. Angenommen, das Modell sagt während der Inferenz 0,72 voraus. Das Modell schätzt also Folgendes:

Die Wahrscheinlichkeit, dass die E‑Mail Spam ist, liegt bei 72 %.
Die Wahrscheinlichkeit, dass die E-Mail kein Spam ist, liegt bei 28 %.

Ein logistisches Regressionsmodell verwendet die folgende zweistufige Architektur:

Das Modell generiert eine Rohvorhersage (y') durch Anwenden einer linearen Funktion von Eingabefeatures.
Das Modell verwendet diese Rohvorhersage als Eingabe für eine Sigmoid-Funktion, die die Rohvorhersage in einen Wert zwischen 0 und 1 (ausschließlich) konvertiert.

Wie bei jedem Regressionsmodell wird auch bei einem logistischen Regressionsmodell eine Zahl vorhergesagt. Diese Zahl wird jedoch in der Regel wie folgt Teil eines binären Klassifizierungsmodells:

Wenn die vorhergesagte Zahl größer als der Klassifizierungsschwellenwert ist, sagt das binäre Klassifizierungsmodell die positive Klasse vorher.
Wenn die vorhergesagte Zahl kleiner als der Klassifizierungsschwellenwert ist, sagt das binäre Klassifizierungsmodell die negative Klasse vorher.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Logistische Regression.

Logits

Der Vektor der Rohvorhersagen (nicht normalisiert), die von einem Klassifizierungsmodell generiert werden und normalerweise an eine Normalisierungsfunktion übergeben werden. Wenn das Modell ein Klassifizierungsproblem mit mehreren Klassen löst, werden Logits in der Regel als Eingabe für die Softmax-Funktion verwendet. Die Softmax-Funktion generiert dann einen Vektor mit (normalisierten) Wahrscheinlichkeiten mit einem Wert für jede mögliche Klasse.

Logarithmischer Verlust

#fundamentals

Die Verlustfunktion, die in der binären logistischen Regression verwendet wird.

Klicken Sie auf das Symbol, um die Berechnung zu sehen.

Der Log-Loss wird mit der folgenden Formel berechnet:

$$\text{Log Loss} = \sum_{(x,y)\in D} -y\log(y') - (1 - y)\log(1 - y')$$

Dabei gilt:

$(x,y)\in D$ ist das Dataset, das viele mit Labels versehene Beispiele enthält, die $(x,y)$ Paare sind.
$y$ ist das Label in einem gelabelten Beispiel. Da es sich um eine logistische Regression handelt, muss jeder Wert von $y$ entweder 0 oder 1 sein.
$y'$ ist der vorhergesagte Wert (zwischen 0 und 1, exklusiv), basierend auf den Features in $x$.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Logistische Regression: Verlust und Regularisierung.

Log-Odds

#fundamentals

Der Logarithmus der Chance eines Ereignisses.

Klicken Sie auf das Symbol, um die Berechnung zu sehen.

Wenn das Ereignis eine binäre Wahrscheinlichkeit ist, bezieht sich Odds auf das Verhältnis der Erfolgswahrscheinlichkeit (p) zur Wahrscheinlichkeit des Scheiterns (1–p). Angenommen, ein bestimmtes Ereignis hat eine Erfolgswahrscheinlichkeit von 90 % und eine Fehlerwahrscheinlichkeit von 10 %. In diesem Fall werden die Chancen so berechnet:

$$ {\text{odds}} = \frac{\text{p}} {\text{(1-p)}} = \frac{.9} {.1} = {\text{9}} $$

Der Logit ist einfach der Logarithmus der Chance. Konventionell bezieht sich „Logarithmus“ auf den natürlichen Logarithmus, aber der Logarithmus könnte tatsächlich jede Basis größer als 1 haben. Gemäß der Konvention lautet der Logit unseres Beispiels daher:

$$ {\text{log-odds}} = ln(9) ~= 2.2 $$

Die Logit-Funktion ist die Umkehrfunktion der Sigmoidfunktion.

Long Short-Term Memory (LSTM)

Eine Art von Zelle in einem rekurrenten neuronalen Netzwerk, die zum Verarbeiten von Datenfolgen in Anwendungen wie der Handschrifterkennung, der maschinellen Übersetzung und der Bildunterschrift verwendet wird. LSTMs lösen das Problem des verschwindenden Gradienten, das beim Trainieren von RNNs aufgrund langer Datenfolgen auftritt. Dazu wird der Verlauf in einem internen Speicherstatus auf Grundlage neuer Eingaben und des Kontexts aus vorherigen Zellen im RNN beibehalten.

LoRA

#generativeAI

Abkürzung für Low-Rank Adaptability (Anpassungsfähigkeit mit niedrigem Rang).

Verlust

#fundamentals

#Messwert

Beim Training eines überwachten Modells wird gemessen, wie weit die Vorhersage eines Modells von seinem Label abweicht.

Mit einer Verlustfunktion wird der Verlust berechnet.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Lineare Regression: Verlust.

Deinstallations-Aggregator

Eine Art von Algorithmus für maschinelles Lernen, der die Leistung eines Modells verbessert, indem die Vorhersagen mehrerer Modelle kombiniert und verwendet werden, um eine einzelne Vorhersage zu treffen. Ein Loss-Aggregator kann daher die Varianz der Vorhersagen verringern und die Genauigkeit der Vorhersagen verbessern.

Verlustkurve

#fundamentals

Ein Diagramm des Verlusts als Funktion der Anzahl der Trainingsiterationen. Das folgende Diagramm zeigt eine typische Verlustkurve:

Ein kartesisches Diagramm des Verlusts im Vergleich zu den Trainingsiterationen, das einen schnellen Rückgang des Verlusts für die ersten Iterationen, gefolgt von einem allmählichen Rückgang und dann einer flachen Steigung während der letzten Iterationen zeigt.

Anhand von Verlustkurven können Sie feststellen, wann Ihr Modell konvergiert oder überangepasst ist.

In Verlustkurven können alle folgenden Arten von Verlust dargestellt werden:

Trainingsverlust
Validierungsverlust
Testverlust

Siehe auch Verallgemeinerungskurve.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Overfitting: Interpreting loss curves.

Verlustfunktion

#fundamentals

#Messwert

Während des Trainings oder Tests wird eine mathematische Funktion verwendet, mit der der Verlust für einen Batch von Beispielen berechnet wird. Eine Verlustfunktion gibt einen niedrigeren Verlust für Modelle zurück, die gute Vorhersagen treffen, als für Modelle, die schlechte Vorhersagen treffen.

Das Ziel des Trainings besteht in der Regel darin, den Verlust zu minimieren, der von einer Verlustfunktion zurückgegeben wird.

Es gibt viele verschiedene Arten von Verlustfunktionen. Wählen Sie die geeignete Verlustfunktion für den Typ des Modells aus, das Sie erstellen. Beispiel:

L₂-Verlust (oder mittlerer quadratischer Fehler) ist die Verlustfunktion für die lineare Regression.
Logarithmischer Verlust ist die Verlustfunktion für die logistische Regression.

Verlustoberfläche

Ein Diagramm mit Gewicht(en) im Vergleich zum Verlust. Beim Gradientenabstieg wird versucht, die Gewichte zu finden, für die die Verlustoberfläche ein lokales Minimum erreicht.

Lost-in-the-Middle-Effekt

Die Tendenz von LLMs, Informationen vom Anfang und Ende eines langen Kontextfensters effektiver zu nutzen als Informationen aus der Mitte. Bei einem langen Kontext führt der Lost-in-the-Middle-Effekt zu einer Genauigkeit, die

Relativ hoch, wenn die relevanten Informationen für eine Antwort sich am Anfang oder am Ende des Kontexts befinden.
Relativ niedrig, wenn sich die relevanten Informationen für eine Antwort in der Mitte des Kontexts befinden.

Der Begriff stammt aus dem Artikel Lost in the Middle: How Language Models Use Long Contexts.

Low-Rank Adaptability (LoRA)

#generativeAI

Eine parametereffiziente Technik für die Feinabstimmung, bei der die vortrainierten Gewichte des Modells „eingefroren“ werden (sodass sie nicht mehr geändert werden können) und dann eine kleine Gruppe von trainierbaren Gewichten in das Modell eingefügt wird. Dieser Satz trainierbarer Gewichte (auch als „Aktualisierungsmatrizen“ bezeichnet) ist wesentlich kleiner als das Basismodell und lässt sich daher viel schneller trainieren.

LoRA bietet folgende Vorteile:

Verbessert die Qualität der Vorhersagen eines Modells für die Domain, in der das Fine-Tuning angewendet wird.
Die Feinabstimmung erfolgt schneller als bei Techniken, bei denen alle Parameter eines Modells feinabgestimmt werden müssen.
Reduziert die Berechnungskosten für die Inferenz, da mehrere spezialisierte Modelle, die dasselbe Basismodell verwenden, gleichzeitig bereitgestellt werden können.

Klicken Sie auf das Symbol, um mehr über Update-Matrixen in LoRA zu erfahren.

Die in LoRA verwendeten Aktualisierungsmatrizen bestehen aus Matrizen für die Rangzerlegung, die aus dem Basismodell abgeleitet werden, um Rauschen herauszufiltern und das Training auf die wichtigsten Funktionen des Modells zu konzentrieren.

LSTM

Abkürzung für Long Short-Term Memory.

M

Machine Learning

#fundamentals

Ein Programm oder System, das ein Modell mit Eingabedaten trainiert. Das trainierte Modell kann für (komplett) neue Daten nützliche Vorhersagen treffen, die aus derselben Verteilung stammen wie die Daten, die zum Trainieren des Modells verwendet wurden.

Machine Learning bezieht sich auch auf das Studienfach, das sich mit diesen Programmen oder Systemen befasst.

Weitere Informationen finden Sie im Kurs Einführung in maschinelles Lernen.

maschinelle Übersetzung

#generativeAI

Software (in der Regel ein Modell für maschinelles Lernen) wird verwendet, um Text von einer menschlichen Sprache in eine andere zu übersetzen, z. B. von Englisch ins Japanische.

Mehrheitsklasse

#fundamentals

Das häufigere Label in einem Dataset mit unausgewogenen Klassen. Wenn ein Dataset beispielsweise 99% negative Labels und 1% positive Labels enthält, sind die negativen Labels die Mehrheitsklasse.

Kontrast zur Minderheitsklasse.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Datasets: Imbalanced datasets.

Markov-Entscheidungsprozess (Markov Decision Process, MDP)

Ein Diagramm, das das Entscheidungsfindungsmodell darstellt, in dem Entscheidungen (oder Aktionen) getroffen werden, um eine Reihe von Zuständen zu durchlaufen, wobei davon ausgegangen wird, dass die Markov-Eigenschaft gilt. Beim bestärkenden Lernen wird für diese Übergänge zwischen Zuständen eine numerische Belohnung zurückgegeben.

Markov-Eigenschaft

Eine Eigenschaft bestimmter Umgebungen, in denen Zustandsübergänge vollständig durch Informationen bestimmt werden, die im aktuellen Zustand und in der Aktion des Agenten enthalten sind.

maskiertes Sprachmodell

Ein Sprachmodell, das die Wahrscheinlichkeit von Kandidaten-Tokens vorhersagt, um Lücken in einer Sequenz zu füllen. Ein maskiertes Sprachmodell kann beispielsweise Wahrscheinlichkeiten für Kandidatenwörter berechnen, um die Unterstreichung im folgenden Satz zu ersetzen:

Die ____ im Hut ist zurück.

In der Literatur wird in der Regel der String „MASK“ anstelle eines Unterstrichs verwendet. Beispiel:

Die „MASK“ im Hut ist wieder da.

Die meisten modernen Masked Language Models sind bidirektional.

matplotlib

Eine Open-Source-Python-Bibliothek zum Erstellen von 2D-Diagrammen. Mit matplotlib können Sie verschiedene Aspekte des maschinellen Lernens visualisieren.

Matrixfaktorisierung

In der Mathematik ein Mechanismus zum Ermitteln der Matrizen, deren Punktprodukt eine Zielmatrix annähert.

In Empfehlungssystemen enthält die Zielmatrix häufig die Bewertungen der Nutzer für Elemente. Die Zielmatrix für ein Filmempfehlungssystem könnte beispielsweise so aussehen. Die positiven Ganzzahlen sind Nutzerbewertungen und 0 bedeutet, dass der Nutzer den Film nicht bewertet hat:

	Casablanca	Die Philadelphia Story	Black Panther	Wonder Woman	Pulp Fiction
Nutzer 1	5	3	0,0	2.0	0,0
Nutzer 2	4.0	0,0	0,0	1.0	5
Nutzer 3	3	1.0	4.0	5,0	0,0

Das Filmempfehlungssystem soll Nutzereinstufungen für Filme vorhersagen, die noch nicht bewertet wurden. Wird Nutzer 1 beispielsweise Black Panther mögen?

Ein Ansatz für Empfehlungssysteme besteht darin, mithilfe der Matrixfaktorisierung die folgenden beiden Matrizen zu generieren:

Eine Nutzermatrix mit der Form „Anzahl der Nutzer × Anzahl der Einbettungsdimensionen“.
Eine Artikelmatrix mit der Form „Anzahl der Einbettungsdimensionen × Anzahl der Artikel“.

Wenn wir beispielsweise die Matrixfaktorisierung auf unsere drei Nutzer und fünf Elemente anwenden, erhalten wir möglicherweise die folgenden Nutzer- und Elementmatrizen:

User Matrix                 Item Matrix

1.1   2.3           0.9   0.2   1.4    2.0   1.2
0.6   2.0           1.7   1.2   1.2   -0.1   2.1
2.5   0.5

Das Punktprodukt der Nutzermatrix und der Artikelmatrix ergibt eine Empfehlungsmatrix, die nicht nur die ursprünglichen Nutzerbewertungen, sondern auch Vorhersagen für die Filme enthält, die jeder Nutzer noch nicht gesehen hat. Nehmen wir zum Beispiel die Bewertung von Nutzer 1 für Casablanca mit 5,0. Das Punktprodukt, das dieser Zelle in der Empfehlungsmatrix entspricht, sollte idealerweise etwa 5,0 betragen.Das ist auch der Fall:

(1.1 * 0.9) + (2.3 * 1.7) = 4.9

Wichtiger ist jedoch, ob Nutzer 1 Black Panther mag. Wenn Sie das Skalarprodukt aus der ersten Zeile und der dritten Spalte bilden, erhalten Sie eine Vorhersage von 4,3:

(1.1 * 1.4) + (2.3 * 1.2) = 4.3

Bei der Matrixfaktorisierung werden in der Regel eine Nutzer- und eine Elementmatrix erstellt, die zusammen deutlich kompakter sind als die Zielmatrix.

Mittlerer absoluter Fehler (MAE)

#Messwert

Der durchschnittliche Verlust pro Beispiel, wenn der L₁-Verlust verwendet wird. So berechnen Sie den mittleren absoluten Fehler:

Berechnet den L₁-Verlust für einen Batch.
Teilen Sie den L₁-Verlust durch die Anzahl der Beispiele im Batch.

Klicken Sie auf das Symbol, um die formale Mathematik zu sehen.

$$\text{Mean Absolute Error} = \frac{1}{n}\sum_{i=0}^n | y_i - \hat{y}_i |$$

Dabei gilt:

$n$ ist die Anzahl der Beispiele.
$y$ ist der tatsächliche Wert des Labels.
$\hat{y}$ ist der Wert, den das Modell für $y$ vorhersagt.

Betrachten Sie beispielsweise die Berechnung des L₁-Verlusts für den folgenden Batch mit fünf Beispielen:

Tatsächlicher Wert des Beispiels	Vom Modell prognostizierter Wert	Verlust (Differenz zwischen tatsächlichem und vorhergesagtem Wert)
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
		8 = L₁-Verlust

Der L₁-Verlust beträgt also 8 und die Anzahl der Beispiele ist 5. Der mittlere absolute Fehler ist also:

Mean Absolute Error = L₁ loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

Stellen Sie den mittleren absoluten Fehler dem mittleren quadratischen Fehler und dem Wurzel der mittleren Fehlerquadratsumme gegenüber.

Mittlere durchschnittliche Precision bei k (mAP@k)

#generativeAI

#Messwert

Der statistische Mittelwert aller durchschnittlichen Precision bei k-Werte in einem Validierungsdatensatz. Mit der mittleren durchschnittlichen Präzision bei k lässt sich die Qualität von Empfehlungen beurteilen, die von einem Empfehlungssystem generiert werden.

Obwohl die Formulierung „Mittelwert“ redundant klingt, ist der Name des Messwerts angemessen. Dieser Messwert ist schließlich der Mittelwert mehrerer durchschnittliche Precision bei k-Werte.

Klicken Sie auf das Symbol, um ein Beispiel zu sehen.

Angenommen, Sie entwickeln ein Empfehlungssystem, das für jeden Nutzer eine personalisierte Liste mit empfohlenen Romanen generiert. Anhand des Feedbacks ausgewählter Nutzer berechnen Sie die folgenden fünf durchschnittlichen Präzisionswerte bei k (ein Wert pro Nutzer):

0,73
0,77
0,67
0,82
0,76

Die mittlere durchschnittliche Precision bei K ist also:

$$\text{mean } = \frac{\text{0.73 + 0.77 + 0.67 + 0.82 + 0.76}} {\text{5}} = \text{0.75}$$

Mittlere quadratische Abweichung (MSE)

#Messwert

Der durchschnittliche Verlust pro Beispiel, wenn der L₂-Verlust verwendet wird. So berechnen Sie die mittlere quadratische Abweichung:

Berechnet den L₂-Verlust für einen Batch.
Teilen Sie den L₂-Verlust durch die Anzahl der Beispiele im Batch.

Klicken Sie auf das Symbol, um die formale Mathematik zu sehen.

$$\text{Mean Squared Error} = \frac{1}{n}\sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$ Dabei gilt:

$n$ ist die Anzahl der Beispiele.
$y$ ist der tatsächliche Wert des Labels.
$\hat{y}$ ist die Vorhersage des Modells für $y$.

Betrachten Sie beispielsweise den Verlust für den folgenden Batch mit fünf Beispielen:

Tatsächlicher Wert	Vorhersage des Modells	Verlust	Quadratischer Verlust
7	6	1	1
5	4	1	1
8	11	3	9
4	6	2	4
9	8	1	1
			16 = L₂-Verlust

Die mittlere quadratische Abweichung ist also:

Mean Squared Error = L₂ loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

Die mittlere quadratische Abweichung ist ein beliebter Optimizer für das Training, insbesondere für die lineare Regression.

Vergleichen Sie die mittlere quadratische Abweichung mit dem mittleren absoluten Fehler und der Wurzel der mittleren Fehlerquadratsumme.

Im TensorFlow Playground wird der mittlere quadratische Fehler verwendet, um Verlustwerte zu berechnen.

Klicken Sie auf das Symbol, um weitere Informationen zu Ausreißern zu erhalten.

Ausreißer haben einen großen Einfluss auf die mittlere quadratische Abweichung. Ein Verlust von 1 entspricht beispielsweise einem quadratischen Verlust von 1, ein Verlust von 3 einem quadratischen Verlust von 9. In der Tabelle oben macht das Beispiel mit einem Verlust von 3 ~56% des mittleren quadratischen Fehlers aus, während jedes der Beispiele mit einem Verlust von 1 nur 6% des mittleren quadratischen Fehlers ausmacht.

Ausreißer haben weniger Einfluss auf den mittleren absoluten Fehler als auf den mittleren quadratischen Fehler. Ein Verlust von 3 Konten macht beispielsweise nur etwa 38% des mittleren absoluten Fehlers aus.

Beschneiden ist eine Möglichkeit, zu verhindern, dass extreme Ausreißer die Vorhersagefähigkeit Ihres Modells beeinträchtigen.

Mesh-Netzwerk

#TensorFlow

#GoogleCloud

In der parallelen Programmierung für maschinelles Lernen ein Begriff, der sich auf das Zuweisen der Daten und des Modells zu TPU-Chips und das Definieren bezieht, wie diese Werte aufgeteilt oder repliziert werden.

„Mesh“ ist ein überladener Begriff, der Folgendes bedeuten kann:

Ein physisches Layout von TPU-Chips.
Ein abstraktes logisches Konstrukt zum Zuordnen der Daten und des Modells zu den TPU-Chips.

In beiden Fällen wird ein Mesh als Form angegeben.

Meta-Lernen

Eine Untergruppe des maschinellen Lernens, bei der ein Lernalgorithmus ermittelt oder verbessert wird. Ein Meta-Learning-System kann auch darauf abzielen, ein Modell so zu trainieren, dass es schnell eine neue Aufgabe aus einer kleinen Menge von Daten oder aus Erfahrungen aus früheren Aufgaben lernt. Meta-Learning-Algorithmen versuchen in der Regel, Folgendes zu erreichen:

Von Hand entwickelte Funktionen verbessern oder lernen, z. B. einen Initialisierer oder einen Optimierer.
Daten- und recheneffizienter sein.
Generalisierung verbessern

Meta-Learning hängt mit Few-Shot-Learning zusammen.

Messwert

#TensorFlow

#Messwert

Eine Statistik, die Ihnen wichtig ist.

Ein Ziel ist ein Messwert, den ein System für maschinelles Lernen zu optimieren versucht.

Metrics API (tf.metrics)

#Messwert

Eine TensorFlow-API zum Bewerten von Modellen. Mit tf.metrics.accuracy wird beispielsweise festgelegt, wie oft die Vorhersagen eines Modells mit Labels übereinstimmen.

Mini-Batch

#fundamentals

Eine kleine, zufällig ausgewählte Teilmenge eines Batch, die in einer Iteration verarbeitet wird. Die Batchgröße eines Minibatches liegt in der Regel zwischen 10 und 1.000 Beispielen.

Angenommen, der gesamte Trainingsdatensatz (der vollständige Batch) besteht aus 1.000 Beispielen. Angenommen, Sie legen die Batchgröße jedes Mini-Batch auf 20 fest. Daher wird in jeder Iteration der Verlust für 20 zufällige der 1.000 Beispiele ermittelt und die Gewichte und Biasse entsprechend angepasst.

Es ist viel effizienter, den Verlust für einen Mini-Batch zu berechnen als für alle Beispiele im vollständigen Batch.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Lineare Regression: Hyperparameter.

Mini-Batch Stochastic Gradient Descent

Ein Gradientenabstieg-Algorithmus, der Minibatches verwendet. Mit anderen Worten: Beim stochastischen Gradientenabstieg mit Minibatches wird der Gradient auf Grundlage einer kleinen Teilmenge der Trainingsdaten geschätzt. Beim regulären stochastischen Gradientenabstieg wird ein Minibatch der Größe 1 verwendet.

Minimax-Verlust

#Messwert

Eine Verlustfunktion für generative kontradiktorische Netzwerke, die auf der Kreuzentropie zwischen der Verteilung der generierten Daten und der tatsächlichen Daten basiert.

Der Minimax-Verlust wird im ersten Paper zur Beschreibung generativer kontradiktorischer Netzwerke verwendet.

Weitere Informationen finden Sie im Kurs zu generativen kontradiktorischen Netzwerken unter Verlustfunktionen.

Minderheitsklasse

#fundamentals

Das weniger häufige Label in einem Dataset mit unausgeglichenen Klassen. Wenn ein Dataset beispielsweise 99% negative und 1% positive Labels enthält, sind die positiven Labels die Minderheitsklasse.

Kontrast zur Mehrheitsklasse.

Klicken Sie auf das Symbol, um zusätzliche Hinweise zu erhalten.

Ein Trainingsset mit einer Million Beispielen klingt beeindruckend. Wenn die Minderheitenklasse jedoch schlecht vertreten ist, reicht möglicherweise auch ein sehr großer Trainingssatz nicht aus. Achten Sie weniger auf die Gesamtzahl der Beispiele im Dataset und mehr auf die Anzahl der Beispiele in der Minderheitenklasse.

Wenn Ihr Dataset nicht genügend Beispiele für die Minderheitenklasse enthält, sollten Sie Downsampling (Definition im zweiten Aufzählungszeichen) verwenden, um die Minderheitenklasse zu ergänzen.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Datasets: Imbalanced datasets.

Mischung von Experten

#generativeAI

Ein Verfahren zur Steigerung der Effizienz von neuronalen Netzwerken, bei dem nur eine Teilmenge der Parameter (als Expert bezeichnet) verwendet wird, um einen bestimmten Eingabe-Token oder ein Beispiel zu verarbeiten. Ein Gating-Netzwerk leitet jedes Eingabe-Token oder ‑Beispiel an den/die richtigen Experten weiter.

Weitere Informationen finden Sie in einem der folgenden Dokumente:

ML

Abkürzung für maschinelles Lernen.

MMIT

#generativeAI

Abkürzung für multimodal instruction-tuned (multimodal, auf Anweisungen abgestimmt).

MNIST

Ein von LeCun, Cortes und Burges zusammengestelltes Dataset im öffentlichen Bereich mit 60.000 Bildern, auf denen jeweils zu sehen ist, wie eine Person eine bestimmte Ziffer von 0 bis 9 manuell geschrieben hat. Jedes Bild wird als 28 × 28-Array von Ganzzahlen gespeichert, wobei jede Ganzzahl ein Graustufenwert zwischen 0 und 255 (einschließlich) ist.

MNIST ist ein kanonisches Dataset für maschinelles Lernen, das häufig zum Testen neuer Ansätze für maschinelles Lernen verwendet wird. Weitere Informationen finden Sie unter The MNIST Database of Handwritten Digits.

Modalität

Eine Datenkategorie der obersten Ebene. Zahlen, Text, Bilder, Videos und Audio sind beispielsweise fünf verschiedene Modalitäten.

Modell

#fundamentals

Im Allgemeinen ist es ein mathematisches Konstrukt, das Eingabedaten verarbeitet und Ausgaben zurückgibt. Anders ausgedrückt: Ein Modell ist die Menge der Parameter und der Struktur, die für ein System erforderlich sind, um Vorhersagen zu treffen. Beim überwachten maschinellen Lernen wird ein Beispiel als Eingabe verwendet und eine Vorhersage als Ausgabe abgeleitet. Innerhalb des überwachten maschinellen Lernens unterscheiden sich die Modelle etwas. Beispiel:

Ein lineares Regressionsmodell besteht aus einer Reihe von Gewichten und einem Bias.
Ein Modell für neuronale Netzwerke besteht aus:
- Eine Reihe von verborgenen Ebenen, die jeweils ein oder mehrere Neuronen enthalten.
- Die Gewichte und der Bias, die mit jedem Neuron verknüpft sind.
Ein Entscheidungsbaummodell besteht aus:
- Die Form des Baums, d. h. das Muster, in dem die Bedingungen und Blätter verbunden sind.
- Die Bedingungen und Blätter.

Sie können ein Modell speichern, wiederherstellen oder Kopien davon erstellen.

Beim unüberwachten maschinellen Lernen werden ebenfalls Modelle generiert, in der Regel eine Funktion, die ein Eingabebeispiel dem am besten geeigneten Cluster zuordnen kann.

Klicken Sie auf das Symbol, um algebraische und Programmierfunktionen mit ML-Modellen zu vergleichen.

Eine algebraische Funktion wie die folgende ist ein Modell:

  f(x, y) = 3x -5xy + y² + 17

Die oben genannte Funktion ordnet Eingabewerte (x und y) der Ausgabe zu.

Auch eine Programmierfunktion wie die folgende ist ein Modell:

def half_of_greater(x, y):
  if (x > y):
    return(x / 2)
  else
    return(y / 2)

Ein Aufrufer übergibt Argumente an die vorherige Python-Funktion und die Python-Funktion generiert eine Ausgabe (über die return-Anweisung).

Obwohl ein neuronales Deep-Learning-Netzwerk eine ganz andere mathematische Struktur als eine algebraische oder Programmierfunktion hat, nimmt es dennoch Eingaben (ein Beispiel) entgegen und gibt Ausgaben (eine Vorhersage) zurück.

Ein menschlicher Programmierer codiert eine Programmierfunktion manuell. Im Gegensatz dazu lernt ein Machine-Learning-Modell die optimalen Parameter während des automatisierten Trainings schrittweise.

Modellkapazität

#Messwert

Die Komplexität der Probleme, die ein Modell lernen kann. Je komplexer die Probleme sind, die ein Modell lernen kann, desto höher ist die Kapazität des Modells. Die Kapazität eines Modells steigt in der Regel mit der Anzahl der Modellparameter. Eine formale Definition der Kapazität von Klassifikationsmodellen finden Sie unter VC-Dimension.

Kaskadierung von Modellen

#generativeAI

Ein System, das das ideale Modell für eine bestimmte Inferenzanfrage auswählt.

Stellen Sie sich eine Gruppe von Modellen vor, die von sehr groß (viele Parameter) bis viel kleiner (viel weniger Parameter) reichen. Sehr große Modelle verbrauchen zur Inferenz mehr Rechenressourcen als kleinere Modelle. Sehr große Modelle können jedoch in der Regel komplexere Anfragen ableiten als kleinere Modelle. Bei der Modellkaskadierung wird die Komplexität der Inferenzanfrage bestimmt und dann das geeignete Modell für die Inferenz ausgewählt. Die Hauptmotivation für die Kaskadierung von Modellen besteht darin, die Inferenzkosten zu senken, indem in der Regel kleinere Modelle und nur für komplexere Anfragen ein größeres Modell ausgewählt wird.

Stellen Sie sich vor, dass ein kleines Modell auf einem Smartphone und eine größere Version dieses Modells auf einem Remote-Server ausgeführt wird. Durch eine gute Modellkaskadierung werden Kosten und Latenz reduziert, da das kleinere Modell einfache Anfragen verarbeiten kann und das Remote-Modell nur für komplexe Anfragen aufgerufen wird.

Siehe auch Modellrouter.

Modellparallelität

Eine Methode zum Skalieren von Training oder Inferenz, bei der verschiedene Teile eines Modells auf verschiedenen Geräten platziert werden. Mit Modellparallelität können Modelle verwendet werden, die zu groß für ein einzelnes Gerät sind.

Um Modellparallelität zu implementieren, führt ein System in der Regel die folgenden Schritte aus:

Das Modell wird in kleinere Teile aufgeteilt.
Verteilt das Training dieser kleineren Teile auf mehrere Prozessoren. Jeder Prozessor trainiert seinen eigenen Teil des Modells.
Die Ergebnisse werden kombiniert, um ein einzelnes Modell zu erstellen.

Modellparallelität verlangsamt das Training.

#fundamentals

Beim überwachten Lernen ein Klassifizierungsproblem, bei dem das Dataset mehr als zwei Klassen von Labels enthält. Die Labels im Iris-Dataset müssen beispielsweise einer der folgenden drei Klassen entsprechen:

Iris setosa
Iris virginica
Iris versicolor

Ein Modell, das mit dem Iris-Dataset trainiert wurde und den Iris-Typ für neue Beispiele vorhersagt, führt eine Klassifizierung mit mehreren Klassen durch.

Klassifizierungsprobleme, bei denen genau zwei Klassen unterschieden werden, sind dagegen binäre Klassifizierungsmodelle. Ein E‑Mail-Modell, das entweder Spam oder Kein Spam vorhersagt, ist beispielsweise ein binäres Klassifizierungsmodell.

Bei Clustering-Problemen bezieht sich die Klassifizierung mit mehreren Klassen auf mehr als zwei Cluster.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Neuronale Netze: Multiklassenklassifizierung.

Mehrklassen-logistische Regression

Verwendung der logistischen Regression bei Mehrklassenklassifizierung.

Multi-Head-Selbstaufmerksamkeit

Eine Erweiterung von Self-Attention, bei der der Self-Attention-Mechanismus mehrmals für jede Position in der Eingabesequenz angewendet wird.

Transformer haben die Multi-Head-Self-Attention eingeführt.

multimodal und auf Anleitungen abgestimmt

Ein auf Anweisungen abgestimmtes Modell, das Eingaben verarbeiten kann, die über Text hinausgehen, z. B. Bilder, Videos und Audio.

multimodales Modell

Ein Modell, dessen Eingaben, Ausgaben oder beides mehr als eine Modalität umfassen. Stellen Sie sich beispielsweise ein Modell vor, das sowohl ein Bild als auch eine Bildunterschrift (zwei Modalitäten) als Features verwendet und einen Wert ausgibt, der angibt, wie passend die Bildunterschrift für das Bild ist. Die Eingaben dieses Modells sind also multimodal und die Ausgabe ist unimodal.

Multinomiale Klassifizierung

Synonym für Klassifizierung mit mehreren Klassen.

Multinominale Regression

Synonym für mehrklassige logistische Regression.

Multitasking

Eine Technik für maschinelles Lernen, bei der ein einzelnes Modell trainiert wird, um mehrere Aufgaben auszuführen.

Multitask-Modelle werden erstellt, indem sie mit Daten trainiert werden, die für die einzelnen Aufgaben geeignet sind. So kann das Modell lernen, Informationen zwischen den Aufgaben zu teilen, was ihm hilft, effektiver zu lernen.

Ein Modell, das für mehrere Aufgaben trainiert wurde, hat oft bessere Generalisierungsfähigkeiten und kann verschiedene Arten von Daten robuster verarbeiten.

N

Nano

#generativeAI

Ein relativ kleines Gemini-Modell, das für die Verwendung auf Geräten entwickelt wurde. Weitere Informationen finden Sie unter Gemini Nano.

Siehe auch Pro und Ultra.

NaN-Falle

Wenn eine Zahl in Ihrem Modell während des Trainings zu NaN wird, führt dies dazu, dass viele oder alle anderen Zahlen in Ihrem Modell schließlich ebenfalls zu NaN werden.

„NaN“ ist die Abkürzung für Not a Number (keine Zahl).

Natural Language Processing

Das Feld, in dem Computern beigebracht wird, das, was ein Nutzer gesagt oder eingegeben hat, mithilfe von sprachlichen Regeln zu verarbeiten. Fast alles moderne Natural Language Processing basiert auf Machine Learning.

Natural Language Understanding

Eine Teilmenge von Natural Language Processing, die die Absichten von Gesagtem oder Geschriebenem bestimmt. Natural Language Understanding kann über Natural Language Processing hinausgehen und komplexe Aspekte der Sprache wie Kontext, Sarkasmus und Stimmung berücksichtigen.

negative Klasse

#fundamentals

#Messwert

Bei der binären Klassifizierung wird eine Klasse als positiv und die andere als negativ bezeichnet. Die positive Klasse ist das Ding oder Ereignis, auf das das Modell testet, und die negative Klasse ist die andere Möglichkeit. Beispiel:

Die negative Klasse in einem medizinischen Test könnte „kein Tumor“ sein.
Die negative Klasse in einem Klassifizierungsmodell für E‑Mails könnte „Kein Spam“ sein.

Kontrast zur positiven Klasse.

Negativ-Sampling

Synonym für Kandidaten-Stichprobenerhebung.

Neural Architecture Search (NAS)

Eine Technik zum automatischen Entwerfen der Architektur eines neuronalen Netzwerks. NAS-Algorithmen können den Zeit- und Ressourcenaufwand für das Trainieren eines neuronalen Netzwerks reduzieren.

NAS verwendet in der Regel:

Ein Suchbereich, der eine Reihe möglicher Architekturen umfasst.
Eine Fitnessfunktion, die ein Maß dafür ist, wie gut eine bestimmte Architektur bei einer bestimmten Aufgabe abschneidet.

NAS-Algorithmen beginnen oft mit einer kleinen Gruppe möglicher Architekturen und erweitern den Suchbereich nach und nach, wenn der Algorithmus mehr darüber lernt, welche Architekturen effektiv sind. Die Fitnessfunktion basiert in der Regel auf der Leistung der Architektur in einem Trainingssatz und der Algorithmus wird in der Regel mit einer Technik für bestärkendes Lernen trainiert.

NAS-Algorithmen haben sich als effektiv erwiesen, um leistungsstarke Architekturen für eine Vielzahl von Aufgaben zu finden, darunter Bildklassifizierung, Textklassifizierung und maschinelle Übersetzung.

neuronales Netzwerk

#fundamentals

Ein Modell mit mindestens einer verborgenen Ebene. Ein neuronales Deep-Learning-Netzwerk ist eine Art von neuronalem Netzwerk mit mehr als einer verborgenen Ebene. Das folgende Diagramm zeigt beispielsweise ein tiefes neuronales Netzwerk mit zwei verborgenen Schichten.

Ein neuronales Netzwerk mit einer Eingabe-, zwei verborgenen und einer Ausgabeschicht.

Jedes Neuron in einem neuronalen Netzwerk ist mit allen Knoten in der nächsten Schicht verbunden. Im obigen Diagramm ist zu sehen, dass jede der drei Neuronen in der ersten verborgenen Schicht separat mit beiden Neuronen in der zweiten verborgenen Schicht verbunden ist.

Neuronale Netzwerke, die auf Computern implementiert werden, werden manchmal als künstliche neuronale Netzwerke bezeichnet, um sie von neuronalen Netzwerken im Gehirn und anderen Nervensystemen zu unterscheiden.

Einige neuronale Netze können extrem komplexe nichtlineare Beziehungen zwischen verschiedenen Features und dem Label nachbilden.

Siehe auch Convolutional Neural Network und Recurrent Neural Network.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Neuronale Netze.

Neuron

#fundamentals

Im Machine Learning eine separate Einheit in einer verdeckten Schicht eines neuronalen Netzwerks. Jedes Neuron führt die folgenden zwei Schritte aus:

Berechnet die gewichtete Summe der Eingabewerte, die mit ihren entsprechenden Gewichten multipliziert werden.
Übergibt die gewichtete Summe als Eingabe an eine Aktivierungsfunktion.

Ein Neuron in der ersten verborgenen Schicht akzeptiert Eingaben aus den Feature-Werten in der Eingabeschicht. Ein Neuron in einer verborgenen Schicht nach der ersten akzeptiert Eingaben von den Neuronen in der vorherigen verborgenen Schicht. Ein Neuron in der zweiten verborgenen Ebene akzeptiert beispielsweise Eingaben von den Neuronen in der ersten verborgenen Ebene.

Die folgende Abbildung zeigt zwei Neuronen und ihre Eingaben.

Ein Neuron in einem neuronalen Netzwerk ahmt das Verhalten von Neuronen im Gehirn und in anderen Teilen des Nervensystems nach.

N-Gramm

Eine geordnete Folge von N Wörtern. truly madly ist beispielsweise ein 2-Gramm. Da die Reihenfolge relevant ist, ist madly truly ein anderes 2‑Gramm als truly madly.

N	Name(n) für diese Art von N-Gramm	Beispiele
2	Bigramm oder 2‑Gramm	to go, go to, eat lunch, eat dinner
3	Trigramm oder 3‑Gramm	ate too much, happily ever after, the bell tolls
4	4-Gramm	Spaziergang im Park, Staub im Wind, der Junge hat Linsen gegessen

Viele NLU-Modelle (Natural Language Understanding) basieren auf N-Grammen, um das nächste Wort vorherzusagen, das der Nutzer eingeben oder sagen wird. Angenommen, ein Nutzer hat bis ans Ende eingegeben. Ein NLU-Modell, das auf Trigrammen basiert, würde wahrscheinlich vorhersagen, dass der Nutzer als Nächstes das Wort after eingibt.

Stellen Sie N-Gramme Bag of Words gegenüber, die ungeordnete Wortmengen sind.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Large language models.

NLP

Abkürzung für Natural Language Processing (Verarbeitung natürlicher Sprache).

NLU

Abkürzung für Natural Language Understanding (Verstehen natürlicher Sprache).

Knoten (Entscheidungsbaum)

#df

In einem Entscheidungsbaum kann jede Bedingung oder jedes Blatt sein.

Ein Entscheidungsbaum mit zwei Bedingungen und drei Blättern.

Weitere Informationen finden Sie im Kurs „Entscheidungsbäume“ unter Entscheidungsbäume.

Knoten (neuronales Netzwerk)

#fundamentals

Ein Neuron in einer versteckten Ebene.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Neuronale Netze.

Knoten (TensorFlow-Diagramm)

#TensorFlow

Ein Vorgang in einem TensorFlow-Diagramm.

Rauschen

Im Allgemeinen alles, was das Signal in einem Dataset verdeckt. Rauschen kann auf verschiedene Arten in Daten eingeführt werden. Beispiel:

Menschliche Rater machen Fehler bei der Kennzeichnung.
Menschen und Geräte erfassen Feature-Werte falsch oder lassen sie aus.

nicht binäre Bedingung

#df

Eine Bedingung mit mehr als zwei möglichen Ergebnissen. Die folgende nicht binäre Bedingung enthält beispielsweise drei mögliche Ergebnisse:

Eine Bedingung (number_of_legs = ?), die zu drei möglichen Ergebnissen führt. Ein Ergebnis (number_of_legs = 8) führt zu einem Blatt namens „spider“. Ein zweites Ergebnis (number_of_legs = 4) führt zu einem Blatt namens „dog“. Ein drittes Ergebnis (number_of_legs = 2) führt zu einem Blatt namens „penguin“.

Weitere Informationen finden Sie im Kurs „Entscheidungsbäume“ unter Arten von Bedingungen.

nicht linear

#fundamentals

Eine Beziehung zwischen zwei oder mehr Variablen, die nicht nur durch Addition und Multiplikation dargestellt werden kann. Ein linearer Zusammenhang kann als Linie dargestellt werden, ein nichtlinearer Zusammenhang nicht. Betrachten Sie beispielsweise zwei Modelle, die jeweils ein einzelnes Feature mit einem einzelnen Label in Beziehung setzen. Das Modell auf der linken Seite ist linear, das Modell auf der rechten Seite ist nicht linear:

Zwei Diagramme. Eine Darstellung ist eine Linie, daher handelt es sich um eine lineare Beziehung.
Das andere Diagramm ist eine Kurve, also eine nicht lineare Beziehung.

Im Machine Learning Crash Course finden Sie unter Neuronale Netze: Knoten und verborgene Schichten weitere Informationen zum Experimentieren mit verschiedenen Arten von nichtlinearen Funktionen.

Schweigeverzerrung

#responsible

Weitere Informationen finden Sie unter Stichproben-Bias.

Nichtstationarität

#fundamentals

Ein Feature, dessen Werte sich über eine oder mehrere Dimensionen hinweg ändern, in der Regel über die Zeit. Hier einige Beispiele für Nichtstationarität:

Die Anzahl der in einem bestimmten Geschäft verkauften Badeanzüge variiert je nach Jahreszeit.
Die Menge einer bestimmten Frucht, die in einer bestimmten Region geerntet wird, ist einen Großteil des Jahres null, aber für einen kurzen Zeitraum hoch.
Aufgrund des Klimawandels verschieben sich die jährlichen Durchschnittstemperaturen.

Im Gegensatz dazu steht die Stationarität.

Keine richtige Antwort (NORA)

#generativeAI

Ein Prompt mit mehreren richtigen Antworten. Für den folgenden Prompt gibt es beispielsweise keine richtige Antwort:

Erzähl mir einen lustigen Witz über Elefanten.

Die Bewertung von Antworten auf Prompts ohne richtige Antwort ist in der Regel viel subjektiver als die Bewertung von Prompts mit einer richtigen Antwort. Um beispielsweise einen Elefantenwitz zu bewerten, ist eine systematische Methode erforderlich, um zu bestimmen, wie lustig der Witz ist.

NORA

#generativeAI

Abkürzung für no one right answer (es gibt keine richtige Antwort).

Normalisierung

#fundamentals

Im Allgemeinen wird dabei der tatsächliche Wertebereich einer Variablen in einen Standardwertebereich konvertiert, z. B.:

–1 bis +1
0 bis 1
Z-Werte (ungefähr -3 bis +3)

Angenommen, der tatsächliche Wertebereich eines bestimmten Merkmals liegt zwischen 800 und 2.400. Im Rahmen der Funktionsentwicklung können Sie die tatsächlichen Werte auf einen Standardbereich wie -1 bis +1 normalisieren.

Die Normalisierung ist eine häufige Aufgabe beim Feature Engineering. Modelle werden in der Regel schneller trainiert (und liefern bessere Vorhersagen), wenn jede numerische Funktion im Funktionsvektor ungefähr denselben Bereich hat.

Weitere Informationen finden Sie unter Z-Score-Normalisierung.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Numerische Daten: Normalisierung.

NotebookLM

#generativeAI

Ein auf Gemini basierendes Tool, mit dem Nutzer Dokumente hochladen und dann Prompts verwenden können, um Fragen zu diesen Dokumenten zu stellen, sie zusammenzufassen oder zu organisieren. Ein Autor könnte beispielsweise mehrere Kurzgeschichten hochladen und NotebookLM bitten, die gemeinsamen Themen zu finden oder zu ermitteln, welche sich am besten für einen Film eignen würde.

Nominierungserkennung

Der Prozess, bei dem ermittelt wird, ob ein neues Beispiel aus derselben Verteilung wie das Trainings-Dataset stammt. Mit anderen Worten: Nach dem Training mit dem Trainings-Dataset wird durch die neuartige Erkennung ermittelt, ob ein neues Beispiel (während der Inferenz oder des zusätzlichen Trainings) ein Ausreißer ist.

Im Gegensatz dazu steht die Ausreißererkennung.

Numerische Daten

#fundamentals

Features, die als Ganzzahlen oder reelle Zahlen dargestellt werden. Bei einem Modell zur Bewertung von Häusern würde die Größe eines Hauses (in Quadratfuß oder Quadratmetern) wahrscheinlich als numerische Daten dargestellt. Wenn Sie ein Feature als numerische Daten darstellen, bedeutet das, dass die Werte des Features eine mathematische Beziehung zum Label haben. Die Anzahl der Quadratmeter in einem Haus steht wahrscheinlich in einer mathematischen Beziehung zum Wert des Hauses.

Nicht alle Ganzzahldaten sollten als numerische Daten dargestellt werden. Beispielsweise sind Postleitzahlen in einigen Teilen der Welt Ganzzahlen. Sie sollten jedoch nicht als numerische Daten in Modellen dargestellt werden. Das liegt daran, dass eine Postleitzahl von 20000 nicht doppelt so (oder halb so) wirkungsvoll ist wie eine Postleitzahl von 10000. Außerdem korrelieren unterschiedliche Postleitzahlen zwar mit unterschiedlichen Immobilienwerten, aber wir können nicht davon ausgehen, dass Immobilienwerte mit der Postleitzahl 20000 doppelt so wertvoll sind wie Immobilienwerte mit der Postleitzahl 10000. Postleitzahlen sollten stattdessen als kategorische Daten dargestellt werden.

Numerische Merkmale werden manchmal auch als kontinuierliche Merkmale bezeichnet.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Mit numerischen Daten arbeiten.

NumPy

Eine Open-Source-Mathematikbibliothek, die effiziente Array-Operationen in Python bietet. pandas basiert auf NumPy.

O

Ziel

#Messwert

Ein Messwert, den Ihr Algorithmus optimieren soll.

Zielfunktion

#Messwert

Die mathematische Formel oder der Messwert, die bzw. den ein Modell optimieren soll. Die Zielfunktion für die lineare Regression ist in der Regel der mittlere quadratische Verlust. Beim Trainieren eines linearen Regressionsmodells wird daher versucht, den mittleren quadratischen Verlust zu minimieren.

In einigen Fällen ist das Ziel, die Zielfunktion zu maximieren. Wenn die Zielfunktion beispielsweise die Genauigkeit ist, besteht das Ziel darin, die Genauigkeit zu maximieren.

Siehe auch Verlust.

schräge Bedingung

#df

In einem Entscheidungsbaum ist eine Bedingung, die mehr als ein Merkmal umfasst. Wenn Höhe und Breite beispielsweise beides Features sind, ist Folgendes eine schräge Bedingung:

  height > width

Im Gegensatz zur achsenorientierten Bedingung.

Weitere Informationen finden Sie im Kurs „Entscheidungsbäume“ unter Arten von Bedingungen.

offline

#fundamentals

Synonym für static.

Offlineinferenz

#fundamentals

Der Prozess, bei dem ein Modell einen Batch von Vorhersagen generiert und diese Vorhersagen dann im Cache speichert. Apps können dann auf die abgeleitete Vorhersage aus dem Cache zugreifen, anstatt das Modell noch einmal auszuführen.

Angenommen, ein Modell generiert alle vier Stunden lokale Wettervorhersagen (Prognosen). Nach jedem Modelllauf werden alle lokalen Wettervorhersagen im System zwischengespeichert. Wetter-Apps rufen die Vorhersagen aus dem Cache ab.

Die Offline-Inferenz wird auch als statische Inferenz bezeichnet.

Im Gegensatz dazu steht die Onlineinferenz. Weitere Informationen finden Sie im Machine Learning Crash Course unter Production ML systems: Static versus dynamic inference.

One-Hot-Codierung

#fundamentals

Kategoriale Daten werden als Vektor dargestellt, in dem gilt:

Ein Element ist auf 1 gesetzt.
Alle anderen Elemente werden auf 0 gesetzt.

Die One-Hot-Codierung wird häufig verwendet, um Strings oder Kennungen mit einer endlichen Anzahl möglicher Werte darzustellen. Angenommen, ein bestimmtes kategorisches Feature namens Scandinavia hat fünf mögliche Werte:

„Dänemark“
„Schweden“
„Norwegen“
„Finnland“
„Island“

Die fünf Werte könnten so als One-Hot-Codierung dargestellt werden:

Land	Vektor
„Dänemark“	1	0	0	0	0
„Schweden“	0	1	0	0	0
„Norwegen“	0	0	1	0	0
„Finnland“	0	0	0	1	0
„Island“	0	0	0	0	1

Dank der One-Hot-Codierung kann ein Modell auf Grundlage der einzelnen Länder unterschiedliche Verbindungen lernen.

Die Darstellung eines Merkmals als numerische Daten ist eine Alternative zur One-Hot-Codierung. Leider ist es nicht sinnvoll, die skandinavischen Länder numerisch darzustellen. Betrachten Sie beispielsweise die folgende numerische Darstellung:

„Denmark“ ist 0
„Schweden“ ist 1
„Norwegen“ ist 2
„Finnland“ ist 3
„Island“ ist 4

Bei der numerischen Codierung würde ein Modell die Rohzahlen mathematisch interpretieren und versuchen, anhand dieser Zahlen zu trainieren. Island ist aber nicht doppelt so viel (oder halb so viel) wie Norwegen, daher würde das Modell zu seltsamen Schlussfolgerungen kommen.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Categorical data: Vocabulary and one-hot encoding.

eine richtige Antwort (ORA)

#generativeAI

Ein Prompt mit einer einzigen richtigen Antwort. Betrachten Sie beispielsweise den folgenden Prompt:

Richtig oder falsch: Der Saturn ist größer als der Mars.

Die einzig richtige Antwort ist wahr.

Im Gegensatz dazu gibt es keine richtige Antwort.

One-Shot-Learning

Ein Machine-Learning-Ansatz, der häufig für die Objektklassifizierung verwendet wird und darauf ausgelegt ist, ein effektives Klassifizierungsmodell anhand eines einzelnen Trainingsbeispiels zu lernen.

Siehe auch Few-Shot-Lernen und Zero-Shot-Lernen.

One-Shot-Prompting

#generativeAI

Ein Prompt, der ein Beispiel dafür enthält, wie das Large Language Model reagieren soll. Der folgende Prompt enthält beispielsweise ein Beispiel, das einem großen Sprachmodell zeigt, wie es auf eine Anfrage antworten soll.

Bestandteile eines Prompts	Hinweise
`Was ist die offizielle Währung des angegebenen Landes?`	Die Frage, die das LLM beantworten soll.
`Frankreich: EUR`	Hier ein Beispiel.
`Indien`:	Die eigentliche Abfrage.

Vergleichen Sie One-Shot-Prompts mit den folgenden Begriffen und stellen Sie die Unterschiede heraus:

Zero-Shot-Prompting
Few-Shot-Prompting

One-vs.-All

#fundamentals

Bei einem Klassifizierungsproblem mit N Klassen besteht eine Lösung aus N separaten binären Klassifizierungsmodellen – einem binären Klassifizierungsmodell für jedes mögliche Ergebnis. Angenommen, Sie haben ein Modell, das Beispiele als Tier, Pflanze oder Mineral klassifiziert. Eine „One-vs.-All“-Lösung würde die folgenden drei separaten binären Klassifizierungsmodelle bereitstellen:

Tier oder kein Tier
Gemüse oder nicht
mineralisch oder nicht mineralisch

online

#fundamentals

Synonym für dynamisch.

Onlineinferenz

#fundamentals

Vorhersagen werden auf Anfrage generiert. Angenommen, eine App übergibt eine Eingabe an ein Modell und sendet eine Anfrage für eine Vorhersage. Ein System, das Onlineinferenz verwendet, reagiert auf die Anfrage, indem es das Modell ausführt und die Vorhersage an die App zurückgibt.

Offline-Inferenz

Weitere Informationen finden Sie im Machine Learning Crash Course unter Production ML systems: Static versus dynamic inference.

Vorgang (op)

#TensorFlow

In TensorFlow ist das jede Prozedur, die einen Tensor erstellt, manipuliert oder löscht. Beispielsweise ist die Matrixmultiplikation ein Vorgang, der zwei Tensoren als Eingabe akzeptiert und einen Tensor als Ausgabe erzeugt.

Optax

Eine Bibliothek für die Verarbeitung und Optimierung von Gradienten für JAX. Optax erleichtert die Forschung, da es Bausteine bereitstellt, die auf benutzerdefinierte Weise neu kombiniert werden können, um parametrische Modelle wie Deep Neural Networks zu optimieren. Weitere Ziele:

Lesbare, gut getestete und effiziente Implementierungen von Kernkomponenten bereitstellen.
Die Produktivität wird gesteigert, da es möglich ist, Low-Level-Bestandteile in benutzerdefinierten Optimierern (oder anderen Komponenten zur Verarbeitung von Gradienten) zu kombinieren.
Die Akzeptanz neuer Ideen wird beschleunigt, da jeder einen Beitrag leisten kann.

optimizer

Eine spezifische Implementierung des Gradientenabstiegsalgorithmus. Beliebte Optimierungstools sind:

AdaGrad steht für ADAptive GRADient descent (adaptiver Gradientenabstieg).
Adam, was für „ADAptive with Momentum“ steht.

ORA

#generativeAI

Abkürzung für eine richtige Antwort.

Homogenitätsbias außerhalb der Gruppe

#responsible

Die Tendenz, Mitglieder der Outgroup als ähnlicher als Mitglieder der Ingroup zu betrachten, wenn Einstellungen, Werte, Persönlichkeitsmerkmale und andere Eigenschaften verglichen werden. In-Group bezieht sich auf Personen, mit denen Sie regelmäßig interagieren, Out-Group auf Personen, mit denen Sie nicht regelmäßig interagieren. Wenn Sie einen Datensatz erstellen, indem Sie Personen bitten, Attribute für Outgroups anzugeben, sind diese Attribute möglicherweise weniger differenziert und stärker stereotypisiert als Attribute, die Teilnehmer für Personen in ihrer Ingroup auflisten.

So könnten Lilliputaner die Häuser anderer Lilliputaner sehr detailliert beschreiben und kleine Unterschiede in Architektur, Fenstern, Türen und Größen anführen. Dieselben Lilliputaner könnten jedoch einfach erklären, dass alle Brobdingnagianer in identischen Häusern leben.

Der Fremdgruppen-Homogenitätsbias ist eine Form des Gruppenattributionsbias.

Siehe auch Gruppenintern.

Ausreißererkennung

Der Prozess zum Identifizieren von Ausreißern in einem Trainingsset.

Im Gegensatz dazu steht die Neuartigkeitserkennung.

erkennen

Werte, die sich von den meisten anderen Werten unterscheiden. Beim maschinellen Lernen gelten die folgenden Werte als Ausreißer:

Eingabedaten, deren Werte mehr als etwa drei Standardabweichungen vom Mittelwert entfernt sind.
Gewichtungen mit hohen absoluten Werten.
Vorhersagewerte, die relativ weit von den tatsächlichen Werten entfernt sind.

Angenommen, widget-price ist ein Feature eines bestimmten Modells. Angenommen, der Mittelwert widget-price beträgt 7 € mit einer Standardabweichung von 1 €. Beispiele mit einem widget-price von 12 € oder 2 € würden daher als Ausreißer betrachtet, da jeder dieser Preise fünf Standardabweichungen vom Mittelwert entfernt ist.

Ausreißer werden häufig durch Tippfehler oder andere Eingabefehler verursacht. In anderen Fällen sind Ausreißer keine Fehler. Werte, die fünf Standardabweichungen vom Mittelwert entfernt sind, sind zwar selten, aber nicht unmöglich.

Ausreißer verursachen oft Probleme beim Modelltraining. Begrenzung ist eine Möglichkeit, Ausreißer zu verwalten.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Mit numerischen Daten arbeiten.

Out-of-Bag-Bewertung (OOB-Bewertung)

#df

Ein Mechanismus zur Bewertung der Qualität eines Entscheidungsbaums, indem jeder Entscheidungsbaum anhand der Beispiele getestet wird, die nicht während des Trainings dieses Entscheidungsbaums verwendet wurden. Im folgenden Diagramm sehen Sie beispielsweise, dass das System jeden Entscheidungsbaum mit etwa zwei Dritteln der Beispiele trainiert und dann mit dem verbleibenden Drittel der Beispiele bewertet.

Die Out-of-Bag-Bewertung ist eine recheneffiziente und konservative Annäherung an den Kreuzvalidierungsmechanismus. Bei der Kreuzvalidierung wird für jede Kreuzvalidierungsrunde ein Modell trainiert (z. B. 10 Modelle bei einer 10‑fachen Kreuzvalidierung). Bei der OOB-Bewertung wird ein einzelnes Modell trainiert. Da beim Bagging während des Trainings einige Daten für jeden Baum zurückgehalten werden, kann bei der OOB-Bewertung mit diesen Daten eine Kreuzvalidierung angenähert werden.

Weitere Informationen finden Sie im Kurs „Entscheidungsbäume“ unter Out-of-bag-Bewertung.

Ausgabeschicht

#fundamentals

Die „letzte“ Ebene eines neuronalen Netzwerks. Die Ausgabeschicht enthält die Vorhersage.

Die folgende Abbildung zeigt ein kleines Deep Neural Network mit einer Eingabeschicht, zwei verborgenen Schichten und einer Ausgabeschicht:

Überanpassung

#fundamentals

Ein Modell erstellen, das so genau mit den Trainingsdaten übereinstimmt, dass es keine korrekten Vorhersagen für neue Daten treffen kann.

Regularisierung kann Overfitting reduzieren. Das Training mit einem großen und vielfältigen Trainingssatz kann auch eine Überanpassung reduzieren.

Klicken Sie auf das Symbol, um zusätzliche Hinweise zu erhalten.

Overfitting ist wie das strikte Befolgen der Ratschläge nur Ihres Lieblingslehrers. Sie werden in diesem Kurs wahrscheinlich erfolgreich sein, aber Sie passen sich möglicherweise zu sehr an die Ideen dieser Lehrkraft an und sind in anderen Kursen nicht erfolgreich. Wenn Sie sich von verschiedenen Lehrern beraten lassen, können Sie sich besser an neue Situationen anpassen.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Overfitting.

Oversampling

Beispiele einer Minderheitsklasse in einem Dataset mit Klassenungleichgewicht wiederverwenden, um ein ausgewogeneres Trainingsset zu erstellen.

Angenommen, Sie haben ein binäres Klassifizierungsproblem,bei dem das Verhältnis der Mehrheitsklasse zur Minderheitsklasse 5.000:1 beträgt. Wenn das Dataset eine Million Beispiele enthält, sind nur etwa 200 Beispiele der Minderheitenklasse vorhanden. Das ist möglicherweise zu wenig für ein effektives Training. Um diesen Mangel zu beheben, können Sie die 200 Beispiele mehrmals überabrufen (wiederverwenden), um möglicherweise genügend Beispiele für ein nützliches Training zu erhalten.

Beim Oversampling müssen Sie darauf achten, dass es nicht zu Overfitting kommt.

Unterabtastung

P

gepackte Daten

Ein Ansatz zum effizienteren Speichern von Daten.

Bei gepackten Daten werden Daten entweder in einem komprimierten Format oder auf andere Weise gespeichert, die einen effizienteren Zugriff ermöglicht. Durch gepackte Daten wird die Menge an Speicher und Rechenleistung minimiert, die für den Zugriff auf die Daten erforderlich ist. Dies führt zu einem schnelleren Training und einer effizienteren Modellinferenz.

Gepackte Daten werden häufig in Kombination mit anderen Techniken wie Datenaugmentation und Regularisierung verwendet, um die Leistung von Modellen weiter zu verbessern.

PaLM

Abkürzung für Pathways Language Model.

pandas

#fundamentals

Eine spaltenorientierte Datenanalyse-API, die auf numpy basiert. Viele Machine-Learning-Frameworks, darunter TensorFlow, unterstützen Pandas-Datenstrukturen als Eingaben. Weitere Informationen finden Sie in der pandas-Dokumentation.

Parameter

#fundamentals

Die Gewichtungen und Biases, die ein Modell während des Trainings lernt. In einem linearen Regressionsmodell bestehen die Parameter beispielsweise aus dem Bias (b) und allen Gewichten (w₁, w₂ usw.) in der folgenden Formel:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Im Gegensatz dazu sind Hyperparameter die Werte, die Sie (oder ein Hyperparameter-Abstimmungsdienst) für das Modell bereitstellen. Die Lernrate ist beispielsweise ein Hyperparameter.

Parametereffiziente Abstimmung

#generativeAI

Eine Reihe von Techniken, mit denen ein großes vortrainiertes Sprachmodell (Pre-trained Language Model, PLM) abgestimmt werden kann, und zwar effizienter als bei der vollständigen Feinabstimmung. Bei der parametereffizienten Optimierung werden in der Regel viel weniger Parameter optimiert als bei der vollständigen Optimierung. Dennoch wird in der Regel ein Large Language Model erstellt, das genauso gut (oder fast genauso gut) funktioniert wie ein Large Language Model, das durch vollständige Optimierung erstellt wurde.

Parametereffiziente Abstimmung im Vergleich zu:

Optimierung von Anweisungen
Prompt-Optimierung

Die parametereffiziente Abstimmung wird auch als parametereffiziente Feinabstimmung bezeichnet.

Parameterserver (PS)

#TensorFlow

Ein Job, der die Parameter eines Modells in einer verteilten Umgebung verfolgt.

Parameteraktualisierung

Der Vorgang, bei dem die Parameter eines Modells während des Trainings angepasst werden, in der Regel innerhalb einer einzelnen Iteration des Gradientenabstiegs.

Partielle Ableitung

Eine Ableitung, bei der alle Variablen bis auf eine als Konstante betrachtet werden. Die partielle Ableitung von f(x, y) in Bezug auf x ist beispielsweise die Ableitung von f, die nur als Funktion von x betrachtet wird (d. h. y wird konstant gehalten). Die partielle Ableitung von f in Bezug auf x konzentriert sich nur darauf, wie sich x ändert, und ignoriert alle anderen Variablen in der Gleichung.

Bias durch Teilnahme

#responsible

Synonym für Non-Response Bias. Weitere Informationen finden Sie unter Stichproben-Bias.

Partitionierungsstrategie

Der Algorithmus, mit dem Variablen auf Parameterserver verteilt werden.

Bestanden bei k (pass@k)

#Messwert

Ein Messwert zur Bestimmung der Qualität von Code (z. B. Python), der von einem Large Language Model generiert wird. Genauer gesagt gibt „Pass at k“ an, wie wahrscheinlich es ist, dass mindestens ein generierter Codeblock von k generierten Codeblöcken alle zugehörigen Einheitentests besteht.

Große Sprachmodelle haben oft Schwierigkeiten, guten Code für komplexe Programmierprobleme zu generieren. Softwareentwickler begegnen diesem Problem, indem sie das große Sprachmodell auffordern, mehrere (k) Lösungen für dasselbe Problem zu generieren. Anschließend testen Softwareentwickler jede der Lösungen mit Unittests. Die Berechnung von „Bestanden“ bei k hängt vom Ergebnis der Unit-Tests ab:

Wenn eine oder mehrere dieser Lösungen den Unittest bestehen, besteht das LLM diese Aufgabe zur Codeerstellung.
Wenn keine der Lösungen den Unittest besteht, besteht das LLM diese Aufgabe zur Codegenerierung nicht.

Die Formel für „Bestanden“ bei k lautet so:

\[\text{pass at k} = \frac{\text{total number of passes}} {\text{total number of challenges}}\]

Im Allgemeinen führen höhere Werte von k zu höheren „Pass at k“-Ergebnissen. Allerdings erfordern höhere Werte von k mehr Ressourcen für Large Language Models und Einheitentests.

Klicken Sie auf das Symbol für ein Beispiel.

Angenommen, ein Softwareentwickler bittet ein Large Language Model, k=10 Lösungen für n=50 anspruchsvolle Programmierprobleme zu generieren. Hier sind die Ergebnisse:

30 Karten/Tickets
20 Fehler

Die Wahrscheinlichkeit, dass die Note „Bestanden“ bei einem Score von 10 erreicht wird, ist also:

$$\text{pass at 10} = \frac{\text{30}} {\text{50}} = 0.6$$

Pathways Language Model (PaLM)

Ein älteres Modell und Vorgänger der Gemini-Modelle.

Pax

#generativeAI

Ein Programmierframework, das für das Training von umfangreichen Modellen neuronaler Netzwerke entwickelt wurde, die so groß sind, dass sie sich über mehrere TPU-Beschleunigerchips Slices oder Pods erstrecken.

Pax basiert auf Flax, das auf JAX basiert.

Diagramm, das die Position von Pax im Software-Stack zeigt.
Pax basiert auf JAX. Pax selbst besteht aus drei Ebenen. Die unterste Ebene enthält TensorStore und Flax.
Die mittlere Ebene enthält Optax und Flaxformer. Die oberste Ebene enthält die Praxis Modeling Library. Fiddle basiert auf Pax.

Perzeptron

Ein System (entweder Hardware oder Software), das einen oder mehrere Eingabewerte entgegennimmt, eine Funktion für die gewichtete Summe der Eingaben ausführt und einen einzelnen Ausgabewert berechnet. Im maschinellen Lernen ist die Funktion in der Regel nicht linear, z. B. ReLU, sigmoid oder tanh. Das folgende Perzeptron verwendet beispielsweise die Sigmoid-Funktion, um drei Eingabewerte zu verarbeiten:

$$f(x_1, x_2, x_3) = \text{sigmoid}(w_1 x_1 + w_2 x_2 + w_3 x_3)$$

In der folgenden Abbildung werden drei Eingaben in das Perzeptron eingegeben, die jeweils durch ein Gewicht modifiziert werden, bevor sie in das Perzeptron gelangen:

Ein Perzeptron mit drei Eingaben, die jeweils mit separaten Gewichten multipliziert werden. Das Perzeptron gibt einen einzelnen Wert aus.

Perzeptrone sind die Neuronen in neuronalen Netzwerken.

Leistung

#Messwert

Überladener Begriff mit den folgenden Bedeutungen:

Die Standardbedeutung in der Softwareentwicklung. Konkret: Wie schnell (oder effizient) läuft diese Software?
Die Bedeutung im Zusammenhang mit maschinellem Lernen. Die Leistung beantwortet die folgende Frage: Wie korrekt ist dieses Modell? Wie gut sind die Vorhersagen des Modells?

Bewertung von Variablen durch Permutation

#df

#Messwert

Eine Art von Variablenwichtigkeit, die die Zunahme des Vorhersagefehlers eines Modells nach Permutation der Werte des Features bewertet. Die Permutationsvariablenwichtigkeit ist ein modellunabhängiger Messwert.

Perplexity

#Messwert

Ein Maß dafür, wie gut ein Modell seine Aufgabe erfüllt. Angenommen, Ihre Aufgabe besteht darin, die ersten Buchstaben eines Worts zu lesen, das ein Nutzer auf einer Smartphone-Tastatur eingibt, und eine Liste mit möglichen Vervollständigungswörtern anzubieten. Die Perplexität P für diese Aufgabe entspricht ungefähr der Anzahl der Vorschläge, die Sie machen müssen, damit Ihre Liste das tatsächliche Wort enthält, das der Nutzer eingeben möchte.

Die Perplexität hängt so mit der Kreuzentropie zusammen:

$$P= 2^{-\text{cross entropy}}$$

Pipeline

Die Infrastruktur, die einen Algorithmus für maschinelles Lernen umgibt. Eine Pipeline umfasst das Erfassen der Daten, das Einfügen der Daten in Trainingsdatendateien, das Trainieren eines oder mehrerer Modelle und das Exportieren der Modelle in die Produktion.

Weitere Informationen finden Sie im Kurs „ML-Projekte verwalten“ unter ML-Pipelines.

Pipelining

Eine Form des Modellparallelismus, bei der die Verarbeitung eines Modells in aufeinanderfolgende Phasen unterteilt wird und jede Phase auf einem anderen Gerät ausgeführt wird. Während eine Phase einen Batch verarbeitet, kann die vorherige Phase am nächsten Batch arbeiten.

Siehe auch Staged Training.

pjit

Eine JAX-Funktion, die Code aufteilt, um ihn auf mehreren Beschleunigerchips auszuführen. Der Nutzer übergibt eine Funktion an pjit, die eine Funktion mit der entsprechenden Semantik zurückgibt, aber in eine XLA-Berechnung kompiliert wird, die auf mehreren Geräten (z. B. GPUs oder TPU-Kernen) ausgeführt wird.

Mit „pjit“ können Nutzer Berechnungen partitionieren, ohne sie neu zu schreiben. Dazu wird der SPMD-Partitioner verwendet.

Seit März 2023 ist pjit in jit aufgegangen. Weitere Informationen finden Sie unter Verteilte Arrays und automatische Parallelisierung.

PLM

#generativeAI

Abkürzung für vortrainiertes Sprachmodell.

pmap

Eine JAX-Funktion, die Kopien einer Eingabefunktion auf mehreren zugrunde liegenden Hardwaregeräten (CPUs, GPUs oder TPUs) mit unterschiedlichen Eingabewerten ausführt. pmap basiert auf SPMD.

Richtlinie

Beim bestärkenden Lernen wird die probabilistische Zuordnung eines Agenten von Zuständen zu Aktionen verwendet.

Pooling

Reduzierung einer Matrix (oder mehrerer Matrizen), die von einer früheren Faltungsschicht erstellt wurde, auf eine kleinere Matrix. Beim Pooling wird in der Regel entweder der Maximal- oder der Durchschnittswert für den zusammengefassten Bereich verwendet. Angenommen, wir haben die folgende 3x3-Matrix:

Die 3×3-Matrix [[5,3,1], [8,2,5], [9,4,3]].

Bei einem Pooling-Vorgang wird diese Matrix wie bei einem Faltungsvorgang in Abschnitte unterteilt und dann um Schrittweiten verschoben. Angenommen, beim Pooling-Vorgang wird die Faltungsmatrix in 2×2-Ausschnitte mit einem 1×1-Schritt unterteilt. Wie im folgenden Diagramm dargestellt, finden vier Pooling-Vorgänge statt. Stellen Sie sich vor, dass bei jedem Pooling-Vorgang der maximale Wert der vier Werte in diesem Slice ausgewählt wird:

Durch das Pooling wird die Translationsinvarianz in der Eingabematrix erzwungen.

Pooling für Vision-Anwendungen wird formeller als räumliches Pooling bezeichnet. In Zeitreihenanwendungen wird Pooling in der Regel als temporales Pooling bezeichnet. Weniger formell wird Pooling oft als Subsampling oder Downsampling bezeichnet.

Weitere Informationen finden Sie im Kurs „ML Practicum: Image Classification“ unter Introducing Convolutional Neural Networks.

Positionscodierung

Ein Verfahren zum Hinzufügen von Informationen zur Position eines Tokens in einer Sequenz zum Embedding des Tokens. Transformer-Modelle verwenden die Positionscodierung, um die Beziehung zwischen verschiedenen Teilen der Sequenz besser zu verstehen.

Bei einer gängigen Implementierung der Positionscodierung wird eine Sinusfunktion verwendet. (Genauer gesagt werden die Frequenz und Amplitude der Sinusfunktion durch die Position des Tokens in der Sequenz bestimmt.) Mit dieser Technik kann ein Transformer-Modell lernen, je nach Position auf verschiedene Teile der Sequenz zu achten.

positive Klasse

#fundamentals

#Messwert

Die Klasse, die Sie testen.

Die positive Klasse in einem Krebsmodell könnte beispielsweise „Tumor“ sein. Die positive Klasse in einem E-Mail-Klassifizierungsmodell könnte „Spam“ sein.

Kontrast zur negativen Klasse

Klicken Sie auf das Symbol, um zusätzliche Hinweise zu erhalten.

Der Begriff positive Klasse kann verwirrend sein, da das „positive“ Ergebnis vieler Tests oft ein unerwünschtes Ergebnis ist. In vielen medizinischen Tests entspricht die positive Klasse beispielsweise Tumoren oder Krankheiten. Im Allgemeinen möchten Sie, dass ein Arzt Ihnen sagt: „Herzlichen Glückwunsch! Ihr Testergebnis war negativ.“ Unabhängig davon ist die positive Klasse das Ereignis, das im Test gefunden werden soll.

Sie testen gleichzeitig sowohl für die positive als auch für die negative Klasse.

Nachbearbeitung

#responsible

#fundamentals

Die Ausgabe eines Modells wird nach dem Ausführen des Modells angepasst. Mit der Nachbearbeitung lassen sich Fairness-Einschränkungen durchsetzen, ohne die Modelle selbst zu ändern.

Beispielsweise kann die Nachbearbeitung auf ein binäres Klassifikationsmodell angewendet werden, indem ein Klassifikationsschwellenwert festgelegt wird, sodass die Chancengleichheit für ein Attribut aufrechterhalten wird. Dazu wird geprüft, ob die Rate der richtig positiven Ergebnisse für alle Werte dieses Attributs gleich ist.

Nachtrainiertes Modell

#generativeAI

Ein weit gefasster Begriff, der sich in der Regel auf ein vortrainiertes Modell bezieht, das eine Nachbearbeitung durchlaufen hat, z. B. eine oder mehrere der folgenden:

Destillation
Feinabstimmung
Optimierung von Anweisungen

PR AUC (Bereich unter der PR-Kurve)

#Messwert

Die Fläche unter der interpolierten Genauigkeits-/Trefferquotenkurve, die durch das Darstellen von (Recall, Precision)-Punkten für verschiedene Werte des Klassifizierungsschwellenwerts ermittelt wird.

Praxis

Eine leistungsstarke ML-Kernbibliothek von Pax. Praxis wird oft als „Layer-Bibliothek“ bezeichnet.

Praxis enthält nicht nur die Definitionen für die Layer-Klasse, sondern auch die meisten ihrer unterstützenden Komponenten, darunter:

Dateneingaben
Konfigurationsbibliotheken (HParam und Fiddle)
Optimierer

Praxis stellt die Definitionen für die Model-Klasse bereit.

Precision

#fundamentals

#Messwert

Ein Messwert für Klassifizierungsmodelle, der die folgende Frage beantwortet:

Wenn das Modell die positive Klasse vorhergesagt hat, wie viel Prozent der Vorhersagen waren richtig?

Hier ist die Formel:

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

Dabei gilt:

„Richtig positiv“ bedeutet, dass das Modell die positive Klasse richtig vorhergesagt hat.
„Falsch positiv“ bedeutet, dass das Modell die positive Klasse fälschlicherweise vorhergesagt hat.

Angenommen, ein Modell hat 200 positive Vorhersagen getroffen. Von diesen 200 positiven Vorhersagen:

150 Ergebnisse waren richtig positiv.
50 davon waren Fehlalarme.

In diesem Fall gilt:

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

Genauigkeit und Trefferquote im Vergleich.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Klassifizierung: Genauigkeit, Trefferquote, Präzision und zugehörige Messwerte.

Precision bei k (precision@k)

#Messwert

Ein Messwert zur Bewertung einer sortierten Liste von Elementen. Die Genauigkeit bei k gibt den Anteil der ersten k Elemente in dieser Liste an, die „relevant“ sind. Das bedeutet:

\[\text{precision at k} = \frac{\text{relevant items in first k items of the list}} {\text{k}}\]

Der Wert von k muss kleiner oder gleich der Länge der zurückgegebenen Liste sein. Die Länge der zurückgegebenen Liste ist nicht Teil der Berechnung.

Die Relevanz ist oft subjektiv. Selbst menschliche Prüfer, die Experten auf diesem Gebiet sind, sind sich oft nicht einig, welche Elemente relevant sind.

Vergleichen mit:

Durchschnittliche Genauigkeit bei k
Mittlere durchschnittliche Precision bei k

Klicken Sie auf das Symbol, um ein Beispiel zu sehen.

Angenommen, ein Large Language Model erhält die folgende Anfrage:

List the 6 funniest movies of all time in order.

Das Large Language Model gibt die Liste zurück, die in den ersten beiden Spalten der folgenden Tabelle zu sehen ist:

Position	Film	Relevant?
1	The General	Ja
2	Mean Girls	Ja
3	Platoon	Nein
4	Brautalarm	Ja
5	Citizen Kane	Nein
6	This is Spinal Tap	Ja

Zwei der ersten drei Filme sind relevant. Die Genauigkeit bei 3 ist also:

$$\text{precision at 3} = \frac{\text{2}} {\text{3}} = 0.67$$

Drei der ersten fünf Filme sind sehr lustig. Die Präzision bei 5 ist also:

$$\text{precision at 5} = \frac{\text{3}} {\text{5}} = 0.6$$

Precision-/Recall-Kurve

#Messwert

Eine Kurve mit Genauigkeit im Vergleich zur Trefferquote bei verschiedenen Klassifizierungsschwellenwerten.

Vorhersage-

#fundamentals

Die Ausgabe eines Modells. Beispiel:

Die Vorhersage eines binären Klassifizierungsmodells ist entweder die positive oder die negative Klasse.
Die Vorhersage eines Klassifizierungsmodells mit mehreren Klassen ist eine Klasse.
Die Vorhersage eines linearen Regressionsmodells ist eine Zahl.

Vorhersage-Bias

#Messwert

Ein Wert, der angibt, wie weit der Durchschnitt der Vorhersagen vom Durchschnitt der Labels im Datensatz entfernt ist.

Nicht zu verwechseln mit dem Bias-Term in Modellen für maschinelles Lernen oder mit Bias in Ethik und Fairness.

Prädiktives ML

Jedes Standard-Machine-Learning-System („klassisch“).

Der Begriff vorhersagendes maschinelles Lernen hat keine formale Definition. Der Begriff bezieht sich vielmehr auf eine Kategorie von ML-Systemen, die nicht auf generativer KI basieren.

Prognoseparität

#responsible

#Messwert

Ein Fairness-Messwert, mit dem geprüft wird, ob die Präzisionsraten für die betrachteten Untergruppen für ein bestimmtes Klassifizierungsmodell gleich sind.

Ein Modell, das die Zulassung zum College vorhersagt, würde beispielsweise die Vorhersageparität für die Nationalität erfüllen, wenn die Precision-Rate für Lilliputaner und Brobdingnagianer gleich ist.

Die Vorhersageparität wird manchmal auch als Vorhersageratenparität bezeichnet.

Eine ausführlichere Erläuterung der Vorhersageparität finden Sie im Abschnitt 3.2.1 von Fairness Definitions Explained.

Prognostizierte Ratenparität

#responsible

#Messwert

Ein anderer Name für Vorhersageparität.

Vorverarbeitung

#responsible

Daten werden verarbeitet, bevor sie zum Trainieren eines Modells verwendet werden. Die Vorverarbeitung kann so einfach sein wie das Entfernen von Wörtern aus einem englischen Textkorpus, die nicht im englischen Wörterbuch vorkommen, oder so komplex wie das Umformulieren von Datenpunkten, um so viele Attribute wie möglich zu entfernen, die mit sensiblen Attributen korrelieren. Durch die Vorverarbeitung können Fairnessvorgaben erfüllt werden.

Vortrainiertes Modell

#generativeAI

Obwohl sich dieser Begriff auf jedes trainierte Modell oder jeden trainierten Einbettungsvektor beziehen kann, bezieht sich „vortrainiertes Modell“ heutzutage in der Regel auf ein trainiertes Large Language Model oder eine andere Form von trainiertem generativem KI-Modell.

Siehe auch Basismodell und Foundation Model.

Vortraining

#generativeAI

Das erste Training eines Modells mit einem großen Dataset. Einige vortrainierte Modelle sind unhandliche Giganten und müssen in der Regel durch zusätzliches Training verfeinert werden. ML-Experten könnten beispielsweise ein Large Language Model mit einem riesigen Text-Dataset vortrainieren, z. B. mit allen englischsprachigen Seiten in Wikipedia. Nach dem Vortraining kann das resultierende Modell mit einer der folgenden Techniken weiter optimiert werden:

Destillation
Feinabstimmung
Optimierung von Anweisungen
Parametereffiziente Abstimmung
Prompt-Tuning

A-priori-Überzeugung

Ihre Annahmen zu den Daten, bevor Sie mit dem Training beginnen. Bei der L₂-Regularisierung wird beispielsweise davon ausgegangen, dass Gewichte klein sein und normal um null verteilt sein sollten.

Pro

#generativeAI

Ein Gemini-Modell mit weniger Parametern als Ultra, aber mehr Parametern als Nano. Weitere Informationen finden Sie unter Gemini Pro.

probabilistisches Regressionsmodell

Ein Regressionsmodell, das nicht nur die Gewichtungen für jedes Feature, sondern auch die Unsicherheit dieser Gewichtungen berücksichtigt. Ein probabilistisches Regressionsmodell generiert eine Vorhersage und die Unsicherheit dieser Vorhersage. Ein probabilistisches Regressionsmodell könnte beispielsweise eine Vorhersage von 325 mit einer Standardabweichung von 12 liefern. Weitere Informationen zu probabilistischen Regressionsmodellen finden Sie in diesem Colab auf tensorflow.org.

Wahrscheinlichkeitsdichtefunktion

#Messwert

Eine Funktion, mit der die Häufigkeit von Datenstichproben mit genau einem bestimmten Wert ermittelt wird. Wenn die Werte eines Datensatzes kontinuierliche Gleitkommazahlen sind, kommt es selten zu genauen Übereinstimmungen. Wenn Sie eine Wahrscheinlichkeitsdichtefunktion vom Wert x bis zum Wert y integrieren, erhalten Sie die erwartete Häufigkeit von Datenstichproben zwischen x und y.

Angenommen, Sie haben eine Normalverteilung mit einem Mittelwert von 200 und einer Standardabweichung von 30. Um die erwartete Häufigkeit von Datenstichproben im Bereich von 211,4 bis 218,7 zu ermitteln, können Sie die Wahrscheinlichkeitsdichtefunktion für eine Normalverteilung von 211,4 bis 218,7 integrieren.

prompt

#generativeAI

Jeder Text, der als Eingabe für ein Large Language Model eingegeben wird, um das Modell so zu konditionieren, dass es sich auf eine bestimmte Weise verhält. Prompts können so kurz wie eine Wortgruppe oder beliebig lang sein (z. B. der gesamte Text eines Romans). Prompts lassen sich in verschiedene Kategorien einteilen, darunter die in der folgenden Tabelle:

Prompt-Kategorie	Beispiel	Hinweise
Frage	`Wie schnell kann eine Taube fliegen?`
Anleitung	`Schreibe ein lustiges Gedicht über Arbitrage.`	Ein Prompt, in dem das Large Language Model aufgefordert wird, etwas zu tun.
Beispiel	`Markdown-Code in HTML übersetzen. Beispiel: Markdown: * list item HTML: <ul> <li>list item</li> </ul>`	Der erste Satz in diesem Beispiel-Prompt ist eine Anweisung. Der Rest des Prompts ist das Beispiel.
Rolle	`Erkläre einem PhD in Physik, warum Gradient Descent beim Training von Machine Learning verwendet wird.`	Der erste Teil des Satzes ist eine Anweisung, der Ausdruck „to a PhD in Physics“ ist der Rollenteil.
Teileingabe, die das Modell vervollständigen soll	`Der Premierminister des Vereinigten Königreichs wohnt unter folgender Adresse:`	Ein Prompt mit Teileingabe kann entweder abrupt enden (wie in diesem Beispiel) oder mit einem Unterstrich.

Ein generatives KI‑Modell kann auf einen Prompt mit Text, Code, Bildern, Einbettungen, Videos und fast allem anderen reagieren.

Promptbasiertes Lernen

#generativeAI

Eine Funktion bestimmter Modelle, mit der sie ihr Verhalten als Reaktion auf beliebige Texteingaben (Prompts) anpassen können. In einem typischen Prompt-basierten Lernparadigma reagiert ein Large Language Model auf einen Prompt, indem es Text generiert. Angenommen, ein Nutzer gibt den folgenden Prompt ein:

Fasse das dritte Newtonsches Gesetz zusammen.

Ein Modell, das Prompt-basiertes Lernen unterstützt, wird nicht speziell darauf trainiert, den vorherigen Prompt zu beantworten. Vielmehr „weiß“ das Modell viel über Physik, über allgemeine Sprachregeln und darüber, was im Allgemeinen nützliche Antworten ausmacht. Dieses Wissen reicht aus, um eine (hoffentlich) nützliche Antwort zu geben. Zusätzliches menschliches Feedback („Diese Antwort war zu kompliziert.“ oder „Was ist eine Reaktion?“) ermöglicht es einigen promptbasierten Lernsystemen, die Nützlichkeit ihrer Antworten nach und nach zu verbessern.

Prompt-Design

#generativeAI

Synonym für Prompt Engineering.

Prompt Engineering

#generativeAI

Die Kunst, Prompts zu erstellen, die die gewünschten Antworten von einem Large Language Model auslösen. Menschen erstellen Prompts. Gut strukturierte Prompts sind wichtig, um nützliche Antworten von einem Large Language Model zu erhalten. Das Prompt-Engineering hängt von vielen Faktoren ab, darunter:

Das Dataset, das zum Vortrainieren und möglicherweise zum Feinabstimmen des Large Language Models verwendet wird.
Die Temperatur und andere Dekodierungsparameter, die das Modell zum Generieren von Antworten verwendet.

Prompt-Design ist ein Synonym für Prompt Engineering.

Weitere Informationen zum Schreiben hilfreicher Prompts finden Sie unter Einführung in das Prompt-Design.

Prompt-Set

#generativeAI

Eine Gruppe von Prompts zum Bewerten eines Large Language Model. Die folgende Abbildung zeigt beispielsweise ein Prompt-Set mit drei Prompts:

Drei Prompts an ein LLM führen zu drei Antworten. Die drei Prompts
bilden den Prompt-Satz. Die drei Antworten bilden den Antwortsatz.

Gute Prompt-Sets bestehen aus einer ausreichend „breiten“ Sammlung von Prompts, um die Sicherheit und Nützlichkeit eines Large Language Model gründlich zu bewerten.

Siehe auch Antwortgruppe.

Prompt-Optimierung

#generativeAI

Ein mechanismus zur parametereffizienten Abstimmung, der ein „Präfix“ lernt, das das System dem eigentlichen Prompt voranstellt.

Bei einer Variante des Prompt-Tunings, die manchmal als Prefix-Tuning bezeichnet wird, wird das Präfix jeder Ebene vorangestellt. Beim Prompt-Tuning wird der Eingabeschicht in der Regel nur ein Präfix hinzugefügt.

Klicken Sie auf das Symbol, um mehr über Präfixe zu erfahren.

Beim Prompt-Tuning ist das „Präfix“ (auch als „Soft-Prompt“ bezeichnet) eine Reihe von gelernten, aufgabenspezifischen Vektoren, die den Texteinbettungen des eigentlichen Prompts vorangestellt werden. Das System lernt den Soft-Prompt, indem alle anderen Modellparameter eingefroren und für eine bestimmte Aufgabe optimiert werden.

Proxy (vertrauliche Attribute)

#responsible

Ein Attribut, das als Ersatz für ein sensibles Attribut verwendet wird. So kann beispielsweise die Postleitzahl einer Person als Proxy für ihr Einkommen, ihre Rasse oder ihre ethnische Herkunft verwendet werden.

Proxy-Labels

#fundamentals

Daten, mit denen Labels angenähert werden, die in einem Dataset nicht direkt verfügbar sind.

Angenommen, Sie müssen ein Modell trainieren, um das Stressniveau von Mitarbeitern vorherzusagen. Ihr Dataset enthält viele Vorhersagefunktionen, aber kein Label mit dem Namen Stressniveau. Sie lassen sich nicht entmutigen und wählen „Arbeitsunfälle“ als Proxy-Label für das Stressniveau aus. Denn Mitarbeiter, die unter hohem Stress stehen, haben mehr Unfälle als entspannte Mitarbeiter. Oder doch? Vielleicht steigen und sinken Arbeitsunfälle aus verschiedenen Gründen.

Nehmen wir als zweites Beispiel an, Sie möchten, dass Regnet es? ein boolesches Label für Ihren Datensatz ist, Ihr Datensatz aber keine Regendaten enthält. Wenn Fotos verfügbar sind, können Sie Bilder von Personen mit Regenschirmen als Proxy-Label für Regnet es? verwenden. Ist das ein guter Proxy-Label? Möglicherweise, aber Menschen in einigen Kulturen verwenden Regenschirme eher zum Schutz vor der Sonne als vor Regen.

Proxy-Labels sind oft unvollkommen. Wählen Sie nach Möglichkeit tatsächliche Labels anstelle von Proxy-Labels aus. Wenn kein tatsächliches Label vorhanden ist, wählen Sie das Proxy-Label sehr sorgfältig aus und entscheiden Sie sich für den am wenigsten schlechten Kandidaten.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Datasets: Labels.

reine Funktion

Eine Funktion, deren Ausgaben nur auf ihren Eingaben basieren und die keine Nebeneffekte hat. Eine reine Funktion verwendet oder ändert keinen globalen Status, z. B. den Inhalt einer Datei oder den Wert einer Variablen außerhalb der Funktion.

Mit reinen Funktionen lässt sich threadsicherer Code erstellen, was beim Sharding von Modell-Code auf mehrere Beschleunigerchips von Vorteil ist.

Für die Funktionstransformationsmethoden von JAX müssen die Eingabefunktionen reine Funktionen sein.

Q

Q-Funktion

Beim Bestärkungslernen wird die Funktion verwendet, die die erwartete Rückgabe vorhersagt, wenn eine Aktion in einem Status ausgeführt wird und dann eine bestimmte Richtlinie befolgt wird.

Die Q-Funktion wird auch als State-Action-Value-Funktion bezeichnet.

Q-Learning

Beim bestärkenden Lernen lernt ein Algorithmus, der es einem Agenten ermöglicht, die optimale Q-Funktion eines Markov-Entscheidungsprozesses zu ermitteln, indem er die Bellman-Gleichung anwendet. Der Markow-Entscheidungsprozess modelliert eine Umgebung.

Quantil

Jeder Bucket im Quantil-Bucketing.

Quantil-Bucketing

Die Werte eines Features werden in Buckets aufgeteilt, sodass jeder Bucket dieselbe (oder fast dieselbe) Anzahl von Beispielen enthält. In der folgenden Abbildung werden beispielsweise 44 Punkte in 4 Buckets unterteilt, die jeweils 11 Punkte enthalten. Damit jeder Bucket in der Abbildung dieselbe Anzahl von Punkten enthält, haben einige Buckets eine unterschiedliche Breite von x-Werten.

44 Datenpunkte, aufgeteilt in 4 Gruppen mit jeweils 11 Punkten.
Obwohl jeder Bucket dieselbe Anzahl von Datenpunkten enthält, umfassen einige Buckets einen größeren Bereich von Feature-Werten als andere.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Numerische Daten: Klassenbildung.

Quantisierung

Überladener Begriff, der auf folgende Weisen verwendet werden kann:

Implementierung von Quantil-Bucketing für ein bestimmtes Feature.
Daten werden in Nullen und Einsen umgewandelt, um sie schneller zu speichern, zu trainieren und abzuleiten. Da boolesche Daten robuster gegenüber Rauschen und Fehlern sind als andere Formate, kann die Quantisierung die Richtigkeit des Modells verbessern. Zu den Quantisierungstechniken gehören Runden, Abschneiden und Klassieren.
Die Anzahl der Bits, die zum Speichern der Parameter eines Modells verwendet werden, wird reduziert. Angenommen, die Parameter eines Modells werden als 32-Bit-Gleitkommazahlen gespeichert. Bei der Quantisierung werden diese Parameter von 32 Bit auf 4, 8 oder 16 Bit reduziert. Durch die Quantisierung wird Folgendes reduziert:
- Rechen-, Arbeitsspeicher-, Laufwerks- und Netzwerknutzung
- Zeit für die Ableitung einer Vorhersage
- Stromstärke
Die Quantisierung kann jedoch manchmal die Richtigkeit der Vorhersagen eines Modells verringern.

Warteschlange

#TensorFlow

Eine TensorFlow-Operation, die eine Warteschlangendatenstruktur implementiert. Wird normalerweise bei der Ein-/Ausgabe verwendet.

R

RAG

#fundamentals

Abkürzung für Retrieval-Augmented Generation.

Random Forest

#df

Ein Ensemble von Entscheidungsbäumen, bei dem jeder Entscheidungsbaum mit einem bestimmten zufälligen Rauschen trainiert wird, z. B. Bagging.

Random Forests sind eine Art von Entscheidungsbäumen.

Weitere Informationen finden Sie im Kurs „Entscheidungsbäume“ unter Random Forest.

Zufallsrichtlinie

Beim Reinforcement Learning wird eine Richtlinie verwendet, die eine Aktion zufällig auswählt.

Rang (Ordinalität)

Die ordinale Position einer Klasse in einem Machine-Learning-Problem, bei dem Klassen von der höchsten bis zur niedrigsten kategorisiert werden. Beispielsweise könnte ein System zur Verhaltensbewertung die Belohnungen eines Hundes vom höchsten (ein Steak) bis zum niedrigsten (welker Grünkohl) einstufen.

rank (Tensor)

#TensorFlow

Die Anzahl der Dimensionen in einem Tensor. Ein Skalar hat beispielsweise den Rang 0, ein Vektor den Rang 1 und eine Matrix den Rang 2.

Nicht zu verwechseln mit Rang (Ordinalität).

Ranking

Eine Art des überwachten Lernens, bei der eine Liste von Elementen sortiert werden soll.

Bewerter

#fundamentals

Eine Person, die Labels für Beispiele bereitstellt. „Annotator“ ist eine andere Bezeichnung für „Rater“.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Kategorische Daten: Häufige Probleme.

Rückruf

#fundamentals

#Messwert

Ein Messwert für Klassifizierungsmodelle, der die folgende Frage beantwortet:

Wenn die Ground Truth die positive Klasse war, bei wie viel Prozent der Vorhersagen hat das Modell die positive Klasse richtig erkannt?

Hier ist die Formel:

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

Dabei gilt:

„Richtig positiv“ bedeutet, dass das Modell die positive Klasse richtig vorhergesagt hat.
„Falsch negativ“ bedeutet, dass das Modell fälschlicherweise die negative Klasse vorhergesagt hat.

Angenommen, Ihr Modell hat 200 Vorhersagen für Beispiele getroffen, für die die Grundwahrheit die positive Klasse war. Von diesen 200 Vorhersagen:

180 Ergebnisse waren richtig positiv.
20 Ergebnisse waren falsch negativ.

In diesem Fall gilt:

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

Klicken Sie auf das Symbol für Hinweise zu Datasets mit unausgewogenen Klassen.

Der Recall ist besonders nützlich, um die Vorhersagekraft von Klassifikationsmodellen zu bestimmen, in denen die positive Klasse selten ist. Betrachten Sie beispielsweise einen Datensatz mit ungleichgewichtigen Klassen, in dem die positive Klasse für eine bestimmte Krankheit nur bei 10 von einer Million Patienten auftritt. Angenommen, Ihr Modell trifft fünf Millionen Vorhersagen, die zu den folgenden Ergebnissen führen:

30 richtig positive Ergebnisse
20 falsch negative Ergebnisse
4.999.000 richtig negative Ergebnisse
950 falsch positive Ergebnisse

Der Recall dieses Modells ist also:

recall = TP / (TP + FN)
recall = 30 / (30 + 20) = 0.6 = 60%

Die Genauigkeit dieses Modells ist hingegen:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (30 + 4,999,000) / (30 + 4,999,000 + 950 + 20) = 99.98%

Dieser hohe Genauigkeitswert sieht beeindruckend aus, ist aber im Grunde bedeutungslos. Recall ist für Datasets mit unausgewogenen Klassen ein viel nützlicherer Messwert als die Genauigkeit.

Weitere Informationen

Recall bei k (recall@k)

#Messwert

Eine Messgröße zur Bewertung von Systemen, die eine sortierte Liste von Elementen ausgeben. Der Recall bei k gibt den Anteil der relevanten Elemente in den ersten k Elementen in dieser Liste im Verhältnis zur Gesamtzahl der zurückgegebenen relevanten Elemente an.

\[\text{recall at k} = \frac{\text{relevant items in first k items of the list}} {\text{total number of relevant items in the list}}\]

Kontrast zu Precision at k.

Klicken Sie auf das Symbol, um ein Beispiel zu sehen.

Angenommen, ein Large Language Model erhält die folgende Anfrage:

List the 10 funniest movies of all time in order.

Das Large Language Model gibt die Liste zurück, die in den ersten beiden Spalten zu sehen ist:

Position	Film	Relevant?
1	The General	Ja
2	Mean Girls	Ja
3	Platoon	Nein
4	Brautalarm	Ja
5	This is Spinal Tap	Ja
6	Flugzeug!	Ja
7	Murmeltiertag	Ja
8	Die Ritter der Kokosnuß	Ja
9	Oppenheimer	Nein
10	Clueless – Was sonst!	Ja

Acht der Filme in der obigen Liste sind sehr lustig. Sie sind also „relevante Elemente in der Liste“. Daher ist 8 der Nenner in allen Berechnungen des Rückrufs bei k. Was ist mit dem Zähler? Nun, 3 der ersten 4 Elemente sind relevant. Daher ist der Recall bei 4:

$$\text{recall at 4} = \frac{\text{3}} {\text{8}} = 0.375$$

7 der ersten 8 Filme sind sehr lustig. Der Recall bei 8 ist also:

$$\text{recall at 8} = \frac{\text{7}} {\text{8}} = 0.875$$

Empfehlungssystem

Ein System, das für jeden Nutzer eine relativ kleine Gruppe von wünschenswerten Elementen aus einem großen Korpus auswählt. Ein Videoempfehlungssystem könnte beispielsweise zwei Videos aus einem Korpus von 100.000 Videos empfehlen und für einen Nutzer Casablanca und Die Philadelphia Story und für einen anderen Nutzer Wonder Woman und Black Panther auswählen. Ein Videoempfehlungssystem kann seine Empfehlungen auf Faktoren wie den folgenden basieren:

Filme, die von ähnlichen Nutzern bewertet oder angesehen wurden.
Genre, Regisseure, Schauspieler, demografische Zielgruppe…

Weitere Informationen finden Sie im Kurs zu Empfehlungssystemen.

Rektifizierte lineare Einheit (ReLU)

#fundamentals

Eine Aktivierungsfunktion mit dem folgenden Verhalten:

Wenn die Eingabe negativ oder null ist, ist die Ausgabe 0.
Wenn die Eingabe positiv ist, entspricht die Ausgabe der Eingabe.

Beispiel:

Wenn die Eingabe -3 ist, ist die Ausgabe 0.
Wenn die Eingabe +3 ist, ist die Ausgabe 3,0.

Hier ist ein Diagramm von ReLU:

ReLU ist eine sehr beliebte Aktivierungsfunktion. Trotz ihres einfachen Verhaltens ermöglicht ReLU einem neuronalen Netzwerk, nichtlineare Beziehungen zwischen Features und dem Label zu lernen.

wiederkehrendes neuronales Netzwerk

Ein neuronales Netzwerk, das absichtlich mehrmals ausgeführt wird, wobei Teile jedes Durchlaufs in den nächsten Durchlauf einfließen. Genauer gesagt liefern verborgene Schichten aus dem vorherigen Lauf einen Teil der Eingabe für dieselbe verborgene Schicht im nächsten Lauf. Recurrent Neural Networks sind besonders nützlich für die Auswertung von Sequenzen, da die verborgenen Ebenen aus früheren Durchläufen des neuronalen Netzwerks für frühere Teile der Sequenz lernen können.

Die folgende Abbildung zeigt beispielsweise ein rekurrentes neuronales Netzwerk, das viermal ausgeführt wird. Die Werte, die in den verborgenen Schichten des ersten Durchlaufs gelernt wurden, werden im zweiten Durchlauf Teil der Eingabe für dieselben verborgenen Schichten. Die im zweiten Durchlauf in der verborgenen Schicht gelernten Werte werden im dritten Durchlauf ebenfalls als Eingabe für dieselbe verborgene Schicht verwendet. So wird das rekurrenten neuronale Netzwerk nach und nach trainiert und kann die Bedeutung der gesamten Sequenz vorhersagen, anstatt nur die Bedeutung einzelner Wörter.

Ein RNN, das viermal ausgeführt wird, um vier Eingabewörter zu verarbeiten.

Referenztext

#generativeAI

Die Antwort eines Experten auf einen Prompt. Beispiel:

Übersetze die Frage „What is your name?“ vom Englischen ins Französische.

Die Antwort eines Experten könnte so aussehen:

Comment vous appelez-vous?

Verschiedene Messwerte (z. B. ROUGE) messen, inwieweit der Referenztext mit dem generierten Text eines ML-Modells übereinstimmt.

Selbstreflexion

#generativeAI

Eine Strategie zur Verbesserung der Qualität eines Agent-basierten Workflows, indem die Ausgabe eines Schritts untersucht (reflektiert) wird, bevor sie an den nächsten Schritt übergeben wird.

Der Prüfer ist oft dasselbe LLM, das die Antwort generiert hat (es könnte aber auch ein anderes LLM sein). Wie kann dasselbe LLM, das eine Antwort generiert hat, diese Antwort fair bewerten? Der „Trick“ besteht darin, das LLM in einen kritischen (reflektierenden) Zustand zu versetzen. Dieser Prozess ähnelt einem Autor, der mit einem kreativen Ansatz einen ersten Entwurf schreibt und dann zu einem kritischen Ansatz wechselt, um ihn zu bearbeiten.

Stellen Sie sich beispielsweise einen Agent-Workflow vor, dessen erster Schritt darin besteht, Text für Kaffeetassen zu erstellen. Der Prompt für diesen Schritt könnte lauten:

Sie sind kreativ. Generiere einen humorvollen, originellen Text mit weniger als 50 Zeichen, der für eine Kaffeetasse geeignet ist.

Stellen Sie sich nun den folgenden reflektierenden Prompt vor:

Sie trinken Kaffee. Finden Sie die vorherige Antwort humorvoll?

Im Workflow wird dann möglicherweise nur Text mit einem hohen Reflexionswert an die nächste Phase weitergeleitet.

Regressionsmodell

#fundamentals

Ein Modell, das eine numerische Vorhersage generiert. Im Gegensatz dazu wird bei einem Klassifizierungsmodell eine Vorhersage für die Klasse generiert. Beispiele für Regressionsmodelle:

Ein Modell, das den Wert eines bestimmten Hauses in Euro vorhersagt,z. B. 423.000 €.
Ein Modell, das die Lebenserwartung eines bestimmten Baums in Jahren vorhersagt, z. B. 23,2.
Ein Modell, das die Menge an Regen in Zoll vorhersagt, die in den nächsten sechs Stunden in einer bestimmten Stadt fallen wird, z. B. 0,18.

Zwei gängige Arten von Regressionsmodellen sind:

Lineare Regression: Hier wird die Linie ermittelt, die am besten zu den Labelwerten und Features passt.
Logistische Regression: Hier wird eine Wahrscheinlichkeit zwischen 0,0 und 1,0 generiert, die von einem System in der Regel einer Klassenprognose zugeordnet wird.

Nicht jedes Modell, das numerische Vorhersagen ausgibt, ist ein Regressionsmodell. In einigen Fällen ist eine numerische Vorhersage eigentlich nur ein Klassifizierungsmodell mit numerischen Klassennamen. Ein Modell, mit dem eine numerische Postleitzahl vorhergesagt wird, ist beispielsweise ein Klassifikationsmodell und kein Regressionsmodell.

Regularisierung

#fundamentals

Jeder Mechanismus, der Overfitting reduziert. Beliebte Arten der Regularisierung sind:

L₁-Regularisierung
L₂-Regularisierung
Dropout-Regularisierung
Vorzeitiger Stopp: Dies ist keine formale Regularisierungsmethode, kann aber eine Überanpassung effektiv einschränken.

Regularisierung kann auch als die Strafe für die Komplexität eines Modells definiert werden.

Klicken Sie auf das Symbol, um zusätzliche Hinweise zu erhalten.

Die Regularisierung ist kontraintuitiv. Eine stärkere Regularisierung erhöht in der Regel den Trainingsverlust. Das ist verwirrend, weil das Ziel doch eigentlich ist, den Trainingsverlust zu minimieren.

Nein. Das Ziel ist nicht, den Trainingsverlust zu minimieren. Ziel ist es, hervorragende Vorhersagen für Beispiele aus der Praxis zu treffen. Obwohl eine stärkere Regularisierung den Trainingsverlust erhöht, hilft sie Modellen in der Regel, bessere Vorhersagen für reale Beispiele zu treffen.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Overfitting: Model complexity.

Regularisierungsrate

#fundamentals

Eine Zahl, die die relative Wichtigkeit der Regularisierung während des Trainings angibt. Wenn Sie die Regularisierungsrate erhöhen, wird die Überanpassung reduziert, die Vorhersagekraft des Modells kann jedoch abnehmen. Wenn Sie die Regularisierungsrate verringern oder weglassen, steigt das Risiko von Overfitting.

Klicken Sie auf das Symbol, um die Berechnung zu sehen.

Die Regularisierungsrate wird in der Regel als griechischer Buchstabe Lambda dargestellt. Die folgende vereinfachte loss-Gleichung zeigt den Einfluss von Lambda:

$$\text{minimize(loss function + }\lambda\text{(regularization))}$$

Dabei ist Regularisierung ein beliebiger Regularisierungsmechanismus, einschließlich:

L₁-Regularisierung
L₂-Regularisierung

Weitere Informationen finden Sie im Machine Learning Crash Course unter Overfitting: L2 regularization.

Bestärkendes Lernen (Reinforcement Learning, RL)

Eine Familie von Algorithmen, die eine optimale Richtlinie lernen, deren Ziel es ist, die Rendite bei der Interaktion mit einer Umgebung zu maximieren. Die ultimative Belohnung der meisten Spiele ist beispielsweise der Sieg. Systeme für verstärkendes Lernen können komplexe Spiele meistern, indem sie Sequenzen von früheren Spielzügen auswerten, die letztendlich zu Siegen und Niederlagen geführt haben.

Bestärkendes Lernen durch menschliches Feedback (RLHF)

#generativeAI

Feedback von menschlichen Prüfern nutzen, um die Qualität der Antworten eines Modells zu verbessern. Bei einem RLHF-Mechanismus können Nutzer beispielsweise aufgefordert werden, die Qualität der Antwort eines Modells mit einem 👍- oder 👎-Emoji zu bewerten. Das System kann seine zukünftigen Antworten dann auf Grundlage dieses Feedbacks anpassen.

ReLU

#fundamentals

Abkürzung für Rectified Linear Unit (rektifizierte Lineareinheit).

Replay-Buffer

Bei Algorithmen wie DQN wird der Speicher verwendet, in dem der Agent Statusübergänge für die Verwendung in Experience Replay speichert.

Replikat

Eine Kopie (oder ein Teil) eines Trainingssets oder Modells, die in der Regel auf einem anderen Computer gespeichert ist. Ein System könnte beispielsweise die folgende Strategie zur Implementierung von Datenparallelität verwenden:

Repliken eines vorhandenen Modells auf mehreren Maschinen platzieren.
Senden Sie verschiedene Teilmengen des Trainingssets an die einzelnen Replikate.
Fassen Sie die Aktualisierungen des Parameters zusammen.

Ein Replikat kann sich auch auf eine andere Kopie eines Inferenz-Servers beziehen. Durch Erhöhen der Anzahl der Replikate wird die Anzahl der Anfragen erhöht, die das System gleichzeitig verarbeiten kann. Dies führt jedoch auch zu höheren Serving-Kosten.

Berichtsbias

#responsible

Die Häufigkeit, mit der Menschen über Aktionen, Ergebnisse oder Eigenschaften schreiben, spiegelt nicht ihre tatsächliche Häufigkeit oder den Grad wider, in dem eine Eigenschaft für eine bestimmte Gruppe von Personen charakteristisch ist. Berichtsverzerrungen können die Zusammensetzung der Daten beeinflussen, aus denen Machine-Learning-Systeme lernen.

In Büchern kommt das Wort lachte beispielsweise häufiger vor als atmete. Ein Modell für maschinelles Lernen, das die relative Häufigkeit von Lachen und Atmen in einem Buchkorpus schätzt, würde wahrscheinlich feststellen, dass Lachen häufiger vorkommt als Atmen.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Fairness: Types of bias.

Darstellung

Der Prozess, bei dem Daten nützlichen Funktionen zugeordnet werden.

Neuberechnung des Rankings

Die letzte Phase eines Empfehlungssystems>, in der bewertete Elemente nach einem anderen (in der Regel nicht auf maschinellem Lernen basierenden) Algorithmus neu bewertet werden können. Beim Neusortieren wird die Liste der Elemente, die in der Bewertungsphase generiert wurden, neu bewertet. Dabei werden unter anderem folgende Aktionen ausgeführt:

Artikel, die der Nutzer bereits gekauft hat, werden nicht mehr angezeigt.
Aktuellere Elemente erhalten einen höheren Wert.

Weitere Informationen finden Sie im Kurs zu Empfehlungssystemen unter Neuordnung.

Antwort

#generativeAI

Der Text, die Bilder, die Audioinhalte oder die Videos, die von einem generativen KI-Modell abgeleitet werden. Ein Prompt ist also die Eingabe für ein generatives KI-Modell und die Antwort ist die Ausgabe.

Antwortsatz

#generativeAI

Die Sammlung von Antworten, die ein Large Language Model für einen Eingabe-Promptsatz zurückgibt.

Retrieval-Augmented Generation (RAG)

#fundamentals

Eine Technik zur Verbesserung der Qualität der Ausgabe von Large Language Models (LLMs) durch die Fundierung mit Wissensquellen, die nach dem Training des Modells abgerufen werden. RAG verbessert die Genauigkeit von LLM-Antworten, indem es dem trainierten LLM Zugriff auf Informationen aus vertrauenswürdigen Wissensdatenbanken oder Dokumenten gewährt.

Häufige Gründe für die Verwendung von Retrieval-Augmented Generation:

Die faktische Richtigkeit der generierten Antworten eines Modells wird erhöht.
Dem Modell Zugriff auf Wissen geben, mit dem es nicht trainiert wurde.
Das Wissen ändern, das das Modell verwendet.
Das Modell kann Quellen zitieren.

Angenommen, eine Chemie-App verwendet die PaLM API, um Zusammenfassungen zu Nutzeranfragen zu generieren. Wenn das Backend der App eine Anfrage empfängt, passiert Folgendes:

Sucht nach Daten, die für die Anfrage des Nutzers relevant sind, und ruft sie ab.
Hängt die relevanten chemischen Daten an die Anfrage des Nutzers an („erweitert“).
Weist das LLM an, eine Zusammenfassung basierend auf den angehängten Daten zu erstellen.

Zeilenumbruch

Beim Reinforcement Learning ist der Return bei einer bestimmten Richtlinie und einem bestimmten Status die Summe aller Belohnungen, die der Agent voraussichtlich erhält, wenn er der Richtlinie vom Status bis zum Ende der Episode folgt. Der Agent berücksichtigt die Verzögerung der erwarteten Belohnungen, indem er Belohnungen entsprechend den erforderlichen Zustandsübergängen diskontiert.

Wenn der Rabattfaktor also $\gamma$ist und $r_0, \ldots, r_{N}$die Belohnungen bis zum Ende der Episode angibt, wird die Rendite so berechnet:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

Prämie

Beim Reinforcement Learning ist das die numerische Folge einer Aktion in einem Zustand, wie durch die Umgebung definiert.

Ridge-Regularisierung

Synonym für L₂-Regularisierung. Der Begriff Ridge-Regularisierung wird häufiger in rein statistischen Kontexten verwendet, während L₂-Regularisierung häufiger im maschinellen Lernen verwendet wird.

RNN

Abkürzung für Recurrent Neural Networks (wiederkehrende neuronale Netze).

ROC-Kurve (Receiver Operating Characteristic)

#fundamentals

#Messwert

Ein Diagramm der Richtig-Positiv-Rate im Vergleich zur Falsch-Positiv-Rate für verschiedene Klassifizierungsschwellenwerte bei der binären Klassifizierung.

Die Form einer ROC-Kurve gibt Aufschluss darüber, wie gut ein binäres Klassifikationsmodell positive von negativen Klassen trennen kann. Angenommen, ein binäres Klassifizierungsmodell trennt alle negativen Klassen perfekt von allen positiven Klassen:

Ein Zahlenstrahl mit 8 positiven Beispielen auf der rechten Seite und 7 negativen Beispielen auf der linken Seite.

Die ROC-Kurve für das vorherige Modell sieht so aus:

Eine ROC-Kurve. Die X-Achse ist die Rate falsch positiver Ergebnisse und die Y-Achse die Rate richtig positiver Ergebnisse. Die Kurve hat eine umgekehrte L-Form. Die Kurve beginnt bei (0,0,0,0) und verläuft direkt nach oben bis (0,0,1,0). Die Kurve verläuft dann von (0,0,1,0) bis (1,0,1,0).

Im Gegensatz dazu zeigt die folgende Abbildung die Rohwerte der logistischen Regression für ein schlechtes Modell, das negative Klassen überhaupt nicht von positiven Klassen trennen kann:

Ein Zahlenstrahl mit positiven Beispielen und negativen Klassen, die sich vollständig vermischen.

Die ROC-Kurve für dieses Modell sieht so aus:

Eine ROC-Kurve, die eigentlich eine gerade Linie von (0,0) bis (1,1) ist.

In der realen Welt trennen die meisten binären Klassifizierungsmodelle positive und negative Klassen bis zu einem gewissen Grad, aber in der Regel nicht perfekt. Eine typische ROC-Kurve liegt also irgendwo zwischen den beiden Extremen:

Eine ROC-Kurve. Die X-Achse ist die Rate falsch positiver Ergebnisse und die Y-Achse die Rate richtig positiver Ergebnisse. Die ROC-Kurve ähnelt einem zittrigen Bogen, der die Himmelsrichtungen von West nach Nord durchläuft.

Der Punkt auf einer ROC-Kurve, der theoretisch am nächsten an (0,0,1,0) liegt, gibt den idealen Klassifizierungsschwellenwert an. Die Auswahl des idealen Klassifizierungsschwellenwerts wird jedoch von mehreren anderen realen Problemen beeinflusst. Falsch negative Ergebnisse verursachen beispielsweise möglicherweise viel mehr Probleme als falsch positive Ergebnisse.

Ein numerischer Messwert namens AUC fasst die ROC-Kurve in einem einzelnen Gleitkommawert zusammen.

Rollen-Prompts

#generativeAI

Ein Prompt, der in der Regel mit dem Pronomen du beginnt und ein generatives KI-Modell anweist, beim Generieren der Antwort so zu tun, als wäre es eine bestimmte Person oder in einer bestimmten Rolle. Mit Rollen-Prompts kann ein generatives KI-Modell in die richtige „Denkweise“ versetzt werden, um eine nützlichere Antwort zu generieren. Je nach Art der gewünschten Antwort können Sie beispielsweise einen der folgenden Rollen-Prompts verwenden:

Sie haben einen Doktortitel in Informatik.

Sie sind Softwareentwickler und erklären neuen Programmierstudenten gerne geduldig Python.

Du bist ein Actionheld mit ganz besonderen Programmierkenntnissen. Versichere mir, dass du ein bestimmtes Element in einer Python-Liste finden wirst.

Stamm

#df

Der Startknoten (die erste Bedingung) in einem Entscheidungsbaum. Konventionsgemäß wird die Wurzel oben im Entscheidungsbaum platziert. Beispiel:

Ein Entscheidungsbaum mit zwei Bedingungen und drei Blättern. Die Startbedingung (x > 2) ist die Wurzel.

Stammverzeichnis

#TensorFlow

Das Verzeichnis, das Sie zum Hosten von Unterverzeichnissen des TensorFlow-Prüfpunkts und der Ereignisdateien mehrerer Modelle angeben.

Wurzel der mittleren Fehlerquadratsumme (RMSE)

#fundamentals

#Messwert

Die Quadratwurzel der mittleren quadratischen Abweichung.

Rotationsinvarianz

Die Fähigkeit eines Algorithmus, Bilder in einem Bildklassifizierungsproblem auch dann erfolgreich zu klassifizieren, wenn sich die Ausrichtung des Bildes ändert. Der Algorithmus kann beispielsweise ein Tennisschläger erkennen, unabhängig davon, ob er nach oben, zur Seite oder nach unten zeigt. Die Rotationsinvarianz ist nicht immer wünschenswert. Eine auf dem Kopf stehende 9 sollte beispielsweise nicht als 9 klassifiziert werden.

Siehe auch Translationsinvarianz und Größeninvarianz.

ROUGE (Recall-Oriented Understudy for Gisting Evaluation)

#Messwert

Eine Familie von Messwerten zur Bewertung von Modellen für die automatische Zusammenfassung und maschinelle Übersetzung. ROUGE-Messwerte geben an, inwieweit sich ein Referenztext mit dem generierten Text eines ML-Modells überschneidet. Jedes Mitglied der ROUGE-Familie misst die Überschneidung auf unterschiedliche Weise. Höhere ROUGE-Werte deuten auf eine größere Ähnlichkeit zwischen dem Referenztext und dem generierten Text hin als niedrigere ROUGE-Werte.

Für jedes Mitglied der ROUGE-Familie werden in der Regel die folgenden Messwerte generiert:

Precision
Recall
F₁

Weitere Informationen und Beispiele finden Sie unter:

ROUGE-L
ROUGE-N
ROUGE-S

ROUGE-L

#Messwert

Ein Mitglied der ROUGE-Familie, das sich auf die Länge der längsten gemeinsamen Untersequenz im Referenztext und generierten Text konzentriert. Mit den folgenden Formeln werden Recall und Precision für ROUGE-L berechnet:

$$\text{ROUGE-L recall} = \frac{\text{longest common sequence}} {\text{number of words in the reference text} }$$

$$\text{ROUGE-L precision} = \frac{\text{longest common sequence}} {\text{number of words in the generated text} }$$

Sie können dann F₁ verwenden, um die ROUGE-L-Trefferquote und die ROUGE-L-Genauigkeit in einem einzigen Messwert zusammenzufassen:

$$\text{ROUGE-L F} {_1} = \frac{\text{2} * \text{ROUGE-L recall} * \text{ROUGE-L precision}} {\text{ROUGE-L recall} + \text{ROUGE-L precision} }$$

Klicken Sie auf das Symbol, um ein Beispiel für die Berechnung von ROUGE-L zu sehen.

Sehen Sie sich den folgenden Referenztext und den generierten Text an.

Kategorie	Wer hat das Video produziert?	Text
Referenztext	Menschlicher Übersetzer	Ich möchte viele verschiedene Dinge verstehen.
Generierter Text	ML-Modell	Ich möchte viel lernen.

Daher:

Die längste gemeinsame Teilfolge ist 5 (I want to of things).
Der Referenztext enthält 9 Wörter.
Der generierte Text enthält sieben Wörter.

Das hat folgende Konsequenzen:

$$\text{ROUGE-L recall} = \frac{\text{5}} {\text{9} } = 0.56$$

$$\text{ROUGE-L precision} = \frac{\text{5}} {\text{7} } = 0.71$$

$$\text{ROUGE-L F} {_1} = \frac{\text{2} * \text{0.56} * \text{0.71}} {\text{0.56} + \text{0.71} } = 0.63$$

Bei ROUGE-L werden alle Zeilenumbrüche im Referenztext und im generierten Text ignoriert. Die längste gemeinsame Untersequenz kann sich also über mehrere Sätze erstrecken. Wenn der Referenztext und der generierte Text mehrere Sätze umfassen, ist in der Regel eine Variante von ROUGE-L namens ROUGE-Lsum ein besserer Messwert. ROUGE-Lsum ermittelt die längste gemeinsame Teilsequenz für jeden Satz in einem Abschnitt und berechnet dann den Mittelwert dieser längsten gemeinsamen Teilsequenzen.

Klicken Sie auf das Symbol für ein Beispiel für die Berechnung von ROUGE-Lsum.

Sehen Sie sich den folgenden Referenztext und den generierten Text an.

Kategorie	Wer hat das Video produziert?	Text
Referenztext	Menschlicher Übersetzer	Die Oberfläche des Mars ist trocken. Fast das gesamte Wasser befindet sich tief unter der Erde.
Generierter Text	ML-Modell	Der Mars hat eine trockene Oberfläche. Der Großteil des Wassers befindet sich jedoch unter der Erde.

Beispiele:

	Erster Satz	Zweiter Satz
Längste gemeinsame Sequenz	2 (Mars trocken)	3 (Wasser befindet sich unter der Erde)
Satzlänge des Referenztexts	6	7
Satzlänge des generierten Texts	5	8

Dies hat folgende Konsequenzen:

$$\text{recall of first sentence} = \frac{\text{2}} {\text{6}} = 0.33 $$

$$\text{recall of second sentence} = \frac{\text{3}} {\text{7}} = 0.43 $$

$$\text{ROUGE-Lsum recall} = \frac{\text{0.33} + \text{0.43}} {\text{2}} = 0.38 $$

$$\text{precision of first sentence} = \frac{\text{2}} {\text{5}} = 0.4 $$

$$\text{precision of second sentence} = \frac{\text{3}} {\text{8}} = 0.38 $$

$$\text{ROUGE-Lsum precision} = \frac{\text{0.4} + \text{0.38}} {\text{2}} = 0.39 $$

$$\text{ROUGE-Lsum F}{_1} = \frac{\text{2} * \text{0.38} * \text{0.39}} {\text{0.38} + \text{0.39}} = 0.38 $$

ROUGE-N

#Messwert

Eine Reihe von Messwerten aus der ROUGE-Familie, mit denen die gemeinsamen N-Gramme einer bestimmten Größe im Referenztext und im generierten Text verglichen werden. Beispiel:

Mit ROUGE-1 wird die Anzahl der gemeinsamen Tokens im Referenztext und im generierten Text gemessen.
Mit ROUGE-2 wird die Anzahl der gemeinsamen Bigramme (2-Gramme) im Referenztext und im generierten Text gemessen.
Mit ROUGE-3 wird die Anzahl der gemeinsamen Trigramme (3-Gramme) im Referenztext und im generierten Text gemessen.

Mit den folgenden Formeln können Sie den ROUGE-N-Recall und die ROUGE-N-Präzision für jedes Mitglied der ROUGE-N-Familie berechnen:

$$\text{ROUGE-N recall} = \frac{\text{number of matching N-grams}} {\text{number of N-grams in the reference text} }$$

$$\text{ROUGE-N precision} = \frac{\text{number of matching N-grams}} {\text{number of N-grams in the generated text} }$$

Sie können dann F₁ verwenden, um ROUGE-N-Recall und ROUGE-N-Präzision in einem einzigen Messwert zusammenzufassen:

$$\text{ROUGE-N F}{_1} = \frac{\text{2} * \text{ROUGE-N recall} * \text{ROUGE-N precision}} {\text{ROUGE-N recall} + \text{ROUGE-N precision} }$$

Klicken Sie auf das Symbol für ein Beispiel.

Angenommen, Sie möchten ROUGE-2 verwenden, um die Effektivität der Übersetzung eines ML-Modells im Vergleich zu der eines menschlichen Übersetzers zu messen.

Kategorie	Wer hat das Video produziert?	Text	Bigramme
Referenztext	Menschlicher Übersetzer	Ich möchte viele verschiedene Dinge verstehen.	Ich möchte, möchte, verstehen, verstehen, eine, eine breite, breite Vielfalt, Vielfalt von, von Dingen
Generierter Text	ML-Modell	Ich möchte viel lernen.	Ich möchte, möchte, lernen, lernen, viel, viel, viel

Daher:

Die Anzahl der übereinstimmenden 2‑Gramme ist 3 (I want, want to und of things).
Die Anzahl der 2‑Gramme im Referenztext beträgt 8.
Die Anzahl der 2-Gramme im generierten Text beträgt 6.

Das hat folgende Konsequenzen:

$$\text{ROUGE-2 recall} = \frac{\text{3}} {\text{8} } = 0.375$$

$$\text{ROUGE-2 precision} = \frac{\text{3}} {\text{6} } = 0.5$$

$$\text{ROUGE-2 F}{_1} = \frac{\text{2} * \text{0.375} * \text{0.5}} {\text{0.375} + \text{0.5} } = 0.43$$

ROUGE-S

#Messwert

Eine tolerantere Form von ROUGE-N, die den Abgleich von Skip-Grammen ermöglicht. ROUGE-N zählt nur N-Gramme, die genau übereinstimmen. ROUGE-S zählt auch N-Gramme, die durch ein oder mehrere Wörter getrennt sind. Sie könnten beispielsweise Folgendes versuchen:

Referenztext: Weiße Wolken
Generierter Text: Weiße, bauschige Wolken

Bei der Berechnung von ROUGE-N stimmt das 2-Gramm White clouds nicht mit White billowing clouds überein. Bei der Berechnung von ROUGE-S wird White clouds jedoch mit White billowing clouds abgeglichen.

R-Quadrat

#Messwert

Ein Regressionsmesswert, der angibt, wie viel Variation in einem Label auf ein einzelnes Feature oder eine Gruppe von Features zurückzuführen ist. R-Quadrat ist ein Wert zwischen 0 und 1, den Sie so interpretieren können:

Ein R-Quadrat von 0 bedeutet, dass keine der Variationen eines Labels auf die Gruppe von Features zurückzuführen ist.
Ein R-Quadrat von 1 bedeutet, dass die gesamte Variation eines Labels auf den Funktionssatz zurückzuführen ist.
Ein R-Quadrat zwischen 0 und 1 gibt an, inwieweit die Variation des Labels anhand eines bestimmten Merkmals oder der Merkmalsgruppe vorhergesagt werden kann. Ein R-Quadrat von 0,10 bedeutet beispielsweise, dass 10 % der Varianz des Labels auf die Feature-Gruppe zurückzuführen sind. Ein R-Quadrat von 0,20 bedeutet, dass 20 % auf die Feature-Gruppe zurückzuführen sind usw.

Das Bestimmtheitsmaß (R-Quadrat) ist das Quadrat des Pearson-Korrelationskoeffizienten zwischen den von einem Modell vorhergesagten Werten und der Ground Truth.

S

Stichprobenverzerrung

#responsible

Weitere Informationen finden Sie unter Stichproben-Bias.

Stichprobennahme mit Zurücklegen

#df

Eine Methode zum Auswählen von Elementen aus einer Menge von Kandidatenelementen, bei der dasselbe Element mehrmals ausgewählt werden kann. Der Begriff „mit Zurücklegen“ bedeutet, dass das ausgewählte Element nach jeder Auswahl in den Pool der infrage kommenden Elemente zurückgegeben wird. Bei der umgekehrten Methode, dem Sampling ohne Zurücklegen, kann ein Kandidatenelement nur einmal ausgewählt werden.

Betrachten Sie beispielsweise die folgende Menge an Früchten:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Angenommen, das System wählt fig als erstes Element zufällig aus. Wenn Sie Stichproben mit Zurücklegen verwenden, wählt das System das zweite Element aus der folgenden Menge aus:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Ja, das ist dasselbe Set wie zuvor. Das System könnte also wieder fig auswählen.

Wenn Sie Stichproben ohne Zurücklegen verwenden, kann eine ausgewählte Stichprobe nicht noch einmal ausgewählt werden. Wenn das System beispielsweise fig als erste Stichprobe zufällig auswählt, kann fig nicht noch einmal ausgewählt werden. Daher wählt das System das zweite Beispiel aus der folgenden (reduzierten) Menge aus:

fruit = {kiwi, apple, pear, cherry, lime, mango}

Klicken Sie auf das Symbol, um zusätzliche Hinweise zu erhalten.

Das Wort Ersetzung in Stichprobennahme mit Ersetzung verwirrt viele. Im Deutschen bedeutet replacement „Ersatz“. Bei der Stichprobennahme mit Ersetzung wird jedoch die französische Definition für Ersetzung verwendet, die „etwas zurücklegen“ bedeutet.

Das englische Wort replacement wird ins Französische mit remplacement übersetzt.

SavedModel

#TensorFlow

Das empfohlene Format zum Speichern und Wiederherstellen von TensorFlow-Modellen. SavedModel ist ein sprachneutrales, wiederherstellbares Serialisierungsformat, mit dem Systeme und Tools auf höherer Ebene TensorFlow-Modelle erstellen, nutzen und transformieren können.

Ausführliche Informationen finden Sie im Abschnitt zum Speichern und Wiederherstellen im TensorFlow Programmer's Guide.

Kostengünstig

#TensorFlow

Ein TensorFlow-Objekt, das für das Speichern von Modellprüfpunkten zuständig ist.

Skalar

Eine einzelne Zahl oder ein einzelner String, der als Tensor mit Rang 0 dargestellt werden kann. Mit den folgenden Codezeilen wird jeweils ein Skalar in TensorFlow erstellt:

breed = tf.Variable("poodle", tf.string)
temperature = tf.Variable(27, tf.int16)
precision = tf.Variable(0.982375101275, tf.float64)

Skalierung

Jede mathematische Transformation oder Technik, die den Bereich eines Labels, eines Funktionswerts oder beider verschiebt. Einige Formen der Skalierung sind sehr nützlich für Transformationen wie die Normalisierung.

Häufig verwendete Skalierungsformen, die für maschinelles Lernen nützlich sind:

lineare Skalierung, bei der in der Regel eine Kombination aus Subtraktion und Division verwendet wird, um den ursprünglichen Wert durch eine Zahl zwischen -1 und +1 oder zwischen 0 und 1 zu ersetzen.
Logarithmische Skalierung, bei der der ursprüngliche Wert durch seinen Logarithmus ersetzt wird.
Z-Score-Normalisierung: Der ursprüngliche Wert wird durch einen Gleitkommawert ersetzt, der die Anzahl der Standardabweichungen vom Mittelwert des entsprechenden Merkmals darstellt.

scikit-learn

Eine beliebte Open-Source-Plattform für maschinelles Lernen. Weitere Informationen finden Sie unter scikit-learn.org.

Bewertung

#Messwert

Der Teil eines Empfehlungssystems, der einen Wert oder ein Ranking für jedes Element liefert, das in der Phase der Kandidatengenerierung erstellt wird.

Selection Bias

#responsible

Fehler bei Schlussfolgerungen aus Stichprobendaten aufgrund eines Auswahlverfahrens, das systematische Unterschiede zwischen beobachteten und nicht beobachteten Stichproben in den Daten erzeugt. Es gibt die folgenden Arten von Selection Bias:

Coverage Bias: Die im Dataset dargestellte Population stimmt nicht mit der Population überein, für die das Modell für maschinelles Lernen Vorhersagen trifft.
Stichprobenverzerrung: Daten werden nicht zufällig aus der Zielgruppe erhoben.
Bias durch fehlende Antworten (auch Bias durch Teilnahme genannt): Nutzer aus bestimmten Gruppen entscheiden sich mit unterschiedlicher Häufigkeit als Nutzer aus anderen Gruppen gegen die Teilnahme an Umfragen.

Angenommen, Sie erstellen ein ML-Modell, das vorhersagt, wie gut ein Film bei bestimmten Personen ankommt. Um Trainingsdaten zu erheben, verteilen Sie einen Fragebogen an alle Personen in der ersten Reihe eines Kinos, in dem der Film gezeigt wird. Das klingt erst einmal nach einer vernünftigen Methode, um einen Datensatz zu erstellen. Allerdings können bei dieser Art der Datenerhebung die folgenden Arten von Auswahlbias auftreten:

Bias durch Abdeckung: Da Sie Stichproben aus einer Bevölkerungsgruppe nehmen, die sich den Film angesehen hat, lassen sich die Vorhersagen Ihres Modells möglicherweise nicht auf Personen übertragen, die nicht bereits ein so hohes Interesse an dem Film gezeigt haben.
Stichprobenverzerrung: Anstatt zufällig Stichproben aus der beabsichtigten Population (alle Personen im Kino) zu ziehen, haben Sie nur die Personen in der ersten Reihe befragt. Möglicherweise waren die Personen in der ersten Reihe mehr an dem Film interessiert als die in anderen Reihen.
Bias durch Nichtbeantwortung: Im Allgemeinen reagieren Menschen mit einer starken Meinung häufiger auf optionale Umfragen als Menschen mit einer milden Meinung. Da die Umfrage zum Film optional ist, bilden die Antworten eher eine bimodale Verteilung als eine normale (glockenförmige) Verteilung.

Selbstaufmerksamkeit (auch Selbstaufmerksamkeitslayer genannt)

Eine Ebene des neuronalen Netzwerks, die eine Sequenz von Einbettungen (z. B. Token-Einbettungen) in eine andere Sequenz von Einbettungen umwandelt. Jede Einbettung in der Ausgabesequenz wird durch die Integration von Informationen aus den Elementen der Eingabesequenz über einen Aufmerksamkeitsmechanismus erstellt.

Der Teil selbst von Selbstaufmerksamkeit bezieht sich darauf, dass die Sequenz auf sich selbst und nicht auf einen anderen Kontext achtet. Self-Attention ist einer der wichtigsten Bausteine für Transformer und verwendet die Terminologie der Wörterbuchsuche wie „Anfrage“ (query), „Schlüssel“ (key) und „Wert“ (value).

Ein Selbstaufmerksamkeitslayer beginnt mit einer Sequenz von Eingabedarstellungen, eine für jedes Wort. Die Eingabedarstellung für ein Wort kann ein einfaches Embedding sein. Für jedes Wort in einer Eingabesequenz bewertet das Netzwerk die Relevanz des Worts für jedes Element in der gesamten Wortfolge. Die Relevanzwerte bestimmen, inwieweit die endgültige Darstellung des Wortes die Darstellungen anderer Wörter berücksichtigt.

Betrachten Sie beispielsweise den folgenden Satz:

Das Tier überquerte die Straße nicht, weil es zu müde war.

Die folgende Abbildung (aus Transformer: A Novel Neural Network Architecture for Language Understanding) zeigt das Attention-Muster einer Self-Attention-Schicht für das Pronomen it. Die Dunkelheit der einzelnen Linien gibt an, wie viel jedes Wort zur Darstellung beiträgt:

Der folgende Satz kommt zweimal vor: Das Tier überquerte die Straße nicht, weil es zu müde war. Linien verbinden das Pronomen „it“ in einem Satz mit fünf Tokens („The“, „animal“, „street“, „it“ und dem Punkt) im anderen Satz. Die Grenze zwischen dem Pronomen „it“ und dem Wort „animal“ ist am stärksten.

Im Selbstaufmerksamkeitslayer werden Wörter hervorgehoben, die für „it“ relevant sind. In diesem Fall hat die Attention-Ebene gelernt, Wörter hervorzuheben, auf die sie sich beziehen könnte, und weist Tier das höchste Gewicht zu.

Bei einer Sequenz von n Tokens wird die Selbstaufmerksamkeit n Mal auf eine Sequenz von Einbettungen angewendet, einmal an jeder Position in der Sequenz.

Weitere Informationen finden Sie unter Aufmerksamkeit und Multi-Head Self-Attention.

selbstüberwachtes Lernen

Eine Reihe von Techniken zum Konvertieren eines Problems mit unbeaufsichtigtem maschinellen Lernen in ein Problem mit beaufsichtigtem maschinellen Lernen, indem aus Beispielen ohne Labels Ersatzlabels erstellt werden.

Einige Transformer-basierte Modelle wie BERT verwenden selbstüberwachtes Lernen.

Das selbstüberwachte Training ist ein Ansatz für halbüberwachtes Lernen.

Selbsttraining

Eine Variante des selbstüberwachten Lernens, die besonders nützlich ist, wenn alle folgenden Bedingungen erfüllt sind:

Das Verhältnis von Beispielen ohne Label zu Beispielen mit Label im Dataset ist hoch.
Dies ist ein Klassifizierungsproblem.

Beim Selbsttraining werden die folgenden beiden Schritte so lange wiederholt, bis sich das Modell nicht mehr verbessert:

Verwenden Sie überwachtes maschinelles Lernen, um ein Modell mit den Beispielen mit Labels zu trainieren.
Verwenden Sie das in Schritt 1 erstellte Modell, um Vorhersagen (Labels) für die Beispiele ohne Label zu generieren. Verschieben Sie die Beispiele, bei denen eine hohe Konfidenz besteht, mit dem vorhergesagten Label in die Beispiele mit Label.

Bei jeder Iteration von Schritt 2 werden weitere gelabelte Beispiele für Schritt 1 hinzugefügt, mit denen das Modell trainiert werden kann.

halbüberwachtes Lernen

Ein Modell mit Daten trainieren, bei denen einige der Trainingsbeispiele Labels haben, andere jedoch nicht. Eine Technik für das halbbeaufsichtigte Lernen besteht darin, Labels für die Beispiele ohne Label abzuleiten und dann ein neues Modell mit den abgeleiteten Labels zu trainieren. Halbbeaufsichtigtes Lernen kann nützlich sein, wenn Labels teuer zu beschaffen sind, aber viele Beispiele ohne Label verfügbar sind.

Selbsttraining ist eine Technik für das halbbeaufsichtigte Lernen.

sensibles Attribut

#responsible

Eine menschliche Eigenschaft, die aus rechtlichen, ethischen, sozialen oder persönlichen Gründen besonders berücksichtigt wird.

Sentimentanalyse

Mithilfe von statistischen Algorithmen oder Algorithmen für maschinelles Lernen wird die allgemeine Einstellung einer Gruppe – positiv oder negativ – gegenüber einem Dienst, Produkt, einer Organisation oder einem Thema ermittelt. Mithilfe von Natural Language Understanding kann ein Algorithmus beispielsweise eine Sentimentanalyse des textlichen Feedbacks eines Universitätskurses durchführen, um zu ermitteln, inwieweit die Studierenden den Kurs im Allgemeinen mochten oder nicht mochten.

Weitere Informationen finden Sie im Leitfaden zur Textklassifizierung.

Sequenzmodell

Ein Modell, dessen Eingaben eine sequenzielle Abhängigkeit aufweisen. So kann beispielsweise das nächste Video vorhergesagt werden, das sich ein Nutzer ansieht, basierend auf einer Reihe von Videos, die er sich zuvor angesehen hat.

Sequenz-zu-Sequenz-Aufgabe

Eine Aufgabe, bei der eine Eingabesequenz von Tokens in eine Ausgabesequenz von Tokens umgewandelt wird. Zwei beliebte Arten von Sequence-to-Sequence-Aufgaben sind beispielsweise:

Übersetzer:
- Beispiel für Eingabesequenz: „Ich liebe dich.“
- Beispiel für die Ausgabesequenz: „Je t'aime.“
Question Answering:
- Beispiel für Eingabe: „Brauche ich mein Auto in New York City?“
- Beispiel für die Ausgabesequenz: „Nein. Lass dein Auto zu Hause.“

Portion

Der Prozess, ein trainiertes Modell für Vorhersagen durch Online-Inferenz oder Offline-Inferenz verfügbar zu machen.

shape (Tensor)

Die Anzahl der Elemente in jeder Dimension eines Tensors. Die Form wird als Liste von Ganzzahlen dargestellt. Der folgende zweidimensionale Tensor hat beispielsweise die Form [3,4]:

[[5, 7, 6, 4],
 [2, 9, 4, 8],
 [3, 6, 5, 1]]

TensorFlow verwendet das zeilenweise (C-Style-)Format, um die Reihenfolge der Dimensionen darzustellen. Daher ist die Form in TensorFlow [3,4] und nicht [4,3]. In einem zweidimensionalen TensorFlow-Tensor ist die Form also [Anzahl der Zeilen, Anzahl der Spalten].

Eine statische Form ist eine Tensorform, die zur Kompilierungszeit bekannt ist.

Eine dynamische Form ist zur Kompilierzeit unbekannt und hängt daher von Laufzeitdaten ab. Dieser Tensor kann in TensorFlow mit einer Platzhalterdimension dargestellt werden, wie in [3, ?].

Shard

#TensorFlow

#GoogleCloud

Eine logische Aufteilung des Trainingssets oder des Modells. Normalerweise werden Shards durch Aufteilen der Beispiele oder Parameter in (in der Regel) gleich große Teile erstellt. Jeder Shard wird dann einer anderen Maschine zugewiesen.

Das Sharding eines Modells wird als Modellparallelität bezeichnet, das Sharding von Daten als Datenparallelität.

Einlaufen

#df

Ein Hyperparameter in Gradient Boosting, der Overfitting steuert. Die Schrumpfung beim Gradient Boosting ist analog zur Lernrate beim Gradientenabstieg. Der Schrumpfungswert ist eine Dezimalzahl zwischen 0,0 und 1,0. Ein niedrigerer Schrumpfungswert reduziert die Überanpassung stärker als ein höherer Schrumpfungswert.

vergleichende Bewertung

Vergleich der Qualität zweier Modelle anhand ihrer Antworten auf denselben Prompt. Angenommen, der folgende Prompt wird an zwei verschiedene Modelle gesendet:

Erstelle ein Bild eines süßen Hundes, der drei Bälle jongliert.

Bei einer nebeneinanderliegenden Bewertung wählt ein Bewerter aus, welches Bild „besser“ ist (genauer? Schöner? Cuter?).

Sigmoidfunktion

#fundamentals

Eine mathematische Funktion, die einen Eingabewert in einen eingeschränkten Bereich „quetscht“, in der Regel 0 bis 1 oder -1 bis +1. Das heißt, Sie können eine beliebige Zahl (2, eine Million, eine negative Milliarde usw.) an eine Sigmoidfunktion übergeben und die Ausgabe liegt trotzdem im eingeschränkten Bereich. Ein Diagramm der Sigmoid-Aktivierungsfunktion sieht so aus:

Die Sigmoid-Funktion hat mehrere Anwendungsbereiche im Bereich des maschinellen Lernens, darunter:

Umwandlung der Rohausgabe eines logistischen Regressionsmodells oder multinomialen Regressionsmodells in eine Wahrscheinlichkeit.
In einigen neuronalen Netzwerken fungiert sie als Aktivierungsfunktion.

Klicken Sie auf das Symbol, um die Berechnung zu sehen.

Die Sigmoid-Funktion für eine Eingabezahl x hat die folgende Formel:

$$ sigmoid(x) = \frac{1}{1 + e^{-\text{x}}} $$

Beim maschinellen Lernen ist x in der Regel eine gewichtete Summe.

Ähnlichkeitsmaß

#clustering

#Messwert

In Clustering-Algorithmen wird mit diesem Messwert bestimmt, wie ähnlich sich zwei Beispiele sind.

Single Program / Multiple Data (SPMD)

Eine Parallelisierungstechnik, bei der dieselbe Berechnung parallel auf verschiedenen Geräten mit unterschiedlichen Eingabedaten ausgeführt wird. Das Ziel von SPMD ist es, Ergebnisse schneller zu erhalten. Dies ist die gängigste Art der parallelen Programmierung.

Größeninvarianz

Die Fähigkeit eines Algorithmus, Bilder in einem Bildklassifizierungsproblem auch dann erfolgreich zu klassifizieren, wenn sich die Größe des Bildes ändert. Der Algorithmus kann beispielsweise eine Katze erkennen, unabhängig davon, ob er 2 Millionen oder 200.000 Pixel verarbeitet. Selbst die besten Algorithmen zur Bildklassifizierung haben praktische Grenzen in Bezug auf die Größeninvarianz. Ein Algorithmus (oder ein Mensch) wird ein Katzenbild, das nur 20 Pixel umfasst, wahrscheinlich nicht richtig klassifizieren können.

Siehe auch Translationsinvarianz und Rotationsinvarianz.

Weitere Informationen finden Sie im Clustering-Kurs.

Skizzieren

#clustering

Beim unüberwachten maschinellen Lernen>, einer Kategorie von Algorithmen, wird eine vorläufige Ähnlichkeitsanalyse von Beispielen durchgeführt. Bei Skizzierungsalgorithmen wird eine ortssensitive Hash-Funktion verwendet, um Punkte zu identifizieren, die wahrscheinlich ähnlich sind, und sie dann in Gruppen einzuteilen.

Durch das Erstellen von Skizzen wird der Rechenaufwand für Ähnlichkeitsberechnungen in großen Datasets verringert. Anstatt die Ähnlichkeit für jedes einzelne Beispielpaar im Dataset zu berechnen, wird sie nur für jedes Punktepaar innerhalb der einzelnen Buckets berechnet.

Skip-Gram

Ein N-Gramm, bei dem Wörter aus dem ursprünglichen Kontext ausgelassen werden können. Das bedeutet, dass die N Wörter ursprünglich nicht nebeneinander standen. Genauer gesagt ist ein „k-Skip-N-Gramm“ ein N-Gramm, bei dem bis zu k Wörter übersprungen werden können.

Für „Der schnelle braune Fuchs“ sind beispielsweise die folgenden möglichen 2‑Grams vorhanden:

„the quick“
„schneller brauner“
„brauner Fuchs“

Ein „1-Skip-2-Gramm“ ist ein Wortpaar, zwischen denen sich höchstens ein Wort befindet. Daher hat „Der schnelle braune Fuchs“ die folgenden 1-Skip-2-Grams:

„the brown“ (das Braune)
„schneller Fuchs“

Außerdem sind alle 2‑Grams auch 1‑Skip‑2‑Grams, da weniger als ein Wort übersprungen werden darf.

Skip-Grams sind nützlich, um den umgebenden Kontext eines Wortes besser zu verstehen. Im Beispiel wurde „fox“ in der Menge der 1-Skip-2-Grams direkt mit „quick“ in Verbindung gebracht, nicht aber in der Menge der 2-Grams.

Skip-Grams helfen beim Trainieren von Worteinbettungsmodellen.

Softmax-Funktion

#fundamentals

Eine Funktion, die Wahrscheinlichkeiten für jede mögliche Klasse in einem Klassifizierungsmodell mit mehreren Klassen bestimmt. Die Wahrscheinlichkeiten ergeben zusammen genau 1,0. In der folgenden Tabelle sehen Sie ein Beispiel dafür, wie mit der Softmax-Funktion verschiedene Wahrscheinlichkeiten verteilt werden:

Das Bild ist ein…	Probability
Hund	0,85
Katze	.13
Pferd	.02

Softmax wird auch als vollständiger Softmax bezeichnet.

Im Gegensatz dazu steht das Auswählen von Kandidaten.

Klicken Sie auf das Symbol, um die Berechnung zu sehen.

Die Softmax-Gleichung lautet so:

$$\sigma_i = \frac{e^{\text{z}_i}} {\sum_{j=1}^{j=K} {e^{\text{z}_j}}} $$

Dabei gilt:

$\sigma_i$ ist der Ausgabevektor. Jedes Element des Ausgabevektors gibt die Wahrscheinlichkeit dieses Elements an. Die Summe aller Elemente im Ausgabevektor ist 1,0. Der Ausgabevektor enthält dieselbe Anzahl von Elementen wie der Eingabevektor $z$.
$z$ ist der Eingabevektor. Jedes Element des Eingabevektors enthält einen Gleitkommawert.
$K$ ist die Anzahl der Elemente im Eingabevektor (und im Ausgabevektor).

Angenommen, der Eingabevektor ist:

[1.2, 2.5, 1.8]

Daher wird der Nenner bei der Softmax-Funktion so berechnet:

$$\text{denominator} = e^{1.2} + e^{2.5} + e^{1.8} = 21.552$$

Die Softmax-Wahrscheinlichkeit jedes Elements ist daher:

$$\sigma_1 = \frac{e^{1.2}}{21.552} = 0.154 $$ $$\sigma_2 = \frac{e^{2.5}}{21.552} = 0.565 $$ $$\sigma_1 = \frac{e^{1.8}}{21.552} = 0.281 $$

Der Ausgabevektor ist also:

$$\sigma = [0.154, 0.565, 0.281]$$

Die Summe der drei Elemente in $\sigma$ ist 1,0. Geschafft!

Weitere Informationen finden Sie im Machine Learning Crash Course unter Neuronale Netze: Multiklassenklassifizierung.

Soft-Prompt-Optimierung

#generativeAI

Eine Methode zum Abstimmen eines Large Language Model für eine bestimmte Aufgabe ohne ressourcenintensive Feinabstimmung. Anstatt alle Gewichte im Modell neu zu trainieren, wird beim Soft-Prompt-Tuning automatisch ein Prompt angepasst, um dasselbe Ziel zu erreichen.

Beim Soft-Prompt-Tuning werden in der Regel zusätzliche Token-Einbettungen an den Prompt angehängt und Backpropagation verwendet, um die Eingabe zu optimieren.

Ein „harter“ Prompt enthält tatsächliche Tokens anstelle von Token-Einbettungen.

dünnbesetztes Feature

#fundamentals

Ein Attribut, dessen Werte überwiegend null oder leer sind. Ein Feature, das einen einzelnen Wert von 1 und eine Million Werte von 0 enthält, ist beispielsweise spärlich. Im Gegensatz dazu hat ein dichtes Feature Werte, die überwiegend nicht null oder leer sind.

Beim maschinellen Lernen ist eine überraschend große Anzahl von Features spärlich. Kategoriale Merkmale sind in der Regel spärliche Merkmale. Von den 300 möglichen Baumarten in einem Wald kann ein einzelnes Beispiel beispielsweise nur einen Ahornbaum identifizieren. Oder von den Millionen möglicher Videos in einer Videobibliothek könnte ein einzelnes Beispiel nur „Casablanca“ identifizieren.

In einem Modell werden spärliche Merkmale in der Regel mit One-Hot-Codierung dargestellt. Wenn die One-Hot-Codierung groß ist, können Sie für mehr Effizienz eine Einbettungsebene darüber platzieren.

dünnbesetzte Darstellung

#fundamentals

Es werden nur die Positionen von Elementen ungleich null in einem spärlichen Feature gespeichert.

Angenommen, ein kategoriales Feature namens species identifiziert die 36 Baumarten in einem bestimmten Wald. Nehmen Sie außerdem an, dass jedes Beispiel nur eine einzelne Art identifiziert.

Sie könnten einen One-Hot-Vektor verwenden, um die Baumart in jedem Beispiel darzustellen. Ein One-Hot-Vektor würde eine einzelne 1 (zur Darstellung der jeweiligen Baumart in diesem Beispiel) und 35 0 (zur Darstellung der 35 Baumarten, die nicht in diesem Beispiel enthalten sind) enthalten. Die One-Hot-Darstellung von maple könnte also so aussehen:

Ein Vektor, in dem die Positionen 0 bis 23 den Wert 0, Position 24 den Wert 1 und die Positionen 25 bis 35 den Wert 0 haben.

Alternativ würde die spärliche Darstellung einfach die Position der jeweiligen Art angeben. Wenn maple an Position 24 steht, wäre die spärliche Darstellung von maple einfach:

Die dünnbesetzte Darstellung ist viel kompakter als die One-Hot-Darstellung.

Klicken Sie auf das Symbol, um ein etwas komplexeres Beispiel aufzurufen.

Angenommen, jedes Beispiel in Ihrem Modell muss die Wörter eines englischen Satzes repräsentieren, nicht aber die Reihenfolge dieser Wörter. Die englische Sprache besteht aus etwa 170.000 Wörtern. Englisch ist also ein kategorisches Merkmal mit etwa 170.000 Elementen. Die meisten englischen Sätze verwenden nur einen sehr kleinen Teil dieser 170.000 Wörter. Die Menge der Wörter in einem einzelnen Beispiel besteht also mit ziemlicher Sicherheit aus spärlichen Daten.

Betrachten Sie den folgenden Satz:

My dog is a great dog

Sie könnten eine Variante des One-Hot-Vektors verwenden, um die Wörter in diesem Satz darzustellen. Bei dieser Variante können mehrere Zellen im Vektor einen Wert ungleich null enthalten. Außerdem kann eine Zelle in dieser Variante eine andere Ganzzahl als 1 enthalten. Die Wörter „mein“, „ist“, „ein“ und „toller“ kommen nur einmal im Satz vor, das Wort „Hund“ jedoch zweimal. Wenn wir diese Variante von One-Hot-Vektoren verwenden, um die Wörter in diesem Satz darzustellen, erhalten wir den folgenden Vektor mit 170.000 Elementen:

Eine spärliche Darstellung desselben Satzes wäre einfach:

Klicken Sie auf das Symbol, wenn Sie unsicher sind.

Der Begriff „spärliche Darstellung“ verwirrt viele, da die spärliche Darstellung selbst kein spärlicher Vektor ist. Vielmehr ist die dünnbesetzte Darstellung eine dichte Darstellung eines dünnbesetzten Vektors. Die Synonymdarstellung Indexdarstellung ist etwas klarer als „Sparse-Darstellung“.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Mit kategorischen Daten arbeiten.

dünnbesetzter Vektor

#fundamentals

Ein Vektor, dessen Werte größtenteils Nullen sind. Siehe auch Sparsamer Feature und Sparsity.

dünne Besetzung

#Messwert

Die Anzahl der Elemente, die in einem Vektor oder einer Matrix auf null gesetzt wurden, geteilt durch die Gesamtzahl der Einträge in diesem Vektor oder dieser Matrix. Betrachten Sie beispielsweise eine Matrix mit 100 Elementen, in der 98 Zellen den Wert 0 enthalten. Die Berechnung der Sparsity erfolgt so:

$$ {\text{sparsity}} = \frac{\text{98}} {\text{100}} = {\text{0.98}} $$

Feature-Sparsity bezieht sich auf die Sparsity eines Feature-Vektors, Modell-Sparsity auf die Sparsity der Modellgewichte.

Räumliches Pooling

Weitere Informationen finden Sie unter Pooling.

Spezifikationscodierung

#generativeAI

Der Prozess des Schreibens und Verwaltens einer Datei in einer menschlichen Sprache (z. B. Englisch), die Software beschreibt. Sie können dann ein generatives KI-Modell oder einen anderen Softwareentwickler bitten, die Software zu erstellen, die dieser Beschreibung entspricht.

Automatisch generierter Code erfordert in der Regel Iteration. Beim Spezifikations-Coding wird die Beschreibungsdatei iterativ bearbeitet. Beim Konversationscodieren iterieren Sie dagegen im Promptfeld. In der Praxis umfasst die automatische Codegenerierung manchmal eine Kombination aus beiden: Spezifikations- und Konversationscodierung.

aufteilen

#df

In einem Entscheidungsbaum ist das ein anderer Name für eine Bedingung.

Splitter

#df

Beim Trainieren eines Entscheidungsbaums wird die Routine (und der Algorithmus) verwendet, um die beste Bedingung für jeden Knoten zu finden.

SPMD

Abkürzung für single program / multiple data (einzelnes Programm / mehrere Daten).

Quadratischer Hinge-Verlust

#Messwert

Das Quadrat des Hinge-Verlusts. Der quadratische Hinge-Verlust bestraft Ausreißer stärker als der reguläre Hinge-Verlust.

Quadratischer Verlust

#fundamentals

#Messwert

Synonym für L₂-Verlust.

gestaffeltes Training

Eine Taktik, bei der ein Modell in einer Reihe von diskreten Phasen trainiert wird. Das Ziel kann entweder sein, den Trainingsprozess zu beschleunigen oder eine bessere Modellqualität zu erreichen.

Unten sehen Sie eine Abbildung des progressiven Stacking-Ansatzes:

Phase 1 enthält 3 verborgene Ebenen, Phase 2 enthält 6 verborgene Ebenen und Phase 3 enthält 12 verborgene Ebenen.
In Phase 2 wird das Training mit den Gewichten aus den drei verborgenen Schichten von Phase 1 fortgesetzt. In Phase 3 beginnt das Training mit den Gewichten, die in den sechs verborgenen Ebenen von Phase 2 gelernt wurden.

Drei Phasen, die als Phase 1, Phase 2 und Phase 3 bezeichnet werden.
Jede Stufe enthält eine unterschiedliche Anzahl von Ebenen: Stufe 1 enthält 3 Ebenen, Stufe 2 enthält 6 Ebenen und Stufe 3 enthält 12 Ebenen.
Die drei Ebenen aus Phase 1 werden zu den ersten drei Ebenen von Phase 2.
Die sechs Ebenen aus Phase 2 werden zu den ersten sechs Ebenen von Phase 3.

Siehe auch Pipelining.

Bundesstaat

Im Gegensatz dazu steht die Nicht-Stationarität.

Schritt

Ein Vorwärts- und ein Rückwärtsdurchlauf eines Batch.

Weitere Informationen zum Forward- und Backward-Pass finden Sie unter Backpropagation.

Schrittgröße

Synonym für Lernrate.

Stochastic Gradient Descent (SGD)

#fundamentals

Ein Gradientenabstieg-Algorithmus, bei dem die Batchgröße 1 ist. Mit anderen Worten: SGD wird mit einem einzelnen Beispiel trainiert, das gleichmäßig zufällig aus einem Trainingsset ausgewählt wird.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Lineare Regression: Hyperparameter.

Stride

Der Deltawert in jeder Dimension der nächsten Reihe von Eingabeslices bei einer Faltungsoperation oder einem Pooling. In der folgenden Animation wird beispielsweise ein Stride von (1,1) während eines Faltungsvorgangs veranschaulicht. Daher beginnt der nächste Eingabe-Slice eine Position rechts vom vorherigen Eingabe-Slice. Wenn der Vorgang den rechten Rand erreicht, befindet sich der nächste Ausschnitt ganz links, aber eine Position tiefer.

Das obige Beispiel zeigt einen zweidimensionalen Stride. Wenn die Eingabematrix dreidimensional ist, ist auch der Stride dreidimensional.

Minimierung des strukturellen Risikos (Structural Risk Minimization, SRM)

Ein Algorithmus, der zwei Ziele in Einklang bringt:

Die Notwendigkeit, das vorhersagekräftigste Modell zu erstellen (z. B. mit dem niedrigsten Verlust).
Das Modell muss so einfach wie möglich gehalten werden (z. B. durch starke Regularisierung).

Eine Funktion, die den Verlust + Regularisierung im Trainingsset minimiert, ist beispielsweise ein Algorithmus zur Minimierung des strukturellen Risikos.

Empirische Risikominimierung

Subsampling

Weitere Informationen finden Sie unter Pooling.

Subword-Token

In Sprachmodellen ist ein Token ein Teilstring eines Worts, der das gesamte Wort sein kann.

Ein Wort wie „aufschlüsseln“ wird beispielsweise in die Teile „aufschluss“ (ein Stammwort) und „eln“ (ein Suffix) zerlegt, die jeweils durch ein eigenes Token dargestellt werden. Durch das Aufteilen seltener Wörter in solche Teile, sogenannte Unterwörter, können Sprachmodelle auf die häufigeren Bestandteile des Wortes zugreifen, z. B. auf Präfixe und Suffixe.

Umgekehrt werden häufige Wörter wie „gehen“ möglicherweise nicht aufgeteilt und durch ein einzelnes Token dargestellt.

Zusammenfassung

#TensorFlow

In TensorFlow ein Wert oder eine Gruppe von Werten, die in einem bestimmten Schritt berechnet werden und in der Regel zum Erfassen von Modellmesswerten während des Trainings verwendet werden.

überwachtes maschinelles Lernen

#fundamentals

Training eines Modells anhand von Features und den entsprechenden Labels. Überwachtes maschinelles Lernen ist vergleichbar mit dem Erlernen eines Themas durch das Bearbeiten einer Reihe von Fragen und den entsprechenden Antworten. Nachdem ein Schüler/Student die Zuordnung zwischen Fragen und Antworten beherrscht, kann er Antworten auf neue (noch nie gesehene) Fragen zum selben Thema geben.

Unüberwachtes maschinelles Lernen

Weitere Informationen finden Sie im Kurs „Einführung in ML“ unter Supervised Learning.

synthetisches Feature

#fundamentals

Ein Feature, das nicht zu den Eingabe-Features gehört, sondern aus einem oder mehreren von ihnen zusammengesetzt wird. Es gibt verschiedene Methoden zum Erstellen synthetischer Features, darunter:

Kontinuierliches Feature in Bereichs-Bins aufteilen:
Feature Cross erstellen
Multiplikation (oder Division) eines Featurewerts mit anderen Featurewerten oder mit sich selbst. Wenn a und b beispielsweise Eingabefeatures sind, sind die folgenden Beispiele für synthetische Features:
- ab
- a²
Anwenden einer transzendenten Funktion auf einen Attributwert. Wenn c beispielsweise ein Eingabe-Feature ist, sind die folgenden Beispiele für synthetische Features:
- sin(c)
- ln(c)

Funktionen, die nur durch Normalisieren oder Skalieren erstellt werden, gelten nicht als synthetische Funktionen.

T

T5

Ein Text-zu-Text-Transfer Learning-Modell, das 2020 von Google AI eingeführt wurde. T5 ist ein Encoder-Decoder-Modell, das auf der Transformer-Architektur basiert und mit einem extrem großen Dataset trainiert wurde. Es eignet sich für eine Vielzahl von Aufgaben im Bereich des Natural Language Processing, z. B. zum Generieren von Text, zum Übersetzen von Sprachen und zum Beantworten von Fragen in einem Konversationsstil.

Der Name T5 leitet sich von den fünf Buchstaben „T“ in „Text-to-Text Transfer Transformer“ ab.

T5X

Ein Open-Source-Framework für maschinelles Lernen, das für die Entwicklung und das Training von NLP-Modellen (Natural Language Processing) im großen Maßstab entwickelt wurde. T5 wird in der T5X-Codebasis implementiert, die auf JAX und Flax basiert.

tabellarisches Q-Learning

Beim Reinforcement Learning wird Q-Learning implementiert, indem eine Tabelle zum Speichern der Q-Funktionen für jede Kombination aus Status und Aktion verwendet wird.

Ziel

Synonym für Label.

Zielnetzwerk

Beim Deep Q-Learning wird ein neuronales Netzwerk verwendet, das eine stabile Approximation des Haupt-Neuronalen Netzwerks ist. Das Haupt-Neuronale Netzwerk implementiert entweder eine Q-Funktion oder eine Richtlinie. Anschließend können Sie das Hauptnetzwerk mit den vom Zielnetzwerk vorhergesagten Q-Werten trainieren. So wird der Feedbackloop verhindert, der auftritt, wenn das Hauptnetzwerk auf Q-Werten trainiert wird, die von ihm selbst vorhergesagt wurden. Wenn Sie dieses Feedback vermeiden, wird die Trainingsstabilität erhöht.

Task (in computational context, see definition)

Ein Problem, das mit Techniken für maschinelles Lernen gelöst werden kann, z. B.:

Klassifizierung
Regression
Clustering
Anomalieerkennung

Temperatur

#generativeAI

Ein Hyperparameter, der den Grad der Zufälligkeit der Ausgabe eines Modells steuert. Höhere Temperaturen führen zu zufälligeren Ausgaben, niedrigere Temperaturen zu weniger zufälligen Ausgaben.

#TensorFlow

Die Gesamtzahl der Skalare, die ein Tensor enthält. Ein [5, 10]-Tensor hat beispielsweise eine Größe von 50.

TensorStore

Eine Bibliothek zum effizienten Lesen und Schreiben großer mehrdimensionaler Arrays.

Beendigungsbedingung

Beim bestärkenden Lernen sind die Bedingungen, die das Ende einer Episode bestimmen, z. B. wenn der Agent einen bestimmten Zustand erreicht oder eine bestimmte Anzahl von Zustandsübergängen überschreitet. Beim Tic-Tac-Toe endet eine Episode beispielsweise, wenn ein Spieler drei aufeinanderfolgende Felder markiert oder wenn alle Felder markiert sind.

Test

#df

In einem Entscheidungsbaum ist das ein anderer Name für eine Bedingung.

Testverlust

#fundamentals

#Messwert

Ein Messwert, der den Verlust eines Modells im Vergleich zum Test-Dataset darstellt. Beim Erstellen eines Modells versuchen Sie in der Regel, den Testverlust zu minimieren. Das liegt daran, dass ein geringer Testverlust ein stärkeres Qualitätssignal ist als ein geringer Trainingsverlust oder ein geringer Validierungsverlust.

Eine große Lücke zwischen Testverlust und Trainings- oder Validierungsverlust deutet manchmal darauf hin, dass Sie die Regularisierungsrate erhöhen müssen.

Test-Dataset

Eine Teilmenge des Datasets, die zum Testen eines trainierten Modells reserviert ist.

Normalerweise werden die Beispiele im Dataset in die folgenden drei unterschiedlichen Teilmengen unterteilt:

ein Trainings-Dataset
ein Validierungs-Dataset
ein Test-Dataset

Jedes Beispiel in einem Dataset sollte nur zu einer der oben genannten Teilmengen gehören. Ein einzelnes Beispiel sollte beispielsweise nicht sowohl zum Trainings- als auch zum Test-Dataset gehören.

Das Trainings- und das Validierungs-Dataset sind beide eng mit dem Training eines Modells verbunden. Da das Testset nur indirekt mit dem Training zusammenhängt, ist der Testverlust ein weniger voreingenommener, hochwertigerer Messwert als der Trainingsverlust oder der Validierungsverlust.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Datasets: Dividing the original dataset.

Textbereich

Der Array-Indexbereich, der einem bestimmten Unterabschnitt eines Textstrings zugeordnet ist. Das Wort good im Python-String s="Be good now" umfasst beispielsweise den Textbereich von 3 bis 6.

tf.Example

#TensorFlow

Ein Standard- Protocol Buffer zur Beschreibung von Eingabedaten für das Training oder die Inferenz von Modellen für maschinelles Lernen.

tf.keras

#TensorFlow

Eine Implementierung von Keras, die in TensorFlow integriert ist.

Grenzwert (für Entscheidungsbäume)

#df

In einer achsenorientierten Bedingung der Wert, mit dem ein Attribut verglichen wird. Beispiel: 75 ist der Grenzwert in der folgenden Bedingung:

grade >= 75

Weitere Informationen finden Sie im Kurs „Entscheidungsbäume“ unter Exact splitter for binary classification with numerical features.

Zeitachsenanalyse

#clustering

Ein Teilgebiet des maschinellen Lernens und der Statistik, in dem zeitbezogene Daten analysiert werden. Viele Arten von Problemen beim maschinellen Lernen erfordern eine Zeitreihenanalyse, einschließlich Klassifizierung, Clustering, Prognose und Anomalieerkennung. Sie könnten beispielsweise eine Zeitreihenanalyse verwenden, um die zukünftigen monatlichen Verkaufszahlen von Wintermänteln auf Grundlage von Verkaufsverlaufsdaten vorherzusagen.

Zeitschritt

Eine „entrollte“ Zelle in einem Recurrent Neural Network. Die folgende Abbildung zeigt beispielsweise drei Zeiträume (mit den tiefgestellten Zahlen t-1, t und t+1):

Drei Zeitreihen in einem Recurrent Neural Network. Die Ausgabe des ersten Zeitschritts wird zur Eingabe für den zweiten Zeitschritt. Die Ausgabe des zweiten Zeitschritts wird zur Eingabe des dritten Zeitschritts.

Token

In einem Sprachmodell ist ein Token die atomare Einheit, mit der das Modell trainiert wird und für die es Vorhersagen trifft. Ein Token ist in der Regel eines der folgenden:

ein Wort – der Ausdruck „Hunde wie Katzen“ besteht beispielsweise aus drei Wort-Tokens: „Hunde“, „wie“ und „Katzen“.
ein Zeichen – die Wortgruppe „Fahrrad Fisch“ besteht beispielsweise aus neun Zeichen-Tokens. Das Leerzeichen zählt als eines der Tokens.
Unterwörter: Ein einzelnes Wort kann ein oder mehrere Token sein. Ein Unterwort besteht aus einem Stammwort, einem Präfix oder einem Suffix. Ein Sprachmodell, das Unterwörter als Tokens verwendet, könnte das Wort „Hunde“ beispielsweise als zwei Tokens betrachten (das Stammwort „Hund“ und das Pluralsuffix „e“). Dasselbe Sprachmodell könnte das einzelne Wort „größer“ als zwei Unterwörter ansehen (das Stammwort „groß“ und das Suffix „er“).

In anderen Bereichen als Sprachmodellen können Tokens andere Arten von atomaren Einheiten darstellen. Bei Computer Vision kann ein Token beispielsweise ein Teil eines Bildes sein.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Large language models.

tokenizer

Ein System oder Algorithmus, der eine Sequenz von Eingabedaten in Tokens übersetzt.

Die meisten modernen Foundation Models sind multimodal. Ein Tokenizer für ein multimodales System muss jeden Eingabetyp in das entsprechende Format übersetzen. Bei Eingabedaten, die sowohl Text als auch Grafiken enthalten, kann der Tokenizer beispielsweise Eingabetext in Unterwörter und Eingabebilder in kleine Patches übersetzen. Der Tokenizer muss dann alle Tokens in einen einzigen einheitlichen Einbettungsraum konvertieren, damit das Modell einen Stream multimodaler Eingaben „verstehen“ kann.

Top-K-Genauigkeit

#Messwert

Der Prozentsatz der Fälle, in denen ein „Ziellabel“ innerhalb der ersten k Positionen der generierten Listen erscheint. Die Listen können personalisierte Empfehlungen oder eine Liste von Elementen sein, die nach softmax sortiert sind.

Die Top‑k-Genauigkeit wird auch als Genauigkeit bei k bezeichnet.

Klicken Sie auf das Symbol für ein Beispiel.

Stellen Sie sich ein System für maschinelles Lernen vor, das Softmax verwendet, um die Wahrscheinlichkeiten für Bäume anhand eines Bildes von Baumblättern zu ermitteln. In der folgenden Tabelle sind Ausgabelisten zu sehen, die aus fünf Eingabebildern von Bäumen generiert wurden. Jede Zeile enthält ein Ziellabel und die fünf wahrscheinlichsten Bäume. Wenn das Ziellabel beispielsweise maple war, hat das ML-Modell elm als wahrscheinlichsten Baum, oak als zweitwahrscheinlichsten Baum usw. identifiziert.

Ziellabel	1	2	3	4	5
Ahorn	elm	Eiche	maple	Buche	Pappel
Hartriegel	Eiche	Hartriegel	Pappel	Hickory	Ahorn
Eiche	Eiche	Lindenholz	Heuschrecke	Erle	Linden
Linden	Ahorn	Papaya	Eiche	Lindenholz	Pappel
Eiche	Heuschrecke	Linden	Eiche	Ahorn	Papaya

Das Ziellabel wird nur einmal an der ersten Position angezeigt. Die Top-1-Genauigkeit ist also:

$$\text{top-1 accuracy} = \frac{\text{1}} {\text{5}} = 0.2$$

Das Ziellabel erscheint viermal auf einer der drei obersten Positionen. Die Top-3-Genauigkeit ist also:

$$\text{top-1 accuracy} = \frac{\text{4}} {\text{5}} = 0.8$$

Turm

Eine Komponente eines neuronalen Deep-Learning-Netzwerks, die selbst ein neuronales Deep-Learning-Netzwerk ist. In einigen Fällen liest jeder Tower aus einer unabhängigen Datenquelle. Diese Tower bleiben unabhängig, bis ihre Ausgabe in einer letzten Ebene kombiniert wird. In anderen Fällen, z. B. im Encoder- und Decoder-Turm vieler Transformer, haben Türme Querverbindungen zueinander.

#fundamentals

Der Prozess, bei dem die idealen Parameter (Gewichtungen und Bias) eines Modells ermittelt werden. Während des Trainings liest ein System Beispiele ein und passt die Parameter nach und nach an. Beim Training wird jedes Beispiel einige Male bis hin zu Milliarden Mal verwendet.

Weitere Informationen finden Sie im Kurs „Einführung in ML“ unter Supervised Learning.

Trainingsverlust

#fundamentals

#Messwert

Ein Messwert, der den Verlust eines Modells während eines bestimmten Trainingsdurchlaufs darstellt. Angenommen, die Verlustfunktion ist Mean Squared Error. Vielleicht beträgt der Trainingsverlust (der mittlere quadratische Fehler) für die 10.Iteration 2,2 und für die 100.Iteration 1,9.

In einer Verlustkurve wird der Trainingsverlust im Verhältnis zur Anzahl der Iterationen dargestellt. Eine Verlustkurve kann folgende Hinweise zum Training geben:

Ein abwärts gerichteter Verlauf deutet darauf hin, dass sich das Modell verbessert.
Ein Aufwärtstrend bedeutet, dass sich das Modell verschlechtert.
Eine flache Steigung bedeutet, dass das Modell konvergiert ist.

Das folgende etwas idealisierte Verlustdiagramm zeigt beispielsweise:

Ein steiler Abwärtstrend in den ersten Iterationen, der auf eine schnelle Verbesserung des Modells hindeutet.
Ein allmählich abflachender (aber immer noch abwärts gerichteter) Anstieg bis kurz vor dem Ende des Trainings, was auf eine kontinuierliche Verbesserung des Modells hindeutet, wenn auch etwas langsamer als in den ersten Iterationen.
Eine flache Steigung gegen Ende des Trainings, die auf Konvergenz hindeutet.

Das Diagramm des Trainingsverlusts im Vergleich zu den Iterationen. Diese Verlustkurve beginnt mit einem steilen Abwärtstrend. Die Steigung flacht allmählich ab, bis sie null wird.

Der Trainingsverlust ist zwar wichtig, aber sehen Sie sich auch die Generalisierung an.

Abweichungen zwischen Training und Bereitstellung

#fundamentals

Der Unterschied zwischen der Leistung eines Modells während des Trainings und der Leistung desselben Modells während der Bereitstellung.

Trainings-Dataset

#fundamentals

Die Teilmenge des Datasets, die zum Trainieren eines Modells verwendet wird.

Traditionell werden Beispiele im Dataset in die folgenden drei unterschiedlichen Teilmengen unterteilt:

ein Trainings-Dataset
ein Validierungs-Dataset
ein Test-Dataset

Idealerweise sollte jedes Beispiel im Dataset nur zu einer der oben genannten Teilmengen gehören. Ein einzelnes Beispiel sollte beispielsweise nicht sowohl zum Trainings- als auch zum Validierungs-Dataset gehören.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Datasets: Dividing the original dataset.

Flugbahn

Beim bestärkenden Lernen wird eine Sequenz von Tupeln verwendet, die eine Sequenz von Status-Übergängen des Agenten darstellen. Jedes Tupel entspricht dem Status, der Aktion}, der Belohnung und dem nächsten Status für einen bestimmten Statusübergang.

Lerntransfer

Informationen von einer Aufgabe für maschinelles Lernen auf eine andere übertragen. Beim Multitask-Learning löst beispielsweise ein einzelnes Modell mehrere Aufgaben, z. B. ein Deep-Learning-Modell mit verschiedenen Ausgabeknoten für verschiedene Aufgaben. Beim Lerntransfer kann es darum gehen, Wissen aus der Lösung einer einfacheren Aufgabe auf eine komplexere zu übertragen oder Wissen aus einer Aufgabe mit mehr Daten auf eine mit weniger Daten zu übertragen.

Die meisten Systeme für maschinelles Lernen lösen eine einzelne Aufgabe. Transfer Learning ist ein erster Schritt in Richtung künstlicher Intelligenz, bei dem ein einzelnes Programm mehrere Aufgaben lösen kann.

Transformer

Eine von Google entwickelte Architektur für neuronale Netze, die auf Self-Attention-Mechanismen basiert, um eine Sequenz von Eingabe-Embeddings in eine Sequenz von Ausgabe-Embeddings zu transformieren, ohne auf Faltungen oder rekurrente neuronale Netze zurückzugreifen. Ein Transformer kann als Stapel von Self-Attention-Layern betrachtet werden.

Ein Transformer kann Folgendes enthalten:

ein Encoder
ein Decoder
sowohl einen Encoder als auch einen Decoder

Ein Encoder transformiert eine Sequenz von Einbettungen in eine neue Sequenz derselben Länge. Ein Encoder enthält N identische Layer, die jeweils zwei Sublayer enthalten. Diese beiden Unterschichten werden an jeder Position der Eingabeeinbettungssequenz angewendet und transformieren jedes Element der Sequenz in eine neue Einbettung. Die erste Encoder-Unterschicht fasst Informationen aus der gesamten Eingabesequenz zusammen. Die zweite Encoder-Unterschicht transformiert die aggregierten Informationen in eine Ausgabeeinbettung.

Ein Decoder transformiert eine Sequenz von Eingabe-Einbettungen in eine Sequenz von Ausgabe-Einbettungen, die möglicherweise eine andere Länge hat. Ein Decoder enthält außerdem N identische Ebenen mit drei Unterebenen, von denen zwei den Unterebenen des Encoders ähneln. Die dritte Decoder-Unterschicht verwendet die Ausgabe des Encoders und wendet den Selbstaufmerksamkeitsmechanismus an, um Informationen daraus zu sammeln.

Der Blogbeitrag Transformer: A Novel Neural Network Architecture for Language Understanding bietet eine gute Einführung in Transformer.

Weitere Informationen finden Sie im Machine Learning Crash Course unter LLMs: What's a large language model?.

Translationsinvarianz

Die Fähigkeit eines Algorithmus, Bilder auch dann erfolgreich zu klassifizieren, wenn sich die Position von Objekten im Bild ändert. Der Algorithmus kann beispielsweise einen Hund erkennen, unabhängig davon, ob er sich in der Mitte oder am linken Rand des Bildes befindet.

Siehe auch Größeninvarianz und Rotationsinvarianz.

Trigramm

Ein N-Gramm, bei dem N=3 ist.

richtig negativ (RN)

#fundamentals

#Messwert

Ein Beispiel, in dem das Modell die negative Klasse richtig vorhersagt. Das Modell leitet beispielsweise ab, dass eine bestimmte E‑Mail-Nachricht kein Spam ist, und diese E‑Mail-Nachricht ist tatsächlich kein Spam.

Richtig positiv (TP)

#fundamentals

#Messwert

Ein Beispiel, in dem das Modell die positive Klasse richtig vorhersagt. Das Modell leitet beispielsweise ab, dass eine bestimmte E‑Mail-Nachricht Spam ist, und diese E‑Mail-Nachricht ist tatsächlich Spam.

Rate richtig positiver Ergebnisse (True Positive Rate, TPR)

#fundamentals

#Messwert

Synonym für Rückruf. Das bedeutet:

$$\text{true positive rate} = \frac {\text{true positives}} {\text{true positives} + \text{false negatives}}$$

Die Rate richtig positiver Ergebnisse ist die Y-Achse in einer ROC-Kurve.

TTL

Abkürzung für Gültigkeitsdauer.

U

Ultra

#generativeAI

Das Gemini-Modell mit den meisten Parametern. Weitere Informationen finden Sie unter Gemini Ultra.

Siehe auch Pro und Nano.

Unkenntnis (eines sensiblen Attributs)

#responsible

Eine Situation, in der vertrauliche Attribute vorhanden sind, aber nicht in den Trainingsdaten enthalten sind. Da sensible Attribute häufig mit anderen Attributen der Daten korrelieren, kann ein Modell, das ohne Berücksichtigung eines sensiblen Attributs trainiert wurde, in Bezug auf dieses Attribut dennoch unterschiedliche Auswirkungen haben oder andere Fairness-Einschränkungen verletzen.

Unteranpassung

#fundamentals

Ein Modell mit schlechter Vorhersagefähigkeit, da die Komplexität der Trainingsdaten nicht vollständig erfasst wurde. Unteranpassung kann viele Ursachen haben, darunter:

Das Training basiert auf den falschen Funktionen.
Das Training wurde für zu wenige Epochen oder mit einer zu niedrigen Lernrate durchgeführt.
Training mit einer zu hohen Regularisierungsrate.
Zu wenige verborgene Ebenen in einem tiefen neuronalen Netzwerk.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Overfitting.

Unterabtastung

Entfernen von Beispielen aus der Mehrheitsklasse in einem Dataset mit Klassenungleichgewicht, um ein ausgewogeneres Trainings-Dataset zu erstellen.

Betrachten Sie beispielsweise einen Datensatz, in dem das Verhältnis der Mehrheitsklasse zur Minderheitsklasse 20:1 beträgt. Um dieses Klassenungleichgewicht zu beheben, könnten Sie einen Trainingssatz erstellen, der alle Beispiele der Minderheitenklasse, aber nur ein Zehntel der Beispiele der Mehrheitsklasse enthält. Dadurch würde ein Klassenverhältnis von 2:1 im Trainingssatz entstehen. Dank des Under-Sampling kann dieses ausgewogenere Trainings-Dataset ein besseres Modell hervorbringen. Alternativ kann es sein, dass dieses ausgewogenere Trainingsset nicht genügend Beispiele für das Training eines effektiven Modells enthält.

Im Gegensatz dazu steht das Oversampling.

unidirektional

Ein System, das nur den Text vor einem Zielabschnitt auswertet. Ein bidirektionales System bewertet dagegen sowohl den Text, der einem Zielabschnitt vorangeht, als auch den Text, der ihm folgt. Weitere Informationen finden Sie unter bidirectional.

unidirektionales Sprachmodell

Ein Sprachmodell, das seine Wahrscheinlichkeiten nur auf den Tokens basiert, die vor, nicht nach den Ziel-Tokens erscheinen. Im Gegensatz zum bidirektionalen Sprachmodell.

Beispiel ohne Label

#fundamentals

Ein Beispiel, das Merkmale, aber kein Label enthält. In der folgenden Tabelle sind beispielsweise drei nicht gelabelte Beispiele aus einem Modell zur Hausbewertung aufgeführt, die jeweils drei Features, aber keinen Hauswert enthalten:

Anzahl der Schlafzimmer	Anzahl der Badezimmer	Alter des Hauses
3	2	15
2	1	72
4	2	34

Beim überwachten maschinellen Lernen> werden Modelle mit gelabelten Beispielen trainiert und Vorhersagen für nicht gelabelte Beispiele getroffen.

Beim halbüberwachten und unbeaufsichtigten Lernen werden während des Trainings Beispiele ohne Labels verwendet.

Stellen Sie ein Beispiel ohne Label einem Beispiel mit Label gegenüber.

unüberwachtes maschinelles Lernen

#clustering

#fundamentals

Trainieren eines Modells, um Muster in einem Dataset zu finden, in der Regel einem Dataset ohne Labels.

Die häufigste Anwendung von unbeaufsichtigtem maschinellem Lernen ist das Clustern von Daten in Gruppen ähnlicher Beispiele. Beispielsweise kann ein unbeaufsichtigter Algorithmus für maschinelles Lernen Songs anhand verschiedener Eigenschaften der Musik gruppieren. Die resultierenden Cluster können als Eingabe für andere Machine-Learning-Algorithmen dienen, z. B. für einen Musikempfehlungsdienst. Clustering kann hilfreich sein, wenn nützliche Labels nur in geringer Anzahl oder gar nicht vorhanden sind. In Bereichen wie Missbrauch und Betrug können Cluster beispielsweise dazu beitragen, dass Menschen die Daten besser verstehen.

Überwachtes maschinelles Lernen

Klicken Sie auf das Symbol, um zusätzliche Hinweise zu erhalten.

Ein weiteres Beispiel für unüberwachtes maschinelles Lernen ist die Hauptkomponentenanalyse (Principal Component Analysis, PCA). Wenn Sie beispielsweise die Hauptkomponentenanalyse auf einen Datensatz mit dem Inhalt von Millionen von Einkaufswagen anwenden, lässt sich möglicherweise feststellen, dass Einkaufswagen mit Zitronen häufig auch Antazida enthalten.

Weitere Informationen finden Sie im Kurs „Einführung in ML“ unter Was ist maschinelles Lernen?.

Uplift-Modellierung

Eine Modellierungstechnik, die häufig im Marketing verwendet wird, um den „kausalen Effekt“ (auch als „inkrementelle Wirkung“ bezeichnet) einer „Testgruppe“ auf eine „Einzelperson“ zu modellieren. Hier sind zwei Beispiele:

Ärzte können Uplift-Modellierung verwenden, um den Rückgang der Mortalität (kausaler Effekt) eines medizinischen Eingriffs (Behandlung) in Abhängigkeit vom Alter und der Krankengeschichte eines Patienten (Individuum) vorherzusagen.
Werbetreibende können mit Uplift-Modellierung den Anstieg der Kaufwahrscheinlichkeit (kausaler Effekt) aufgrund einer Anzeige (Behandlung) für eine Person (Individuum) vorhersagen.

Uplift-Modellierung unterscheidet sich von Klassifizierung oder Regression dadurch, dass bei der Uplift-Modellierung immer einige Labels fehlen, z. B. die Hälfte der Labels bei binären Testvariablen. Ein Patient kann beispielsweise entweder eine Behandlung erhalten oder nicht. Daher können wir nur in einer dieser beiden Situationen beobachten, ob der Patient heilen wird oder nicht (aber nie in beiden). Der Hauptvorteil eines Uplift-Modells besteht darin, dass es Vorhersagen für die nicht beobachtete Situation (das Kontrafaktische) erstellen und damit den kausalen Effekt berechnen kann.

Gewichtung erhöhen

Die Klasse mit weniger Stichproben wird mit einem Gewicht versehen, das dem Faktor entspricht, um den die Stichproben reduziert wurden.

Nutzermatrix

Die Teilmenge des Datasets, mit der eine erste Bewertung anhand eines trainierten Modells durchgeführt wird. Normalerweise wird das trainierte Modell mehrmals anhand des Validierungssets bewertet, bevor es anhand des Testsets bewertet wird.

Normalerweise werden die Beispiele im Dataset in die folgenden drei unterschiedlichen Teilmengen unterteilt:

ein Trainings-Dataset
ein Validierungs-Dataset
ein Test-Dataset

Weitere Informationen finden Sie im Machine Learning Crash Course unter Datasets: Dividing the original dataset.

Wertimputation

Der Prozess, bei dem ein fehlender Wert durch einen akzeptablen Ersatzwert ersetzt wird. Wenn ein Wert fehlt, können Sie entweder das gesamte Beispiel verwerfen oder das Beispiel durch Schätzen des fehlenden Werts retten.

Angenommen, Sie haben ein Dataset mit dem Feature temperature, das stündlich erfasst werden soll. Die Temperaturmessung war jedoch für eine bestimmte Stunde nicht verfügbar. Hier sehen Sie einen Ausschnitt des Datasets:

Zeitstempel	Temperatur
1680561000	10
1680564600	12
1680568200	fehlt
1680571800	20
1680575400	21
1680579000	21

Ein System könnte entweder das fehlende Beispiel löschen oder die fehlende Temperatur je nach Imputationsalgorithmus als 12, 16, 18 oder 20 imputieren.

Problem des verschwindenden Gradienten

Die Tendenz, dass die Gradienten der frühen verborgenen Ebenen einiger tiefen neuronalen Netzwerke überraschend flach (niedrig) werden. Immer niedrigere Gradienten führen zu immer kleineren Änderungen an den Gewichten der Knoten in einem neuronalen Deep-Learning-Netzwerk, was zu wenig oder gar keinem Lernen führt. Modelle, die unter dem Problem des verschwindenden Gradienten leiden, sind schwer oder gar nicht zu trainieren. Long Short-Term Memory-Zellen (LSTM) können dieses Problem beheben.

Vergleiche mit dem Problem mit explodierenden Gradienten.

Variablenwichtigkeiten

#df

#Messwert

Eine Reihe von Werten, die die relative Wichtigkeit der einzelnen Features für das Modell angibt.

Betrachten Sie beispielsweise einen Entscheidungsbaum, der Hauspreise schätzt. Angenommen, in diesem Entscheidungsbaum werden drei Attribute verwendet: Größe, Alter und Stil. Wenn die Wichtigkeit der drei Variablen {size=5.8, age=2.5, style=4.7} ist, ist die Größe für den Entscheidungsbaum wichtiger als das Alter oder der Stil.

Es gibt verschiedene Messwerte für die Wichtigkeit von Variablen, die ML-Experten über unterschiedliche Aspekte von Modellen informieren können.

Variations-Autoencoder (VAE)

Eine Art Autoencoder, bei dem die Diskrepanz zwischen Ein- und Ausgaben genutzt wird, um modifizierte Versionen der Eingaben zu generieren. Variational Autoencoders sind nützlich für generative KI.

VAEs basieren auf der Variationsinferenz, einer Methode zur Schätzung der Parameter eines Wahrscheinlichkeitsmodells.

Vektor

Sehr überladener Begriff, dessen Bedeutung je nach mathematischem und wissenschaftlichem Bereich variiert. Beim maschinellen Lernen hat ein Vektor zwei Eigenschaften:

Datentyp: Vektoren im maschinellen Lernen enthalten in der Regel Gleitkommazahlen.
Anzahl der Elemente: Dies ist die Länge des Vektors oder seine Dimension.

Nehmen wir als Beispiel einen Featurevektor mit acht Gleitkommazahlen. Dieser Featurevektor hat eine Länge oder Dimension von acht. Machine-Learning-Vektoren haben oft eine große Anzahl von Dimensionen.

Sie können viele verschiedene Arten von Informationen als Vektor darstellen. Beispiel:

Jede Position auf der Erdoberfläche kann als zweidimensionaler Vektor dargestellt werden, wobei eine Dimension der Breitengrad und die andere der Längengrad ist.
Die aktuellen Preise von 500 Aktien können als 500-dimensionaler Vektor dargestellt werden.
Eine Wahrscheinlichkeitsverteilung über eine endliche Anzahl von Klassen kann als Vektor dargestellt werden. Ein Klassifizierungssystem mit mehreren Klassen, das eine von drei Ausgabefarben (Rot, Grün oder Gelb) vorhersagt, könnte beispielsweise den Vektor (0.3, 0.2, 0.5) ausgeben, um P[red]=0.3, P[green]=0.2, P[yellow]=0.5 zu bedeuten.

Vektoren können verkettet werden. Daher können verschiedene Medien als einzelner Vektor dargestellt werden. Einige Modelle arbeiten direkt mit der Verkettung vieler One-Hot-Codierungen.

Spezialisierte Prozessoren wie TPUs sind für die Ausführung mathematischer Operationen an Vektoren optimiert.

Ein Vektor ist ein Tensor mit Rang 1.

Vertex

#GoogleCloud

#generativeAI

Die Plattform von Google Cloud für KI und maschinelles Lernen. Vertex bietet Tools und Infrastruktur zum Erstellen, Bereitstellen und Verwalten von KI-Anwendungen, einschließlich des Zugriffs auf Gemini-Modelle.

Vibe Coding

#generativeAI

Einen Prompt für ein generatives KI-Modell erstellen, um Software zu generieren. Ihre Prompts beschreiben also den Zweck und die Funktionen der Software, die ein generatives KI-Modell in Quellcode übersetzt. Der generierte Code entspricht nicht immer Ihren Intentionen. Daher ist beim Vibe-Coding in der Regel eine Iteration erforderlich.

Andrej Karpathy hat den Begriff „Vibe Coding“ in diesem X-Beitrag geprägt. In seinem X-Beitrag beschreibt Karpathy es als „eine neue Art des Programmierens … bei der man sich voll und ganz auf die Vibes einlässt …“ Der Begriff implizierte ursprünglich einen bewusst lockeren Ansatz zur Erstellung von Software, bei dem der generierte Code möglicherweise nicht einmal geprüft wird. Der Begriff hat sich jedoch in vielen Kreisen schnell weiterentwickelt und bedeutet jetzt jede Form von KI-generiertem Code.

Eine detailliertere Beschreibung der Vibe-Codierung finden Sie unter Was ist Vibe Coding?

Vergleichen Sie Vibe Coding außerdem mit:

Spezifikationscodierung
Konversationelles Programmieren

W

Wasserstein-Verlust

#Messwert

Eine der Verlustfunktionen, die häufig in generativen kontradiktorischen Netzwerken verwendet werden, basierend auf der Earth Mover-Distanz zwischen der Verteilung der generierten Daten und der realen Daten.

Gewicht

#fundamentals

Ein Wert, der von einem Modell mit einem anderen Wert multipliziert wird. Training ist der Prozess, bei dem die idealen Gewichte eines Modells bestimmt werden. Bei der Inferenz werden diese gelernten Gewichte verwendet, um Vorhersagen zu treffen.

Klicken Sie auf das Symbol, um ein Beispiel für Gewichte in einem linearen Modell zu sehen.

Stellen Sie sich ein lineares Modell mit zwei Features vor. Angenommen, beim Training werden die folgenden Gewichte (und Bias) ermittelt:

Der Bias „b“ hat den Wert 2,2.
Die Gewichtung w₁ für ein Feature ist 1, 5.
Das Gewicht w₂ für das andere Attribut ist 0, 4.

Stellen Sie sich nun ein Beispiel mit den folgenden Feature-Werten vor:

Der Wert eines Features, x₁, ist 6.
Der Wert des anderen Merkmals, x₂, ist 10.

Dieses lineare Modell verwendet die folgende Formel, um eine Vorhersage (y') zu generieren:

$$y' = b + w_1x_1 + w_2x_2$$

Die Vorhersage lautet daher:

$$y' = 2.2 + (1.5)(6) + (0.4)(10) = 15.2$$

Wenn ein Gewicht 0 ist, trägt das entsprechende Feature nicht zum Modell bei. Wenn w₁ beispielsweise 0 ist, ist der Wert von x₁ irrelevant.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Lineare Regression.

Gewichtete alternierende kleinste Quadrate (WALS)

Ein Algorithmus zur Minimierung der Zielfunktion während der Matrixfaktorisierung in Empfehlungssystemen, der eine Gewichtung der fehlenden Beispiele ermöglicht. Bei WALS wird der gewichtete quadratische Fehler zwischen der Originalmatrix und der Rekonstruktion minimiert, indem abwechselnd die Zeilen- und die Spaltenfaktorisierung festgelegt werden. Jede dieser Optimierungen kann durch konvexe Optimierung mit der Methode der kleinsten Quadrate gelöst werden. Weitere Informationen finden Sie im Kurs zu Empfehlungssystemen.

gewichtete Summe

#fundamentals

Die Summe aller relevanten Eingabewerte multipliziert mit den entsprechenden Gewichten. Angenommen, die relevanten Eingaben bestehen aus Folgendem:

Eingabewert	Gewichtung der Eingabe
2	–1,3
-1	0,6
3	0,4

Die gewichtete Summe ist also:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Eine gewichtete Summe ist das Eingabeargument für eine Aktivierungsfunktion.

Wide-Modell

Ein lineares Modell, das in der Regel viele spärliche Eingabe-Features hat. Wir bezeichnen es als „breit“, da ein solches Modell eine spezielle Art von neuronalem Netzwerk mit einer großen Anzahl von Eingaben ist, die direkt mit dem Ausgabeknoten verbunden sind. Breite Modelle lassen sich häufig einfacher debuggen und prüfen als tiefe Modelle. Breite Modelle können zwar keine Nichtlinearitäten über verborgene Schichten ausdrücken, aber sie können Transformationen wie Feature-Crossing und Bucketisierung verwenden, um Nichtlinearitäten auf unterschiedliche Weise zu modellieren.

Im Gegensatz dazu steht das Deep-Modell.

Breite

Die Anzahl der Neuronen in einer bestimmten Schicht eines neuronalen Netzwerks.

Schwarmintelligenz

#df

Die Idee, dass das Mitteln der Meinungen oder Schätzungen einer großen Gruppe von Menschen („der Menge“) oft überraschend gute Ergebnisse liefert. Stellen Sie sich beispielsweise ein Spiel vor, bei dem die Teilnehmer die Anzahl der Gummibärchen in einem großen Glas schätzen. Die meisten einzelnen Schätzungen sind zwar ungenau, aber der Durchschnitt aller Schätzungen liegt erfahrungsgemäß überraschend nahe an der tatsächlichen Anzahl der Jelly Beans im Glas.

Ensembles sind das Software-Analogon von „Schwarmintelligenz“. Auch wenn einzelne Modelle sehr ungenaue Vorhersagen treffen, werden durch die Mittelung der Vorhersagen vieler Modelle oft überraschend gute Vorhersagen generiert. Ein einzelner Entscheidungsbaum kann beispielsweise schlechte Vorhersagen treffen, während ein Entscheidungsbaum oft sehr gute Vorhersagen liefert.

Worteinbettung

Darstellung jedes Worts in einem Wortset in einem Einbettungsvektor, d.h.jedes Wort wird als Vektor von Gleitkommawerten zwischen 0,0 und 1,0 dargestellt. Wörter mit ähnlichen Bedeutungen haben ähnliche Darstellungen als Wörter mit unterschiedlichen Bedeutungen. Beispiel: Karotten, Sellerie und Gurken haben alle relativ ähnliche Darstellungen, die sich stark von den Darstellungen von Flugzeug, Sonnenbrille und Zahnpasta unterscheiden.

X

XLA (Accelerated Linear Algebra)

Ein Open-Source-Compiler für maschinelles Lernen für GPUs, CPUs und ML-Beschleuniger.

Der XLA-Compiler nimmt Modelle aus beliebten ML-Frameworks wie PyTorch, TensorFlow und JAX und optimiert sie für die leistungsstarke Ausführung auf verschiedenen Hardwareplattformen, einschließlich GPUs, CPUs und ML-Beschleunigern.

Z

Zero-Shot Learning

Eine Art des Trainings für maschinelles Lernen, bei der das Modell eine Vorhersage für eine Aufgabe ableitet, für die es nicht speziell trainiert wurde. Das Modell erhält also keine aufgabenspezifischen Trainingsbeispiele, wird aber aufgefordert, Inferenz für diese Aufgabe durchzuführen.

Zero-Shot-Prompting

#generativeAI

Ein Prompt, der kein Beispiel dafür enthält, wie das Large Language Model antworten soll. Beispiel:

Bestandteile eines Prompts	Hinweise
`Was ist die offizielle Währung des angegebenen Landes?`	Die Frage, die das LLM beantworten soll.
`Indien`:	Die eigentliche Abfrage.

Das Large Language Model kann mit einer der folgenden Antworten reagieren:

Rupie
INR
₹
Indische Rupie
Die Rupie
Indische Rupie

Alle Antworten sind richtig, aber vielleicht bevorzugen Sie ein bestimmtes Format.

Vergleichen Sie Zero-Shot-Prompting mit den folgenden Begriffen:

One-Shot-Prompting
Few-Shot-Prompting

Z-Score-Normalisierung

#fundamentals

Eine Skalierungsmethode, bei der ein roher Feature-Wert durch einen Gleitkommawert ersetzt wird, der die Anzahl der Standardabweichungen vom Mittelwert dieses Features darstellt. Nehmen wir als Beispiel ein Feature mit einem Mittelwert von 800 und einer Standardabweichung von 100. In der folgenden Tabelle sehen Sie, wie der Rohwert durch die Z-Score-Normalisierung dem Z-Score zugeordnet wird:

Unverarbeiteter Wert	Z-Transformation
800	0
950	+1,5
575	-2,25

Das Machine-Learning-Modell wird dann anhand der Z-Werte für dieses Merkmal und nicht anhand der Rohwerte trainiert.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Numerische Daten: Normalisierung.

In diesem Glossar werden Begriffe zum maschinellen Lernen definiert.

Machine Learning Glossary Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

A

Ablation

A/B-Tests

Beschleuniger-Chip

Genauigkeit

Klicken Sie auf das Symbol, um Details zur Genauigkeit und zu Datasets mit ungleichmäßiger Klassenverteilung zu erhalten.

Aktion

Aktivierungsfunktion

Klicken Sie auf das Symbol, um ein Beispiel zu sehen.

aktives Lernen

AdaGrad

Anpassung

Agent

agentisch

Agentischer Workflow

agglomeratives Clustering

KI-Schlupf

Anomalieerkennung

AR

Bereich unter der PR-Kurve

Bereich unter der ROC-Kurve

allgemeine künstliche Intelligenz

künstliche Intelligenz

aufmerksamkeit

Attribut

Attribut-Sampling

AUC (Area Under the ROC Curve, Bereich unter der ROC-Kurve)

Klicken Sie auf das Symbol, um mehr über die Beziehung zwischen AUC und ROC-Kurven zu erfahren.

Klicken Sie auf das Symbol, um eine formellere Definition von AUC zu erhalten.

Augmented Reality

Autoencoder

automatische Auswertung

Automatisierungsbias

AutoML

Autorater-Bewertung

autoregressives Modell

Hilfsverlust

Durchschnittliche Precision bei k

Klicken Sie auf das Symbol für ein Beispiel.

achsensymmetrische Bedingung

B

Rückpropagation

Bagging

Bag of Words

baseline

Basismodell

Batch

Batchinferenz

Batchnormalisierung

Batchgröße

Bayessches neuronales Netzwerk

Bayes'sche Optimierung

Bellman-Gleichung

BERT (Bidirectional Encoder Representations from Transformers)

Bias (Ethik/Fairness)

Bias (mathematisch) oder Bias-Term

bidirektional

Bidirektionales Sprachmodell

Bigramm

Binärklassifizierung

Binärbedingung

Gruppieren

Blackbox-Modell

BLEU (Bilingual Evaluation Understudy)

BLEURT (Bilingual Evaluation Understudy from Transformers)

Steigerung

Begrenzungsrahmen

Broadcasting

Klicken Sie auf das Symbol für ein Beispiel.

Bucketing

Klicken Sie auf das Symbol, um zusätzliche Hinweise zu erhalten.

C

Abstimmungsebene

Kandidatengenerierung

Kandidaten-Sampling

Kategoriale Daten

kausales Sprachmodell

Schwerpunkt

zentroidbasiertes Clustering

Machine Learning Glossary