Machine Learning Glossary

In diesem Glossar werden Begriffe zum Thema maschinelles Lernen definiert.

A

Ablation

Eine Methode zur Bewertung der Wichtigkeit eines Features oder einer Komponente, indem es vorübergehend aus einem Modell entfernt wird. Trainieren Sie das Modell dann ohne diese Funktion oder Komponente neu. Wenn das neu trainierte Modell eine deutlich schlechtere Leistung erzielt, war die entfernte Funktion oder Komponente wahrscheinlich wichtig.

Angenommen, Sie trainieren ein Klassifizierungsmodell mit 10 Features und erzielen eine Genauigkeit von 88% für den Testsatz. Wenn Sie die Wichtigkeit des ersten Features prüfen möchten, können Sie das Modell nur mit den neun anderen Features neu trainieren. Wenn das neu trainierte Modell eine deutlich schlechtere Leistung erzielt (z. B. 55% Genauigkeit), war das entfernte Feature wahrscheinlich wichtig. Wenn das neu trainierte Modell hingegen gleich gut abschneidet, war dieses Merkmal wahrscheinlich nicht so wichtig.

Die Ablation kann auch helfen, die Bedeutung von Folgendem zu bestimmen:

  • Größere Komponenten, z. B. ein gesamtes Subsystem eines größeren ML-Systems
  • Prozesse oder Verfahren, z. B. ein Schritt zur Datenvorverarbeitung

In beiden Fällen beobachten Sie, ob sich die Leistung des Systems ändert, nachdem Sie die Komponente entfernt haben.

A/B-Tests

Eine statistische Methode zum Vergleichen von zwei (oder mehr) Methoden – A und B. Normalerweise ist A eine vorhandene Methode und B eine neue Methode. Mit A/B-Tests wird nicht nur ermittelt, welche Methode besser abschneidet, sondern auch, ob der Unterschied statistisch signifikant ist.

Bei A/B-Tests wird in der Regel ein einzelner Messwert für zwei Methoden verglichen. Beispiel: Wie schneidet die Genauigkeit des Modells bei zwei Methoden ab? Mit A/B-Tests können jedoch auch eine beliebige Anzahl von Messwerten verglichen werden.

Beschleunigerchip

#GoogleCloud

Eine Kategorie spezieller Hardwarekomponenten, die für die Ausführung wichtiger Berechnungen entwickelt wurden, die für Deep-Learning-Algorithmen erforderlich sind.

Beschleunigerchips (kurz Beschleuniger) können die Geschwindigkeit und Effizienz von Trainings- und Inferenzaufgaben im Vergleich zu einer allgemeinen CPU erheblich steigern. Sie eignen sich ideal für das Training von neuronalen Netzwerken und ähnlichen rechenintensiven Aufgaben.

Beispiele für Beschleunigerchips:

  • Tensor Processing Units (TPUs) von Google mit spezieller Hardware für Deep Learning
  • Die GPUs von NVIDIA, die ursprünglich für die Grafikverarbeitung entwickelt wurden, ermöglichen eine parallele Verarbeitung, was die Verarbeitungsgeschwindigkeit erheblich steigern kann.

Genauigkeit

#fundamentals

Die Anzahl der korrekten Klassifizierungsvorhersagen geteilt durch die Gesamtzahl der Vorhersagen. Das bedeutet:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Ein Modell mit 40 richtigen und 10 falschen Vorhersagen hat beispielsweise eine Genauigkeit von:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

Bei der binären Klassifizierung werden die verschiedenen Kategorien von richtigen Vorhersagen und falschen Vorhersagen mit bestimmten Namen versehen. Die Formel für die Genauigkeit bei der binären Klassifizierung lautet also:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

Dabei gilt:

Vergleichen und kontrastieren Sie Accuracy mit Precision und Recall.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Klassifizierung: Genauigkeit, Rückruf, Präzision und zugehörige Messwerte.

Aktion

#rl

Bei Reinforcement Learning ist das der Mechanismus, mit dem der Agent zwischen Zuständen der Umgebung wechselt. Der Kundenservicemitarbeiter wählt die Aktion anhand einer Richtlinie aus.

Aktivierungsfunktion

#fundamentals

Eine Funktion, die es neuronalen Netzen ermöglicht, nichtlineare (komplexe) Beziehungen zwischen Features und dem Label zu lernen.

Zu den beliebten Aktivierungsfunktionen gehören:

Die Plots von Aktivierungsfunktionen sind nie einzelne Geraden. Die Darstellung der ReLU-Aktivierungsfunktion besteht beispielsweise aus zwei Geraden:

Ein kartesisches Diagramm mit zwei Linien. Die erste Linie hat einen konstanten y-Wert von 0 und verläuft entlang der x-Achse von -∞,0 bis 0,-0.
          Die zweite Linie beginnt bei 0,0. Diese Linie hat eine Steigung von +1 und verläuft daher von 0,0 bis +unendlich,+unendlich.

Ein Diagramm der Sigmoid-Aktivierungsfunktion sieht so aus:

Ein zweidimensionaler gekrümmter Plot mit X-Werten von –unendlich bis +positiv, während die Y-Werte den Bereich von fast 0 bis fast 1 umfassen. Wenn x = 0 ist, ist y = 0,5. Die Steigung der Kurve ist immer positiv, wobei die höchste Steigung bei 0,05 liegt und die Steigung mit zunehmendem Absolutwert von x allmählich abnimmt.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Neuronale Netzwerke: Aktivierungsfunktionen.

Aktives Lernen

Ein Trainingsansatz, bei dem der Algorithmus einige der Daten auswählt, aus denen er lernt. Aktives Lernen ist besonders wertvoll, wenn beschriftete Beispiele selten oder teuer zu beschaffen sind. Anstatt blind nach einer Vielzahl von gekennzeichneten Beispielen zu suchen, sucht ein Algorithmus für aktives Lernen selektiv nach den Beispielen, die er für das Lernen benötigt.

AdaGrad

Ein ausgefeilter Gradientenabstiegsalgorithmus, der die Gradienten jedes Parameters neu skaliert und so jedem Parameter eine unabhängige Lernrate zuweist. Eine ausführliche Erklärung finden Sie in diesem AdaGrad-Artikel.

Agent

#rl

Beim Verstärkungslernen ist das Entitätsobjekt, das eine Richtlinie verwendet, um den erwarteten Rücklauf zu maximieren, der durch den Übergang zwischen Zuständen der Umgebung erzielt wird.

Allgemein gesagt ist ein Agent eine Software, die eine Reihe von Aktionen zur Erreichung eines Ziels autonom plant und ausführt und sich an Änderungen in der Umgebung anpassen kann. Ein LLM-basierter Agent kann beispielsweise einen LLM verwenden, um einen Plan zu generieren, anstatt eine Richtlinie für bestärkendes Lernen anzuwenden.

Agglomeratives Clustering

#clustering

Weitere Informationen finden Sie unter hierarchisches Clustering.

Anomalieerkennung

Ausreißer identifizieren Wenn beispielsweise der Mittelwert für ein bestimmtes Merkmal 100 mit einer Standardabweichung von 10 ist, sollte die Anomalieerkennung einen Wert von 200 als verdächtig kennzeichnen.

AR

Abkürzung für Augmented Reality.

Fläche unter der PR-Kurve

Weitere Informationen finden Sie unter PR AUC (Fläche unter der PR-Kurve).

Fläche unter der ROC-Kurve

Weitere Informationen finden Sie unter AUC (Bereich unter der ROC-Kurve).

Allgemeine künstliche Intelligenz

Ein nicht menschlicher Mechanismus, der eine breite Palette von Problemlösungen, Kreativität und Anpassungsfähigkeit demonstriert. Ein Programm, das allgemeine künstliche Intelligenz demonstriert, könnte beispielsweise Texte übersetzen, Symphonien komponieren und in Spielen, die noch nicht erfunden wurden, hervorragend abschneiden.

künstliche Intelligenz

#fundamentals

Ein nicht menschliches Programm oder Modell, das anspruchsvolle Aufgaben lösen kann. Ein Programm oder Modell, das Text übersetzt, oder ein Programm oder Modell, das Krankheiten anhand radiologischer Bilder erkennt, sind Beispiele für künstliche Intelligenz.

Formal gesehen ist maschinelles Lernen ein Teilgebiet der künstlichen Intelligenz. In den letzten Jahren haben einige Organisationen jedoch begonnen, die Begriffe künstliche Intelligenz und maschinelles Lernen synonym zu verwenden.

aufmerksamkeit

#language

Ein Mechanismus in einem neuronalen Netzwerk, der die Bedeutung eines bestimmten Wortes oder Teils eines Wortes angibt. Die Aufmerksamkeit komprimiert die Menge an Informationen, die ein Modell benötigt, um das nächste Token/Wort vorherzusagen. Ein typischer Aufmerksamkeitsmechanismus kann aus einer gewichteten Summe einer Reihe von Eingaben bestehen, wobei das Gewicht für jede Eingabe von einem anderen Teil des neuronalen Netzes berechnet wird.

Weitere Informationen finden Sie unter Selbstaufmerksamkeit und Mehrere Selbstaufmerksamkeits-Köpfe. Dies sind die Bausteine von Transformern.

Weitere Informationen zur Selbstaufmerksamkeit finden Sie im Machine Learning Crash Course unter LLMs: What's a large language model?.

Attribut

#fairness

Synonym für Feature.

Bei der Fairness im maschinellen Lernen beziehen sich Attribute oft auf Merkmale, die sich auf Einzelpersonen beziehen.

Stichprobenerhebung

#df

Eine Taktik zum Trainieren eines Entscheidungswalds, bei der bei jedem Entscheidungsbaum nur eine zufällige Teilmenge der möglichen Features beim Lernen der Bedingung berücksichtigt wird. Normalerweise wird für jeden Knoten eine andere Teilmenge von Features ausgewählt. Beim Trainieren eines Entscheidungsbaums ohne Attributstichprobe werden dagegen für jeden Knoten alle möglichen Merkmale berücksichtigt.

AUC (Bereich unter der ROC-Kurve)

#fundamentals

Eine Zahl zwischen 0,0 und 1,0, die angibt, wie gut ein binäres Klassifizierungsmodell positive Klassen von negativen Klassen unterscheiden kann. Je näher der AUC an 1,0 liegt, desto besser kann das Modell Klassen voneinander unterscheiden.

Die folgende Abbildung zeigt beispielsweise ein Klassifizierungsmodell, das positive Klassen (grüne Ovale) perfekt von negativen Klassen (violette Rechtecke) trennt. Dieses unrealistisch perfekte Modell hat einen AUC von 1,0:

Eine Zahlenlinie mit 8 positiven Beispielen auf der einen Seite und 9 negativen Beispielen auf der anderen Seite.

Die folgende Abbildung zeigt dagegen die Ergebnisse für ein Klassifizierungsmodell, das zufällige Ergebnisse generiert hat. Dieses Modell hat eine AUC von 0,5:

Eine Zahlenlinie mit 6 positiven und 6 negativen Beispielen.
          Die Abfolge der Beispiele ist positiv, negativ, positiv, negativ, positiv, negativ, positiv, negativ, positiv, negativ, positiv, negativ.

Ja, das vorherige Modell hat eine AUC von 0,5, nicht 0,0.

Die meisten Modelle liegen irgendwo zwischen diesen beiden Extremen. Das folgende Modell unterscheidet beispielsweise positiv und negativ etwas und hat daher einen AUC-Wert zwischen 0, 5 und 1, 0:

Eine Zahlenlinie mit 6 positiven und 6 negativen Beispielen.
          Die Abfolge der Beispiele lautet negativ, negativ, negativ, negativ, positiv, negativ, positiv, positiv, negativ, positiv, positiv, positiv.

Der AUC ignoriert alle Werte, die Sie für den Klassifizierungsgrenzwert festgelegt haben. Stattdessen werden bei der AUC alle möglichen Klassifizierungsschwellenwerte berücksichtigt.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Klassifizierung: ROC und AUC.

Augmented Reality

#image

Eine Technologie, bei der ein computergeneriertes Bild auf die reale Umgebung des Nutzers projiziert wird, um eine zusammengesetzte Ansicht zu erhalten.

Autoencoder

#language
#image

Ein System, das lernt, die wichtigsten Informationen aus der Eingabe zu extrahieren. Autoencoder sind eine Kombination aus einem Encoder und einem Decoder. Autoencoder basieren auf dem folgenden zweistufigen Prozess:

  1. Der Encoder ordnet die Eingabe einem (in der Regel) verlustbehafteten, niedrigerdimensionalen (Zwischen-)Format zu.
  2. Der Decoder erstellt eine verlustbehaftete Version der ursprünglichen Eingabe, indem er das niedrigerdimensionale Format dem ursprünglichen höherdimensionalen Eingabeformat zuordnet.

Autoencoder werden end-to-end trainiert, indem der Decoder versucht, die ursprüngliche Eingabe aus dem Zwischenformat des Encoders so genau wie möglich zu rekonstruieren. Da das Zwischenformat kleiner (niedriger dimensional) als das Originalformat ist, muss der Autoencoder lernen, welche Informationen in der Eingabe wichtig sind. Die Ausgabe ist also nicht genau mit der Eingabe identisch.

Beispiel:

  • Wenn die Eingabedaten eine Grafik sind, ähnelt die nicht exakte Kopie der ursprünglichen Grafik, ist aber etwas modifiziert. Vielleicht entfernt die nicht exakte Kopie das Rauschen aus der Originalgrafik oder füllt einige fehlende Pixel aus.
  • Wenn die Eingabedaten Text sind, generiert ein Autoencoder neuen Text, der dem Originaltext ähnelt, aber nicht identisch mit ihm ist.

Weitere Informationen finden Sie unter Variations-Autoencoder.

Automatische Bewertung

#language
#generativeAI

Software zur Beurteilung der Qualität der Ausgabe eines Modells.

Wenn die Modellausgabe relativ einfach ist, kann ein Script oder Programm die Ausgabe des Modells mit einer Golden Response vergleichen. Diese Art der automatischen Bewertung wird manchmal auch als programmatische Bewertung bezeichnet. Messwerte wie ROUGE oder BLEU sind oft nützlich für die programmatische Bewertung.

Wenn die Modellausgabe komplex ist oder keine eindeutige richtige Antwort hat, wird die automatische Bewertung manchmal von einem separaten ML-Programm namens Autorater durchgeführt.

Im Gegensatz zur menschlichen Bewertung.

Automatisierungsbias

#fairness

Wenn ein menschlicher Entscheidungsträger Empfehlungen eines automatisierten Entscheidungssystems gegenüber Informationen bevorzugt, die ohne Automatisierung erstellt wurden, auch wenn das automatisierte Entscheidungssystem Fehler macht.

Weitere Informationen finden Sie im Crashkurs zum maschinellen Lernen unter Fairness: Arten von Voreingenommenheit.

AutoML

Jeder automatisierte Prozess zum Erstellen von Machine-Learning-Modellen AutoML kann automatisch Aufgaben wie die folgenden ausführen:

AutoML ist für Data Scientists nützlich, da sie Zeit und Aufwand bei der Entwicklung von Pipelines für maschinelles Lernen sparen und die Vorhersagegenauigkeit verbessern können. Sie ist auch für Nicht-Experten nützlich, da sie komplexe Aufgaben im Bereich maschinelles Lernen für sie zugänglicher macht.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Automatisiertes maschinelles Lernen (AutoML).

Autorater-Bewertung

#language
#generativeAI
Ein Hybridmechanismus zur Beurteilung der Qualität der Ausgabe eines generativen KI-Modells, der eine menschliche Bewertung mit einer automatischen Bewertung kombiniert. Ein Autorator ist ein ML-Modell, das mit Daten trainiert wird, die durch menschliche Bewertung erstellt wurden. Im Idealfall lernt ein Autorator, einen menschlichen Prüfer nachzuahmen.

Es sind vordefinierte automatische Rater verfügbar, die besten sind jedoch speziell auf die Aufgabe abgestimmt, die Sie bewerten.

autoregressives Modell

#language
#image
#generativeAI

Ein Modell, das eine Vorhersage auf der Grundlage seiner eigenen bisherigen Vorhersagen ableitet. Autoregressive Language Models sagen beispielsweise das nächste Token anhand der zuvor vorhergesagten Tokens voraus. Alle Transformer-basierten Large Language Models sind autoregressiv.

GAN-basierte Bildmodelle sind dagegen in der Regel nicht autoregressiv, da sie ein Bild in einem einzigen Vorwärtsdurchlauf und nicht iterativ in Schritten generieren. Bestimmte Modelle zur Bildgenerierung sind jedoch autoregressiv, da sie ein Bild in Schritten generieren.

Verluste durch Hilfsstrom

Eine Verlustfunktion, die in Verbindung mit der Hauptverlustfunktion eines Modells eines Neuralen Netzwerks verwendet wird, um das Training in den ersten Iterationen zu beschleunigen, wenn die Gewichte zufällig initialisiert werden.

Hilfsverlustfunktionen leiten effektive Gradienten an die früheren Ebenen weiter. Dies erleichtert die Konvergenz während des Trainings, da das Problem des verschwindenden Gradienten behoben wird.

Durchschnittliche Precision bei k

#language

Ein Messwert, mit dem die Leistung eines Modells für einen einzelnen Prompt zusammengefasst wird, der sortierte Ergebnisse generiert, z. B. eine nummerierte Liste mit Buchempfehlungen. Die durchschnittliche Precision bei k ist der Durchschnitt der Precision bei k-Werte für jedes relevante Ergebnis. Die Formel für die durchschnittliche Precision bei k lautet daher:

\[{\text{average precision at k}} = \frac{1}{n} \sum_{i=1}^n {\text{precision at k for each relevant item} } \]

Dabei gilt:

  • \(n\) ist die Anzahl der relevanten Elemente in der Liste.

Im Gegensatz zu recall at k.

achsenachsenorientierte Bedingung

#df

In einem Entscheidungsbaum eine Bedingung, die nur eine einzige Funktion umfasst. Wenn area beispielsweise ein Element ist, ist die folgende Bedingung achsorientiert:

area > 200

Im Gegensatz zur Schräglage.

B

Backpropagation

#fundamentals

Der Algorithmus, der den Gradientenabstieg in neuronalen Netzwerken implementiert.

Das Training eines neuronalen Netzes umfasst viele iterations des folgenden zweistufigen Zyklus:

  1. Während des Vorwärtsdurchlaufs verarbeitet das System einen Batch von Beispielen, um Vorhersagen zu treffen. Das System vergleicht jede Vorhersage mit jedem Label-Wert. Die Differenz zwischen der Vorhersage und dem Labelwert ist der Verlust für dieses Beispiel. Das System aggregiert die Verluste für alle Beispiele, um den Gesamtverlust für den aktuellen Batch zu berechnen.
  2. Während des rückwärtsgerichteten Durchlaufs (Backpropagation) reduziert das System den Verlust, indem es die Gewichte aller Neuronen in allen versteckten Schichten anpasst.

Neuronale Netze enthalten oft viele Neuronen in vielen verborgenen Schichten. Jeder dieser Neuronen trägt auf unterschiedliche Weise zum Gesamtverlust bei. Bei der Backpropagation wird festgelegt, ob die Gewichte für bestimmte Neuronen erhöht oder verringert werden sollen.

Die Lernrate ist ein Multiplikator, mit dem gesteuert wird, in welchem Maße jedes Gewicht bei jedem Rückwärtsdurchlauf erhöht oder verringert wird. Bei einer hohen Lernrate werden die Gewichte stärker erhöht oder verringert als bei einer niedrigen Lernrate.

Mit der Backpropagation wird die Kettenregel aus der Differentialrechnung implementiert. Mit der Backpropagation wird also die partielle Ableitung des Fehlers in Bezug auf jeden Parameter berechnet.

Vor Jahren mussten ML-Experten Code schreiben, um die Backpropagation zu implementieren. Moderne ML-APIs wie Keras implementieren die Backpropagation jetzt für Sie. Geschafft!

Weitere Informationen finden Sie im Machine Learning Crash Course unter Neuronale Netzwerke.

Bagging

#df

Eine Methode zum Trainieren eines Ensembles, bei der jedes der Modelle auf einer zufälligen Teilmenge von Trainingsbeispielen mit Zurücklegen trainiert wird. Ein Zufallswald ist beispielsweise eine Sammlung von Entscheidungsbäumen, die mit Bagging trainiert wurden.

Der Begriff Bagging ist eine Kurzform für bootstrap aggregating.

Weitere Informationen finden Sie im Kurs „Entscheidungsbäume“ unter Zufallswälder.

Bag of Words

#language

Eine Darstellung der Wörter in einer Wortgruppe oder einem Textabschnitt, unabhängig von der Reihenfolge. Beispielsweise werden die folgenden drei Wortgruppen im Bag-of-Words-Modell identisch dargestellt:

  • der Hund springt
  • springt auf den Hund
  • Hund springt über

Jedem Wort wird ein Index in einem sperrigen Vektor zugeordnet, wobei der Vektor einen Index für jedes Wort im Vokabular hat. Beispielsweise wird der Ausdruck der Hund springt einem Feature-Vektor mit nicht nullwertigen Werten an den drei Indizes zugeordnet, die den Wörtern der, Hund und springt entsprechen. Der Wert ungleich 0 kann einer der folgenden sein:

  • Eine „1“, um das Vorhandensein eines Wortes anzugeben.
  • Die Anzahl der Male, die ein Wort im Sack vorkommt. Wenn der Ausdruck beispielsweise der kastanienbraune Hund ist ein Hund mit kastanienbraunem Fell lautet, werden sowohl kastanienbraun als auch Hund mit 2 dargestellt, während die anderen Wörter mit 1 dargestellt werden.
  • Ein anderer Wert, z. B. der Logarithmus der Anzahl der Vorkommen eines Wortes im Sack.

baseline

Ein Modell, das als Referenzpunkt verwendet wird, um die Leistung eines anderen Modells (in der Regel eines komplexeren) zu vergleichen. Ein logistisches Regressionsmodell kann beispielsweise als guter Vergleichswert für ein Deep Learning-Modell dienen.

Für ein bestimmtes Problem hilft die Baseline den Modellentwicklern, die minimale erwartete Leistung zu quantifizieren, die ein neues Modell erreichen muss, damit es nützlich ist.

Batch

#fundamentals

Die Beispiele, die in einer Trainings-Iteration verwendet werden. Die Batchgröße bestimmt die Anzahl der Beispiele in einem Batch.

Eine Erläuterung dazu, wie sich ein Batch auf eine Epoche bezieht, finden Sie unter Epoche.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Lineare Regression: Hyperparameter.

Batch-Inferenz

#TensorFlow
#GoogleCloud

Der Prozess, bei dem Vorhersagen für mehrere unbeschriftete Beispiele abgeleitet werden, die in kleinere Teilmengen („Batches“) unterteilt sind.

Bei der Batch-Inferenz können die Parallelisierungsfunktionen von Beschleunigerchips genutzt werden. Das bedeutet, dass mehrere Beschleuniger gleichzeitig Vorhersagen für verschiedene Batches von unlabelten Beispielen ableiten können, wodurch die Anzahl der Inferenzen pro Sekunde drastisch erhöht wird.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Produktions-ML-Systeme: Statische und dynamische Inferenz.

Batchnormalisierung

Normalisierung der Eingabe oder Ausgabe der Aktivierungsfunktionen in einer versteckten Schicht. Die Batch-Normalisierung bietet folgende Vorteile:

Batchgröße

#fundamentals

Die Anzahl der Beispiele in einem Batch. Wenn die Batchgröße beispielsweise 100 beträgt, verarbeitet das Modell 100 Beispiele pro Iteration.

Im Folgenden finden Sie gängige Strategien für die Batchgröße:

  • Stochastic Gradient Descent (SGD), bei dem die Batchgröße 1 ist.
  • Vollständiger Batch, bei dem die Batchgröße der Anzahl der Beispiele im gesamten Trainingssatz entspricht. Wenn der Trainingssatz beispielsweise eine Million Beispiele enthält, beträgt die Batchgröße eine Million Beispiele. Die vollständige Batch-Datei ist in der Regel eine ineffiziente Strategie.
  • Mini-Batch, bei dem die Batchgröße in der Regel zwischen 10 und 1.000 liegt. Mini-Batch ist in der Regel die effizienteste Strategie.

Weitere Informationen finden Sie hier:

Bayesches neuronales Netzwerk

Ein probabilistisches neuronales Netzwerk, das Unsicherheiten bei Gewichten und Ausgaben berücksichtigt. Ein standardmäßiges Regressionsmodell mit künstlichen neuronalen Netzwerken sagt in der Regel einen Skalarwert voraus. Ein Standardmodell sagt beispielsweise einen Hauspreis von 853.000 € voraus. Ein bayesianisches neuronales Netzwerk hingegen prognostiziert eine Verteilung von Werten. Ein bayesianisches Modell prognostiziert beispielsweise einen Hauspreis von 853.000 € mit einer Standardabweichung von 67.200 €.

Ein bayesianisches neuronales Netzwerk nutzt das Bayes'sche Theorem, um Unsicherheiten bei Gewichtungen und Vorhersagen zu berechnen. Ein bayesianisches neuronales Netzwerk kann nützlich sein, wenn es wichtig ist, Unsicherheiten zu quantifizieren, z. B. in Modellen im Zusammenhang mit Arzneimitteln. Bayesische neuronale Netze können auch dazu beitragen, Überanpassungen zu vermeiden.

Bayes'sche Optimierung

Eine probabilistische Regressionsmodell-Methode zur Optimierung von rechenintensiven Zielfunktionen, bei der stattdessen ein Surrogat optimiert wird, das die Unsicherheit mithilfe einer Bayesschen Lernmethode quantifiziert. Da die bayesianische Optimierung selbst sehr aufwendig ist, wird sie in der Regel verwendet, um Aufgaben mit einer kleinen Anzahl von Parametern zu optimieren, die eine teure Auswertung erfordern, z. B. die Auswahl von Hyperparametern.

Bellman-Gleichung

#rl

Beim Reinforcement Learning muss die folgende Identität durch die optimale Q-Funktion erfüllt sein:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

Lernalgorithmen für die Verstärkung wenden diese Identität an, um mithilfe der folgenden Aktualisierungsregel Q-Lernen zu erstellen:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

Neben dem Reinforcement Learning findet die Bellman-Gleichung auch Anwendung in der dynamischen Programmierung. Wikipedia-Eintrag zur Bellman-Gleichung

BERT (Bidirectional Encoder Representations from Transformers)

#language

Eine Modellarchitektur für die Darstellung von Text. Ein trainiertes BERT-Modell kann als Teil eines größeren Modells für die Textklassifizierung oder andere ML-Aufgaben dienen.

BERT hat folgende Eigenschaften:

Zu den Varianten von BERT gehören:

Eine Übersicht über BERT finden Sie unter BERT als Open-Source-Modell: Hochmodernes Training im Voraus für die natürliche Sprachverarbeitung.

Voreingenommenheit (Ethik/Fairness)

#fairness
#fundamentals

1. Stereotypisierung, Vorurteile oder Bevorzugung bestimmter Dinge, Personen oder Gruppen gegenüber anderen. Diese Verzerrungen können sich auf die Erhebung und Interpretation von Daten, das Design eines Systems und die Interaktion der Nutzer mit einem System auswirken. Beispiele für diese Art von Verzerrung sind:

2. Systematischer Fehler, der durch Stichprobenerhebung oder Berichterstellung verursacht wird. Beispiele für diese Art von Verzerrung sind:

Nicht zu verwechseln mit dem Bias-Begriff in Machine-Learning-Modellen oder dem Vorhersagefehler.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Fairness: Arten von Voreingenommenheit.

Bias (Mathematik) oder Bias-Termin

#fundamentals

Eine Schnittmenge oder ein Offset von einem Ursprung. Der Bias ist ein Parameter in Modellen für maschinelles Lernen, der durch einen der folgenden Symbole dargestellt wird:

  • b
  • w0

So ist der Bias beispielsweise das b in der folgenden Formel:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Bei einer einfachen zweidimensionalen Linie bedeutet „Bias“ einfach „y-Achsenabschnitt“. In der folgenden Abbildung hat die Linie beispielsweise einen Bias von 2.

Die Darstellung einer Linie mit einer Steigung von 0,5 und einer Abweichung (y-Achsenabschnitt) von 2.

Der Bias entsteht, weil nicht alle Modelle am Ursprung (0,0) beginnen. Angenommen, der Eintritt in einen Vergnügungspark kostet 2 € und zusätzlich 0,5 € pro Stunde, die ein Kunde dort verbringt. Daher hat ein Modell, das die Gesamtkosten abbildet, eine Voreingenommenheit von 2, da die niedrigsten Kosten 2 € betragen.

Voreingenommenheit ist nicht mit Voreingenommenheit in Bezug auf Ethik und Fairness oder Voreingenommenheit bei der Vorhersage zu verwechseln.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Lineare Regression.

bidirektional

#language

Ein Begriff, der ein System beschreibt, das den Text sowohl vor als auch nach einem Zieltextabschnitt auswertet. Ein einseitig ausgerichtetes System hingegen wertet nur den Text aus, der vor einem Zieltextabschnitt steht.

Betrachten wir beispielsweise ein maskiertes Language Model, das die Wahrscheinlichkeiten für das Wort oder die Wörter bestimmen muss, die in der folgenden Frage durch Unterstreichung gekennzeichnet sind:

Was ist _____ mit Ihnen los?

Ein einseitiges Sprachmodell müsste seine Wahrscheinlichkeiten nur auf dem Kontext der Wörter „Was“, „ist“ und „das“ basieren. Ein zweisprachiges Sprachmodell kann dagegen auch Kontext aus „mit“ und „du“ gewinnen, was dem Modell helfen kann, bessere Vorhersagen zu treffen.

Bidirektionales Sprachmodell

#language

Ein Sprachmodell, das anhand des vorangehenden und nachfolgenden Texts die Wahrscheinlichkeit bestimmt, dass sich ein bestimmtes Token an einer bestimmten Stelle in einem Textausschnitt befindet.

Bigram

#seq
#language

Ein N-Gramm mit N=2.

Binärklassifizierung

#fundamentals

Eine Art von Klassifizierungsaufgabe, bei der eine von zwei sich gegenseitig ausschließenden Klassen vorhergesagt wird:

Die folgenden beiden Modelle für maschinelles Lernen führen beispielsweise eine binäre Klassifizierung durch:

  • Ein Modell, das bestimmt, ob E-Mails Spam (positive Klasse) oder kein Spam (negative Klasse) sind.
  • Ein Modell, das medizinische Symptome auswertet, um festzustellen, ob eine Person an einer bestimmten Krankheit leidet (positive Klasse) oder nicht (negative Klasse).

Im Gegensatz zur Klassifizierung mit mehreren Klassen.

Weitere Informationen finden Sie unter Logistische Regression und Klassifizierungsgrenzwert.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Klassifizierung.

Binäre Bedingung

#df

In einem Entscheidungsbaum ist eine Bedingung, die nur zwei mögliche Ergebnisse hat, in der Regel ja oder nein. Ein Beispiel für eine binäre Bedingung:

temperature >= 100

Im Gegensatz zu einer nicht binären Bedingung.

Weitere Informationen finden Sie im Kurs zu Entscheidungsbäumen unter Arten von Bedingungen.

Gruppieren

Synonym für Bucketing.

BLEU (Bilingual Evaluation Understudy)

#language

Ein Messwert zwischen 0,0 und 1,0 zur Bewertung von maschinellen Übersetzungen, z.B.von Spanisch nach Japanisch.

Zur Berechnung einer Bewertung vergleicht BLEU in der Regel die Übersetzung eines ML-Modells (generierter Text) mit der Übersetzung eines menschlichen Experten (Referenztext). Der BLEU-Wert wird anhand des Übereinstimmungsgrades der N-Gramme im generierten Text und im Referenztext bestimmt.

Der ursprüngliche Artikel zu diesem Messwert ist BLEU: a Method for Automatic Evaluation of Machine Translation.

Siehe auch BLEURT.

BLEURT (Bilingual Evaluation Understudy from Transformers)

#language

Ein Messwert zur Bewertung von maschinellen Übersetzungen von einer Sprache in eine andere, insbesondere von und ins Englische.

Bei Übersetzungen von und ins Englische stimmt BLEURT stärker mit den Bewertungen von Menschen überein als BLEU. Im Gegensatz zu BLEU legt BLEURT den Schwerpunkt auf semantische (bedeutungsbezogene) Ähnlichkeiten und kann Paraphrasierungen berücksichtigen.

BLEURT basiert auf einem vortrainierten Large Language Model (genauer gesagt BERT), das dann anhand von Texten von menschlichen Übersetzern optimiert wird.

Das Originalpapier zu diesem Messwert ist BLEURT: Learning Robust Metrics for Text Generation.

Steigerung

Ein Verfahren für maschinelles Lernen, bei dem eine Reihe einfacher und nicht sehr genauer Klassifikatoren (sogenannte „schwache“ Klassifikatoren) iterativ zu einem Klassifikator mit hoher Genauigkeit (einem „starken“ Klassifikator) kombiniert werden, indem die Beispiele, die das Modell derzeit falsch klassifiziert, gewichtet werden.

Weitere Informationen finden Sie im Kurs „Entscheidungsbäume“ unter Gradient Boosted-Entscheidungsbäume?.

Begrenzungsrahmen

#image

Die (x, y)-Koordinaten eines Rechtecks um einen Bereich von Interesse in einem Bild, z. B. den Hund im Bild unten.

Foto eines Hundes, der auf einem Sofa sitzt. Ein grüner Begrenzungsrahmen mit den Koordinaten (275, 1271) oben links und (2954, 2761) unten rechts umschließt den Körper des Hundes.

Übertragung

Die Form eines Operanden in einer Matrixmathematikoperation auf Dimensionen ausweiten, die mit dieser Operation kompatibel sind. In der linearen Algebra müssen beispielsweise die beiden Operanden einer Matrixaddition dieselbe Dimension haben. Daher können Sie einem Vektor der Länge n keine Matrix der Form (m, n) hinzufügen. Durch das Broadcasting wird dieser Vorgang ermöglicht, indem der Vektor der Länge n virtuell zu einer Matrix der Form (m, n) erweitert wird, indem dieselben Werte in jeder Spalte repliziert werden.

Bei den folgenden Definitionen ist beispielsweise A + B in der linearen Algebra nicht zulässig, da A und B unterschiedliche Dimensionen haben:

A = [[7, 10, 4],
     [13, 5, 9]]
B = [2]

Bei der Übertragung ist jedoch der Vorgang „A + B“ möglich, da B virtuell auf Folgendes erweitert wird:

 [[2, 2, 2],
  [2, 2, 2]]

Daher ist A + B jetzt ein gültiger Vorgang:

[[7, 10, 4],  +  [[2, 2, 2],  =  [[ 9, 12, 6],
 [13, 5, 9]]      [2, 2, 2]]      [15, 7, 11]]

Weitere Informationen finden Sie in der folgenden Beschreibung von Broadcasting in NumPy.

Bucketing

#fundamentals

Umwandlung eines einzelnen Features in mehrere binäre Features, die als Buckets oder Bins bezeichnet werden, in der Regel basierend auf einem Wertebereich. Das geschnittene Element ist in der Regel ein stetiges Element.

Anstatt die Temperatur beispielsweise als einzelnes kontinuierliches Gleitkomma-Attribut darzustellen, können Sie Temperaturbereiche in diskrete Bereiche unterteilen, z. B.:

  • Unter 10 °C würde der „kalte“ Bereich sein.
  • 11 bis 24 Grad Celsius würden in die Kategorie „gemäßigt“ fallen.
  • „Wärme“ würde für eine Temperatur von mindestens 25 Grad Celsius stehen.

Im Modell werden alle Werte im selben Bucket identisch behandelt. Wenn sich die Werte 13 und 22 beispielsweise beide im mittelmäßigen Bucket befinden, werden sie vom Modell identisch behandelt.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Numerische Daten: Gruppierung.

C

Kalibrierungsebene

Eine Anpassung nach der Vorhersage, in der Regel zur Berücksichtigung von Vorhersageverzerrungen. Die angepassten Vorhersagen und Wahrscheinlichkeiten sollten mit der Verteilung einer beobachteten Gruppe von Labels übereinstimmen.

Kandidatengenerierung

#recsystems

Die ersten Empfehlungen, die von einem Empfehlungssystem ausgewählt wurden. Angenommen, Sie haben einen Buchladen mit 100.000 Titeln. In der Phase der Kandidatengenerierung wird eine viel kleinere Liste geeigneter Bücher für einen bestimmten Nutzer erstellt, z. B. 500. Aber selbst 500 Bücher sind viel zu viele, um sie einem Nutzer zu empfehlen. In den nachfolgenden, kostenintensiveren Phasen eines Empfehlungssystems (z. B. Bewertung und Neubewertung) werden diese 500 auf eine viel kleinere, nützlichere Gruppe von Empfehlungen reduziert.

Weitere Informationen finden Sie im Kurs „Empfehlungssysteme“ unter Übersicht über die Kandidatengenerierung.

Stichprobenerhebung

Eine Optimierung während des Trainings, bei der eine Wahrscheinlichkeit für alle positiven Labels berechnet wird, z. B. mit der Softmax-Funktion, aber nur für eine zufällige Stichprobe negativer Labels. Wenn beispielsweise ein Beispiel mit den Labels Beagle und Hund vorliegt, werden mit der Kandidatenstichprobe die prognostizierten Wahrscheinlichkeiten und die entsprechenden Verlustfunktionen für Folgendes berechnet:

  • Beagle
  • dog
  • eine zufällige Teilmenge der verbleibenden negativen Klassen (z. B. Katze, Lutscher, Zaun).

Die Idee ist, dass die negativen Klassen auch aus weniger häufigen negativen Verstärkungen lernen können, solange die positiven Klassen immer eine angemessene positive Verstärkung erhalten. Dies wird tatsächlich empirisch beobachtet.

Die Stichprobenerhebung ist rechnerisch effizienter als Trainingsalgorithmen, die Vorhersagen für alle negativen Klassen berechnen, insbesondere wenn die Anzahl der negativen Klassen sehr groß ist.

kategorische Daten

#fundamentals

Features mit einer bestimmten Anzahl möglicher Werte. Nehmen wir als Beispiel ein kategorisches Feature namens traffic-light-state an, das nur einen der folgenden drei möglichen Werte haben kann:

  • red
  • yellow
  • green

Wenn traffic-light-state als kategorisches Feature dargestellt wird, kann ein Modell die unterschiedlichen Auswirkungen von red, green und yellow auf das Fahrerverhalten lernen.

Kategoriale Merkmale werden manchmal auch als diskrete Merkmale bezeichnet.

Im Gegensatz zu numerischen Daten.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Mit kategorischen Daten arbeiten.

kausales Sprachmodell

#language

Synonym für unidirektionales Sprachmodell.

Unter bidirektionales Sprachmodell finden Sie einen Vergleich verschiedener Richtungsansätze bei der Sprachmodellierung.

centroid

#clustering

Der Mittelpunkt eines Clusters, bestimmt durch einen k-Means- oder einen k-Median-Algorithmus. Wenn k beispielsweise 3 ist, werden mit dem k-Means- oder k-Median-Algorithmus drei Schwerpunkte gefunden.

Weitere Informationen finden Sie im Kurs „Clustering“ unter Clustering-Algorithmen.

Zentroidbasiertes Clustering

#clustering

Eine Kategorie von Clustering-Algorithmen, mit denen Daten in nicht hierarchische Cluster organisiert werden. K-Means ist der am häufigsten verwendete centroidbasierte Clustering-Algorithmus.

Im Gegensatz zu hierarchischen Clustering-Algorithmen

Weitere Informationen finden Sie im Kurs „Clustering“ unter Clustering-Algorithmen.

Chain-of-Thought Prompting

#language
#generativeAI

Eine Prompt-Engineering-Technik, die ein Large Language Model (LLM) dazu anregt, seine Argumentation Schritt für Schritt zu erklären. Betrachten Sie beispielsweise den folgenden Prompt und achten Sie dabei besonders auf den zweiten Satz:

Wie viele g-Kräfte wirken auf einen Fahrer in einem Auto, das in 7 Sekunden von 0 auf 100 km/h beschleunigt? Geben Sie in der Antwort alle relevanten Berechnungen an.

Die Antwort des LLM würde wahrscheinlich:

  • Zeigen Sie eine Reihe von Physikformeln an und setzen Sie an den entsprechenden Stellen die Werte 0, 60 und 7 ein.
  • Erläutern Sie, warum diese Formeln ausgewählt wurden und was die verschiedenen Variablen bedeuten.

Prompts mit einer Gedankenkette zwingen das LLM, alle Berechnungen durchzuführen, was zu einer korrekteren Antwort führen kann. Außerdem können Nutzer mithilfe von Prompts zur Denkkette die Schritte des LLM prüfen, um festzustellen, ob die Antwort sinnvoll ist.

Chat

#language
#generativeAI

Der Inhalt eines Dialogs mit einem ML-System, in der Regel einem Large Language Model. Die vorherige Interaktion in einem Chat (was Sie eingegeben haben und wie das Large Language Model geantwortet hat) wird zum Kontext für nachfolgende Teile des Chats.

Ein Chatbot ist eine Anwendung eines Large Language Models.

CHECKPOINT

Daten, die den Status der Parameter eines Modells entweder während des Trainings oder nach Abschluss des Trainings erfassen. Sie können beispielsweise während des Trainings:

  1. Das Training wird beendet, möglicherweise absichtlich oder aufgrund bestimmter Fehler.
  2. Erfassen Sie den Prüfpunkt.
  3. Laden Sie den Checkpoint später wieder, möglicherweise auf einer anderen Hardware.
  4. Starten Sie das Training neu.

Klasse

#fundamentals

Eine Kategorie, zu der ein Label gehören kann. Beispiel:

Ein Klassifizierungsmodell sagt eine Klasse vorher. Ein Regressionsmodell sagt dagegen eine Zahl anstelle einer Klasse vorher.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Klassifizierung.

Klassifizierungsmodell

#fundamentals

Ein Modell, dessen Vorhersage eine Klasse ist. Beispiele für Klassifizierungsmodelle:

  • Ein Modell, das die Sprache eines Eingabesatzes vorhersagt (Französisch? Spanisch? Italienisch?).
  • Ein Modell, das Baumarten vorhersagt (Ahorn? Eiche? Baobab?).
  • Ein Modell, das die positive oder negative Klasse für eine bestimmte Erkrankung vorhersagt.

Regressionsmodelle sagen dagegen Zahlen anstelle von Klassen vorher.

Zwei gängige Arten von Klassifizierungsmodellen sind:

Klassifizierungsschwellenwert

#fundamentals

Bei einer binären Klassifizierung ist dies eine Zahl zwischen 0 und 1, die die Rohausgabe eines logistischen Regressionsmodells in eine Vorhersage für die positive Klasse oder die negative Klasse umwandelt. Der Klassifizierungsgrenzwert ist ein Wert, der von einem Nutzer ausgewählt wird, nicht durch das Modelltraining.

Ein logistisches Regressionsmodell gibt einen Rohwert zwischen 0 und 1 aus. Dann:

  • Wenn dieser Rohwert über dem Klassifizierungsgrenzwert liegt, wird die positive Klasse vorhergesagt.
  • Wenn dieser Rohwert unter dem Klassifizierungsschwellenwert liegt, wird die negative Klasse vorhergesagt.

Angenommen, der Klassifizierungsgrenzwert ist 0,8. Wenn der Rohwert 0,9 beträgt, sagt das Modell die positive Klasse vorher. Wenn der Rohwert 0,7 beträgt, sagt das Modell die negative Klasse vorher.

Die Auswahl des Klassifizierungsgrenzwerts hat einen starken Einfluss auf die Anzahl der falsch positiven und falsch negativen Ergebnisse.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Grenzwerte und die Fehlermatrix.

Dataset mit Klassenungleichgewicht

#fundamentals

Ein Datensatz für ein Klassifizierungsproblem, bei dem sich die Gesamtzahl der Labels jeder Klasse deutlich unterscheidet. Betrachten Sie beispielsweise einen Datensatz für die binäre Klassifizierung, dessen zwei Labels so aufgeteilt sind:

  • 1.000.000 Label für auszuschließende Inhalte
  • 10 positive Labels

Das Verhältnis von negativen zu positiven Labels beträgt 100.000:1. Daher ist dies ein ungleichmäßig verteilter Datensatz.

Im Gegensatz dazu ist das folgende Dataset nicht unausgeglichen, da das Verhältnis der negativen zu den positiven Labels relativ nahe bei 1 liegt:

  • 517 Labels für negative Inhalte
  • 483 positive Labels

Mehrfachklassige Datasets können auch eine ungleiche Verteilung der Klassen aufweisen. Beispielsweise ist der folgende Datensatz für die Klassifizierung mit mehreren Klassen ebenfalls klassenungleichgewichtig, da ein Label viel mehr Beispiele als die anderen beiden hat:

  • 1.000.000 Labels mit der Klasse „grün“
  • 200 Labels mit der Klasse „purple“
  • 350 Labels mit der Klasse „orange“

Weitere Informationen finden Sie unter Entropie, Mehrheitsklasse und Minderheitsklasse.

Clipping

#fundamentals

Eine Methode zum Umgang mit Ausreißern, bei der eine oder beide der folgenden Aktionen ausgeführt werden:

  • Attribut-Werte, die über einem Maximalgrenzwert liegen, werden auf diesen Grenzwert reduziert.
  • Merkmale mit einem Wert unter einem Mindestwert werden auf diesen Mindestwert erhöht.

Angenommen, weniger als 0,5% der Werte für ein bestimmtes Merkmal fallen außerhalb des Bereichs 40–60. In diesem Fall haben Sie folgende Möglichkeiten:

  • Alle Werte über 60 (der maximale Grenzwert) werden auf genau 60 gekürzt.
  • Alle Werte unter 40 (Mindestgrenzwert) werden auf genau 40 gekürzt.

Ausreißer können Modelle beschädigen und manchmal dazu führen, dass Gewichte während des Trainings überlaufen. Einige Ausreißer können auch Messwerte wie die Genauigkeit drastisch verfälschen. Das Zuschneiden ist eine gängige Methode, um den Schaden zu begrenzen.

Bei der Gradientenbegrenzung werden die Gradientenwerte während des Trainings auf einen bestimmten Bereich begrenzt.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Numerische Daten: Normalisierung.

Cloud TPU

#TensorFlow
#GoogleCloud

Ein spezieller Hardwarebeschleuniger, der Arbeitslasten für maschinelles Lernen in Google Cloud beschleunigt.

Clustering

#clustering

Gruppieren Sie ähnliche Beispiele, insbesondere beim unbeaufsichtigten Lernen. Sobald alle Beispiele gruppiert sind, kann ein Mensch optional jedem Cluster eine Bedeutung zuweisen.

Es gibt viele Clustering-Algorithmen. Der K-Means-Algorithmus gruppiert beispielsweise Beispiele basierend auf ihrer Nähe zu einem Centroid, wie im folgenden Diagramm dargestellt:

Ein zweidimensionales Diagramm, in dem die X-Achse mit „Breite des Baums“ und die Y-Achse mit „Höhe des Baums“ beschriftet ist. Das Diagramm enthält zwei Centroide und mehrere Dutzend Datenpunkte. Die Datenpunkte werden nach ihrer Nähe kategorisiert. Das heißt, die Datenpunkte, die einem Clusterschwerpunkt am nächsten sind, werden als Cluster 1 kategorisiert, während die Datenpunkte, die dem anderen Clusterschwerpunkt am nächsten sind, als Cluster 2 kategorisiert werden.

Ein menschlicher Forscher könnte dann die Cluster überprüfen und Cluster 1 beispielsweise als „Zwergbäume“ und Cluster 2 als „Bäume in voller Größe“ kennzeichnen.

Ein weiteres Beispiel ist ein Clustering-Algorithmus, der auf der Entfernung eines Beispiels von einem Mittelpunkt basiert. Das wird hier veranschaulicht:

Dutzende von Datenpunkten sind in konzentrischen Kreisen angeordnet, fast wie Löcher um den Mittelpunkt eines Dartbretts. Der innerste Ring der Datenpunkte wird als Cluster 1, der mittlere Ring als Cluster 2 und der äußerste Ring als Cluster 3 kategorisiert.

Weitere Informationen finden Sie im Kurs zum Thema Clustering.

Co-Adaptation

Wenn Neuronen Muster in Trainingsdaten vorhersagen, indem sie sich fast ausschließlich auf die Ausgabe bestimmter anderer Neuronen stützen, anstatt sich auf das Verhalten des gesamten Netzwerks zu verlassen. Wenn die Muster, die zu einer Co-Adaption führen, nicht in den Validierungsdaten vorhanden sind, führt die Co-Adaption zu einer Überanpassung. Die Dropout-Regelierung reduziert die Co-Adaption, da durch Dropout sichergestellt wird, dass Neuronen nicht nur auf bestimmte andere Neuronen angewiesen sind.

Kollaboratives Filtern

#recsystems

Vorhersagen zu den Interessen eines Nutzers basierend auf den Interessen vieler anderer Nutzer treffen. Das kollaborative Filtern wird häufig in Empfehlungssystemen verwendet.

Weitere Informationen finden Sie im Kurs „Empfehlungssysteme“ unter Kollaborativer Filter.

Konzeptabweichung

Eine Änderung der Beziehung zwischen den Merkmalen und dem Label. Im Laufe der Zeit verringert sich die Qualität eines Modells durch Konzeptabweichungen.

Während des Trainings lernt das Modell die Beziehung zwischen den Features und ihren Labels im Trainingssatz. Wenn die Labels im Trainingssatz gute Proxys für die reale Welt sind, sollte das Modell gute Vorhersagen für die reale Welt treffen. Aufgrund der Konzeptabweichung verschlechtern sich die Vorhersagen des Modells jedoch mit der Zeit.

Nehmen wir als Beispiel ein binäres Klassifizierungsmodell, mit dem vorhergesagt wird, ob ein bestimmtes Automodell „spritsparend“ ist oder nicht. Das können folgende Funktionen sein:

  • Gewicht des Fahrzeugs
  • Motorkomprimierung
  • transmission type

Das Label hat dabei folgende Eigenschaften:

  • effizient
  • nicht effizient

Das Konzept des „kraftstoffeffizienten Autos“ ändert sich jedoch ständig. Ein Automodell, das 1994 als niedrigverbrauchend eingestuft wurde, würde 2024 mit großer Wahrscheinlichkeit als nicht niedrigverbrauchend eingestuft. Bei einem Modell mit Konzeptdrift werden mit der Zeit immer weniger nützliche Vorhersagen gemacht.

Vergleichen Sie dies mit Nichtstationarität.

Bedingung

#df

In einem Entscheidungsbaum jeder Knoten, der einen Ausdruck auswertet. Der folgende Teil eines Entscheidungsbaums enthält beispielsweise zwei Bedingungen:

Ein Entscheidungsbaum mit zwei Bedingungen: (x > 0) und (y > 0).

Eine Bedingung wird auch als Aufteilung oder Test bezeichnet.

Kontrastbedingung mit Blatt

Siehe auch:

Weitere Informationen finden Sie im Kurs zu Entscheidungsbäumen unter Arten von Bedingungen.

Konfabulation

#language

Synonym für Halluzination.

Konfabulation ist wahrscheinlich ein technisch genauerer Begriff als Halluzination. Hallucination wurde jedoch zuerst populär.

Konfiguration

Zuweisen der anfänglichen Property-Werte, die zum Trainieren eines Modells verwendet werden, einschließlich:

In Projekten für maschinelles Lernen kann die Konfiguration über eine spezielle Konfigurationsdatei oder mithilfe von Konfigurationsbibliotheken wie den folgenden erfolgen:

Bestätigungsfehler

#fairness

Die Tendenz, Informationen so zu suchen, zu interpretieren, zu bevorzugen und in Erinnerung zu rufen, dass bereits bestehende Überzeugungen oder Hypothesen bestätigt werden. Entwickler von Systemen für maschinelles Lernen können Daten versehentlich so erheben oder labeln, dass ein Ergebnis beeinflusst wird, das ihre bestehenden Überzeugungen unterstützt. Der Bestätigungsfehler ist eine Form von impliziter Voreingenommenheit.

Der Tester Bias ist eine Form der Bestätigungsverzerrung, bei der ein Tester Modelle so lange trainiert, bis eine vorgefasste Hypothese bestätigt wird.

Wahrheitsmatrix

#fundamentals

Eine NxN-Tabelle, in der die Anzahl der richtigen und falschen Vorhersagen eines Klassifizierungsmodells zusammengefasst wird. Betrachten Sie beispielsweise die folgende Fehlermatrix für ein Modell der binären Klassifizierung:

Tumor (vorhergesagt) Nicht-Tumor (vorhergesagt)
Tumor (Ground Truth) 18 (TP) 1 (FN)
Nicht-Tumor (Ground Truth) 6 (FP) 452 (TN)

Die obige Wahrheitsmatrix zeigt Folgendes:

  • Von den 19 Vorhersagen, bei denen Grundwahrheit „Tumor“ war, hat das Modell 18 richtig und 1 falsch klassifiziert.
  • Von den 458 Vorhersagen, bei denen die Grundwahrheit „Kein Tumor“ war, hat das Modell 452 richtig und 6 falsch klassifiziert.

Die Wahrheitsmatrix für ein Problem mit der Klassifizierung mehrerer Klassen kann Ihnen helfen, Muster von Fehlern zu erkennen. Betrachten Sie beispielsweise die folgende Fehlermatrix für ein dreistufiges mehrstufiges Klassifizierungsmodell, das drei verschiedene Irisarten (Virginica, Versicolor und Setosa) kategorisiert. Wenn die Ground Truth „Virginica“ war, zeigt die Wahrheitsmatrix, dass das Modell mit viel höherer Wahrscheinlichkeit fälschlicherweise „Versicolor“ als „Setosa“ vorhersagte:

  Setosa (vorhergesagt) Versicolor (vorhergesagt) Virginica (vorhergesagt)
Setosa (Ground Truth) 88 12 0
Versicolor (Ground Truth) 6 141 7
Virginica (Ground Truth) 2 27 109

Als weiteres Beispiel könnte eine Fehlermatrix zeigen, dass ein Modell, das auf die Erkennung handgeschriebener Ziffern trainiert wurde, häufig fälschlicherweise „9“ anstelle von „4“ oder „1“ anstelle von „7“ vorhersagt.

Konfidenzmatrizen enthalten ausreichend Informationen, um eine Vielzahl von Leistungsmesswerten zu berechnen, darunter Genauigkeit und Trefferquote.

Parsen von Wahlkreisen

#language

Ein Satz wird in kleinere grammatische Strukturen („Konstituenten“) unterteilt. Ein späterer Teil des ML-Systems, z. B. ein Modell für das Verstehen natürlicher Sprache, kann die Bestandteile leichter analysieren als den ursprünglichen Satz. Betrachten Sie beispielsweise den folgenden Satz:

Meine Freundin hat zwei Katzen adoptiert.

Ein Konstituentenparser kann diesen Satz in die folgenden zwei Konstituenten unterteilen:

  • Mein Freund ist ein Nomen.
  • zwei Katzen adoptiert ist eine Verbphrase.

Diese Bestandteile können weiter in kleinere Bestandteile unterteilt werden. Zum Beispiel die Verbphrase

zwei Katzen adoptiert

kann weiter unterteilt werden in:

  • adopted ist ein Verb.
  • zwei Katzen ist eine weitere Nominalphrase.

Kontextbezogene Sprach-Embeddings

#language
#generativeAI

Eine Embedding-Technologie, die Wörter und Wortgruppen so „versteht“, wie es Muttersprachler tun. Kontextbezogene Sprach-Embeddings können komplexe Syntax, Semantik und Kontext verstehen.

Betrachten wir beispielsweise die Einbettungen des englischen Wortes cow. Ältere Einbettungen wie word2vec können englische Wörter so darstellen, dass die Entfernung im Embedding-Raum von Kuh zu Stier der Entfernung von Schaf zu Bock oder von weiblich zu männlich entspricht. Kontextbezogene Sprach-Embeddings können noch einen Schritt weiter gehen, indem sie erkennen, dass englischsprachige Personen das Wort cow manchmal ungezwungen für „Kuh“ oder „Stier“ verwenden.

Kontextfenster

#language
#generativeAI

Die Anzahl der Tokens, die ein Modell in einem bestimmten Prompt verarbeiten kann. Je größer das Kontextfenster ist, desto mehr Informationen kann das Modell verwenden, um kohärente und konsistente Antworten auf den Prompt zu geben.

stetiges Feature

#fundamentals

Ein Gleitkomma-Attribut mit einem unendlichen Bereich möglicher Werte, z. B. Temperatur oder Gewicht.

Im Gegensatz zu diskreten Funktionen.

willkürliche Stichproben

Verwendung eines nicht wissenschaftlich erhobenen Datensatzes, um schnelle Tests durchzuführen. Später ist es wichtig, zu einem wissenschaftlich erhobenen Datensatz zu wechseln.

Konvergenz

#fundamentals

Ein Zustand, der erreicht wird, wenn sich die Werte für den Verlust bei jeder Iteration nur wenig oder gar nicht ändern. Die folgende Verlustkurve weist beispielsweise auf eine Konvergenz bei etwa 700 Iterationen hin:

Kartesisches Diagramm. Die X-Achse ist der Verlust. Die Y-Achse ist die Anzahl der Trainingsiterationen. Der Verlust ist in den ersten Iterationen sehr hoch, fällt aber stark ab. Nach etwa 100 Iterationen sinkt der Verlust zwar noch, aber viel langsamer. Nach etwa 700 Iterationen bleibt der Verlust gleich.

Ein Modell konvergiert, wenn es durch zusätzliches Training nicht verbessert werden kann.

Beim Deep Learning bleiben die Verlustwerte manchmal über viele Iterationen hinweg konstant oder nahezu konstant, bevor sie schließlich sinken. Bei einem langen Zeitraum mit konstanten Verlustwerten kann es vorübergehend zu einer falschen Konvergenz kommen.

Siehe auch vorzeitiges Beenden.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Modellkonvergenz und Verlustkurven.

konvexe Funktion

Eine Funktion, bei der die Region über dem Funktionsgraphen ein konvexes Gebilde ist. Die prototypische konvexe Funktion hat ungefähr die Form des Buchstabens U. Die folgenden Funktionen sind beispielsweise konvex:

U-förmige Kurven mit jeweils einem einzelnen Minimalpunkt.

Die folgende Funktion ist dagegen nicht konvex. Beachten Sie, dass die Region über dem Diagramm keine konvexe Menge ist:

Eine W‑förmige Kurve mit zwei verschiedenen lokalen Minima.

Eine streng konvexe Funktion hat genau einen lokalen Minimalpunkt, der auch der globale Minimalpunkt ist. Die klassischen U-förmigen Funktionen sind streng konvexe Funktionen. Einige konvexe Funktionen (z. B. Geraden) sind jedoch nicht U-förmig.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Konvergenz und konvexe Funktionen.

Konvexe Optimierung

Verfahren, bei dem mithilfe mathematischer Verfahren wie dem Gradientenabstieg das Minimum einer konvexen Funktion ermittelt wird. Ein Großteil der Forschung im Bereich maschinelles Lernen hat sich darauf konzentriert, verschiedene Probleme als konvexe Optimierungsprobleme zu formulieren und diese Probleme effizienter zu lösen.

Ausführliche Informationen finden Sie in Boyd und Vandenberghe, Convex Optimization.

konvexe Menge

Eine Teilmenge des euklidischen Raums, bei der eine Linie, die zwischen zwei beliebigen Punkten in der Teilmenge gezogen wird, vollständig innerhalb der Teilmenge bleibt. Die folgenden beiden Formen sind beispielsweise konvexe Mengen:

Eine Abbildung eines Rechtecks. Eine weitere Abbildung eines Ovals.

Die folgenden beiden Formen sind dagegen keine konvexen Mengen:

Eine Abbildung eines Kreisdiagramms mit einem fehlenden Segment.
          Eine weitere Abbildung eines stark unregelmäßigen Polygons.

Faltung

#image

In der Mathematik ist eine Kombination aus zwei Funktionen gemeint. Bei der maschinellen Lerne werden bei einer Convolution der Convolutional-Filter und die Eingabematrix gemischt, um Gewichte zu trainieren.

Der Begriff „Convolution“ (Konvolution) im Bereich maschinelles Lernen bezieht sich oft entweder auf einen Convolutionsvorgang oder eine Convolutionsschicht.

Ohne Convolutionen müsste ein Algorithmus für maschinelles Lernen ein separates Gewicht für jede Zelle in einem großen Tensor lernen. Ein Algorithmus für maschinelles Lernen, der mit 2K × 2K-Bildern trainiert wird, müsste beispielsweise 4 Millionen separate Gewichte finden. Dank der Convolutionen muss ein Algorithmus für maschinelles Lernen nur Gewichte für jede Zelle im Convolutionsfilter finden, wodurch der für das Training des Modells erforderliche Arbeitsspeicher drastisch reduziert wird. Wenn der Convolutional-Filter angewendet wird, wird er einfach in den Zellen repliziert, sodass jede Zelle mit dem Filter multipliziert wird.

Weitere Informationen finden Sie im Kurs zur Bildklassifizierung unter Convolutional Neural Networks (CNNs).

Convolutionsfilter

#image

Einer der beiden Akteure bei einer Convolutionsoperation. (Der andere Akteur ist ein Ausschnitt einer Eingabematrix.) Ein Convolutionsfilter ist eine Matrix mit demselben Rang wie die Eingabematrix, aber einer kleineren Form. Bei einer Eingabematrix von 28 × 28 kann der Filter beispielsweise eine beliebige 2D-Matrix sein, die kleiner als 28 × 28 ist.

Bei der fotografischen Manipulation werden alle Zellen in einem Convolutional-Filter in der Regel auf ein konstantes Muster von Einsen und Nullen gesetzt. Beim maschinellen Lernen werden Convolutional-Filter in der Regel mit Zufallszahlen initialisiert und dann traint das Netzwerk die idealen Werte.

Weitere Informationen finden Sie im Kurs zur Bildklassifizierung unter Convolution.

Convolutional Layer

#image

Eine Schicht eines Deep-Learning-Netzwerks, in der ein Konvolutionsfilter eine Eingabematrix weitergibt. Betrachten Sie beispielsweise den folgenden 3 × 3-Konvolutionsfilter:

Eine 3 × 3-Matrix mit den folgenden Werten: [[0,1,0], [1,0,1], [0,1,0]]

Die folgende Animation zeigt eine Convolutional Layer mit 9 Convolutional-Vorgängen, die die 5 × 5 Eingabematrix betreffen. Beachten Sie, dass jeder konvolutionelle Vorgang auf einem anderen 3 × 3 Pixel großen Ausschnitt der Eingabematrix ausgeführt wird. Die resultierende 3 × 3-Matrix (rechts) besteht aus den Ergebnissen der 9 Konvolutionsoperationen:

Eine Animation mit zwei Matrizen. Die erste Matrix ist die 5 × 5-Matrix: [[128,97,53,201,198], [35,22,25,200,195],
          [37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]].
          Die zweite Matrix ist die 3 × 3-Matrix:
          [[181,303,618], [115,338,605], [169,351,560]].
          Die zweite Matrix wird berechnet, indem der Konvolutionsfilter [[0, 1, 0], [1, 0, 1], [0, 1, 0]] auf verschiedene 3 × 3-Untermengen der 5 × 5-Matrix angewendet wird.

Weitere Informationen finden Sie im Kurs zur Bildklassifizierung unter Vollständig verbundene Schichten.

Convolutional Neural Network (CNN)

#image

Ein neuronales Netzwerk, bei dem mindestens eine Schicht eine Convolutional Layer ist. Ein typisches Convolutional Neural Network besteht aus einer Kombination der folgenden Schichten:

Convolutional Neural Networks haben bei bestimmten Arten von Problemen, z. B. bei der Bilderkennung, große Erfolge erzielt.

Convolutionsoperation

#image

Die folgende zweistufige mathematische Operation:

  1. Elementweise Multiplikation des Konvolutionsfilters mit einem Ausschnitt einer Eingabematrix. Der Ausschnitt der Eingabematrix hat denselben Rang und dieselbe Größe wie der Convolutional-Filter.
  2. Summe aller Werte in der resultierenden Produktmatrix.

Betrachten Sie beispielsweise die folgende 5 × 5-Matrix:

5 × 5-Matrix: [[128,97,53,201,198], [35,22,25,200,195],
          [37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]].

Stellen Sie sich nun den folgenden 2 × 2-Konvolutionsfilter vor:

Die 2 × 2-Matrix: [[1, 0], [0, 1]]

Jeder konvolutionelle Vorgang umfasst einen einzelnen 2 × 2 Pixel großen Ausschnitt der Eingabematrix. Angenommen, wir verwenden den 2 × 2 Pixel großen Ausschnitt oben links in der Eingabematrix. Die Convolutionsoperation auf diesem Ausschnitt sieht also so aus:

Anwendung des Convolutional-Filters [[1, 0], [0, 1]] auf den 2 × 2 Pixel großen Bereich oben links in der Eingabematrix [[128,97], [35,22]].
          Der Konvolutionsfilter lässt die Werte 128 und 22 unverändert, setzt aber 97 und 35 auf Null. Die Faltung ergibt daher den Wert 150 (128 + 22).

Eine Convolutionsschicht besteht aus einer Reihe von Convolutions-Operationen, die jeweils auf einen anderen Ausschnitt der Eingabematrix angewendet werden.

Kosten

Synonym für Verlust.

Co-Training

Ein semi-supervisedes Lernverfahren ist besonders nützlich, wenn alle folgenden Bedingungen erfüllt sind:

Beim Co-Training werden unabhängige Signale im Wesentlichen zu einem stärkeren Signal verstärkt. Angenommen, Sie haben ein Klassifizierungsmodell, mit dem einzelne Gebrauchtwagen als Gut oder Schlecht kategorisiert werden. Eine Gruppe von Prognosefunktionen könnte sich auf aggregierte Merkmale wie das Baujahr, die Marke und das Modell des Autos konzentrieren. Eine andere Gruppe von Prognosefunktionen könnte sich auf den Fahrrekord des Vorbesitzers und den Wartungsverlauf des Autos konzentrieren.

Der wegweisende Artikel zum Co-Training ist Combining Labeled and Unlabeled Data with Co-Training von Blum und Mitchell.

Fairness unter kontrafaktischen Bedingungen

#fairness

Ein Fairness-Maß, mit dem geprüft wird, ob ein Klassifikator für eine Person dasselbe Ergebnis liefert wie für eine andere Person, die mit der ersten identisch ist, mit Ausnahme eines oder mehrerer sensibler Attribute. Die Bewertung eines Klassifikators auf kontrafaktische Fairness ist eine Methode, um potenzielle Quellen von Voreingenommenheit in einem Modell aufzudecken.

Weitere Informationen finden Sie unter den folgenden Links:

Abdeckungsverzerrung

#fairness

Weitere Informationen finden Sie unter Stichprobenfehler.

Crash Blossom

#language

Ein Satz oder eine Wortgruppe mit mehrdeutiger Bedeutung. Crash Blossoms stellen ein erhebliches Problem beim Verstehen von natürlicher Sprache dar. Die Überschrift Red Tape Holds Up Skyscraper (Bürokratie verzögert Wolkenkratzer) ist beispielsweise ein Crash Blossom, da ein NLU-Modell die Überschrift wörtlich oder bildlich interpretieren könnte.

Kritiker

#rl

Synonym für Deep-Q-Netzwerk.

Kreuzentropie

Eine Verallgemeinerung des Log-Verlusts auf mehrklassige Klassifizierungsprobleme. Die Kreuzentropie quantifiziert den Unterschied zwischen zwei Wahrscheinlichkeitsverteilungen. Siehe auch Verwirrung.

Kreuzvalidierung

Ein Mechanismus zur Schätzung, inwieweit ein Modell auf neue Daten generalisiert werden kann, indem das Modell mit einem oder mehreren nicht überlappenden Datensubsets getestet wird, die aus dem Trainings-Dataset ausgeschlossen wurden.

Kumulative Verteilungsfunktion (CDF)

Eine Funktion, die die Häufigkeit von Samples definiert, die kleiner oder gleich einem Zielwert sind. Betrachten wir beispielsweise eine Normalverteilung kontinuierlicher Werte. Eine kumulative Verteilungsfunktion gibt an, dass ungefähr 50% der Stichproben kleiner oder gleich dem Mittelwert und ungefähr 84% der Stichproben kleiner oder gleich einer Standardabweichung über dem Mittelwert sein sollten.

D

Datenanalyse

Daten durch Stichproben, Messungen und Visualisierungen besser verstehen Die Datenanalyse kann besonders nützlich sein, wenn ein Datensatz zum ersten Mal empfangen wird, bevor das erste Modell erstellt wird. Außerdem ist es wichtig, um Tests zu verstehen und Probleme mit dem System zu beheben.

Datenerweiterung

#image

Erweitern Sie die Bandbreite und Anzahl der Trainingsbeispiele, indem Sie vorhandene Beispiele umwandeln, um zusätzliche Beispiele zu erstellen. Angenommen, Bilder sind eines Ihrer Features, Ihr Dataset enthält aber nicht genügend Bildbeispiele, damit das Modell nützliche Verknüpfungen lernen kann. Idealerweise fügen Sie Ihrem Dataset genügend beschriftete Bilder hinzu, damit Ihr Modell richtig trainiert werden kann. Ist das nicht möglich, können Sie mithilfe der Datenaugmentation jedes Bild drehen, strecken und spiegeln, um viele Varianten des Originalbilds zu erstellen. So lassen sich möglicherweise genügend beschriftete Daten für ein hervorragendes Training gewinnen.

DataFrame

#fundamentals

Ein beliebter Pandas-Datentyp zum Darstellen von Datasets im Arbeitsspeicher.

Ein DataFrame ist analog zu einer Tabelle oder einer Tabellenkalkulation. Jede Spalte eines DataFrames hat einen Namen (eine Überschrift) und jede Zeile wird durch eine eindeutige Nummer identifiziert.

Jede Spalte in einem DataFrame ist wie ein 2D-Array strukturiert, mit der Ausnahme, dass jeder Spalte ein eigener Datentyp zugewiesen werden kann.

Weitere Informationen finden Sie auch auf der offiziellen Referenzseite für pandas.DataFrame.

Datenparallelität

Eine Methode zum Skalieren des Trainings oder der Inferenz, bei der ein vollständiges Modell auf mehreren Geräten repliziert und dann eine Teilmenge der Eingabedaten an jedes Gerät übergeben wird. Mithilfe von Datenparallelität können Sie Modelle mit sehr großen Batchgrößen trainieren und Inferenzen durchführen. Voraussetzung dafür ist jedoch, dass das Modell klein genug ist, um auf allen Geräten zu passen.

Datenparallelität beschleunigt in der Regel das Training und die Inferenz.

Weitere Informationen finden Sie unter Modellparallelität.

Dataset API (tf.data)

#TensorFlow

Eine übergeordnete TensorFlow API zum Lesen von Daten und zum Umwandeln in eine Form, die für einen Algorithmus für maschinelles Lernen erforderlich ist. Ein tf.data.Dataset-Objekt stellt eine Sequenz von Elementen dar, wobei jedes Element einen oder mehrere Tensoren enthält. Ein tf.data.Iterator-Objekt bietet Zugriff auf die Elemente einer Dataset.

Datensatz

#fundamentals

Eine Sammlung von Rohdaten, die in der Regel (aber nicht ausschließlich) in einem der folgenden Formate organisiert ist:

  • in einer Tabelle
  • eine Datei im CSV-Format (Comma Separated Values, kommagetrennte Werte)

Entscheidungsgrenze

Die Trennlinie zwischen Klassen, die von einem Modell in einem binären Klassifizierungsproblem oder Klassifizierungsproblem mit mehreren Klassen gelernt wurde. Im folgenden Bild, das ein binäres Klassifizierungsproblem darstellt, ist die Entscheidungsgrenze die Grenze zwischen der orangefarbenen und der blauen Klasse:

Eine klar definierte Grenze zwischen einer Klasse und einer anderen.

Entscheidungswald

#df

Ein Modell, das aus mehreren Entscheidungsbäumen erstellt wurde. Ein Entscheidungswald trifft eine Vorhersage, indem die Vorhersagen seiner Entscheidungsbäume zusammengefasst werden. Zu den beliebten Arten von Entscheidungswäldern gehören Zufallswälder und Gradient Boosted Trees.

Weitere Informationen finden Sie im Kurs „Entscheidungsbäume“ im Abschnitt Entscheidungsbäume.

Entscheidungsschwellenwert

Synonym für Klassifizierungsschwellenwert.

Entscheidungsbaum

#df

Ein Modell des überwachten Lernens, das aus einer Reihe von hierarchisch organisierten Bedingungen und Blättern besteht. Hier ist beispielsweise ein Entscheidungsbaum:

Ein Entscheidungsbaum mit vier hierarchisch angeordneten Bedingungen, die zu fünf Blättern führen.

Decoder

#language

Im Allgemeinen jedes ML-System, das von einer verarbeiteten, dichten oder internen Darstellung in eine eher rohe, spärliche oder externe Darstellung konvertiert.

Decoder sind oft Teil eines größeren Modells, in dem sie häufig mit einem Encoder kombiniert werden.

Bei Sequenz-zu-Sequenz-Aufgaben beginnt ein Decoder mit dem vom Encoder generierten internen Status, um die nächste Sequenz vorherzusagen.

Die Definition eines Decoders in der Transformer-Architektur finden Sie unter Transformer.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Large Language Models.

Deep Learning-Modell

#fundamentals

Ein neuronales Netzwerk mit mehr als einer verborgenen Schicht.

Ein Deep-Learning-Modell wird auch als neuronales Deep-Learning-Netzwerk bezeichnet.

Im Gegensatz zum breiten Modell.

neuronales Deep-Learning-Netzwerk

Synonym für Deep Learning-Modell.

Deep-Q-Network (DQN)

#rl

Beim Q-Lernen wird ein tiefes neuronales Netzwerk verwendet, das Q-Funktionen vorhersagt.

Critic ist ein Synonym für Deep-Q-Netzwerk.

demografische Parität

#fairness

Ein Fairness-Messwert, der erfüllt ist, wenn die Ergebnisse der Klassifizierung eines Modells nicht von einem bestimmten sensiblen Attribut abhängen.

Wenn sich beispielsweise sowohl Liliputaner als auch Brobdingnagier an der Glubbdubdrib University bewerben, ist die demografische Parität erreicht, wenn der Prozentsatz der aufgenommenen Liliputaner dem Prozentsatz der aufgenommenen Brobdingnagier entspricht, unabhängig davon, ob eine Gruppe im Durchschnitt besser qualifiziert ist als die andere.

Im Gegensatz dazu erlauben gleiche Chancen und Gleichbehandlung, dass Klassifizierungsergebnisse insgesamt von sensiblen Attributen abhängen, aber nicht, dass Klassifizierungsergebnisse für bestimmte Grundwahrheit-Labels von sensiblen Attributen abhängen. Im Artikel Diskriminierung durch intelligentes maschinelles Lernen finden Sie eine Visualisierung, in der die Kompromisse bei der Optimierung für die demografische Parität dargestellt werden.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Fairness: demografische Parität.

Entfernen von Rauschen

#language

Ein gängiger Ansatz für selbstüberwachtes Lernen:

  1. Dem Datensatz wird künstlich Rauschen hinzugefügt.
  2. Das Modell versucht, das Rauschen zu entfernen.

Durch das Entfernen von Rauschen können Sie aus unbeschrifteten Beispielen lernen. Das ursprüngliche Dataset dient als Ziel oder Label und die verrauschten Daten als Eingabe.

Bei einigen verschleierten Sprachmodellen wird die Geräuschunterdrückung so verwendet:

  1. Einem unbeschrifteten Satz wird durch Maskieren einiger Tokens künstlich Rauschen hinzugefügt.
  2. Das Modell versucht, die ursprünglichen Tokens vorherzusagen.

vollbesetztes Feature

#fundamentals

Eine Funktion, bei der die meisten oder alle Werte ungleich Null sind, in der Regel ein Tensor mit Gleitkommawerten. Der folgende Tensor mit 10 Elementen ist beispielsweise dicht, da 9 der Werte ungleich 0 sind:

8 3 7 5 2 4 0 4 9 6

Im Gegensatz zu einem dünnbesetzten Feature.

dichte Schicht

Synonym für vollständig verbundene Schicht.

Tiefe

#fundamentals

Die Summe der folgenden Elemente in einem neuronalen Netzwerk:

Ein neuronales Netzwerk mit fünf verborgenen Schichten und einer Ausgabeschicht hat beispielsweise eine Tiefe von 6.

Die Eingabeebene hat keinen Einfluss auf die Tiefe.

ein räumlich trennbares Convolutional Neural Network (sepCNN)

#image

Eine Architektur für Convolutional Neural Networks, die auf Inception basiert, bei der die Inception-Module jedoch durch tiefenbasiert trennbare Convolutionen ersetzt werden. Wird auch als Xception bezeichnet.

Bei einer tiefenabhängig trennbaren 3D-Konvolution (auch als trennbare 3D-Konvolution abgekürzt) wird eine standardmäßige 3D-Konvolution in zwei separate Konvolutionsoperationen zerlegt, die verarbeitungseffizienter sind: eine tiefenabhängige Konvolution mit einer Tiefe von 1 (n × n × 1) und eine punktweise Konvolution mit einer Länge und Breite von 1 (1 × 1 × n).

Weitere Informationen finden Sie unter Xception: Deep Learning with Depthwise Separable Convolutons.

abgeleitetes Label

Synonym für Proxylabel.

Gerät

#TensorFlow
#GoogleCloud

Ein überladener Begriff mit den folgenden beiden möglichen Definitionen:

  1. Eine Kategorie von Hardware, auf der eine TensorFlow-Sitzung ausgeführt werden kann, einschließlich CPUs, GPUs und TPUs.
  2. Beim Training eines ML-Modells auf Beschleunigerchips (GPUs oder TPUs) ist dies der Teil des Systems, der tatsächlich Tensoren und Embeddings manipuliert. Das Gerät wird mit Beschleunigerchips betrieben. Der Host wird dagegen in der Regel auf einer CPU ausgeführt.

Differential Privacy

Bei der maschinellen Lerne ein Ansatz zur Anonymisierung, um sensible Daten (z. B. personenbezogene Daten einer Person) im Trainingssatz eines Modells vor der Offenlegung zu schützen. So lernt das Modell nicht viel über eine bestimmte Person und erinnert sich auch nicht daran. Dazu werden während des Modelltrainings Stichproben erhoben und Rauschen hinzugefügt, um einzelne Datenpunkte zu verschleiern und das Risiko einer Offenlegung sensibler Trainingsdaten zu verringern.

Differential Privacy wird auch außerhalb von Machine Learning eingesetzt. So verwenden Datenwissenschaftler beispielsweise manchmal Differential Privacy, um die Privatsphäre von Einzelpersonen zu schützen, wenn sie Produktnutzungsstatistiken für verschiedene demografische Merkmale berechnen.

Dimensionsreduktion

Verringerung der Anzahl der Dimensionen, die zur Darstellung eines bestimmten Merkmals in einem Merkmalvektor verwendet werden, in der Regel durch Umwandlung in einen Embedding-Vektor.

Dimensionen

Überladener Begriff mit einer der folgenden Definitionen:

  • Die Anzahl der Koordinatenebenen in einem Tensor. Beispiel:

    • Ein Skalar hat keine Dimensionen, z. B. ["Hello"].
    • Ein Vektor hat eine Dimension, z. B. [3, 5, 7, 11].
    • Eine Matrix hat zwei Dimensionen, z. B. [[2, 4, 18], [5, 7, 14]]. Eine bestimmte Zelle in einem eindimensionalen Vektor kann mit einer Koordinate eindeutig angegeben werden. Für eine bestimmte Zelle in einer zweidimensionalen Matrix sind zwei Koordinaten erforderlich.
  • Die Anzahl der Einträge in einem Erkennungsvektor.

  • Die Anzahl der Elemente in einer Ebenen für das Einbetten.

Direkte Aufforderung

#language
#generativeAI

Synonym für Zero-Shot-Prompts.

diskretes Feature

#fundamentals

Ein Attribut mit einer endlichen Anzahl möglicher Werte. Ein Beispiel für ein diskretes (oder kategorisches) Merkmal ist ein Merkmal, dessen Werte nur Tier, Gemüse oder Mineral sein können.

Im Gegensatz zu einem stetigen Feature.

Diskriminatives Modell

Ein Modell, das Labels anhand von einem oder mehreren Features vorhersagt. Formeller ausgedrückt definieren diskriminative Modelle die bedingte Wahrscheinlichkeit einer Ausgabe unter Berücksichtigung der Merkmale und Gewichte:

p(output | features, weights)

Ein Beispiel für ein diskriminatives Modell ist ein Modell, das anhand von Features und Gewichtungen vorhersagt, ob es sich bei einer E-Mail um Spam handelt.

Die überwiegende Mehrheit der Modelle für das überwachte Lernen, einschließlich Klassifizierungs- und Regressionsmodelle, sind diskriminative Modelle.

Im Gegensatz zu einem generativen Modell.

Diskriminator

Ein System, das feststellt, ob Beispiele echt oder gefälscht sind.

Alternativ: Das Subsystem in einem generativen Adversarial Network, das bestimmt, ob die vom Generator erstellten Beispiele echt oder gefälscht sind.

Weitere Informationen finden Sie im GAN-Kurs unter Der Discriminator.

unterschiedliche Auswirkungen

#fairness

Entscheidungen über Personen treffen, die sich unverhältnismäßig auf verschiedene Bevölkerungsgruppen auswirken. In der Regel bezieht sich dies auf Situationen, in denen ein algorithmischer Entscheidungsprozess einigen Untergruppen mehr schadet oder mehr nutzt als anderen.

Angenommen, ein Algorithmus, der die Berechtigung eines Liliputaners für ein Minihausdarlehen ermittelt, stuft ihn mit höherer Wahrscheinlichkeit als „nicht berechtigt“ ein, wenn seine Postanschrift eine bestimmte Postleitzahl enthält. Wenn Big-Endian-Lilliputaner mit größerer Wahrscheinlichkeit Postadressen mit dieser Postleitzahl haben als Little-Endian-Lilliputaner, kann dieser Algorithmus zu unterschiedlichen Auswirkungen führen.

Im Gegensatz dazu geht es bei diskriminierender Behandlung um Unterschiede, die sich ergeben, wenn Merkmale von Untergruppen explizite Eingaben in einen algorithmischen Entscheidungsprozess sind.

unterschiedliche Behandlung

#fairness

Die sensiblen Attribute der Personen in einen algorithmischen Entscheidungsprozess einfließen lassen, sodass unterschiedliche Personengruppen unterschiedlich behandelt werden.

Angenommen, es gibt einen Algorithmus, der anhand der Daten in einem Kreditantrag die Berechtigung von Liliputanern für ein Minihaus ermittelt. Wenn der Algorithmus die Zugehörigkeit eines Liliputaners als Big-Endian- oder Little-Endian-Format als Eingabe verwendet, wird eine unterschiedliche Behandlung entlang dieser Dimension vorgenommen.

Im Gegensatz dazu geht es bei unterschiedlichen Auswirkungen um Unterschiede in den gesellschaftlichen Auswirkungen algorithmischer Entscheidungen auf Untergruppen, unabhängig davon, ob diese Untergruppen Eingaben in das Modell sind.

Destillation

#generativeAI

Das Verfahren, die Größe eines Modells (Lehrermodell) auf ein kleineres Modell (Schülermodell) zu reduzieren, das die Vorhersagen des ursprünglichen Modells so genau wie möglich emuliert. Die Destillation ist nützlich, da das kleinere Modell zwei wichtige Vorteile gegenüber dem größeren Modell (dem Lehrer) hat:

  • Schnellere Inferenzzeit
  • Reduzierter Arbeitsspeicher- und Energieverbrauch

Die Vorhersagen der Schüler sind jedoch in der Regel nicht so gut wie die der Lehrkräfte.

Bei der Destillation wird das Schülermodell trainiert, um eine Verlustfunktion basierend auf der Differenz zwischen den Ausgaben der Vorhersagen der Schüler- und Lehrermodelle zu minimieren.

Vergleichen Sie die Destillation mit den folgenden Begriffen:

Weitere Informationen finden Sie im Machine Learning Crash Course unter LLMs: Fine-tuning, distillation, and prompt engineering.

Verteilung

Häufigkeit und Bereich der verschiedenen Werte für ein bestimmtes Attribut oder Label. Eine Verteilung gibt an, wie wahrscheinlich ein bestimmter Wert ist.

Die folgende Abbildung zeigt Histogramme von zwei verschiedenen Verteilungen:

  • Links: Eine Potenzverteilung des Vermögens im Vergleich zur Anzahl der Personen, die dieses Vermögen besitzen.
  • Rechts sehen Sie eine Normalverteilung der Körpergröße im Vergleich zur Anzahl der Personen mit dieser Körpergröße.

Zwei Histogramme. Ein Histogramm zeigt eine Potenzverteilung mit Vermögen auf der x-Achse und der Anzahl der Personen mit diesem Vermögen auf der y-Achse. Die meisten Menschen haben nur sehr wenig Vermögen und nur wenige Menschen haben sehr viel Vermögen. Das andere Histogramm zeigt eine Normalverteilung mit der Größe auf der X-Achse und der Anzahl der Personen mit dieser Größe auf der Y-Achse. Die meisten Menschen liegen in der Nähe des Mittelwerts.

Wenn Sie die Verteilung der einzelnen Funktionen und Labels kennen, können Sie besser entscheiden, wie Sie Werte normalisieren und Außreißer erkennen.

Der Begriff außerhalb der Verteilung bezieht sich auf einen Wert, der nicht im Datensatz enthalten ist oder sehr selten vorkommt. Ein Bild des Planeten Saturn würde beispielsweise für einen Datensatz mit Katzenbildern als nicht repräsentativ eingestuft.

Divisive Clustering

#clustering

Weitere Informationen finden Sie unter hierarchisches Clustering.

Downsampling

#image

Dieser Begriff kann Folgendes bedeuten:

  • Verringerung der Informationsmenge in einem Feature, um ein Modell effizienter zu trainieren. Beispielsweise können Sie vor dem Training eines Bilderkennungsmodells hochauflösende Bilder auf ein Format mit niedrigerer Auflösung herunterskalieren.
  • Training mit einem unverhältnismäßig niedrigen Prozentsatz an Beispielen für überrepräsentierte Klassen, um das Modelltraining für unterrepräsentierte Klassen zu verbessern. In einem Dataset mit unausgeglichenen Klassen lernen Modelle beispielsweise viel über die Mehrheitsklasse, aber nicht genug über die Minderheitsklasse. Durch die Downsampling-Methode wird die Trainingsmenge für die Mehrheits- und Minderheitenklassen ausgeglichen.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Datasets: Ungleichgewichtige Datasets.

DQN

#rl

Abkürzung für Deep-Q-Netzwerk.

Dropout-Regelungsmechanismus

Eine Form der Regulierbarkeit, die sich beim Training von neuronalen Netzwerken eignet. Bei der Dropout-Regelierung wird für einen einzelnen Gradientenschritt eine zufällige Auswahl einer festen Anzahl von Einheiten in einer Netzwerkschicht entfernt. Je mehr Einheiten ausfallen, desto stärker ist die Regularisierung. Das ist vergleichbar mit dem Training des Netzwerks, um ein exponentiell großes Ensemble kleinerer Netzwerke zu emulieren. Weitere Informationen finden Sie unter Dropout: Eine einfache Möglichkeit, das Überanpassen von neuronalen Netzwerken zu verhindern.

dynamic

#fundamentals

Etwas, das häufig oder kontinuierlich getan wird. Die Begriffe dynamisch und online werden im Bereich maschinelles Lernen synonym verwendet. Im Folgenden finden Sie gängige Anwendungsfälle für dynamische und Online-Daten im Bereich maschinelles Lernen:

  • Ein dynamisches Modell (oder Onlinemodell) ist ein Modell, das häufig oder kontinuierlich neu trainiert wird.
  • Dynamisches Training (oder Onlinetraining) ist ein Training, das häufig oder kontinuierlich stattfindet.
  • Bei der dynamischen Inferenz (oder Online-Inferenz) werden Vorhersagen auf Abruf generiert.

dynamisches Modell

#fundamentals

Ein Modell, das häufig (vielleicht sogar kontinuierlich) neu trainiert wird. Ein dynamisches Modell ist ein „Lernender auf Lebenszeit“, der sich ständig an sich ändernde Daten anpasst. Ein dynamisches Modell wird auch als Onlinemodell bezeichnet.

Im Gegensatz zu einem statischen Modell.

E

sofortige Ausführung

#TensorFlow

Eine TensorFlow-Programmierumgebung, in der Vorgänge sofort ausgeführt werden. Operationen, die in der Graphausführung aufgerufen werden, werden dagegen erst ausgeführt, wenn sie explizit ausgewertet werden. Die vorzeitige Ausführung ist eine imperative Schnittstelle, ähnlich wie der Code in den meisten Programmiersprachen. Programme mit vorzeitiger Ausführung lassen sich im Allgemeinen viel einfacher debuggen als Programme mit Graphenausführung.

Vorzeitiges Beenden

#fundamentals

Eine Methode zur Regulierbarkeit, bei der das Training bevor der Trainingsverlust vollständig abnimmt, beendet wird. Beim vorzeitigen Beenden wird das Training des Modells absichtlich beendet, wenn der Verlust in einem Validierungs-Dataset ansteigt, d. h. wenn sich die Generalisierungsleistung verschlechtert.

Erdbewegungsabstand (Earth Mover's Distance, EMD)

Ein Maß für die relative Ähnlichkeit von zwei Verteilungen. Je geringer die Entfernung des Erdverschiebers ist, desto ähnlicher sind die Verteilungen.

Edit distance

#language

Ein Maß dafür, wie ähnlich sich zwei Textstrings sind. Im Bereich maschinelles Lernen ist die Edit-Distanz aus folgenden Gründen nützlich:

  • Die Edit-Distanz lässt sich leicht berechnen.
  • Mit der Edit-Distanz können zwei Strings verglichen werden, die bekanntlich ähnlich sind.
  • Mit der Edit-Distanz lässt sich bestimmen, inwiefern verschiedene Strings einem bestimmten String ähneln.

Es gibt mehrere Definitionen der Edit-Distanz, die jeweils unterschiedliche Stringoperationen verwenden. Ein Beispiel finden Sie unter Levenshtein-Distanz.

Einsum-Notation

Eine effiziente Notation, um zu beschreiben, wie zwei Tensoren kombiniert werden. Die Tensoren werden kombiniert, indem die Elemente eines Tensors mit den Elementen des anderen Tensors multipliziert und dann die Produkte addiert werden. In der Einsum-Notation werden die Achsen der einzelnen Tensoren durch Symbole gekennzeichnet. Diese Symbole werden neu angeordnet, um die Form des neuen resultierenden Tensors anzugeben.

NumPy bietet eine gängige Einsum-Implementierung.

Einbettungsschicht

#language
#fundamentals

Eine spezielle versteckte Schicht, die mit einem hochdimensionalen kategorischen Merkmal trainiert wird, um nach und nach einen Einbettungsvektor mit niedrigerer Dimension zu lernen. Mit einer Einbettungsebene kann ein neuronales Netzwerk viel effizienter trainiert werden als nur mit dem hochdimensionalen kategorischen Merkmal.

In Google Earth werden derzeit beispielsweise etwa 73.000 Baumarten unterstützt. Angenommen, die Baumart ist ein Attribut in Ihrem Modell. Die Eingabeschicht Ihres Modells enthält dann einen One-Hot-Vektor mit 73.000 Elementen. baobab könnte beispielsweise so dargestellt werden:

Ein Array mit 73.000 Elementen. Die ersten 6.232 Elemente haben den Wert 0. Das nächste Element enthält den Wert 1. Die letzten 66.767 Elemente enthalten den Wert 0.

Ein Array mit 73.000 Elementen ist sehr lang. Wenn Sie dem Modell keine Einbettungsschicht hinzufügen, ist das Training aufgrund der Multiplikation von 72.999 Nullen sehr zeitaufwendig. Angenommen, Sie legen fest, dass die Einbettungsebene aus 12 Dimensionen bestehen soll. Daher lernt die Embedding-Ebene nach und nach einen neuen Embedding-Vektor für jede Baumart.

In bestimmten Situationen ist Hashing eine angemessene Alternative zu einer Einbettungsebene.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Embeddings.

Einbettungsbereich

#language

Der d-dimensionale Vektorraum, auf den Elemente aus einem höherdimensionalen Vektorraum abgebildet werden. Der Einbettungsraum wird so trainiert, dass er eine Struktur erfasst, die für die beabsichtigte Anwendung sinnvoll ist.

Das Skalarprodukt zweier Einbettungen ist ein Maß für ihre Ähnlichkeit.

Einbettungsvektor

#language

Im Allgemeinen ein Array von Gleitkommazahlen aus jeder verborgenen Schicht, die die Eingaben in diese verborgene Schicht beschreiben. Ein Einbettungsvektor ist oft das Array von Gleitkommazahlen, das in einer Einbettungsschicht trainiert wurde. Angenommen, eine Einbettungsschicht muss einen Einbettungsvektor für jede der 73.000 Baumarten auf der Erde lernen. Vielleicht ist das folgende Array der Einbettungsvektor für einen Affenbrotbaum:

Ein Array mit 12 Elementen, die jeweils eine Gleitkommazahl zwischen 0,0 und 1,0 enthalten.

Ein Einbettungsvektor besteht nicht aus einer Reihe von Zufallszahlen. Eine Einbettungsschicht bestimmt diese Werte durch Training, ähnlich wie ein neuronales Netzwerk andere Gewichte während des Trainings lernt. Jedes Element des Arrays ist eine Bewertung einer Eigenschaft einer Baumart. Welches Element steht für welche Eigenschaft der Baumart? Das ist für Menschen sehr schwer zu bestimmen.

Das mathematisch Bemerkenswerte an einem Einbettungsvektor ist, dass ähnliche Elemente ähnliche Gleitkommazahlen haben. Beispielsweise haben ähnliche Baumarten ähnlichere Gleitkommazahlen als unterschiedliche Baumarten. Redwoods und Mammutbäume sind verwandte Baumarten, daher haben sie ähnliche Gleitkommazahlen wie Redwoods und Kokospalmen. Die Zahlen im Einbettungsvektor ändern sich jedes Mal, wenn Sie das Modell neu trainieren, auch wenn Sie es mit derselben Eingabe neu trainieren.

Empirische kumulative Verteilungsfunktion (eCDF oder EDF)

Eine kumulative Verteilungsfunktion, die auf empirischen Messungen aus einem echten Datensatz basiert. Der Wert der Funktion an einem beliebigen Punkt auf der X-Achse ist der Anteil der Beobachtungen im Datensatz, die kleiner oder gleich dem angegebenen Wert sind.

Empirische Risikominimierung (ERM)

Auswahl der Funktion, die den Verlust im Trainingssatz minimiert. Im Gegensatz zur strukturellen Risikominimierung.

Encoder

#language

Im Allgemeinen jedes ML-System, das von einer Roh-, spärlichen oder externen Darstellung in eine stärker verarbeitete, dichtere oder internere Darstellung konvertiert.

Encoder sind oft Teil eines größeren Modells, in dem sie häufig mit einem Decoder kombiniert werden. Einige Transformer koppeln Encoder mit Decodern, andere verwenden nur den Encoder oder nur den Decoder.

Bei einigen Systemen wird die Ausgabe des Encoders als Eingabe für ein Klassifizierungs- oder Regressionsnetzwerk verwendet.

Bei Sequenz-zu-Sequenz-Aufgaben nimmt ein Encoder eine Eingabesequenz entgegen und gibt einen internen Status (einen Vektor) zurück. Der Decoder verwendet dann diesen internen Status, um die nächste Sequenz vorherzusagen.

Die Definition eines Encoders in der Transformer-Architektur finden Sie unter Transformer.

Weitere Informationen finden Sie im Machine Learning Crash Course unter LLMs: What's a large language model.

Ensemble

Eine Sammlung von unabhängig trainierten Modellen, deren Vorhersagen gemittelt oder aggregiert werden. In vielen Fällen liefert ein Ensemble bessere Vorhersagen als ein einzelnes Modell. Ein Random Forest ist beispielsweise ein Ensemble, das aus mehreren Entscheidungsbäumen besteht. Hinweis: Nicht alle Entscheidungsbäume sind Ensembles.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Zufallswald.

Entropie

#df

In der Informationstheorie beschreibt die Entropie, wie unvorhersehbar eine Wahrscheinlichkeitsverteilung ist. Alternativ wird die Entropie auch als Maß dafür definiert, wie viele Informationen jedes Beispiel enthält. Eine Verteilung hat die höchstmögliche Entropie, wenn alle Werte einer Zufallsvariablen gleich wahrscheinlich sind.

Die Entropie eines Satzes mit zwei möglichen Werten „0“ und „1“ (z. B. die Labels in einem binären Klassifizierungsproblem) hat die folgende Formel:

  H = −p log p − q log q = −p log p − (1−p) * log (1−p)

Dabei gilt:

  • H ist die Entropie.
  • p ist der Bruchteil der Beispiele mit dem Wert „1“.
  • q ist der Anteil der Beispiele mit „0“. Beachten Sie, dass q = (1 – p) ist.
  • log ist in der Regel log2. In diesem Fall ist die Einheit der Entropie ein Bit.

Nehmen wir beispielsweise Folgendes an:

  • 100 Beispiele enthalten den Wert „1“.
  • 300 Beispiele enthalten den Wert „0“.

Der Entropiewert ist daher:

  • p = 0,25
  • q = 0,75
  • H = (–0,25) log2(0,25) − (0,75) log2(0,75) = 0,81 Bit pro Beispiel

Ein perfekt ausgewogener Satz (z. B. 200 Nullen und 200 Einsen) hat eine Entropie von 1, 0 Bit pro Beispiel. Je ungleichmäßiger ein Satz ist, desto näher kommt seine Entropie dem Wert 0,0.

In Entscheidungsbäumen hilft die Entropie, den Informationsgewinn zu formulieren, damit der Spalter die Bedingungen beim Aufbau eines Klassifizierungsentscheidungsbaums auswählen kann.

Entropie mit folgenden Werten vergleichen:

Die Entropie wird oft als Shannon-Entropie bezeichnet.

Weitere Informationen finden Sie im Kurs zu Entscheidungsbäumen unter Exakte Trennlinie für binäre Klassifizierung mit numerischen Merkmalen.

Umgebung

#rl

Bei der Verstärkungslernen ist das die Welt, die den Agenten enthält und es dem Agenten ermöglicht, den Zustand dieser Welt zu beobachten. Die dargestellte Welt kann beispielsweise ein Spiel wie Schach oder eine physische Welt wie ein Labyrinth sein. Wenn der Agent eine Aktion auf die Umgebung anwendet, wechselt die Umgebung zwischen den Status.

Folge

#rl

Beim Reinforcement Learning bezeichnet ein Agent einen einzelnen Versuch, eine Umgebung zu lernen.

Epoche

#fundamentals

Ein vollständiger Durchlauf des gesamten Trainings-Datasets, bei dem jedes Beispiel einmal verarbeitet wird.

Eine Epoche entspricht N ÷ Batchgröße Iterationen, wobei N die Gesamtzahl der Beispiele ist.

Angenommen, Folgendes ist der Fall:

  • Das Dataset besteht aus 1.000 Beispielen.
  • Die Batchgröße beträgt 50 Beispiele.

Daher sind für eine einzelne Epoche 20 Iterationen erforderlich:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

Weitere Informationen finden Sie im Machine Learning Crash Course unter Lineare Regression: Hyperparameter.

Epsilon-Greedy-Richtlinie

#rl

Bei der Verstärkungslernen handelt es sich um eine Richtlinie, die entweder einer Zufallsrichtlinie mit einer Epsilon-Wahrscheinlichkeit oder einer Greedy-Richtlinie folgt. Wenn Epsilon beispielsweise 0, 9 ist, wird die Richtlinie 90% der Zeit nach einer zufälligen und 10% der Zeit nach einer gierigen Richtlinie angewendet.

Im Laufe der einzelnen Folgen reduziert der Algorithmus den Wert von Epsilon, um von einer zufälligen zu einer gierigen Strategie überzugehen. Durch die Änderung der Richtlinie erkundet der Agent zuerst die Umgebung nach dem Zufallsprinzip und nutzt dann die Ergebnisse der zufälligen Erkundung aus.

Chancengleichheit

#fairness

Ein Fairness-Messwert, mit dem bewertet wird, ob ein Modell das gewünschte Ergebnis für alle Werte eines sensiblen Attributs gleich gut vorhersagt. Mit anderen Worten: Wenn das positive Ergebnis das gewünschte Ergebnis für ein Modell ist, sollte die Rate der echten positiven Ergebnisse für alle Gruppen gleich sein.

Chancengleichheit hängt mit ausgewogenen Chancen zusammen. Das bedeutet, dass sowohl die Rate der richtig positiven Ergebnisse als auch die Rate der falsch positiven Ergebnisse für alle Gruppen gleich sein müssen.

Angenommen, die Glubbdubdrib University nimmt sowohl Liliputaner als auch Brobdingnagier in ein anspruchsvolles Mathematikprogramm auf. Die weiterführenden Schulen der Liliputaner bieten ein umfangreiches Mathematikcurriculum an und die überwiegende Mehrheit der Schüler ist für das Universitätsprogramm qualifiziert. In den weiterführenden Schulen von Brobdingnag werden keine Mathematikkurse angeboten. Daher sind viel weniger Schüler qualifiziert. Die Chancengleichheit ist für das bevorzugte Label „Zugelassen“ in Bezug auf die Nationalität (Lilliputaner oder Brobdingnagier) gegeben, wenn qualifizierte Studierende unabhängig davon, ob sie Lilliputaner oder Brobdingnagier sind, mit gleicher Wahrscheinlichkeit zugelassen werden.

Angenommen, 100 Lilliputaner und 100 Brobdingnagier bewerben sich an der Glubbdubdrib University und die Zulassungsentscheidungen werden so getroffen:

Tabelle 1. Lilliputaner (90% sind qualifiziert)

  Qualifiziert Unqualifiziert
Zugelassen 45 3
Abgelehnt 45 7
Gesamt 90 10
Prozentsatz der zugelassenen qualifizierten Schüler: 45/90 = 50%
Prozentsatz der abgelehnten nicht qualifizierten Schüler: 7/10 = 70%
Gesamtprozentsatz der zugelassenen Schüler aus Liliput: (45 + 3)/100 = 48%

 

Tabelle 2 Brobdingnagian-Bewerber (10% sind qualifiziert):

  Qualifiziert Unqualifiziert
Zugelassen 5 9
Abgelehnt 5 81
Gesamt 10 90
Prozentsatz der zugelassenen qualifizierten Studenten: 5/10 = 50%
Prozentsatz der abgelehnten nicht qualifizierten Studenten: 81/90 = 90%
Gesamtprozentsatz der zugelassenen Brobdingnag-Studenten: (5 + 9)/100 = 14%

In den vorangegangenen Beispielen wird die Chancengleichheit für die Zulassung qualifizierter Schüler und Studenten gewahrt, da sowohl qualifizierte Lilliputaner als auch Brobdingnagier eine 50-prozentige Chance auf Zulassung haben.

Die Chancengleichheit ist zwar gegeben, die folgenden beiden Fairnessmesswerte sind jedoch nicht erfüllt:

  • Demografische Parität: Lilliputaner und Brobdingnagier werden in unterschiedlichem Maße an der Universität zugelassen. 48% der Lilliputaner werden zugelassen, aber nur 14% der Brobdingnagier.
  • Gleiche Chancen: Qualifizierte Lilliputaner und Brobdingnagier haben zwar die gleiche Chance, aufgenommen zu werden, aber die zusätzliche Einschränkung, dass unqualifizierte Lilliputaner und Brobdingnagier die gleiche Chance haben, abgelehnt zu werden, ist nicht erfüllt. Ungeeignete Liliputaner haben eine Ablehnungsrate von 70 %, während ungeeignete Brobdingnagier eine Ablehnungsrate von 90% haben.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Fairness: Chancengleichheit.

ausgeglichene Chancen

#fairness

Ein Fairness-Messwert, mit dem beurteilt wird, ob ein Modell Ergebnisse für alle Werte eines sensiblen Attributs sowohl für die positive Klasse als auch für die negative Klasse gleich gut vorhersagt – nicht nur für eine oder die andere Klasse. Mit anderen Worten: Sowohl die Richtig-Positiv-Rate als auch die Falsch-Negativ-Rate sollten für alle Gruppen gleich sein.

Die Chancengleichheit ist mit der Chancengleichheit verwandt, bei der sich nur auf die Fehlerraten für eine einzelne Klasse (positiv oder negativ) konzentriert wird.

Angenommen, die Glubbdubdrib University nimmt sowohl Liliputaner als auch Brobdingnagier in ein anspruchsvolles Mathematikprogramm auf. Die weiterführenden Schulen der Lilliputaner bieten ein umfangreiches Mathematikcurriculum und die überwiegende Mehrheit der Schüler ist für das Universitätsprogramm qualifiziert. In den weiterführenden Schulen von Brobdingnag werden keine Mathematikkurse angeboten. Daher sind viel weniger Schüler und Studenten qualifiziert. Die Chancengleichheit ist gegeben, wenn unabhängig davon, ob ein Bewerber ein Liliputaner oder ein Riese ist, seine Chancen, in das Programm aufgenommen zu werden, gleich hoch sind, wenn er qualifiziert ist, und seine Chancen, abgelehnt zu werden, gleich hoch sind, wenn er nicht qualifiziert ist.

Angenommen, 100 Lilliputaner und 100 Brobdingnagier bewerben sich an der Glubbdubdrib-Universität und die Zulassungsentscheidungen werden so getroffen:

Tabelle 3 Lilliputaner (90% sind qualifiziert)

  Qualifiziert Unqualifiziert
Zugelassen 45 2
Abgelehnt 45 8
Gesamt 90 10
Prozentsatz der zugelassenen qualifizierten Schüler: 45/90 = 50%
Prozentsatz der abgelehnten nicht qualifizierten Schüler: 8/10 = 80%
Gesamtprozentsatz der zugelassenen Schüler aus Liliput: (45 + 2)/100 = 47%

 

Tabelle 4 Brobdingnagian-Bewerber (10% sind qualifiziert):

  Qualifiziert Unqualifiziert
Zugelassen 5 18
Abgelehnt 5 72
Gesamt 10 90
Prozentsatz der zugelassenen qualifizierten Studenten: 5/10 = 50%
Prozentsatz der abgelehnten nicht qualifizierten Studenten: 72/90 = 80%
Gesamtprozentsatz der zugelassenen Brobdingnag-Studenten: (5 + 18)/100 = 23%

Die Chancen sind ausgeglichen, da qualifizierte Lilliputaner und Brobdingnagische Studenten jeweils eine 50-prozentige Chance haben, zugelassen zu werden, und unqualifizierte Lilliputaner und Brobdingnagische Studenten eine 80-prozentige Chance haben, abgelehnt zu werden.

Der Begriff „gleiche Chancen“ wird in „Gleichbehandlung bei der Chancengerechtigkeit im Supervised Learning“ wie folgt definiert: „Der Prädiktor Ŷ erfüllt die Gleichbehandlung der Chancen in Bezug auf das geschützte Attribut A und das Ergebnis Y, wenn Ŷ und A bedingt auf Y unabhängig sind.“

Estimator

#TensorFlow

Eine eingestellte TensorFlow API. Verwenden Sie anstelle von Estimators tf.keras.

evals

#language
#generativeAI

Wird hauptsächlich als Abkürzung für LLM-Bewertungen verwendet. Im weiteren Sinne ist evals eine Abkürzung für jede Form der Bewertung.

Evaluierung

#language
#generativeAI

Prozess, bei dem die Qualität eines Modells gemessen oder verschiedene Modelle miteinander verglichen werden.

Um ein Modell für beaufsichtigtes maschinelles Lernen zu bewerten, wird es in der Regel anhand eines Validierungs-Sets und eines Test-Sets beurteilt. Die Bewertung eines LLM umfassen in der Regel umfassendere Qualität- und Sicherheitsbewertungen.

Beispiel

#fundamentals

Die Werte einer Zeile von Features und gegebenenfalls ein Label. Beispiele für überwachtes Lernen lassen sich in zwei allgemeine Kategorien unterteilen:

  • Ein beschriftetes Beispiel besteht aus einem oder mehreren Features und einem Label. Bei der Modellierung werden beschriftete Beispiele verwendet.
  • Ein unbeschriftetes Beispiel besteht aus einem oder mehreren Elementen, aber ohne Label. Bei der Inferenz werden Beispiele ohne Label verwendet.

Angenommen, Sie trainieren ein Modell, um den Einfluss der Wetterbedingungen auf die Testergebnisse von Schülern zu bestimmen. Hier sind drei Beispiele mit Labels:

Funktionen Label
Temperatur Luftfeuchtigkeit Luftdruck Testergebnis
15 47 998 Gut
19 34 1020 Sehr gut
18 92 1012 Schlecht

Hier sind drei Beispiele ohne Labels:

Temperatur Luftfeuchtigkeit Luftdruck  
12 62 1014  
21 47 1017  
19 41 1021  

Die Zeile eines Datasets ist in der Regel die Rohquelle für ein Beispiel. Ein Beispiel besteht also in der Regel aus einer Teilmenge der Spalten im Dataset. Außerdem können die Features in einem Beispiel auch synthetische Features enthalten, z. B. Feature-Kreuzungen.

Weitere Informationen finden Sie im Kurs „Einführung in maschinelles Lernen“ unter Supervised Learning.

Wiedergabe der Erfahrung

#rl

Beim Reinforcement Learning wird mithilfe einer DQN-Methode die zeitliche Korrelation in Trainingsdaten reduziert. Der Agent speichert Zustandsübergänge in einem Replay-Puffer und wählt dann Übergänge aus dem Replay-Puffer aus, um Trainingsdaten zu erstellen.

Experimentatoreffekt

#fairness

Bestätigungsfehler

Problem mit explodierendem Farbverlauf

#seq

Die Tendenz von Gradienten in neuronalen Deep-Learning-Netzwerken (insbesondere in recurrent neural networks) dazu, überraschend steil (hoch) zu werden. Steile Gradienten führen oft zu sehr großen Aktualisierungen der Gewichte jedes Knotens in einem tiefen neuronalen Netzwerk.

Bei Modellen, die von diesem Problem betroffen sind, ist das Training schwierig oder unmöglich. Mit Gradient Clipping kann dieses Problem minimiert werden.

Vergleichen Sie dies mit dem Problem des verschwindenden Gradienten.

F

F1

Ein zusammengefasster Messwert für die binäre Klassifizierung, der sowohl auf Precision als auch auf Recall basiert. Hier ist die Formel:

$$F{_1} = \frac{\text{2 * precision * recall}} {\text{precision + recall}}$$

Faktentreue

#generativeAI

In der Welt der KI eine Property, die ein Modell beschreibt, dessen Ausgabe auf der Realität basiert. Sachlichkeit ist eher ein Konzept als ein Messwert. Angenommen, Sie senden den folgenden Prompt an ein Large Language Model:

Wie lautet die chemische Formel für Kochsalz?

Ein Modell, das auf Sachlichkeit optimiert ist, würde so antworten:

NaCl

Es ist verlockend, anzunehmen, dass alle Modelle auf Fakten basieren sollten. Bei einigen Prompts, wie dem folgenden, sollte ein generatives KI-Modell jedoch die Kreativität und nicht die Sachlichkeit optimieren.

Erzähl mir einen Limerick über einen Astronauten und eine Raupe.

Es ist unwahrscheinlich, dass das resultierende Limerick auf der Realität basiert.

Im Gegensatz zu Geerdetheit.

Fairness-Einschränkung

#fairness
Eine Einschränkung auf einen Algorithmus anwenden, um sicherzustellen, dass eine oder mehrere Definitionen von Fairness erfüllt werden. Beispiele für Fairnesseinschränkungen:

Fairnessmesswert

#fairness

Eine mathematische Definition von „Fairness“, die messbar ist. Zu den gängigen Fairnessmesswerten gehören:

Viele Fairnessmesswerte schließen sich gegenseitig aus. Weitere Informationen finden Sie unter Inkompatibilität von Fairnessmesswerten.

Falsch negativ (FN)

#fundamentals

Ein Beispiel, in dem das Modell fälschlicherweise die negative Klasse vorhersagt. Angenommen, das Modell sagt vorher, dass eine bestimmte E-Mail kein Spam (die negative Klasse) ist, aber diese E-Mail ist tatsächlich Spam.

Falsch-Negativ-Rate

Der Anteil der tatsächlich positiven Beispiele, für die das Modell fälschlicherweise die negative Klasse vorhergesagt hat. Mit der folgenden Formel wird die Rate für falsch-negative Ergebnisse berechnet:

$$\text{false negative rate} = \frac{\text{false negatives}}{\text{false negatives} + \text{true positives}}$$

Weitere Informationen finden Sie im Machine Learning Crash Course unter Grenzwerte und die Fehlermatrix.

Falsch positiv (FP)

#fundamentals

Ein Beispiel, in dem das Modell fälschlicherweise die positive Klasse vorhersagt. Angenommen, das Modell sagt vorher, dass eine bestimmte E-Mail-Nachricht Spam (die positive Klasse) ist, sie ist aber eigentlich kein Spam.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Grenzwerte und die Fehlermatrix.

Rate falsch positiver Ergebnisse (False Positive Rate, FPR)

#fundamentals

Der Anteil der tatsächlich negativen Beispiele, für die das Modell fälschlicherweise die positive Klasse vorhergesagt hat. Mit der folgenden Formel wird die Rate der Falsch-Positiv-Ergebnisse berechnet:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

Die Rate falsch positiver Ergebnisse ist die X-Achse einer ROC-Kurve.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Klassifizierung: ROC und AUC.

Feature

#fundamentals

Eine Eingabevariable für ein Modell für maschinelles Lernen. Ein Beispiel besteht aus einer oder mehreren Funktionen. Angenommen, Sie trainieren ein Modell, um den Einfluss der Wetterbedingungen auf die Testergebnisse von Schülern zu ermitteln. Die folgende Tabelle enthält drei Beispiele mit jeweils drei Elementen und einem Label:

Funktionen Label
Temperatur Luftfeuchtigkeit Luftdruck Testergebnis
15 47 998 92
19 34 1020 84
18 92 1012 87

Im Gegensatz zu Label.

Weitere Informationen finden Sie im Kurs „Einführung in maschinelles Lernen“ unter Supervised Learning.

Featureverknüpfung

#fundamentals

Ein synthetisches Feature, das durch „Kreuzung“ von kategorischen oder in Buckets aufgeteilten Merkmalen gebildet wird.

Betrachten Sie beispielsweise ein Modell zur „Laune-Prognose“, das die Temperatur in einem der folgenden vier Bereiche darstellt:

  • freezing
  • chilly
  • temperate
  • warm

„wind_speed“ gibt die Windgeschwindigkeit in einem der folgenden drei Buckets an:

  • still
  • light
  • windy

Ohne Feature-Kreuzungen wird das lineare Modell unabhängig für jeden der sieben verschiedenen Bucket trainiert. Das Modell wird also beispielsweise mit freezing trainiert, unabhängig vom Training mit windy.

Alternativ können Sie ein Feature-Kreuz aus Temperatur und Windgeschwindigkeit erstellen. Diese synthetische Funktion hätte die folgenden 12 möglichen Werte:

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

Dank der Feature-Kreuzungen kann das Modell Stimmungsunterschiede zwischen einem freezing-windy-Tag und einem freezing-still-Tag lernen.

Wenn Sie ein synthetisches Feature aus zwei Features erstellen, die jeweils viele verschiedene Bucket haben, hat das resultierende Feature-Cross eine enorme Anzahl möglicher Kombinationen. Wenn ein Merkmal beispielsweise 1.000 Buckets und das andere 2.000 Buckets hat, hat die resultierende Merkmalskreuzung 2.000.000 Buckets.

Formell ist ein Kreuz ein kartesisches Produkt.

Feature-Kreuzungen werden hauptsächlich mit linearen Modellen und selten mit neuronalen Netzwerken verwendet.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Kategorische Daten: Feature-Kreuzungen.

Feature Engineering

#fundamentals
#TensorFlow

Ein Prozess, der die folgenden Schritte umfasst:

  1. Sie ermitteln, welche Features beim Trainieren eines Modells nützlich sein könnten.
  2. Rohdaten aus dem Datensatz in effiziente Versionen dieser Funktionen umwandeln.

Sie könnten beispielsweise feststellen, dass temperature eine nützliche Funktion wäre. Anschließend können Sie mit Bucketing experimentieren, um zu optimieren, was das Modell aus verschiedenen temperature-Bereichen lernen kann.

Feature Engineering wird manchmal auch als Feature-Extraktion oder Feature-Erstellung bezeichnet.

Weitere Informationen finden Sie im Crashkurs zu maschinellem Lernen unter Numerische Daten: So nimmt ein Modell Daten mithilfe von Featurevektoren auf.

Featureextraktion

Überladener Begriff mit einer der folgenden Definitionen:

Featurewichtigkeiten

#df

Synonym für Variablenbewertungen.

Feature-Set

#fundamentals

Die Gruppe von Features, anhand derer Ihr Modell für maschinelles Lernen trainiert wird. Postleitzahl, Gebäudegröße und Gebäudezustand könnten beispielsweise einen einfachen Feature-Set für ein Modell bilden, mit dem Immobilienpreise vorhergesagt werden.

Featurespezifikation

#TensorFlow

Hier erfahren Sie, welche Informationen zum Extrahieren von Features-Daten aus dem Protokollpuffer tf.Example erforderlich sind. Da der Protokollpuffer „tf.Example“ nur ein Container für Daten ist, müssen Sie Folgendes angeben:

  • Die zu extrahierenden Daten (d. h. die Schlüssel für die Funktionen)
  • Der Datentyp (z. B. „float“ oder „int“)
  • Die Länge (fest oder variabel)

Featurevektor

#fundamentals

Das Array mit Feature-Werten, das ein Beispiel enthält. Der Featurevektor wird während des Trainings und während der Inferenz eingegeben. Der Merkmalsvektor für ein Modell mit zwei diskreten Features könnte beispielsweise so aussehen:

[0.92, 0.56]

Vier Schichten: eine Eingabeschicht, zwei verborgene Schichten und eine Ausgabeschicht.
          Die Eingabeschicht enthält zwei Knoten, von denen einer den Wert 0,92 und der andere den Wert 0,56 enthält.

Für jedes Beispiel werden unterschiedliche Werte für den Featurevektor angegeben. Der Featurevektor für das nächste Beispiel könnte also so aussehen:

[0.73, 0.49]

Beim Feature Engineering wird festgelegt, wie Features im Featurevektor dargestellt werden. Ein binäres kategorisches Merkmal mit fünf möglichen Werten kann beispielsweise mit One-Hot-Codierung dargestellt werden. In diesem Fall würde der Teil des Merkmalsvektors für ein bestimmtes Beispiel aus vier Nullen und einer einzelnen 1.0 an der dritten Position bestehen:

[0.0, 0.0, 1.0, 0.0, 0.0]

Angenommen, Ihr Modell besteht aus drei Features:

  • Ein binäres kategorisches Merkmal mit fünf möglichen Werten, die mit One-Hot-Codierung dargestellt werden, z. B.: [0.0, 1.0, 0.0, 0.0, 0.0]
  • ein weiteres binäres kategorisches Merkmal mit drei möglichen Werten, die mit One-Hot-Codierung dargestellt werden, z. B.: [0.0, 0.0, 1.0]
  • ein Gleitkomma-Element, z. B. 8.3.

In diesem Fall würde der Featurevektor für jedes Beispiel durch neun Werte dargestellt. Bei den Beispielwerten in der vorherigen Liste würde der Featurevektor so aussehen:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

Weitere Informationen finden Sie im Crashkurs zu maschinellem Lernen unter Numerische Daten: So nimmt ein Modell Daten mithilfe von Featurevektoren auf.

Feature-Engineering

Der Vorgang, bei dem Features aus einer Eingabequelle wie einem Dokument oder Video extrahiert und in einen Featurevektor abgebildet werden.

Einige ML-Experten verwenden die Feature-Erstellung als Synonym für Feature Engineering oder Feature-Extraktion.

föderiertes Lernen

Bei diesem verteilten Machine-Learning-Ansatz werden ML-Modelle mithilfe dezentraler Beispiele trainiert, die auf Geräten wie Smartphones gespeichert sind. Beim föderierten Lernen lädt eine Teilmenge der Geräte das aktuelle Modell von einem zentralen Koordinierungsserver herunter. Die Geräte verwenden die auf den Geräten gespeicherten Beispiele, um das Modell zu verbessern. Die Geräte laden dann die Modellverbesserungen (aber nicht die Trainingsbeispiele) auf den Koordinierungsserver hoch, wo sie mit anderen Updates zusammengefasst werden, um ein verbessertes globales Modell zu erhalten. Nach der Aggregation sind die von den Geräten berechneten Modellupdates nicht mehr erforderlich und können verworfen werden.

Da die Trainingsbeispiele nie hochgeladen werden, folgt die föderierte Lerntechnologie den Datenschutzprinzipien der gezielten Datenerhebung und Datenminimierung.

Weitere Informationen zu föderiertem Lernen finden Sie in dieser Anleitung.

Feedbackschleife

#fundamentals

Bei der Verarbeitung mithilfe von maschinellem Lernen eine Situation, in der die Vorhersagen eines Modells die Trainingsdaten für dasselbe Modell oder ein anderes Modell beeinflussen. Ein Modell, das Filme empfiehlt, wirkt sich beispielsweise auf die Filme aus, die sich Nutzer ansehen. Das wiederum hat Auswirkungen auf nachfolgende Modelle für Filmvorschläge.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Produktions-ML-Systeme: Wichtige Fragen.

Feedforward-Neural-Network (FFN)

Ein neuronales Netzwerk ohne zyklische oder rekursive Verbindungen. So sind beispielsweise traditionelle neuronale Deep-Learning-Netzwerke Feedforward-Neuronale Netze. Im Gegensatz dazu sind recurrent neural networks zyklisch.

Few-Shot-Lernen

Ein Ansatz des maschinellen Lernens, der häufig für die Objektklassifizierung verwendet wird und darauf ausgelegt ist, effektive Klassifikatoren anhand nur einer kleinen Anzahl von Trainingsbeispielen zu trainieren.

Weitere Informationen finden Sie unter One-Shot-Learning und Zero-Shot-Learning.

Few-Shot-Prompting

#language
#generativeAI

Ein Prompt, der mehr als ein (ein „paar“) Beispiel enthält, das zeigt, wie das Large Language Model reagieren soll. Der folgende ausführliche Prompt enthält beispielsweise zwei Beispiele, die einem Large Language Model zeigen, wie eine Suchanfrage beantwortet werden kann.

Teile eines Prompts Hinweise
Was ist die offizielle Währung des angegebenen Landes? Die Frage, die das LLM beantworten soll.
Frankreich: EUR Ein Beispiel:
Vereinigtes Königreich: GBP Ein weiteres Beispiel:
Indien: Die tatsächliche Suchanfrage.

Few-Shot-Prompts liefern in der Regel bessere Ergebnisse als Zero-Shot-Prompts und One-Shot-Prompts. Für Few-Shot-Prompting ist jedoch ein längerer Prompt erforderlich.

Few-Shot-Prompting ist eine Form des Few-Shot-Lernens, die auf das promptbasierte Lernen angewendet wird.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Prompt-Design.

Geige

#language

Eine Python-first-Konfigurationsbibliothek, mit der die Werte von Funktionen und Klassen ohne invasiven Code oder Infrastruktur festgelegt werden. Bei Pax und anderen ML-Codebases stehen diese Funktionen und Klassen für Modelle und Trainings Hyperparameter.

Fiddle geht davon aus, dass Codebases für maschinelles Lernen in der Regel in folgende Bereiche unterteilt sind:

  • Bibliothekscode, der die Ebenen und Optimierer definiert.
  • „Verbindender“ Code für den Datensatz, der die Bibliotheken aufruft und alles miteinander verbindet.

Fiddle erfasst die Aufrufstruktur des Glue-Codes in einer nicht ausgewerteten und veränderbaren Form.

Feinabstimmung

#language
#image
#generativeAI

Ein zweiter, aufgabenspezifischer Trainingsdurchlauf, der auf einem vortrainierten Modell durchgeführt wird, um seine Parameter für einen bestimmten Anwendungsfall zu optimieren. Die vollständige Trainingssequenz für einige Large Language Models sieht beispielsweise so aus:

  1. Vortraining: Ein Large Language Model wird mit einem umfangreichen generellen Dataset trainiert, z. B. mit allen englischsprachigen Wikipedia-Seiten.
  2. Optimierung: Das vortrainierte Modell wird für die Ausführung einer bestimmten Aufgabe trainiert, z. B. für die Beantwortung von medizinischen Suchanfragen. Die Feinabstimmung umfasst in der Regel Hunderte oder Tausende von Beispielen, die sich auf die jeweilige Aufgabe konzentrieren.

Hier ist ein weiteres Beispiel für die vollständige Trainingssequenz für ein Modell mit großen Bildern:

  1. Vortraining: Trainieren Sie ein großes Bildmodell mit einem umfangreichen allgemeinen Bild-Dataset, z. B. mit allen Bildern in Wikimedia Commons.
  2. Optimierung: Das vortrainierte Modell wird für eine bestimmte Aufgabe trainiert, z. B. für die Generierung von Bildern von Orcas.

Die Optimierung kann eine beliebige Kombination der folgenden Strategien umfassen:

  • Alle vorhandenen Parameter des vortrainierten Modells ändern. Dieser Vorgang wird auch als volle Feinabstimmung bezeichnet.
  • Sie ändern nur einige der vorhandenen Parameter des vorab trainierten Modells (in der Regel die Schichten, die der Ausgabeschicht am nächsten sind), während andere vorhandene Parameter unverändert bleiben (in der Regel die Schichten, die der Eingabeschicht am nächsten sind). Weitere Informationen finden Sie unter Parametereffiziente Abstimmung.
  • Durch Hinzufügen weiterer Ebenen, in der Regel über den vorhandenen Ebenen, die der Ausgabeebene am nächsten sind.

Die Feinabstimmung ist eine Form des Übertragungslernens. Daher kann für die Feinabstimmung eine andere Verlustfunktion oder ein anderer Modelltyp verwendet werden als für das Training des vorab trainierten Modells. Sie können beispielsweise ein vortrainiertes Modell für große Bilder optimieren, um ein Regressionsmodell zu erstellen, das die Anzahl der Vögel in einem Eingabebild zurückgibt.

Vergleichen Sie die Feinabstimmung mit den folgenden Begriffen:

Weitere Informationen finden Sie im Machine Learning Crash Course unter Feintuning.

Flachs

#language

Eine leistungsstarke Open-Source- Bibliothek für Deep Learning, die auf JAX basiert. Flax bietet Funktionen zum Training von Neural Networks sowie Methoden zur Bewertung ihrer Leistung.

Flaxformer

#language

Eine Open-Source-Transformer-Bibliothek, die auf Flax basiert und hauptsächlich für die Verarbeitung natürlicher Sprache und die multimodale Forschung entwickelt wurde.

Tor vergessen

#seq

Der Teil einer Langzeit-Kurzzeit-Speicher-Zelle, der den Informationsfluss durch die Zelle reguliert. Vergessens-Gatter erhalten den Kontext, indem sie entscheiden, welche Informationen aus dem Zellenstatus verworfen werden sollen.

Anteil der positiven Ergebnisse

#generativeAI

Ein Messwert zur Bewertung des generierten Texts eines ML-Modells. Der Anteil der erfolgreichen Antworten ist die Anzahl der „erfolgreichen“ generierten Textausgaben geteilt durch die Gesamtzahl der generierten Textausgaben. Wenn ein Large Language Model beispielsweise 10 Codeblöcke generiert, von denen fünf erfolgreich waren, beträgt der Anteil der erfolgreichen Blöcke 50%.

Obwohl der Anteil der Erfolge in der Statistik allgemein nützlich ist, ist dieser Messwert in der ML hauptsächlich für die Messung überprüfbarer Aufgaben wie Codegenerierung oder Mathematikprobleme geeignet.

Full Softmax

Synonym für softmax.

Im Gegensatz zur Kandidatenstichprobe.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Neuronale Netzwerke: Mehrfachklassifizierung.

Vollständig verbundene Schicht

Eine verborgene Schicht, in der jeder Knoten mit allen Knoten in der nachfolgenden verborgenen Schicht verbunden ist.

Eine vollständig verbundene Schicht wird auch als dichte Schicht bezeichnet.

Funktionstransformation

Eine Funktion, die eine Funktion als Eingabe nimmt und eine transformierte Funktion als Ausgabe zurückgibt. JAX verwendet Funktionstransformationen.

G

GAN

Abkürzung für generatives Adversarial Network.

Gemini

#language
#image
#generativeAI

Das Ökosystem mit der innovativsten KI von Google. Zu den Elementen dieses Ökosystems gehören:

  • Verschiedene Gemini-Modelle
  • Die interaktive Konversationsoberfläche für ein Gemini-Modell. Nutzer geben Prompts ein und Gemini antwortet darauf.
  • Verschiedene Gemini APIs
  • Verschiedene Geschäftsprodukte, die auf Gemini-Modellen basieren, z. B. Gemini for Google Cloud.

Gemini-Modelle

#language
#image
#generativeAI

Die neuesten Transformer-basierten multimodalen Modelle von Google Gemini-Modelle sind speziell für die Einbindung in Kundenservicemitarbeiter konzipiert.

Nutzer können auf verschiedene Weise mit Gemini-Modellen interagieren, z. B. über eine interaktive Dialogoberfläche und über SDKs.

Generalisierung

#fundamentals

Die Fähigkeit eines Modells, korrekte Vorhersagen für neue, bisher nicht gesehene Daten zu treffen. Ein Modell, das generalisieren kann, ist das Gegenteil eines Modells, das überanpasst ist.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Generalisierung.

Generalisierungskurve

#fundamentals

Ein Diagramm, in dem sowohl der Trainingsverlust als auch der Validierungsverlust in Abhängigkeit von der Anzahl der Iterationen dargestellt ist.

Mit einer Generalisierungskurve können Sie mögliche Überanpassungen erkennen. Die folgende Generalisierungskurve weist beispielsweise auf Überanpassung hin, da der Validierungsverlust letztendlich deutlich höher als der Trainingsverlust ist.

Ein kartesisches Diagramm, in dem die Y-Achse mit „Verlust“ und die X-Achse mit „Iterationen“ beschriftet ist. Es werden zwei Diagramme angezeigt. In einem Diagramm wird der Trainingsverlust und in dem anderen der Validierungsverlust dargestellt.
          Die beiden Diagramme beginnen ähnlich, aber der Trainingsverlust sinkt schließlich weit unter den Validierungsverlust.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Generalisierung.

Generalisiertes lineares Modell

Eine Verallgemeinerung von Regressionen nach der Methode der kleinsten Quadrate, die auf Gauss-Rausch basieren, auf andere Modelltypen, die auf anderen Arten von Rauschen basieren, z. B. Poisson-Rausch oder kategorischer Rausch. Beispiele für generalisierte lineare Modelle:

Die Parameter eines generalisierten linearen Modells können mithilfe der konvexen Optimierung ermittelt werden.

Generalisierte lineare Modelle haben die folgenden Eigenschaften:

  • Die durchschnittliche Vorhersage des optimalen Regressionsmodells der kleinsten Quadrate entspricht dem durchschnittlichen Label in den Trainingsdaten.
  • Die vom optimalen logistischen Regressionsmodell vorhergesagte durchschnittliche Wahrscheinlichkeit entspricht dem durchschnittlichen Label in den Trainingsdaten.

Die Leistungsfähigkeit eines generalisierten linearen Modells ist durch seine Merkmale begrenzt. Im Gegensatz zu einem Deep-Learning-Modell kann ein generalisiertes lineares Modell keine neuen Funktionen „lernen“.

generierter Text

#language
#generativeAI

Im Allgemeinen der Text, der von einem ML-Modell ausgegeben wird. Bei der Bewertung von Large Language Models wird bei einigen Messwerten der generierte Text mit einem Referenztext verglichen. Angenommen, Sie möchten herausfinden, wie effektiv ein ML-Modell vom Französischen ins Niederländische übersetzt. In diesem Fall gilt:

  • Der generierte Text ist die niederländische Übersetzung, die vom ML-Modell ausgegeben wird.
  • Der Referenztext ist die niederländische Übersetzung, die von einem menschlichen Übersetzer (oder einer Software) erstellt wird.

Hinweis: Bei einigen Bewertungsstrategien wird kein Referenztext verwendet.

Generative Adversarial Network (GAN)

Ein System zum Erstellen neuer Daten, bei dem ein Generator Daten erstellt und ein Diskriminator bestimmt, ob die erstellten Daten gültig oder ungültig sind.

Weitere Informationen finden Sie im Kurs zu generativen Adversarial Networks.

generative KI

#language
#image
#generativeAI

Ein neues, transformatives Feld ohne formale Definition. Die meisten Experten sind sich jedoch einig, dass generative KI-Modelle Inhalte erstellen („generieren“) können, die

  • Komplex
  • kohärent
  • ursprünglich

So kann ein generatives KI-Modell beispielsweise anspruchsvolle Essays oder Bilder erstellen.

Einige ältere Technologien, darunter LSTMs und RNNs, können ebenfalls originelle und kohärente Inhalte generieren. Einige Experten betrachten diese früheren Technologien als generative KI, während andere der Meinung sind, dass echte generative KI eine komplexere Ausgabe erfordert, als diese früheren Technologien produzieren können.

Im Gegensatz zu vorhersageorientiertem ML.

generatives Modell

In der Praxis ist ein Modell ein Modell, das eine der folgenden Funktionen erfüllt:

  • Erstellt (generiert) neue Beispiele aus dem Trainingsdatensatz. Ein generatives Modell könnte beispielsweise Gedichte erstellen, nachdem es anhand eines Datasets mit Gedichten trainiert wurde. Der Generator eines generativen Adversarial Networks fällt in diese Kategorie.
  • Bestimmt die Wahrscheinlichkeit, dass ein neues Beispiel aus dem Trainingssatz stammt oder mit demselben Mechanismus erstellt wurde, mit dem der Trainingssatz erstellt wurde. Nach dem Training mit einem Dataset aus englischen Sätzen könnte ein generatives Modell beispielsweise die Wahrscheinlichkeit bestimmen, dass eine neue Eingabe ein gültiger englischer Satz ist.

Ein generatives Modell kann theoretisch die Verteilung von Beispielen oder bestimmten Merkmalen in einem Datensatz erkennen. Das bedeutet:

p(examples)

Modelle für unüberwachtes Lernen sind generative.

Im Gegensatz zu diskriminativen Modellen.

generator

Das Subsystem in einem generativen Adversarial Network, das neue Beispiele erstellt.

Im Gegensatz zu einem diskriminativen Modell.

Gini-Impurity

#df

Ein Messwert, der der Entropie ähnelt. Splichter verwenden Werte, die entweder aus der Gini-Unreinheit oder der Entropie abgeleitet wurden, um Bedingungen für die Klassifizierung in Entscheidungsbäumen zu erstellen. Der Informationsgewinn leitet sich von der Entropie ab. Es gibt keinen allgemein akzeptierten Begriff für den Messwert, der aus der Gini-Unreinheit abgeleitet wird. Dieser unbenannte Messwert ist jedoch genauso wichtig wie der Informationsgewinn.

Die Gini-Unreinheit wird auch als Gini-Index oder einfach Gini bezeichnet.

Goldenes Dataset

Eine Reihe manuell ausgewählter Daten, die Ground Truth erfassen. Teams können einen oder mehrere Gold-Datasets verwenden, um die Qualität eines Modells zu bewerten.

Einige Golden-Datasets erfassen verschiedene Subdomains der Ground Truth. Ein Gold-Dataset für die Bildklassifizierung kann beispielsweise die Lichtverhältnisse und die Bildauflösung erfassen.

Goldene Antwort

#language
#generativeAI

Eine Antwort, die als gut bekannt ist. Angenommen, Sie haben den folgenden Prompt:

2 + 2

Die ideale Antwort lautet:

4

GPT (Generative Pre-trained Transformer)

#language

Eine Familie von Transformer-basierten Large Language Models, die von OpenAI entwickelt wurden.

GPT-Varianten können auf mehrere Modalitäten angewendet werden, darunter:

  • Bildgenerierung (z. B. ImageGPT)
  • Text-zu-Bild-Generierung (z. B. DALL-E)

Farbverlauf

Der Vektor der partiellen Ableitungen in Bezug auf alle unabhängigen Variablen. Im maschinellen Lernen ist der Gradient der Vektor der partiellen Ableitungen der Modellfunktion. Der Gradient zeigt in Richtung der steilsten Steigung.

Gradientenakkumulation

Eine Backpropagation-Methode, bei der die Parameter nur einmal pro Epoche und nicht einmal pro Iteration aktualisiert werden. Nach der Verarbeitung jedes Mini-Batches wird durch die Gradientenakkumulation einfach eine fortlaufende Summe der Gradienten aktualisiert. Nach der Verarbeitung des letzten Mini-Batches in der Epoche aktualisiert das System die Parameter anhand der Summe aller Gradientenänderungen.

Die Gradientenakkumulation ist nützlich, wenn die Batchgröße im Vergleich zum verfügbaren Arbeitsspeicher für das Training sehr groß ist. Wenn der Arbeitsspeicher ein Problem darstellt, besteht der natürliche Ansatz darin, die Batchgröße zu reduzieren. Wenn Sie die Batchgröße bei der normalen Backpropagation jedoch reduzieren, steigt die Anzahl der Parameteraktualisierungen. Durch die Gradientenakkumulation können Speicherprobleme vermieden werden, das Modell wird aber trotzdem effizient trainiert.

Gradient Boosted (Entscheidungs)Bäume (GBT)

#df

Eine Art von Entscheidungswald, bei dem:

Weitere Informationen finden Sie im Kurs zu Entscheidungsbäumen unter Gradient Boosted Decision Trees.

Gradientenverstärkung

#df

Ein Trainingsalgorithmus, bei dem schwache Modelle trainiert werden, um die Qualität eines starken Modells iterativ zu verbessern (Verlust zu reduzieren). Ein Beispiel für ein schwaches Modell wäre ein lineares oder kleines Entscheidungsbaummodell. Das starke Modell ist die Summe aller zuvor trainierten schwachen Modelle.

Bei der einfachsten Form des Gradienten-Boosting wird bei jeder Iteration ein schwaches Modell trainiert, um den Verlustgradienten des starken Modells vorherzusagen. Anschließend wird die Ausgabe des starken Modells aktualisiert, indem der vorhergesagte Gradient abgezogen wird, ähnlich wie beim Gradientenabstieg.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

Dabei gilt:

  • $F_{0}$ ist das Ausgangsmodell.
  • $F_{i+1}$ ist das nächste starke Modell.
  • $F_{i}$ ist das aktuelle starke Modell.
  • $\xi$ ist ein Wert zwischen 0,0 und 1,0, der als Schrumpfung bezeichnet wird. Er entspricht der Lernrate beim Gradientenabstieg.
  • $f_{i}$ ist das schwache Modell, das darauf trainiert wurde, den Verlustgradienten von $F_{i}$ vorherzusagen.

Moderne Varianten des Gradienten-Boosting beinhalten auch die zweite Ableitung (Hessian) des Verlusts in der Berechnung.

Entscheidungsbäume werden häufig als schwache Modelle bei der Gradientenverstärkung verwendet. Weitere Informationen finden Sie unter Gradient Boosted (Entscheidungs-)Bäume.

Kürzung von Farbverläufen

#seq

Ein häufig verwendeter Mechanismus zur Milderung des Problems des explodierenden Gradienten, bei dem der maximale Wert der Gradienten künstlich begrenzt (abgeschnitten) wird, wenn ein Modell mithilfe des Gradientenabstiegs trainiert wird.

Gradientenabstieg

#fundamentals

Eine mathematische Methode zur Minimierung von Verlusten. Bei der Gradientenabstiegsmethode werden Gewichte und Voreingenommenheiten iterativ angepasst, um nach und nach die beste Kombination zur Minimierung des Verlusts zu finden.

Der Gradientenabstieg ist älter – viel, viel älter – als maschinelles Lernen.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Lineare Regression: Gradientenabstieg.

Graph

#TensorFlow

In TensorFlow eine Berechnungsspezifikation. Knoten im Graphen stellen Vorgänge dar. Kanten sind gerichtet und stellen die Weitergabe des Ergebnisses eines Vorgangs (ein Tensor) als Operand an einen anderen Vorgang dar. Verwenden Sie TensorBoard, um einen Graphen zu visualisieren.

Graph Execution

#TensorFlow

Eine TensorFlow-Programmierumgebung, in der das Programm zuerst einen Graphen erstellt und dann den gesamten oder einen Teil dieses Graphen ausführt. Die Graphausführung ist der Standardausführungsmodus in TensorFlow 1.x.

Im Gegensatz zur voreiligen Ausführung.

Greedy-Richtlinie

#rl

Bei der Verstärkungslernen ist eine Richtlinie, die immer die Aktion mit dem höchsten erwarteten Rücklauf auswählt.

Bodenhaftung

Eine Eigenschaft eines Modells, dessen Ausgabe auf einem bestimmten Quellmaterial basiert. Angenommen, Sie geben ein ganzes Physikbuch als Eingabe („Kontext“) in ein Large Language Model ein. Dann stellen Sie diesem Large Language Model eine Physikfrage. Wenn die Antwort des Modells Informationen aus diesem Lehrbuch widerspiegelt, ist das Modell auf diesem Lehrbuch basiert.

Ein fundiertes Modell ist nicht immer ein faktisches Modell. Das einzugebende Physikbuch könnte beispielsweise Fehler enthalten.

Ground Truth

#fundamentals

Realität.

Was tatsächlich passiert ist.

Angenommen, Sie haben ein binäres Klassifizierungsmodell, mit dem Sie vorhersagen möchten, ob ein Student im ersten Studienjahr innerhalb von sechs Jahren seinen Abschluss macht. Die Grundwahrheit für dieses Modell ist, ob der Schüler oder Student tatsächlich innerhalb von sechs Jahren seinen Abschluss gemacht hat.

Gruppenattributionsbias

#fairness

Die Annahme, dass das, was für eine Person gilt, auch für alle anderen in dieser Gruppe gilt. Die Auswirkungen der Verzerrung durch die Gruppenzuordnung können verstärkt werden, wenn für die Datenerhebung eine Stichprobe aus Bequemlichkeit verwendet wird. Bei einer nicht repräsentativen Stichprobe können Zuordnungen vorgenommen werden, die nicht der Realität entsprechen.

Weitere Informationen finden Sie unter Homogenitätsbias außerhalb der Gruppe und Gruppenvoreingenommenheit. Weitere Informationen finden Sie im Machine Learning Crash Course unter Fairness: Arten von Voreingenommenheit.

H

Halluzination

#language

Die Erstellung von plausibel erscheinenden, aber faktisch falschen Ergebnissen durch ein generatives KI-Modell, das angeblich eine Aussage über die reale Welt trifft. Ein generatives KI-Modell, das behauptet, dass Barack Obama 1865 gestorben ist, halluziniert.

Hash-Technologie

Ein Mechanismus für das Bucketing von kategorischen Daten, insbesondere wenn die Anzahl der Kategorien groß, die Anzahl der Kategorien, die tatsächlich im Datensatz vorkommen, aber vergleichsweise klein ist.

Auf der Erde gibt es beispielsweise etwa 73.000 Baumarten. Sie könnten jede der 73.000 Baumarten in 73.000 separaten kategorischen Bucket darstellen. Wenn nur 200 dieser Baumarten tatsächlich in einem Datensatz vorkommen, können Sie die Baumarten mithilfe von Hash-Technologie in etwa 500 Buckets unterteilen.

Ein einzelner Bucket kann mehrere Baumarten enthalten. Beim Hash-Verfahren werden beispielsweise Baobab und Roter Ahorn – zwei genetisch unterschiedliche Arten – in denselben Bucket verschoben. Trotzdem ist das Hash-Verfahren eine gute Möglichkeit, große kategorische Datensätze der ausgewählten Anzahl von Bucket zuzuordnen. Durch Hash-Technologie wird ein kategorisches Merkmal mit einer großen Anzahl möglicher Werte in eine viel kleinere Anzahl von Werten umgewandelt, indem die Werte deterministisch gruppiert werden.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Kategorische Daten: Vokabular und One-Hot-Codierung.

Heuristik

Eine einfache und schnell implementierte Lösung für ein Problem. Beispiel: „Mit einer Heuristik haben wir eine Genauigkeit von 86% erreicht. Nach der Umstellung auf ein tiefes neuronales Netzwerk stieg die Genauigkeit auf 98%.“

Ausgeblendete Ebene

#fundamentals

Eine Schicht in einem neuronalen Netzwerk zwischen der Eingabeschicht (den Features) und der Ausgabeschicht (der Vorhersage). Jede verborgene Schicht besteht aus einem oder mehreren Neuronen. Das folgende neuronale Netzwerk enthält beispielsweise zwei verborgene Schichten, die erste mit drei Neuronen und die zweite mit zwei Neuronen:

Vier Ebenen. Die erste Ebene ist eine Eingabeebene mit zwei Elementen. Die zweite Schicht ist eine verborgene Schicht mit drei Neuronen. Die dritte Schicht ist eine verborgene Schicht mit zwei Neuronen. Die vierte Schicht ist eine Ausgabeschicht. Jedes Merkmal enthält drei Kanten, die jeweils auf ein anderes Neuron in der zweiten Schicht verweisen. Jeder der Neuronen in der zweiten Schicht enthält zwei Kanten, die jeweils auf ein anderes Neuron in der dritten Schicht verweisen. Jeder der Neuronen in der dritten Schicht enthält eine Kante, die jeweils auf die Ausgabeschicht zeigt.

Ein neuronales Deep-Learning-Netzwerk enthält mehr als eine versteckte Schicht. Die obige Abbildung ist beispielsweise ein tiefes neuronales Netzwerk, da das Modell zwei verborgene Schichten enthält.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Neuronale Netzwerke: Knoten und verborgene Schichten.

Hierarchisches Clustering

#clustering

Eine Kategorie von Clustering-Algorithmen, mit denen ein Clusterbaum erstellt wird. Das hierarchische Clustering eignet sich gut für hierarchische Daten wie botanischen Taxonomien. Es gibt zwei Arten von hierarchischen Clustering-Algorithmen:

  • Beim Agglomerative Clustering wird zuerst jedem Beispiel ein eigener Cluster zugewiesen und dann werden die nächsten Cluster iterativ zusammengeführt, um einen hierarchischen Baum zu erstellen.
  • Beim Divisiven Clustering werden zuerst alle Beispiele in einen Cluster gruppiert und dann iterativ in ein hierarchisches Baumdiagramm unterteilt.

Im Gegensatz zum centroidbasierten Clustern.

Weitere Informationen finden Sie im Kurs „Clustering“ unter Clustering-Algorithmen.

Bergsteigen

Ein Algorithmus zur iterativen Verbesserung („Bergaufgehen“) eines ML-Modells, bis es sich nicht mehr verbessert („den Gipfel erreicht“). Die allgemeine Form des Algorithmus lautet:

  1. Erstellen Sie ein Startmodell.
  2. Erstellen Sie neue Kandidatenmodelle, indem Sie kleine Anpassungen an der Konfiguration oder Feinabstimmung vornehmen. Das kann bedeuten, dass Sie mit einem etwas anderen Trainingssatz oder anderen Hyperparametern arbeiten.
  3. Bewerten Sie die neuen Kandidatenmodelle und ergreifen Sie eine der folgenden Maßnahmen:
    • Wenn ein Kandidatenmodell das Ausgangsmodell übertrifft, wird es zum neuen Ausgangsmodell. Wiederholen Sie in diesem Fall die Schritte 1, 2 und 3.
    • Wenn kein Modell das Ausgangsmodell übertrifft, haben Sie den Gipfel erreicht und sollten die Iteration beenden.

Im Deep Learning Tuning Playbook finden Sie eine Anleitung zur Hyperparameter-Abstimmung. In den Datenmodulen des Crash-Kurses zum maschinellen Lernen finden Sie Informationen zum Feature Engineering.

Scharnierverlust

Eine Familie von Verlustfunktionen für die Klassifizierung, die entwickelt wurden, um die Entscheidungsgrenze so weit wie möglich von jedem Trainingsbeispiel entfernt zu finden und so den Abstand zwischen den Beispielen und der Grenze zu maximieren. KSVMs verwenden den Scharnierverlust (oder eine ähnliche Funktion wie den quadratischen Scharnierverlust). Für die binäre Klassifizierung ist die Scharnierverlustfunktion so definiert:

$$\text{loss} = \text{max}(0, 1 - (y * y'))$$

wobei y das wahre Label ist, entweder -1 oder +1, und y' die Rohausgabe des Klassifizierungsmodells:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Daher sieht ein Diagramm mit dem Scharnierabweichungsverlust im Vergleich zu (y * y') so aus:

Ein kartesisches Diagramm aus zwei verbundenen Liniensegmenten. Das erste Liniensegment beginnt bei (-3, 4) und endet bei (1, 0). Das zweite Liniensegment beginnt bei (1, 0) und verläuft mit einer Steigung von 0 endlos weiter.

Voreingenommenheit aufgrund der Vergangenheit

#fairness

Eine Art von Voreingenommenheit, die bereits in der Welt vorhanden ist und in einen Datensatz gelangt ist. Diese Verzerrungen spiegeln häufig bestehende kulturelle Stereotype, demografische Ungleichheiten und Vorurteile gegenüber bestimmten sozialen Gruppen wider.

Angenommen, Sie haben ein Klassifizierungsmodell, das vorhersagt, ob ein Kreditnehmer seinen Kredit in Verzug bringen wird. Dieses Modell wurde anhand von Verlaufsdaten zu Kreditausfällen aus den 1980er-Jahren von lokalen Banken in zwei verschiedenen Gemeinden trainiert. Wenn in der Vergangenheit in der Gemeinde A sechsmal häufiger Kredite fällig wurden als in der Gemeinde B, kann das Modell eine Voreingenommenheit lernen, die dazu führt, dass in der Gemeinde A seltener Kredite genehmigt werden, auch wenn die historischen Bedingungen, die zu den höheren Ausfallraten in dieser Gemeinde geführt haben, nicht mehr relevant sind.

Weitere Informationen finden Sie im Crashkurs zum maschinellen Lernen unter Fairness: Arten von Voreingenommenheit.

Holdout-Daten

Beispiele, die während des Trainings absichtlich nicht verwendet („ausgeklammert“) werden. Der Validierungsdatensatz und der Testdatensatz sind Beispiele für Hold-out-Daten. Mit Hold-out-Daten können Sie die Fähigkeit Ihres Modells bewerten, auf andere Daten als die zu generalisieren, mit denen es trainiert wurde. Der Verlust im Hold-out-Set liefert eine bessere Schätzung des Verlusts bei einem unbekannten Dataset als der Verlust im Trainings-Set.

Host

#TensorFlow
#GoogleCloud

Beim Trainieren eines ML-Modells auf Beschleunigerchips (GPUs oder TPUs) ist dies der Teil des Systems, der Folgendes steuert:

  • Den Gesamtablauf des Codes.
  • Extrahieren und Transformieren der Eingabepipeline.

Der Host wird in der Regel auf einer CPU und nicht auf einem Beschleunigerchip ausgeführt. Das Gerät verarbeitet Tensoren auf den Beschleunigerchips.

manuelle Überprüfung

#language
#generativeAI

Ein Prozess, bei dem Menschen die Qualität der Ausgabe eines ML-Modells beurteilen, z. B. zweisprachige Personen, die die Qualität eines ML-Übersetzungsmodells beurteilen. Die manuelle Bewertung ist besonders nützlich, um Modelle zu beurteilen, für die es keine eindeutige richtige Antwort gibt.

Im Gegensatz zur automatischen Bewertung und zur Bewertung durch den Autorater.

Human in the Loop (HITL)

#generativeAI

Ein locker definiertes Idiom, das eines der folgenden Dinge bedeuten kann:

  • Eine Richtlinie, die vorsieht, dass die Ergebnisse generativer KI kritisch oder skeptisch betrachtet werden. Die Menschen, die diesen ML-Glossar verfassen, sind beispielsweise erstaunt, was Large Language Models leisten können, sind sich aber auch der Fehler bewusst, die sie machen.
  • Eine Strategie oder ein System, mit dem sichergestellt wird, dass Menschen das Verhalten eines Modells mitgestalten, bewerten und optimieren. Wenn ein Mensch in den Prozess eingebunden ist, kann eine KI sowohl von der Maschinen- als auch von der menschlichen Intelligenz profitieren. Ein Beispiel für ein System mit Mensch-in-der-Schleife ist ein System, in dem eine KI Code generiert, den Softwareentwickler dann prüfen.

Hyperparameter

#fundamentals

Die Variablen, die Sie oder ein Dienst zur Hyperparameterabstimmung während aufeinanderfolgender Durchläufe des Modelltrainings anpassen. Ein Beispiel für einen Hyperparameter ist die Lernrate. Sie können die Lernrate vor einer Trainingssitzung auf 0,01 festlegen. Wenn Sie feststellen, dass 0,01 zu hoch ist, können Sie die Lernrate für die nächste Trainingseinheit auf 0,003 festlegen.

Parameter sind dagegen die verschiedenen Gewichte und Voreingenommenheiten, die das Modell während des Trainings lernt.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Lineare Regression: Hyperparameter.

Hyperebene

Eine Grenze, die einen Raum in zwei Unterräume teilt. Eine Linie ist beispielsweise eine Hyperebene in zwei Dimensionen und eine Ebene ist eine Hyperebene in drei Dimensionen. Im Bereich maschinelles Lernen ist eine Hyperebene in der Regel die Grenze, die einen mehrdimensionalen Raum trennt. Kernel-Supportvektormaschinen verwenden Hyperebenen, um positive Klassen von negativen Klassen zu trennen, oft in einem sehr hochdimensionalen Raum.

I

i.i.d.

Abkürzung für independently and identically distributed (unabhängig und identisch verteilt).

Bilderkennung

#image

Ein Prozess, bei dem Objekte, Muster oder Konzepte in einem Bild klassifiziert werden. Die Bilderkennung wird auch als Bildklassifizierung bezeichnet.

Weitere Informationen finden Sie unter ML Practicum: Bildklassifizierung.

Weitere Informationen finden Sie im Kurs ML Practicum: Bildklassifizierung.

ungleichmäßige Datensätze

Synonym für Dataset mit ungleicher Klassenverteilung.

Impliziter Bias

#fairness

Automatische Verknüpfung oder Annahme auf der Grundlage von Denkmodellen und Erinnerungen. Implizite Voreingenommenheit kann sich auf Folgendes auswirken:

  • Wie Daten erhoben und klassifiziert werden.
  • Wie Systeme für maschinelles Lernen entworfen und entwickelt werden.

Wenn ein Entwickler beispielsweise einen Klassifikator zum Identifizieren von Hochzeitsfotos erstellt, kann er das Vorhandensein eines weißen Kleids auf einem Foto als Merkmal verwenden. Weiße Kleider waren jedoch nur in bestimmten Epochen und in bestimmten Kulturen üblich.

Siehe auch Bestätigungsfehler.

Imputation

Kurzform von Wertimpfung.

Inkompatibilität von Fairnessmesswerten

#fairness

Die Vorstellung, dass einige Vorstellungen von Fairness sich gegenseitig ausschließen und nicht gleichzeitig erfüllt werden können. Daher gibt es keinen einzigen universellen Messwert zur Quantifizierung von Fairness, der auf alle ML-Probleme angewendet werden kann.

Das mag entmutigend erscheinen, aber die Inkompatibilität von Fairnessmesswerten bedeutet nicht, dass Bemühungen um Fairness vergeblich sind. Stattdessen wird vorgeschlagen, dass Fairness für ein bestimmtes ML-Problem kontextbezogen definiert werden muss, um Schäden zu vermeiden, die für die Anwendungsfälle spezifisch sind.

Weitere Informationen zu diesem Thema finden Sie unter „On the (im)possibility of fairness“ (Zur (Un)Möglichkeit von Fairness).

Kontextbezogenes Lernen

#language
#generativeAI

Synonym für Few-Shot-Prompting.

unabhängig und identisch verteilt (iid)

#fundamentals

Daten, die aus einer Verteilung stammen, die sich nicht ändert und bei der jeder gezogene Wert nicht von zuvor gezogenen Werten abhängt. Ein i.i.d.-Prozess ist das Idealgas des maschinellen Lernens – ein nützliches mathematisches Konstrukt, das in der Realität fast nie genau zu finden ist. Beispielsweise kann die Verteilung der Besucher einer Webseite über einen kurzen Zeitraum hinweg unabhängig voneinander sein. Das heißt, die Verteilung ändert sich während dieses kurzen Zeitraums nicht und der Besuch einer Person ist im Allgemeinen unabhängig vom Besuch einer anderen Person. Wenn Sie diesen Zeitraum jedoch verlängern, können saisonale Unterschiede bei den Besuchern der Webseite auftreten.

Siehe auch Nichtstationarität.

Fairness für Einzelpersonen

#fairness

Ein Fairness-Messwert, der prüft, ob ähnliche Personen ähnlich klassifiziert werden. Die Brobdingnagian Academy möchte beispielsweise für individuelle Fairness sorgen, indem sie dafür sorgt, dass zwei Schüler mit identischen Noten und standardisierten Testergebnissen mit gleicher Wahrscheinlichkeit eine Zulassung erhalten.

Die individuelle Fairness hängt vollständig davon ab, wie Sie „Ähnlichkeit“ definieren (in diesem Fall Noten und Testergebnisse). Wenn Ihr Ähnlichkeitsmesswert wichtige Informationen (z. B. den Grad der Strenge des Lehrplans eines Schülers) nicht berücksichtigt, besteht die Gefahr, dass neue Fairnessprobleme auftreten.

Eine ausführlichere Erläuterung der individuellen Fairness finden Sie unter Fairness durch Bewusstsein.

Inferenz

#fundamentals

Beim maschinellen Lernen wird ein trainiertes Modell auf beispiellose Daten angewendet, um Vorhersagen zu treffen.

In der Statistik hat Inferenz eine etwas andere Bedeutung. Weitere Informationen finden Sie im Wikipedia-Artikel zur statistischen Inferenz.

Im Kurs „Einführung in die ML“ finden Sie unter Überwachtes Lernen Informationen zur Rolle der Inferenz in einem System für überwachtes Lernen.

Inferenzpfad

#df

In einem Entscheidungsbaum ist dies der Pfad, den ein bestimmtes Beispiel während der Inferenz von der Wurzel zu anderen Bedingungen nimmt und der mit einem Blatt endet. Im folgenden Entscheidungsbaum zeigen die dickeren Pfeile beispielsweise den Inferenzpfad für ein Beispiel mit den folgenden Feature-Werten:

  • x = 7
  • y = 12
  • z = −3

Der Inferenzpfad in der folgenden Abbildung durchläuft drei Bedingungen, bevor er das Blatt (Zeta) erreicht.

Ein Entscheidungsbaum mit vier Bedingungen und fünf Blättern.
          Die Wurzelbedingung ist (x > 0). Da die Antwort „Ja“ lautet, verläuft der Inferenzpfad von der Wurzel zur nächsten Bedingung (y > 0).
          Da die Antwort „Ja“ lautet, geht der Inferenzpfad zur nächsten Bedingung (z > 0). Da die Antwort „Nein“ lautet, gelangt der Inferenzpfad zum Endknoten, dem Blatt (Zeta).

Die drei dicken Pfeile zeigen den Inferenzpfad.

Weitere Informationen finden Sie im Kurs „Entscheidungsbäume“ unter Entscheidungsbäume.

Informationsgewinn

#df

In Entscheidungswäldern ist dies der Unterschied zwischen der Entropie eines Knotens und der gewichteten (nach Anzahl der Beispiele) Summe der Entropie seiner untergeordneten Knoten. Die Entropie eines Knotens ist die Entropie der Beispiele in diesem Knoten.

Betrachten Sie beispielsweise die folgenden Entropiewerte:

  • Entropie des übergeordneten Knotens = 0,6
  • Entropie eines untergeordneten Knotens mit 16 relevanten Beispielen = 0,2
  • Entropie eines anderen untergeordneten Knotens mit 24 relevanten Beispielen = 0,1

40% der Beispiele befinden sich also in einem untergeordneten Knoten und 60% im anderen untergeordneten Knoten. Beispiele:

  • Gewichtete Entropiesumme der untergeordneten Knoten = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Der Informationsgewinn ist also:

  • Informationsgewinn = Entropie des übergeordneten Knotens – gewichtete Entropiesumme der untergeordneten Knoten
  • Informationsgewinn = 0,6 − 0,14 = 0,46

Die meisten Splitter sollen Bedingungen schaffen, die den Informationsgewinn maximieren.

In-Group-Effekt

#fairness

Die eigene Gruppe oder eigene Merkmale zu bevorzugen. Wenn die Tester oder Bewerter aus Freunden, Familienmitgliedern oder Kollegen des Entwicklers für maschinelles Lernen bestehen, kann die Gruppenvoreingenommenheit die Produkttests oder den Datensatz ungültig machen.

Der In-Group-Bias ist eine Form des Gruppenattributionsbias. Siehe auch Homogenitätsbias außerhalb der Gruppe.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Fairness: Arten von Voreingenommenheit.

Eingabegenerator

Ein Mechanismus, mit dem Daten in ein neuronales Netzwerk geladen werden.

Ein Eingabegenerator kann als Komponente betrachtet werden, die für die Verarbeitung von Rohdaten in Tensoren verantwortlich ist, die iteriert werden, um Batches für Training, Bewertung und Inferenz zu generieren.

Eingabeschicht

#fundamentals

Die Ebene eines neuronalen Netzwerks, die den Erkennungsvektor enthält. Die Eingabeschicht liefert also Beispiele für das Training oder die Inferenz. Die Eingabeschicht im folgenden Beispiel besteht aus zwei Funktionen:

Vier Schichten: eine Eingabeschicht, zwei verborgene Schichten und eine Ausgabeschicht.

Bedingung im Set

#df

In einem Entscheidungsbaum ist dies eine Bedingung, die das Vorhandensein eines Elements in einer Gruppe von Elementen prüft. Hier ein Beispiel für eine Bedingung, die sich auf ein Set bezieht:

  house-style in [tudor, colonial, cape]

Wenn der Wert des Hausstil-Features während der Inferenz tudor, colonial oder cape ist, wird diese Bedingung als „Ja“ ausgewertet. Wenn der Wert des Hausstil-Attributs ein anderer ist (z. B. ranch), wird diese Bedingung als „Nein“ ausgewertet.

In-Set-Bedingungen führen in der Regel zu effizienteren Entscheidungsbäumen als Bedingungen, mit denen One-Hot-codierte Funktionen getestet werden.

Instanz

Synonym für Beispiel.

Instruction Tuning

#generativeAI

Eine Form der Feinabstimmung, die die Fähigkeit eines generativen KI-Modells, Anweisungen zu befolgen, verbessert. Bei der Anleitungsabstimmung wird ein Modell anhand einer Reihe von Anleitungsprompts trainiert, die in der Regel eine Vielzahl von Aufgaben abdecken. Das daraus resultierende anhand von Anleitungen optimierte Modell generiert dann in der Regel nützliche Antworten auf Zero-Shot-Prompts für eine Vielzahl von Aufgaben.

Vergleichen Sie mit:

Interpretierbarkeit

#fundamentals

Die Fähigkeit, die Argumentation eines ML-Modells in verständlicher Sprache zu erklären oder darzustellen.

Die meisten linearen Regressionsmodelle sind beispielsweise sehr aussagekräftig. Sie müssen sich lediglich die trainierten Gewichtungen für jedes Merkmal ansehen. Entscheidungsbäume sind außerdem sehr aussagekräftig. Manche Modelle erfordern jedoch eine komplexe Visualisierung, um interpretierbar zu werden.

Sie können das Learning Interpretability Tool (LIT) verwenden, um ML-Modelle zu interpretieren.

Interrater-Übereinstimmung

Eine Messung, wie oft menschliche Bewerter bei einer Aufgabe übereinstimmen. Wenn die Bewerter nicht derselben Meinung sind, müssen die Aufgabenanweisungen möglicherweise verbessert werden. Wird auch als Übereinstimmung zwischen den Bearbeitern oder Reliabilität zwischen den Bearbeitern bezeichnet. Siehe auch Cohen's Kappa, eine der beliebtesten Maße für die Übereinstimmung zwischen Prüfern.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Kategorische Daten: Häufige Probleme.

Intersection over Union (IoU)

#image

Die Schnittmenge von zwei Mengen geteilt durch ihre Vereinigung. Bei Aufgaben zur Bilderkennung mit maschinellem Lernen wird der IoU verwendet, um die Genauigkeit des vorhergesagten Begrenzungsrahmens des Modells im Vergleich zum Ground-Truth-Begrenzungsrahmen zu messen. In diesem Fall ist der IoU für die beiden Rahmen das Verhältnis zwischen dem Überschneidungs- und dem Gesamtbereich. Der Wert reicht von 0 (keine Überschneidung zwischen dem vorhergesagten Begrenzungsrahmen und dem Ground-Truth-Begrenzungsrahmen) bis 1 (vorhergesagter Begrenzungsrahmen und Ground-Truth-Begrenzungsrahmen haben genau dieselben Koordinaten).

Im folgenden Bild ist das beispielsweise der Fall:

  • Der vorhergesagte Begrenzungsrahmen (die Koordinaten, die die Position des Nachttischs im Gemälde nach der Vorhersage des Modells umreißen) ist lila umrandet.
  • Der Ground-Truth-Begrenzungsrahmen (die Koordinaten, die die tatsächliche Position des Nachttischs im Gemälde festlegen) ist grün umrandet.

Das Van-Gogh-Gemälde „Vincent's Bedroom in Arles“ mit zwei verschiedenen Begrenzungsboxen um den Nachttisch neben dem Bett. Der Ground-Truth-Begrenzungsrahmen (grün) umschließt den Nachttisch perfekt. Der vorhergesagte Begrenzungsrahmen (in lila) ist 50% nach unten und rechts vom Ground-Truth-Begrenzungsrahmen versetzt. Er umschließt das untere rechte Viertel des Nachttischs, aber nicht den Rest des Tischs.

Hier ist die Überschneidung der Begrenzungsrahmen für die Vorhersage und die Ground Truth (unten links) 1 und die Vereinigung der Begrenzungsrahmen für die Vorhersage und die Ground Truth (unten rechts) 7. Der IoU-Wert ist also \(\frac{1}{7}\).

Dasselbe Bild wie oben, aber mit vier Quadranten für jeden Begrenzungsrahmen. Es gibt insgesamt sieben Quadranten, da sich der untere rechte Quadrant des Ground-Truth-Begrenzungsrahmens und der obere linke Quadrant des vorhergesagten Begrenzungsrahmens überschneiden. Dieser sich überschneidende Abschnitt (grün hervorgehoben) stellt die Kreuzung dar und hat eine Fläche von 1. Dasselbe Bild wie oben, aber mit vier Quadranten für jeden Begrenzungsrahmen. Es gibt insgesamt sieben Quadranten, da sich der untere rechte Quadrant des Ground-Truth-Begrenzungsrahmens und der obere linke Quadrant des vorhergesagten Begrenzungsrahmens überschneiden.
          Die gesamte Fläche, die von beiden Begrenzungsrahmen umschlossen ist (grün hervorgehoben), stellt die Vereinigung dar und hat eine Fläche von 7.

IoU

Abkürzung für Intersection over Union.

Artikelmatrix

#recsystems

In Empfehlungssystemen: Eine Matrix von Embedding-Vektoren, die durch Matrixfaktorisierung generiert werden und latente Signale zu jedem Element enthalten. Jede Zeile der Artikelmatrix enthält den Wert einer einzelnen latenten Funktion für alle Artikel. Nehmen wir als Beispiel ein Film-Empfehlungssystem. Jede Spalte in der Artikelmatrix steht für einen einzelnen Film. Die latenten Signale können Genres darstellen oder schwieriger zu interpretierende Signale sein, die komplexe Interaktionen zwischen Genre, Stars, Filmalter oder anderen Faktoren beinhalten.

Die Artikelmatrix hat dieselbe Anzahl von Spalten wie die Zielmatrix, die faktorisiert wird. Wenn beispielsweise ein Filmempfehlungssystem 10.000 Filmtitel auswertet, hat die Artikelmatrix 10.000 Spalten.

Elemente

#recsystems

In einem Empfehlungssystem sind das die Entitäten, die ein System empfiehlt. Beispielsweise sind Videos die Artikel, die in einem Videoladen empfohlen werden, während Bücher die Artikel sind, die in einem Buchladen empfohlen werden.

Iteration

#fundamentals

Eine einzelne Aktualisierung der Parameter eines Modells – der Gewichte und Voreingenommenheiten des Modells – während des Trainings. Die Batchgröße gibt an, wie viele Beispiele das Modell in einer einzelnen Iteration verarbeitet. Wenn die Batchgröße beispielsweise 20 beträgt, verarbeitet das Modell 20 Beispiele, bevor die Parameter angepasst werden.

Beim Training eines neuronalen Netzwerks umfasst eine einzelne Iteration die folgenden beiden Durchläufe:

  1. Ein Vorwärtsdurchlauf zur Bewertung des Verlusts für einen einzelnen Batch.
  2. Ein Rückwärtsdurchlauf (Backpropagation), um die Parameter des Modells anhand des Verlusts und der Lernrate anzupassen.

J

JAX

Eine Array-Computing-Bibliothek, die XLA (Accelerated Linear Algebra) und automatische Differenziation für leistungsstarke numerische Berechnungen kombiniert. JAX bietet eine einfache und leistungsstarke API zum Schreiben beschleunigten numerischen Codes mit kombinierbaren Transformationen. JAX bietet unter anderem folgende Funktionen:

  • grad (automatische Differenzierung)
  • jit (Just-in-Time-Kompilierung)
  • vmap (automatische vektorielle Verarbeitung oder Batchverarbeitung)
  • pmap (Parallelisierung)

JAX ist eine Sprache zum Ausdrucken und Zusammenstellen von Transformationen von numerischem Code, die der NumPy-Bibliothek von Python ähnelt, aber viel umfangreicher ist. Die .numpy-Bibliothek unter JAX ist in der Tat eine funktional äquivalente, aber vollständig neu geschriebene Version der Python NumPy-Bibliothek.

JAX eignet sich besonders gut, um viele Aufgaben im Bereich maschinelles Lernen zu beschleunigen, indem die Modelle und Daten in eine Form umgewandelt werden, die für den Parallelismus zwischen GPU und TPU Beschleunigerchips geeignet ist.

Flax, Optax, Pax und viele andere Bibliotheken basieren auf der JAX-Infrastruktur.

K

Keras

Eine beliebte Python-KI-API. Keras läuft auf mehreren Deep-Learning-Frameworks, einschließlich TensorFlow, wo es als tf.keras verfügbar ist.

Kernel-Supportvektormaschinen (KSVMs)

Ein Klassifizierungsalgorithmus, der den Abstand zwischen positiven und negativen Klassen maximieren soll, indem Eingabedatenvektoren in einen höherdimensionalen Raum abgebildet werden. Angenommen, Sie haben ein Klassifizierungsproblem, bei dem der Eingabedatensatz 100 Features hat. Um den Abstand zwischen positiven und negativen Klassen zu maximieren, könnte ein KSVM diese Merkmale intern in einen Millionendimensionalen Raum abbilden. KSVMs verwenden eine Verlustfunktion namens Gliederungsverlust.

keypoints

#image

Die Koordinaten bestimmter Elemente in einem Bild. Bei einem Modell für die Bilderkennung, das Blumenarten unterscheidet, können beispielsweise die Mitte jedes Blütenblatts, der Stängel oder die Staubblätter als wichtige Punkte dienen.

k-fache Kreuzvalidierung

Ein Algorithmus zur Vorhersage der Fähigkeit eines Modells, auf neue Daten zu generalisieren. Das k in „k-fach“ bezieht sich auf die Anzahl der gleich großen Gruppen, in die Sie die Beispiele eines Datasets aufteilen. Das bedeutet, dass Sie Ihr Modell k-mal trainieren und testen. Bei jeder Trainings- und Testrunde ist eine andere Gruppe der Testsatz und alle verbleibenden Gruppen bilden den Trainingssatz. Nach k Trainings- und Testrunden berechnen Sie den Mittelwert und die Standardabweichung der ausgewählten Testmesswerte.

Angenommen, Ihr Dataset besteht aus 120 Beispielen. Angenommen, Sie legen k auf 4 fest. Daher teilen Sie das Dataset nach dem Zufallsmix in vier gleich große Gruppen mit 30 Beispielen auf und führen vier Trainings- und Testrunden durch:

Ein Datensatz, der in vier gleich große Beispielgruppen unterteilt ist. In Runde 1 werden die ersten drei Gruppen für das Training und die letzte Gruppe für den Test verwendet. In Runde 2 werden die ersten beiden und die letzte Gruppe für das Training verwendet, während die dritte Gruppe für den Test verwendet wird. In Runde 3 werden die erste Gruppe und die letzten beiden Gruppen für das Training verwendet, während die zweite Gruppe für den Test verwendet wird.
          In Runde 4 wird die erste Gruppe für Tests verwendet, während die letzten drei Gruppen für das Training verwendet werden.

Für ein lineares Regressionsmodell ist beispielsweise die mittlere quadratische Abweichung (Mean Squared Error, MSE) der aussagekräftigste Messwert. Daher berechnen Sie den Mittelwert und die Standardabweichung der MSE über alle vier Runden.

K-Means

#clustering

Ein beliebter Clustering-Algorithmus, mit dem Beispiele im Rahmen des unbeaufsichtigten Lernens gruppiert werden. Der k-Means-Algorithmus führt im Grunde Folgendes aus:

  • Bestimmt iterativ die besten K-Zentrumspunkte (Schwerpunkte).
  • Jedem Beispiel wird der nächstgelegene Schwerpunkt zugewiesen. Die Beispiele, die demselben Centroid am nächsten sind, gehören zur selben Gruppe.

Der k-Means-Algorithmus wählt die Schwerpunkte so aus, dass die Summe der Quadrate der Entfernungen von jedem Beispiel zum nächstgelegenen Schwerpunkt minimiert wird.

Betrachten Sie beispielsweise das folgende Diagramm, in dem die Höhe von Hunden in Relation zu ihrer Breite dargestellt ist:

Ein kartesisches Diagramm mit mehreren Dutzend Datenpunkten.

Wenn k=3 ist, bestimmt der k-Means-Algorithmus drei Schwerpunkte. Jedem Beispiel wird der nächstgelegene Schwerpunkt zugewiesen. So ergeben sich drei Gruppen:

Das gleiche kartesische Diagramm wie in der vorherigen Abbildung, nur mit drei hinzugefügten Centroiden.
          Die vorherigen Datenpunkte sind in drei verschiedene Gruppen geclustert. Jede Gruppe stellt die Datenpunkte dar, die einem bestimmten Centroid am nächsten sind.

Angenommen, ein Hersteller möchte die idealen Größen für kleine, mittelgroße und große Pullover für Hunde ermitteln. Die drei Schwerpunkte geben die durchschnittliche Höhe und Breite jedes Hundes in diesem Cluster an. Daher sollte der Hersteller die Pullovergrößen wahrscheinlich auf diesen drei Centroiden basieren. Der Schwerpunkt eines Clusters ist in der Regel kein Beispiel im Cluster.

Die vorherigen Abbildungen zeigen K-Means-Verfahren für Beispiele mit nur zwei Merkmalen (Höhe und Breite). Hinweis: Mit K-Means können Beispiele über viele Features hinweg gruppiert werden.

K-Median

#clustering

Ein Clustering-Algorithmus, der eng mit k-Means verwandt ist. Die beiden unterscheiden sich in der Praxis so:

  • Bei K-Means werden die Schwerpunkte durch Minimieren der Summe der Quadrate der Entfernung zwischen einem Kandidaten für den Schwerpunkt und den einzelnen Beispielen bestimmt.
  • Beim K-Median werden die Schwerpunkte durch Minimieren der Summe der Entfernung zwischen einem Kandidaten für den Schwerpunkt und jedem seiner Beispiele bestimmt.

Beachten Sie, dass sich auch die Definitionen für die Entfernung unterscheiden:

  • Bei der K-Means-Methode wird die euklidische Entfernung vom Schwerpunkt zu einem Beispiel verwendet. (In zwei Dimensionen bedeutet der euklidische Abstand, dass die Hypotenuse mit dem Satz des Pythagoras berechnet wird.) Die K-Means-Distanz zwischen (2,2) und (5,-2) würde beispielsweise so berechnet:
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • Beim k-Median wird die Manhattan-Distanz vom Schwerpunkt zu einem Beispiel verwendet. Dieser Abstand ist die Summe der absoluten Deltas in jeder Dimension. Beispiel: Der K-Median-Abstand zwischen (2,2) und (5,-2) ist:
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

L

L0-Regularisierung

#fundamentals

Eine Art der Regularisierung, bei der die Gesamtzahl der nicht nullwertigen Gewichte in einem Modell bestraft wird. Ein Modell mit 11 nicht nullwertigen Gewichten wird beispielsweise stärker bestraft als ein ähnliches Modell mit 10 nicht nullwertigen Gewichten.

Die L0-Regularisierung wird manchmal auch als L0-Norm-Regularisierung bezeichnet.

L1-Verlust

#fundamentals

Eine Verlustfunktion, die den absoluten Wert der Differenz zwischen den tatsächlichen Label-Werten und den Werten berechnet, die von einem Modell vorhergesagt werden. Hier ist beispielsweise die Berechnung der L1-Verlustfunktion für einen Batch mit fünf Beispielen:

Tatsächlicher Wert des Beispiels Der prognostizierte Wert des Modells Absolutwert von Delta
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = Niederlage 1

Der L1-Verlust ist weniger empfindlich gegenüber Ausreißern als der L2-Verlust.

Der mittlere absolute Fehler ist der durchschnittliche L1-Verlust pro Beispiel.

L1-Regularisierung

#fundamentals

Eine Art der Regularisierung, bei der Gewichte proportional zur Summe der absoluten Werte der Gewichte bestraft werden. Die L1-Regularisierung trägt dazu bei, die Gewichtungen irrelevanter oder kaum relevanter Merkmale auf genau 0 zu senken. Ein Attribut mit dem Gewicht 0 wird effektiv aus dem Modell entfernt.

Im Gegensatz zur L2-Regularisierung.

L2-Verlust

#fundamentals

Eine Verlustfunktion, die das Quadrat der Differenz zwischen den tatsächlichen Label-Werten und den Werten berechnet, die von einem Modell vorhergesagt werden. Hier ist beispielsweise die Berechnung der L2-Verlustfunktion für einen Batch mit fünf Beispielen:

Tatsächlicher Wert des Beispiels Der prognostizierte Wert des Modells Quadrat von Delta
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = L2 – Niederlage

Durch die Quadratwurzel wird der Einfluss von Ausreißern durch L2-Verlust verstärkt. Das heißt, der L2-Verlust reagiert stärker auf schlechte Vorhersagen als der L1-Verlust. Beispielsweise würde der L1-Verlust für den vorherigen Batch 8 statt 16 betragen. Beachten Sie, dass ein einzelner Ausreißer 9 der 16 Werte ausmacht.

Bei Regressionsmodellen wird in der Regel die L2-Verlustfunktion als Verlustfunktion verwendet.

Der mittlere quadratische Fehler ist der durchschnittliche L2-Verlust pro Beispiel. Quadratischer Verlust ist ein anderer Name für den L2-Verlust.

L2-Regularisierung

#fundamentals

Eine Art der Regularisierung, bei der Gewichte proportional zur Summe der Quadrate der Gewichte bestraft werden. Die L2-Regelungsmethode trägt dazu bei, dass die Gewichte von Außenseitern (mit hohen positiven oder niedrigen negativen Werten) näher an 0, aber nicht ganz auf 0, gebracht werden. Features mit Werten nahe 0 bleiben im Modell, beeinflussen die Vorhersage des Modells aber nicht sehr stark.

Die L2-Regularisierung verbessert immer die Generalisierung in linearen Modellen.

Im Gegensatz zur L1-Regularisierung.

Label

#fundamentals

Beim überwachten maschinellen Lernen der Teil eines Beispiels, der als „Antwort“ oder „Ergebnis“ bezeichnet wird.

Jedes beschriftete Beispiel besteht aus einem oder mehreren Features und einem Label. In einem Datensatz zur Spamerkennung wäre das Label beispielsweise wahrscheinlich „Spam“ oder „Kein Spam“. In einem Niederschlagsdatensatz könnte das Label die Niederschlagsmenge sein, die in einem bestimmten Zeitraum gefallen ist.

Beispiel mit Label

#fundamentals

Ein Beispiel, das ein oder mehrere Features und ein Label enthält. Die folgende Tabelle enthält beispielsweise drei Beispiele mit Labels aus einem Modell zur Immobilienbewertung, jedes mit drei Merkmalen und einem Label:

Anzahl der Schlafzimmer Anzahl der Badezimmer Alter des Gebäudes Hauspreis (Label)
3 2 15 345.000 $
2 1 72 179.000 $
4 2 34 392.000 $

Beim überwachten maschinellen Lernen werden Modelle anhand von Beispielen mit Labels trainiert und treffen Vorhersagen für Beispiele ohne Labels.

Stellen Sie ein Beispiel mit Labels und ein Beispiel ohne Labels gegenüber.

Labelleckage

Ein Modelldesignfehler, bei dem ein Attribut ein Proxy für das Label ist. Angenommen, Sie haben ein binäres Klassifizierungsmodell, das vorhersagt, ob ein potenzieller Kunde ein bestimmtes Produkt kaufen wird oder nicht. Angenommen, eines der Features für das Modell ist ein boolescher Wert namens SpokeToCustomerAgent. Angenommen, ein Kundenservicemitarbeiter wird erst nach dem Kauf des Produkts durch den potenziellen Kunden zugewiesen. Während des Trainings lernt das Modell schnell die Verknüpfung zwischen SpokeToCustomerAgent und dem Label.

Lambda

#fundamentals

Synonym für Regularisierungsrate.

Lambda ist ein überlasteter Begriff. Hier konzentrieren wir uns auf die Definition des Begriffs im Rahmen der Regularisierung.

LaMDA (Language Model for Dialogue Applications)

#language

Ein von Google entwickeltes Transformer-basiertes Large Language Model, das mit einem großen Dialog-Dataset trainiert wurde und realistische Konversationsantworten generieren kann.

LaMDA: our breakthrough conversation technology (LaMDA: unsere bahnbrechende Konversationstechnologie) bietet einen Überblick.

landmarks

#image

Synonym für Keywords.

Sprachmodell

#language

Ein Modell, mit dem die Wahrscheinlichkeit geschätzt wird, dass ein Token oder eine Tokenfolge in einer längeren Tokenfolge auftritt.

Large Language Model

#language

Mindestens ein Sprachmodell mit einer sehr hohen Anzahl von Parametern. Im informellen Sprachgebrauch: jedes Transformer-basierte Sprachmodell, z. B. Gemini oder GPT.

Latenzraum

#language

Synonym für Einbettungsbereich.

Layer

#fundamentals

Eine Gruppe von Neuronen in einem neuronalen Netzwerk. Es gibt drei gängige Arten von Ebenen:

Die folgende Abbildung zeigt beispielsweise ein neuronales Netzwerk mit einer Eingabeschicht, zwei verborgenen Schichten und einer Ausgabeschicht:

Ein neuronales Netzwerk mit einer Eingabeschicht, zwei verborgenen Schichten und einer Ausgabeschicht. Die Eingabeebene besteht aus zwei Elementen. Die erste verborgene Schicht besteht aus drei Neuronen und die zweite aus zwei. Die Ausgabeschicht besteht aus einem einzelnen Knoten.

In TensorFlow sind Ebenen auch Python-Funktionen, die Tensoren und Konfigurationsoptionen als Eingabe annehmen und andere Tensoren als Ausgabe liefern.

Layers API (tf.layers)

#TensorFlow

Eine TensorFlow API zum Erstellen eines Deep-Learning-Netzwerks als Zusammensetzung von Schichten. Mit der Layers API können Sie verschiedene Arten von Ebenen erstellen, z. B.:

Die Layers API folgt den Konventionen der Keras Layers API. Abgesehen von einem anderen Präfix haben alle Funktionen in der Layers API dieselben Namen und Signaturen wie ihre Pendants in der Keras Layers API.

Blatt

#df

Jeder Endpunkt in einem Entscheidungsbaum. Im Gegensatz zu einer Bedingung führt ein Blatt keinen Test aus. Ein Blatt ist vielmehr eine mögliche Vorhersage. Ein Blatt ist auch der Endknoten eines Knotens eines Inferenzabzugs.

Der folgende Entscheidungsbaum enthält beispielsweise drei Blätter:

Ein Entscheidungsbaum mit zwei Bedingungen, die zu drei Blättern führen.

Learning Interpretability Tool (LIT)

Ein visuelles, interaktives Tool zum Erfassen und Visualisieren von Modellen.

Mit der Open-Source-Software LIT können Sie Modelle interpretieren oder Text-, Bild- und Tabellendaten visualisieren.

Lernrate

#fundamentals

Eine Gleitkommazahl, die dem Gradientenabstieg-Algorithmus angibt, wie stark Gewichte und Voreingenommenheiten bei jeder Iteration angepasst werden sollen. Bei einer Lernrate von 0,3 werden Gewichte und Voreingenommenheiten beispielsweise dreimal stärker angepasst als bei einer Lernrate von 0,1.

Die Lernrate ist ein wichtiger Hyperparameter. Wenn Sie die Lernrate zu niedrig festlegen, dauert das Training zu lange. Wenn Sie die Lernrate zu hoch festlegen, hat der Gradientenabstieg häufig Probleme, die Konvergenz zu erreichen.

Regression der kleinsten Quadrate

Ein lineares Regressionsmodell, das durch Minimieren des L2-Verlusts trainiert wurde.

Levenshtein-Distanz

#language
#metric

Ein Messwert für die Änderungsdistanz, der die geringste Anzahl von Lösch-, Einfüge- und Ersetzungsvorgängen berechnet, die erforderlich sind, um ein Wort in ein anderes zu ändern. Die Levenshtein-Distanz zwischen den Wörtern „Herz“ und „Darts“ beträgt beispielsweise drei, da mit den folgenden drei Änderungen das eine Wort in das andere umgewandelt werden kann:

  1. Herz → Deart (Ersetzen Sie „h“ durch „d“)
  2. deart → dart (entfernen des „e“)
  3. dart → darts (insert "s")

Die vorherige Abfolge ist nicht der einzige Pfad mit drei Änderungen.

Linear

#fundamentals

Eine Beziehung zwischen zwei oder mehr Variablen, die ausschließlich durch Addition und Multiplikation dargestellt werden kann.

Die Darstellung einer linearen Beziehung ist eine Linie.

Im Gegensatz zu nicht linear.

Lineares Modell

#fundamentals

Ein Modell, das jedem Feature eine Gewichtung zuweist, um Vorhersagen zu treffen. Lineare Modelle enthalten auch eine Verzerrung. Im Gegensatz dazu ist das Verhältnis von Features zu Vorhersagen in Deep-Learning-Modellen in der Regel nichtlinear.

Lineare Modelle sind in der Regel einfacher zu trainieren und leichter zu interpretieren als Deep-Learning-Modelle. Deep-Learning-Modelle können jedoch komplexe Beziehungen zwischen Features lernen.

Lineare Regression und logistische Regression sind zwei Arten von linearen Modellen.

lineare Regression

#fundamentals

Eine Art von Machine-Learning-Modell, für das Folgendes zutrifft:

  • Das Modell ist ein lineares Modell.
  • Die Vorhersage ist ein Gleitkommawert. (Dies ist der Regressions-Teil der linearen Regression.)

Vergleichen Sie die lineare Regression mit der logistischen Regression. Außerdem sollten Sie Regression mit Klassifizierung vergleichen.

LIT

Abkürzung für das Learning Interpretability Tool (LIT), das früher als Language Interpretability Tool (LIT) bezeichnet wurde.

LLM

#language
#generativeAI

Abkürzung für Large Language Model.

LLM-Bewertungen (evals)

#language
#generativeAI

Eine Reihe von Messwerten und Benchmarks zur Bewertung der Leistung von Large Language Models (LLMs). LLM-Bewertungen bieten folgende Vorteile:

  • Sie helfen Forschern, Bereiche zu identifizieren, in denen LLMs verbessert werden müssen.
  • Sie sind nützlich, um verschiedene LLMs zu vergleichen und das beste LLM für eine bestimmte Aufgabe zu ermitteln.
  • Sie tragen dazu bei, dass LLMs sicher und ethisch eingesetzt werden.

logistische Regression

#fundamentals

Eine Art Regressionsmodell, mit dem eine Wahrscheinlichkeit vorhergesagt wird. Logistische Regressionsmodelle haben folgende Merkmale:

  • Das Label ist kategorisch. Der Begriff „Logistische Regression“ bezieht sich in der Regel auf die binäre logistische Regression, also auf ein Modell, mit dem Wahrscheinlichkeiten für Labels mit zwei möglichen Werten berechnet werden. Bei der weniger gängigen multinomialen logistischen Regression werden Wahrscheinlichkeiten für Labels mit mehr als zwei möglichen Werten berechnet.
  • Die Verlustfunktion während des Trainings ist die Logarithmische Verlustfunktion. Für Labels mit mehr als zwei möglichen Werten können mehrere Log-Verlust-Einheiten parallel platziert werden.
  • Das Modell hat eine lineare Architektur und kein Deep-Learning-Netzwerk. Der Rest dieser Definition gilt jedoch auch für Deep-Modelle, die Wahrscheinlichkeiten für kategorische Labels vorhersagen.

Angenommen, Sie haben ein logistisches Regressionsmodell, mit dem die Wahrscheinlichkeit berechnet wird, dass eine E-Mail-Eingabe Spam ist oder nicht. Angenommen, das Modell prognostiziert während der Inferenz 0,72. Daher wird mit dem Modell Folgendes geschätzt:

  • Die Wahrscheinlichkeit, dass es sich bei der E-Mail um Spam handelt, beträgt 72 %.
  • 28% Wahrscheinlichkeit, dass es sich bei der E-Mail nicht um Spam handelt.

Ein logistisches Regressionsmodell verwendet die folgende zweistufige Architektur:

  1. Das Modell generiert eine Rohvorhersage (y'), indem eine lineare Funktion von Eingabefeatures angewendet wird.
  2. Das Modell verwendet diese Rohvorhersage als Eingabe für eine Sigmoidfunktion, die die Rohvorhersage in einen Wert zwischen 0 und 1 umwandelt.

Wie jedes Regressionsmodell prognostiziert ein logistisches Regressionsmodell eine Zahl. Diese Zahl wird jedoch in der Regel Teil eines binären Klassifizierungsmodells:

  • Wenn die vorhergesagte Anzahl höher als der Klassifizierungsschwellenwert ist, sagt das binäre Klassifizierungsmodell die positive Klasse vorher.
  • Wenn die vorhergesagte Anzahl unter dem Klassifizierungsgrenzwert liegt, sagt das binäre Klassifizierungsmodell die negative Klasse vorher.

Logits

Der Vektor der Rohvorhersagen (nicht normalisiert), die ein Klassifizierungsmodell generiert und der dann in der Regel an eine Normalisierungsfunktion übergeben wird. Wenn das Modell ein Klassifizierungsproblem mit mehreren Klassen löst, werden Logits in der Regel als Eingabe für die Softmax-Funktion verwendet. Die Softmax-Funktion generiert dann einen Vektor mit (normalisierten) Wahrscheinlichkeiten mit einem Wert für jede mögliche Klasse.

Logarithmischer Verlust

#fundamentals

Die Verlustfunktion, die in der binären logistischen Regression verwendet wird.

Logarithmische Wahrscheinlichkeit

#fundamentals

Der Logarithmus der Wahrscheinlichkeit eines Ereignisses.

Long Short-Term Memory (LSTM)

#seq

Eine Art von Zelle in einem rekurrenten neuronalen Netzwerk, die zum Verarbeiten von Datensequenzen in Anwendungen wie Handschrifterkennung, Maschinelle Übersetzung und Bildunterschriften verwendet wird. LSTMs beheben das Problem des verschwindenden Gradienten, das beim Training von RNNs aufgrund langer Datensequenzen auftritt. Dazu wird der Verlauf in einem internen Speicherstatus basierend auf neuen Eingaben und dem Kontext aus vorherigen Zellen in der RNN beibehalten.

LoRA

#language
#generativeAI

Abkürzung für Low-Rank Adaptability (Niedrigrangige Anpassungsfähigkeit).

Niederlage

#fundamentals

Während des Trainings eines überwachten Modells gibt an, wie weit die Vorhersage eines Modells von seinem Label entfernt ist.

Mit einer Verlustfunktion wird der Verlust berechnet.

Verlust-Aggregator

Eine Art Algorithmus für maschinelles Lernen, der die Leistung eines Modells verbessert, indem die Vorhersagen mehrerer Modelle kombiniert und diese Vorhersagen für eine einzelne Vorhersage verwendet werden. So kann ein Verlustaggregat die Varianz der Vorhersagen verringern und die Genauigkeit der Vorhersagen verbessern.

Verlustkurve

#fundamentals

Ein Diagramm des Verlusts als Funktion der Anzahl der Trainingsiterationen. Das folgende Diagramm zeigt eine typische Verlustkurve:

Ein kartesisches Diagramm mit Verlusten im Vergleich zu Trainingsiterationen, das einen schnellen Rückgang der Verluste bei den ersten Iterationen, gefolgt von einem allmählichen Rückgang und dann einer flachen Steigung während der letzten Iterationen zeigt.

Anhand von Verlustkurven können Sie feststellen, ob sich Ihr Modell konvergiert oder überanpasst.

Verlustkurven können alle folgenden Arten von Verlusten darstellen:

Siehe auch Generalisierungskurve.

Verlustfunktion

#fundamentals

Eine mathematische Funktion, die während des Trainings oder Tests den Verlust für einen Batch von Beispielen berechnet. Eine Verlustfunktion gibt für Modelle, die gute Vorhersagen treffen, einen geringeren Verlust zurück als für Modelle, die schlechte Vorhersagen treffen.

Das Ziel des Trainings besteht in der Regel darin, den Verlust zu minimieren, der von einer Verlustfunktion zurückgegeben wird.

Es gibt viele verschiedene Arten von Verlustfunktionen. Wählen Sie die geeignete Verlustfunktion für die Art des Modells aus, das Sie erstellen. Beispiel:

Verlustfläche

Ein Diagramm mit Gewicht(en) im Vergleich zum Verlust. Der Gradientenabstieg zielt darauf ab, die Gewichte zu finden, bei denen sich die Verlustfläche in einem lokalen Minimum befindet.

Low-Rank Adaptation (LoRA)

#language
#generativeAI

Eine parametereffiziente Methode zur Feinabstimmung, bei der die vortrainierten Gewichte des Modells „eingefroren“ (d. h. nicht mehr geändert) und dann eine kleine Gruppe trainierbarer Gewichte in das Modell eingefügt werden. Dieser Satz trainierbarer Gewichte (auch als „Aktualisierungsmatrizen“ bezeichnet) ist deutlich kleiner als das Basismodell und daher viel schneller zu trainieren.

LoRA bietet folgende Vorteile:

  • Verbessert die Qualität der Vorhersagen eines Modells für die Domain, in der die Feinabstimmung angewendet wird.
  • Die Feinabstimmung erfolgt schneller als bei Verfahren, bei denen alle Parameter eines Modells angepasst werden müssen.
  • Reduziert die Rechenkosten für die Inferenz, indem die gleichzeitige Bereitstellung mehrerer spezialisierter Modelle mit demselben Basismodell ermöglicht wird.

LSTM

#seq

Abkürzung für Long Short-Term Memory (Langzeitgedächtnis).

M

Machine Learning

#fundamentals

Ein Programm oder System, das ein Modell mit Eingabedaten trainiert. Das trainierte Modell kann für (komplett) neue Daten nützliche Vorhersagen treffen, die aus derselben Verteilung stammen wie die, die zum Trainieren des Modells verwendet wurde.

Der Begriff „Machine Learning“ bezieht sich auch auf das Forschungsgebiet, das sich mit diesen Programmen oder Systemen befasst.

maschinelle Übersetzung

#generativeAI

Mithilfe von Software (in der Regel einem Modell für maschinelles Lernen) wird Text von einer menschlichen Sprache in eine andere menschliche Sprache umgewandelt, z. B. vom Englischen ins Japanische.

Mehrheitsklasse

#fundamentals

Das häufigere Label in einem ungleichgewichteten Datensatz. Wenn ein Dataset beispielsweise 99% negative und 1% positive Labels enthält, sind die negativen Labels die Mehrheitsklasse.

Im Gegensatz zu Minderheitsklasse.

Markov-Entscheidungsprozess (MDP)

#rl

Ein Graph, der das Entscheidungsmodell darstellt, bei dem Entscheidungen (oder Aktionen) getroffen werden, um eine Sequenz von Zuständen zu durchlaufen, unter der Annahme, dass die Markov-Eigenschaft erfüllt ist. Beim Verstärkungslernen geben diese Übergänge zwischen Zuständen eine numerische Belohnung zurück.

Markov-Eigenschaft

#rl

Eine Eigenschaft bestimmter Umgebungen, bei denen Statusübergänge vollständig durch Informationen bestimmt werden, die im aktuellen Status und in der Aktion des Agents implizit enthalten sind.

Maskiertes Sprachmodell

#language

Ein Language Model, das die Wahrscheinlichkeit vorhersagt, mit der Token Lücken in einer Sequenz füllen. Ein Masked Language Model kann beispielsweise Wahrscheinlichkeiten für Kandidatenwörter berechnen, um die Unterstreichungen im folgenden Satz zu ersetzen:

Der ____ im Hut ist zurückgekehrt.

In der Literatur wird in der Regel der String „MASK“ anstelle eines Unterstrichs verwendet. Beispiel:

Die „MASKE“ im Hut ist zurückgekehrt.

Die meisten modernen Masked Language Models sind bidirektional.

matplotlib

Eine Open-Source-Python-Bibliothek für 2D-Diagramme. Mit matplotlib können Sie verschiedene Aspekte des maschinellen Lernens visualisieren.

Matrixfaktorisierung

#recsystems

In der Mathematik ein Mechanismus zum Finden von Matrizen, deren Punktprodukt einer Zielmatrix nahekommt.

In Empfehlungssystemen enthält die Zielmatrix häufig die Bewertungen von Nutzern zu Elementen. Die Zielmatrix für ein Film-Empfehlungssystem könnte beispielsweise so aussehen: Die positiven Ganzzahlen sind Nutzerbewertungen und 0 bedeutet, dass der Nutzer den Film nicht bewertet hat:

  Casablanca The Philadelphia Story Black Panther Wonder Woman Pulp Fiction
Nutzer 1 5 3 0,0 2.0 0,0
Nutzer 2 4.0 0,0 0,0 1.0 5
Nutzer 3 3 1.0 4.0 5,0 0,0

Das Empfehlungssystem für Filme soll Nutzerbewertungen für Filme ohne Altersfreigabe vorhersagen. Wird Nutzer 1 beispielsweise Black Panther mögen?

Ein Ansatz für Empfehlungssysteme besteht darin, mithilfe der Matrixfaktorisierung die folgenden beiden Matrizen zu generieren:

  • Eine Nutzermatrix, die aus der Anzahl der Nutzer multipliziert mit der Anzahl der Einbettungsdimensionen besteht.
  • Eine Artikelmatrix, die aus der Anzahl der Einbettungsdimensionen multipliziert mit der Anzahl der Artikel besteht.

Die Matrixfaktorisierung für unsere drei Nutzer und fünf Artikel könnte beispielsweise die folgende Nutzer- und Artikelmatrix ergeben:

User Matrix                 Item Matrix

1.1   2.3           0.9   0.2   1.4    2.0   1.2
0.6   2.0           1.7   1.2   1.2   -0.1   2.1
2.5   0.5

Die Punktprodukt der Nutzermatrix und der Artikelmatrix ergibt eine Empfehlungsmatrix, die nicht nur die ursprünglichen Nutzerbewertungen, sondern auch Vorhersagen für die Filme enthält, die die einzelnen Nutzer noch nicht gesehen haben. Angenommen, Nutzer 1 hat Casablanca mit 5, 0 bewertet. Das Punktprodukt, das dieser Zelle in der Empfehlungsmatrix entspricht, sollte idealerweise etwa 5,0 betragen.Das ist hier der Fall:

(1.1 * 0.9) + (2.3 * 1.7) = 4.9

Und vor allem: Wird Nutzer 1 Black Panther mögen? Die Punktproduktsumme der ersten Zeile und der dritten Spalte ergibt eine geschätzte Bewertung von 4,3:

(1.1 * 1.4) + (2.3 * 1.2) = 4.3

Die Matrixfaktorisierung führt in der Regel zu einer Nutzer- und einer Artikelmatrix, die zusammen deutlich kompakter sind als die Zielmatrix.

Mittlerer absoluter Fehler (MAE)

Der durchschnittliche Verlust pro Beispiel bei Verwendung von L1-Verlust. So berechnen Sie den mittleren absoluten Fehler:

  1. L1-Verlust für einen Batch berechnen
  2. Teilen Sie den L1-Verlust durch die Anzahl der Beispiele im Batch.

Betrachten Sie beispielsweise die Berechnung des L1-Verlusts für die folgenden fünf Beispiele:

Tatsächlicher Wert des Beispiels Der prognostizierte Wert des Modells Verlust (Differenz zwischen tatsächlichem und prognostiziertem Wert)
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = Niederlage 1

Der L1-Verlust ist also 8 und die Anzahl der Beispiele ist 5. Der mittlere absolute Fehler ist daher:

Mean Absolute Error = L1 loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

Vergleichen Sie den mittleren absoluten Fehler mit der mittleren quadratischen Abweichung und der Wurzel der mittleren Fehlerquadratsumme.

Mittlere durchschnittliche Precision bei k (mAP@k)

#language
#generativeAI

Der statistische Mittelwert aller durchschnittlichen Precision bei k-Werte in einem Validierungsdatensatz. Die mittlere durchschnittliche Präzision bei k kann beispielsweise verwendet werden, um die Qualität der Empfehlungen zu beurteilen, die von einem Empfehlungssystem generiert werden.

Auch wenn der Ausdruck „durchschnittlicher Mittelwert“ redundant klingt, ist der Name des Messwerts angemessen. Schließlich wird mit diesem Messwert der Mittelwert mehrerer durchschnittlicher Precision bei k berechnet.

Mittlere quadratische Abweichung (MSE)

Der durchschnittliche Verlust pro Beispiel bei Verwendung des L2-Verlusts. Berechnen Sie die mittlere quadratische Abweichung so:

  1. L2-Verlust für einen Batch berechnen
  2. Dividieren Sie den L2-Verlust durch die Anzahl der Beispiele im Batch.

Betrachten Sie beispielsweise den Verlust für die folgenden fünf Beispiele:

Tatsächlicher Wert Modellvorhersage Verlust Quadratische Abweichung
7 6 1 1
5 4 1 1
8 11 3 9
4 6 2 4
9 8 1 1
16 = L2 – Niederlage

Die mittlere quadratische Abweichung ist daher:

Mean Squared Error = L2 loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

Der mittlere quadratische Fehler ist ein beliebter Optimierungsalgorithmus, insbesondere für die lineare Regression.

Vergleichen Sie die mittlere quadratische Abweichung mit dem mittleren absoluten Fehler und der Wurzel der mittleren Fehlerquadratsumme.

Im TensorFlow Playground werden Verlustwerte anhand der mittleren Fehlerquadratsumme berechnet.

Mesh-Netzwerk

#TensorFlow
#GoogleCloud

Bei der parallelen Programmierung in der ML wird dieser Begriff verwendet, um TPU-Chips Daten und Modelle zuzuweisen und zu definieren, wie diese Werte geSharded oder repliziert werden.

„Mesh“ ist ein überlasteter Begriff, der Folgendes bedeuten kann:

  • Ein physisches Layout von TPU-Chips.
  • Ein abstraktes logisches Konstrukt zum Zuordnen der Daten und des Modells zu den TPU-Chips.

In beiden Fällen wird ein Mesh als Form angegeben.

Meta-Lernen

#language

Eine Teilmenge des maschinellen Lernens, bei der ein Lernalgorithmus entdeckt oder verbessert wird. Ein Meta-Lernsystem kann auch darauf abzielen, ein Modell zu trainieren, um schnell eine neue Aufgabe aus einer kleinen Menge an Daten oder aus der Erfahrung zu lernen, die bei früheren Aufgaben gesammelt wurde. Meta-Lernalgorithmen versuchen in der Regel, Folgendes zu erreichen:

  • Manuell erstellte Funktionen wie Initializer oder Optimierer verbessern oder kennenlernen
  • Sie sind daten- und recheneffizienter.
  • Generalisierung verbessern.

Meta-Lernen ist mit dem Lernen mit wenigen Beispielen verwandt.

Messwert

#TensorFlow

Eine Statistik, die Ihnen wichtig ist.

Ein Ziel ist ein Messwert, den ein System für maschinelles Lernen zu optimieren versucht.

Metrics API (tf.metrics)

Eine TensorFlow API zum Bewerten von Modellen. Mit tf.metrics.accuracy wird beispielsweise ermittelt, wie oft die Vorhersagen eines Modells mit Labels übereinstimmen.

Mini-Batch

#fundamentals

Eine kleine, zufällig ausgewählte Teilmenge eines Batches, die in einer Iteration verarbeitet wird. Die Batchgröße eines Mini-Batches liegt in der Regel zwischen 10 und 1.000 Beispielen.

Angenommen, der gesamte Trainingssatz (der vollständige Batch) besteht aus 1.000 Beispielen. Angenommen, Sie legen die Batchgröße jedes Mini-Batches auf 20 fest. Daher wird bei jeder Iteration der Verlust für 20 zufällig ausgewählte der 1.000 Beispiele ermittelt und dann werden die Gewichte und Voreingenommenheiten entsprechend angepasst.

Es ist viel effizienter, den Verlust für einen Mini-Batch zu berechnen als den Verlust für alle Beispiele im vollständigen Batch.

Mini-Batch-Stochastic Gradient Descent

Ein Gradientenabstiegsalgorithmus, der Minibatches verwendet. Mit anderen Worten: Bei der Mini-Batch-Stochastic Gradient Descent wird der Gradient anhand einer kleinen Teilmenge der Trainingsdaten geschätzt. Beim regulären stochastischen Gradientenabstieg wird ein Mini-Batch mit der Größe 1 verwendet.

Minimax-Verlust

Eine Verlustfunktion für generative Adversarial Networks, die auf der Kreuzentropie zwischen der Verteilung der generierten Daten und der der tatsächlichen Daten basiert.

Der Minimax-Verlust wird im ersten Artikel zur Beschreibung generativer Adversarial Networks verwendet.

Minderheitenklasse

#fundamentals

Das weniger häufige Label in einem ungleichgewichtigen Datensatz. Wenn ein Dataset beispielsweise 99% negative und 1% positive Labels enthält, sind die positiven Labels die Minderheitsklasse.

Im Gegensatz zur Majoritätsklasse.

Experten aus verschiedenen Bereichen

#language
#generativeAI

Ein Verfahren zur Steigerung der Effizienz eines Neural-Netzwerks, bei dem nur ein Teil seiner Parameter (Experte) zur Verarbeitung eines bestimmten Eingabe-Tokens oder Beispiels verwendet wird. Ein Gating-Netzwerk leitet jedes Eingabetoken oder Beispiel an die zuständigen Experten weiter.

Weitere Informationen finden Sie in den folgenden Artikeln:

ML

Abkürzung für Maschinelles Lernen.

MMIT

#language
#image
#generativeAI

Abkürzung für multimodal instruction-tuned (multimodale Anweisungen abgestimmt).

MNIST

#image

Ein von LeCun, Cortes und Burges zusammengestellter öffentlicher Dataset mit 60.000 Bildern, auf denen jeweils zu sehen ist, wie eine Person eine bestimmte Ziffer von 0 bis 9 handschriftlich geschrieben hat. Jedes Bild wird als 28 x 28 Array von Ganzzahlen gespeichert, wobei jede Ganzzahl ein Graustufenwert zwischen 0 und 255 ist.

MNIST ist ein kanonischer Dataset für maschinelles Lernen, das häufig zum Testen neuer Ansätze für maschinelles Lernen verwendet wird. Weitere Informationen finden Sie unter MNIST Database of Handwritten Digits.

Modalität

#language

Eine Datenkategorie der obersten Ebene. Zahlen, Text, Bilder, Video und Audio sind beispielsweise fünf verschiedene Modalitäten.

Modell

#fundamentals

Im Allgemeinen jedes mathematische Konstrukt, das Eingabedaten verarbeitet und eine Ausgabe zurückgibt. Mit anderen Worten: Ein Modell ist die Kombination aus Parametern und Struktur, die ein System für die Vorhersage benötigt. Beim überwachten maschinellen Lernen nimmt ein Modell ein Beispiel als Eingabe entgegen und leitet daraus eine Vorhersage ab. Bei überwachtem maschinellem Lernen unterscheiden sich die Modelle etwas. Beispiel:

Sie können ein Modell speichern, wiederherstellen oder kopieren.

Beim unüberwachten maschinellen Lernen werden ebenfalls Modelle generiert, in der Regel eine Funktion, die ein Eingabebeispiel dem am besten geeigneten Cluster zuordnen kann.

Modellkapazität

Die Komplexität der Probleme, die ein Modell lernen kann. Je komplexer die Probleme sind, die ein Modell lernen kann, desto höher ist die Kapazität des Modells. Die Kapazität eines Modells steigt in der Regel mit der Anzahl der Modellparameter. Eine formale Definition der Klassifikatorkapazität finden Sie unter VC-Dimension.

Modellkaskaden

#generativeAI

Ein System, das das ideale Modell für eine bestimmte Inferenzanfrage auswählt.

Stellen Sie sich eine Gruppe von Modellen vor, die von sehr groß (viele Parameter) bis hin zu viel kleiner (viel weniger Parameter) reichen. Sehr große Modelle verbrauchen bei der Inferenz mehr Rechenressourcen als kleinere Modelle. Sehr große Modelle können jedoch in der Regel komplexere Anfragen ableiten als kleinere Modelle. Bei der Modellkaskade wird die Komplexität der Inferenzabfrage bestimmt und dann das geeignete Modell für die Inferenz ausgewählt. Der Hauptgrund für die Modellkaskade besteht darin, die Inferenzkosten zu senken, indem in der Regel kleinere Modelle ausgewählt und nur bei komplexeren Abfragen ein größeres Modell verwendet wird.

Angenommen, ein kleines Modell wird auf einem Smartphone und eine größere Version dieses Modells auf einem Remote-Server ausgeführt. Eine gute Modellabfolge reduziert Kosten und Latenz, da das kleinere Modell einfache Anfragen verarbeiten kann und nur das Remote-Modell für komplexe Anfragen aufgerufen wird.

Siehe auch Modell-Router.

Modellparallelität

#language

Eine Möglichkeit zur Skalierung von Training oder Inferenz, bei der verschiedene Teile eines Modells auf verschiedenen Geräten ausgeführt werden. Mit dem Modellparallelismus können Modelle verwendet werden, die zu groß für ein einzelnes Gerät sind.

Um die Modellparallelität zu implementieren, führt ein System in der Regel Folgendes aus:

  1. Das Modell wird in kleinere Teile aufgeteilt.
  2. Das Training dieser kleineren Teile wird auf mehrere Prozessoren verteilt. Jeder Prozessor trainiert seinen eigenen Teil des Modells.
  3. Die Ergebnisse werden kombiniert, um ein einzelnes Modell zu erstellen.

Die Modellparallelität verlangsamt das Training.

Weitere Informationen finden Sie unter Datenparallelität.

Modellrouter

#generativeAI

Der Algorithmus, der das ideale Modell für die Inferenz bei der Modellkaskade bestimmt. Ein Modell-Router ist in der Regel selbst ein Modell für maschinelles Lernen, das nach und nach lernt, das beste Modell für eine bestimmte Eingabe auszuwählen. Ein Modell-Router kann jedoch manchmal ein einfacherer Algorithmus ohne maschinelles Lernen sein.

Modelltraining

Der Prozess, bei dem das beste Modell ermittelt wird.

MOE

#language
#image
#generativeAI

Abkürzung für Mix aus Experten.

Erfolge

Ein ausgefeilter Gradientenabstiegsalgorithmus, bei dem ein Lernschritt nicht nur von der Ableitung im aktuellen Schritt, sondern auch von den Ableitungen der Schritte abhängt, die unmittelbar davor liegen. Beim Momentum wird ein exponentiell gewichteter gleitender Durchschnitt der Gradienten im Zeitverlauf berechnet, analog zum Impuls in der Physik. Der Momentum-Effekt verhindert manchmal, dass das Lernen in lokalen Minima stecken bleibt.

MT

#generativeAI

Abkürzung für Maschinelle Übersetzung.

Klassifizierung mehrerer Klassen

#fundamentals

Beim überwachten Lernen ein Klassifizierungsproblem, bei dem das Dataset mehr als zwei Labelklassen enthält. Die Labels im Iris-Dataset müssen beispielsweise einer der folgenden drei Klassen angehören:

  • Iris setosa
  • Iris virginica
  • Iris versicolor

Ein Modell, das mit dem Iris-Dataset trainiert wurde und den Iristyp anhand neuer Beispiele vorhersagt, führt eine mehrklassige Klassifizierung durch.

Klassifizierungsprobleme, bei denen zwischen genau zwei Klassen unterschieden wird, sind dagegen binäre Klassifizierungsmodelle. Ein E-Mail-Modell, das entweder Spam oder kein Spam vorhersagt, ist beispielsweise ein binäres Klassifizierungsmodell.

Bei Clustering-Problemen bezieht sich die Klassifizierung mit mehreren Klassen auf mehr als zwei Cluster.

Mehrklassige logistische Regression

Verwendung der logistischen Regression bei mehrklassigen Klassifizierungsproblemen

Mehrfach-Self-Attention

#language

Eine Erweiterung der Selbstaufmerksamkeit, bei der der Selbstaufmerksamkeitsmechanismus mehrmals auf jede Position in der Eingabesequenz angewendet wird.

Transformer haben die mehrschichtige Selbstaufmerksamkeit eingeführt.

Multimodale Anleitung

#language

Ein anhand von Anweisungen optimiertes Modell, das neben Text auch Eingaben wie Bilder, Videos und Audio verarbeiten kann.

multimodales Modell

#language

Ein Modell, dessen Eingaben und/oder Ausgaben mehr als eine Modalität umfassen. Angenommen, ein Modell nimmt sowohl ein Bild als auch eine Bildunterschrift (zwei Modalitäten) als Features an und gibt eine Bewertung aus, die angibt, wie passend die Bildunterschrift zum Bild ist. Die Eingaben dieses Modells sind also multimodal und die Ausgabe ist unimodal.

Multinomiale Klassifizierung

Synonym für Klassifizierung mehrerer Klassen.

Multinomiale Regression

Synonyme für mehrklassige logistische Regression.

Multitasking

Eine Methode des maschinellen Lernens, bei der ein einzelnes Modell für die Ausführung mehrerer Aufgaben trainiert wird.

Multitask-Modelle werden durch Training mit Daten erstellt, die für jede der verschiedenen Aufgaben geeignet sind. So lernt das Modell, Informationen für alle Aufgaben zu teilen, was es effektiver macht.

Ein Modell, das für mehrere Aufgaben trainiert wurde, hat oft verbesserte Generalisierungsfähigkeiten und kann verschiedene Datentypen robuster verarbeiten.

N

NaN-Falle

Wenn eine Zahl in Ihrem Modell während des Trainings zu NaN wird, was dazu führt, dass viele oder alle anderen Zahlen in Ihrem Modell schließlich zu NaN werden.

NaN ist eine Abkürzung für Not a Number (Kein Nummern).

Natural Language Processing

#language
Das Feld, in dem Computer dazu gebracht werden, das, was ein Nutzer gesagt oder eingegeben hat, anhand linguistischer Regeln zu verarbeiten. Fast alle modernen Verfahren zur Verarbeitung natürlicher Sprache beruhen auf maschinellem Lernen.

Natural Language Understanding

#language

Ein Teilbereich der Natural Language Processing, der die Intentionen von gesprochenen oder eingegebenen Texten bestimmt. Das Verstehen natürlicher Sprache kann über Natural Language Processing hinausgehen und komplexe Aspekte der Sprache wie Kontext, Sarkasmus und Sentiment berücksichtigen.

Negative Klasse

#fundamentals

Bei der binären Klassifizierung wird eine Klasse als positiv und die andere als negativ bezeichnet. Die positive Klasse ist das Objekt oder Ereignis, auf das das Modell getestet wird, und die negative Klasse ist die andere Möglichkeit. Beispiel:

  • Die negative Klasse in einem medizinischen Test könnte „kein Tumor“ sein.
  • Die negative Klasse in einem E-Mail-Klassifikator könnte „Kein Spam“ sein.

Im Gegensatz zur positiven Klasse.

Ausschließende Stichprobenerhebung

Synonym für Kriterienstichprobe.

Neural Architecture Search (NAS)

Eine Methode zum automatischen Entwerfen der Architektur eines neuronalen Netzwerks. NAS-Algorithmen können den Zeit- und Ressourcenaufwand für das Training eines neuronalen Netzes reduzieren.

NAS verwendet in der Regel:

  • Ein Suchbereich, der eine Reihe möglicher Architekturen umfasst.
  • Eine Fitnessfunktion, die angibt, wie gut eine bestimmte Architektur bei einer bestimmten Aufgabe abschneidet.

NAS-Algorithmen beginnen oft mit einer kleinen Gruppe möglicher Architekturen und erweitern den Suchraum nach und nach, wenn der Algorithmus mehr darüber erfährt, welche Architekturen effektiv sind. Die Fitnessfunktion basiert in der Regel auf der Leistung der Architektur in einem Trainingssatz. Der Algorithmus wird in der Regel mithilfe einer Verstärkungstechnik trainiert.

NAS-Algorithmen haben sich als effektiv erwiesen, um leistungsstarke Architekturen für eine Vielzahl von Aufgaben zu finden, einschließlich Bildklassifizierung, Textklassifizierung und maschineller Übersetzung.

neuronales Netzwerk

#fundamentals

Ein Modell mit mindestens einer versteckten Schicht. Ein Deep Neural Network ist eine Art von neuronalem Netzwerk, das mehr als eine verborgene Schicht enthält. Das folgende Diagramm zeigt beispielsweise ein tiefes neuronales Netzwerk mit zwei verborgenen Schichten.

Ein neuronales Netzwerk mit einer Eingabeschicht, zwei verborgenen Schichten und einer Ausgabeschicht.

Jedes Neuron in einem neuronalen Netzwerk ist mit allen Knoten der nächsten Schicht verbunden. Im vorherigen Diagramm ist beispielsweise zu sehen, dass jeder der drei Neuronen in der ersten verborgenen Schicht separat mit den beiden Neuronen in der zweiten verborgenen Schicht verbunden ist.

Auf Computern implementierte neuronale Netzwerke werden manchmal als künstliche neuronale Netzwerke bezeichnet, um sie von neuronalen Netzwerken im Gehirn und anderen Nervensystemen zu unterscheiden.

Einige neuronale Netze können extrem komplexe nichtlineare Beziehungen zwischen verschiedenen Merkmalen und dem Label nachahmen.

Weitere Informationen finden Sie unter Convolutional Neural Network und Recurrent Neural Network.

Neuron

#fundamentals

Im Bereich Machine Learning eine einzelne Einheit innerhalb einer verborgenen Schicht eines neuronalen Netzwerks. Jedes Neuron führt die folgende zweistufige Aktion aus:

  1. Berechnet die gewichtete Summe der Eingabewerte multipliziert mit den entsprechenden Gewichten.
  2. Die gewichtete Summe wird als Eingabe an eine Aktivierungsfunktion übergeben.

Ein Neuron in der ersten verborgenen Schicht nimmt Eingaben von den Feature-Werten in der Eingabeschicht entgegen. Ein Neuron in einer beliebigen verborgenen Schicht nach der ersten nimmt Eingaben von den Neuronen in der vorherigen verborgenen Schicht entgegen. Ein Neuron in der zweiten verborgenen Schicht nimmt beispielsweise Eingaben von den Neuronen in der ersten verborgenen Schicht entgegen.

Die folgende Abbildung zeigt zwei Neurone und ihre Eingaben.

Ein neuronales Netzwerk mit einer Eingabeschicht, zwei verborgenen Schichten und einer Ausgabeschicht. Zwei Neuronen sind hervorgehoben: eines in der ersten verborgenen Schicht und eines in der zweiten verborgenen Schicht. Das hervorgehobene Neuron in der ersten verborgenen Schicht empfängt Eingaben von beiden Funktionen in der Eingabeschicht. Das hervorgehobene Neuron in der zweiten verborgenen Schicht erhält Eingaben von jedem der drei Neuronen in der ersten verborgenen Schicht.

Ein Neuron in einem neuronalen Netzwerk ahmt das Verhalten von Neuronen im Gehirn und in anderen Teilen des Nervensystems nach.

N-Gramm

#seq
#language

Eine geordnete Sequenz von N Wörtern. Truly madly ist beispielsweise ein 2-Gramm. Da die Reihenfolge relevant ist, ist madly truly ein anderes 2-Gramm als truly madly.

N Name(n) für diese Art von N-Gramm Beispiele
2 Bigram oder 2-Gramm to go, go to, eat lunch, eat dinner
3 Trigramm oder 3-Gramm ate too much, three blind mice, the bell tolls
4 4-Gramm walk in the park, dust in the wind, the boy ate lentils

Viele Natural Language Understanding-Modelle nutzen N-Gramme, um das nächste Wort vorherzusagen, das der Nutzer eingeben oder sagen wird. Angenommen, ein Nutzer hat drei blind eingegeben. Ein NLU-Modell, das auf Trigrammen basiert, würde wahrscheinlich vorhersagen, dass der Nutzer als Nächstes Mäuse eingibt.

N-Gramme sind im Gegensatz zu Wortgruppen, die ungeordnete Wortgruppen sind.

NLP

#language

Abkürzung für Natural Language Processing.

NLU

#language

Abkürzung für Natural Language Understanding.

Knoten (Entscheidungsbaum)

#df

In einem Entscheidungsbaum: jede Bedingung oder Endknoten.

Ein Entscheidungsbaum mit zwei Bedingungen und drei Blättern

Knoten (neuronales Netzwerk)

#fundamentals

Ein Neuron in einer versteckten Schicht.

Knoten (TensorFlow-Grafik)

#TensorFlow

Ein Vorgang in einem TensorFlow-Graphen.

Rauschen

Im Allgemeinen alles, was das Signal in einem Datensatz verschleiert. Es gibt viele Möglichkeiten, wie Rauschen in Daten eindringen kann. Beispiel:

  • Menschliche Bewerter machen Fehler beim Labeln.
  • Menschen und Instrumente erfassen Featurewerte falsch oder lassen sie aus.

Nicht binäre Bedingung

#df

Eine Bedingung mit mehr als zwei möglichen Ergebnissen. Die folgende nicht binäre Bedingung enthält beispielsweise drei mögliche Ergebnisse:

Eine Bedingung (number_of_legs = ?) mit drei möglichen Ergebnissen Ein Ergebnis (number_of_legs = 8) führt zu einem Blatt namens Spinne. Ein zweites Ergebnis (number_of_legs = 4) führt zu einem Blatt namens Hund. Ein drittes Ergebnis (number_of_legs = 2) führt zu einem Blatt namens penguin.

nicht linear

#fundamentals

Eine Beziehung zwischen zwei oder mehr Variablen, die nicht ausschließlich durch Addition und Multiplikation dargestellt werden kann. Ein linearer Zusammenhang kann als Linie dargestellt werden, ein nicht linearer Zusammenhang kann nicht als Linie dargestellt werden. Angenommen, Sie haben zwei Modelle, in denen jeweils ein einzelnes Feature mit einem einzelnen Label verknüpft ist. Das Modell auf der linken Seite ist linear und das Modell auf der rechten Seite nichtlinear:

Zwei Diagramme. Ein Plot ist eine Linie, also handelt es sich um eine lineare Beziehung.
          Die andere Darstellung ist eine Kurve, also eine nichtlineare Beziehung.

Non-Response-Bias

#fairness

Weitere Informationen finden Sie unter Stichprobenfehler.

Nichtstationarität

#fundamentals

Ein Element, dessen Werte sich in einer oder mehreren Dimensionen ändern, in der Regel in Bezug auf die Zeit. Betrachten Sie beispielsweise die folgenden Beispiele für Nichtstationarität:

  • Die Anzahl der in einem bestimmten Geschäft verkauften Badeanzüge variiert je nach Saison.
  • Die Menge einer bestimmten Frucht, die in einer bestimmten Region geerntet wird, ist die meiste Zeit des Jahres null, aber für einen kurzen Zeitraum groß.
  • Aufgrund des Klimawandels ändern sich die jährlichen Durchschnittstemperaturen.

Im Gegensatz zur Stationarität.

Keine richtige Antwort (NORA)

#language
#generativeAI

Ein Prompt mit mehreren geeigneten Antworten. Für den folgenden Prompt gibt es beispielsweise keine richtige Antwort:

Erzählen Sie mir einen Witz über Elefanten.

Die Bewertung von Aufgaben, bei denen es keine richtige Antwort gibt, kann schwierig sein.

NORA

#language
#generativeAI

Abkürzung für keine richtige Antwort.

Normalisierung

#fundamentals

Im Allgemeinen wird damit der Prozess bezeichnet, bei dem der tatsächliche Wertebereich einer Variablen in einen Standardwertbereich umgewandelt wird, z. B.:

  • −1 bis +1
  • 0 bis 1
  • Z-Werte (ungefähr -3 bis +3)

Angenommen, der tatsächliche Wertebereich eines bestimmten Merkmals liegt zwischen 800 und 2.400. Im Rahmen des Feature-Engineerings können Sie die tatsächlichen Werte auf einen Standardbereich wie -1 bis +1 normalisieren.

Die Normalisierung ist eine gängige Aufgabe beim Feature Engineering. Modelle lassen sich in der Regel schneller trainieren (und liefern bessere Vorhersagen), wenn jedes numerische Feature im Featurevektor ungefähr denselben Bereich hat.

Weitere Informationen finden Sie im Modul zum Arbeiten mit numerischen Daten des Machine Learning Crash Courses. Weitere Informationen finden Sie unter Z-Score-Normalisierung.

Neuheitserkennung

Der Prozess, bei dem festgestellt wird, ob ein neues (neuartiges) Beispiel aus derselben Verteilung wie der Trainingssatz stammt. Mit anderen Worten: Nach dem Training mit dem Trainingssatz wird mithilfe der Neuheitserkennung ermittelt, ob ein neues Beispiel (während der Inferenz oder während des zusätzlichen Trainings) ein Ausreißer ist.

Im Gegensatz zur Ausreißererkennung.

numerische Daten

#fundamentals

Features, die als Ganzzahlen oder reelle Zahlen dargestellt werden. In einem Modell zur Immobilienbewertung wird die Größe eines Hauses (in Quadratfuß oder Quadratmetern) beispielsweise als numerische Daten dargestellt. Wenn ein Feature als numerische Daten dargestellt wird, haben die Werte des Features eine mathematische Beziehung zum Label. Das heißt, die Anzahl der Quadratmeter in einem Haus hat wahrscheinlich eine mathematische Beziehung zum Wert des Hauses.

Nicht alle Ganzzahldaten sollten als numerische Daten dargestellt werden. In einigen Teilen der Welt sind Postleitzahlen beispielsweise Ganzzahlen. Ganzzahlige Postleitzahlen sollten jedoch nicht als numerische Daten in Modellen dargestellt werden. Das liegt daran, dass eine Postleitzahl von 20000 nicht doppelt (oder halb) so effektiv ist wie eine Postleitzahl von 10.000. Außerdem korrelieren unterschiedliche Postleitzahlen zwar mit unterschiedlichen Immobilienwerten, wir können jedoch nicht davon ausgehen, dass Immobilien in der Postleitzahl 20000 doppelt so viel wert sind wie Immobilien in der Postleitzahl 10000. Postleitzahlen sollten stattdessen als kategorische Daten dargestellt werden.

Numerische Merkmale werden manchmal auch als kontinuierliche Merkmale bezeichnet.

NumPy

Eine Open-Source-Mathematikbibliothek, die effiziente arraybasierte Operationen in Python bietet. Pandas basiert auf NumPy.

O

Ziel

Ein Messwert, den Ihr Algorithmus optimieren soll.

Zielfunktion

Die mathematische Formel oder der Messwert, der mit einem Modell optimiert werden soll. Die Zielfunktion für die lineare Regression ist beispielsweise in der Regel der mittlere quadratische Verlust. Beim Training eines linearen Regressionsmodells wird daher der mittlere quadratische Verlust minimiert.

In einigen Fällen besteht das Ziel darin, die Zielfunktion zu maximieren. Wenn die Zielfunktion beispielsweise die Genauigkeit ist, besteht das Ziel darin, die Genauigkeit zu maximieren.

Siehe auch Verlust.

Schrägachsenprojektion

#df

In einem Entscheidungsbaum eine Bedingung, die mehr als ein Merkmal umfasst. Wenn beispielsweise „Höhe“ und „Breite“ beide Features sind, ist die folgende Bedingung eine indirekte Bedingung:

  height > width

Im Gegensatz zur Achsenausrichtungsbedingung.

offline

#fundamentals

Synonym für static.

Offlineinferenzen

#fundamentals

Ein Modell generiert eine Reihe von Vorhersagen und speichert diese dann im Cache. Apps können dann auf die abgeleitete Vorhersage aus dem Cache zugreifen, anstatt das Modell noch einmal auszuführen.

Angenommen, ein Modell generiert alle vier Stunden lokale Wettervorhersagen. Nach jeder Modellausführung speichert das System alle lokalen Wettervorhersagen im Cache. Wetter-Apps rufen die Vorhersagen aus dem Cache ab.

Offline-Inferenz wird auch als statische Inferenz bezeichnet.

Im Gegensatz zur Online-Inferenz.

One-Hot-Codierung

#fundamentals

Kategorische Daten als Vektor darstellen, wobei:

  • Ein Element ist auf „1“ gesetzt.
  • Alle anderen Elemente werden auf „0“ gesetzt.

Die One-Hot-Codierung wird häufig verwendet, um Strings oder Kennungen mit einer endlichen Anzahl möglicher Werte darzustellen. Angenommen, ein bestimmtes kategorisches Merkmal namens Scandinavia hat fünf mögliche Werte:

  • „Dänemark“
  • „Schweden“
  • „Norwegen“
  • „Finnland“
  • „Island“

Bei der One-Hot-Codierung könnten die fünf Werte so dargestellt werden:

country Vektor
„Dänemark“ 1 0 0 0 0
„Schweden“ 0 1 0 0 0
„Norwegen“ 0 0 1 0 0
„Finnland“ 0 0 0 1 0
„Island“ 0 0 0 0 1

Dank der One-Hot-Codierung kann ein Modell unterschiedliche Verbindungen basierend auf den fünf Ländern lernen.

Die Darstellung eines Merkmals als numerische Daten ist eine Alternative zur One-Hot-Codierung. Die skandinavischen Länder numerisch darzustellen, ist leider keine gute Wahl. Betrachten wir beispielsweise die folgende numerische Darstellung:

  • „Dänemark“ ist 0
  • „Schweden“ ist 1
  • „Norwegen“ ist 2
  • „Finnland“ ist 3
  • „Island“ ist 4

Bei der numerischen Codierung würde ein Modell die Rohzahlen mathematisch interpretieren und versuchen, anhand dieser Zahlen zu trainieren. Island ist jedoch nicht doppelt so groß (oder halb so groß) wie Norwegen, sodass das Modell zu einigen merkwürdigen Schlussfolgerungen kommen würde.

One-Shot-Lernen

Ein Ansatz des maschinellen Lernens, der häufig für die Objektklassifizierung verwendet wird und darauf ausgelegt ist, effektive Klassifikatoren aus einem einzigen Trainingsbeispiel zu lernen.

Weitere Informationen finden Sie unter Few-Shot-Lernen und Zero-Shot-Lernen.

One-Shot-Prompts

#language
#generativeAI

Ein Prompt mit einem Beispiel, das zeigt, wie das Large Language Model reagieren soll. Der folgende Prompt enthält beispielsweise ein Beispiel, in dem einem Large Language Model gezeigt wird, wie es eine Suchanfrage beantworten soll.

Teile eines Prompts Hinweise
Was ist die offizielle Währung des angegebenen Landes? Die Frage, die das LLM beantworten soll.
Frankreich: EUR Ein Beispiel:
Indien: Die tatsächliche Suchanfrage.

Vergleichen Sie One-Shot-Prompts mit den folgenden Begriffen:

one-vs.-all

#fundamentals

Bei einem Klassifizierungsproblem mit N Klassen besteht eine Lösung aus N separaten binären Klassifikatoren – ein binärer Klassifikator für jedes mögliche Ergebnis. Angenommen, Sie haben ein Modell, das Beispiele als tierisch, pflanzlich oder mineralisch klassifiziert. Eine Lösung vom Typ „Eins gegen alle“ würde dann die folgenden drei separaten binären Klassifikatoren bereitstellen:

  • Tier oder kein Tier
  • Gemüse oder kein Gemüse
  • Mineral oder nicht mineralisch

online

#fundamentals

Synonym für dynamisch.

Online-Inferenz

#fundamentals

On-Demand-Generierung von Vorhersagen Angenommen, eine App gibt eine Eingabe an ein Modell weiter und sendet eine Anfrage für eine Vorhersage. Ein System mit Online-Inferenz reagiert auf die Anfrage, indem es das Modell ausführt und die Vorhersage an die App zurückgibt.

Im Gegensatz zur Offline-Inferenz.

Operation (op)

#TensorFlow

In TensorFlow: Alle Vorgänge, die einen Tensor erstellen, manipulieren oder löschen. Bei der Matrixmultiplikation werden beispielsweise zwei Tensoren als Eingabe verwendet und ein Tensor als Ausgabe generiert.

Optax

Eine Bibliothek zur Gradientenverarbeitung und -optimierung für JAX. Optax erleichtert die Forschung, da es Bausteine bietet, die auf benutzerdefinierte Weise neu kombiniert werden können, um parametrische Modelle wie Deep Neural Networks zu optimieren. Weitere Zielvorhaben:

  • Lesbare, gut getestete und effiziente Implementierungen der Hauptkomponenten bereitstellen.
  • Produktivitätssteigerung durch die Möglichkeit, Low-Level-Inhalte in benutzerdefinierte Optimierer (oder andere Gradientenverarbeitungskomponenten) zu kombinieren.
  • Beschleunigte Einführung neuer Ideen, da jeder leicht einen Beitrag leisten kann.

optimizer

Eine bestimmte Implementierung des Gradientenabstiegsalgorithmus. Zu den beliebten Optimierern gehören:

  • AdaGrad, was für ADAptive GRADient descent steht.
  • Adam, was für ADAptive with Momentum steht.

Homogenitätsbias außerhalb der Gruppe

#fairness

Die Tendenz, Mitglieder einer Außengruppe bei Vergleichen von Einstellungen, Werten, Persönlichkeitsmerkmalen und anderen Merkmalen als ähnlicher zu betrachten als Mitglieder der eigenen Gruppe. In-Group bezieht sich auf Personen, mit denen Sie regelmäßig interagieren. Out-Group bezieht sich auf Personen, mit denen Sie nicht regelmäßig interagieren. Wenn Sie einen Datensatz erstellen, indem Sie Personen bitten, Attribute zu Außengruppen anzugeben, sind diese Attribute möglicherweise weniger differenziert und stereotypischer als Attribute, die Teilnehmer für Personen in ihrer eigenen Gruppe auflisten.

Lilliputaner könnten beispielsweise die Häuser anderer Lilliputaner sehr detailliert beschreiben und dabei kleine Unterschiede in Architekturstilen, Fenstern, Türen und Größen angeben. Dieselben Liliputaner könnten jedoch einfach erklären, dass alle Brobdingnagier in identischen Häusern leben.

Der Homogenitätsbias außerhalb der Gruppe ist eine Form des Gruppenattributionsbias.

Weitere Informationen finden Sie unter In-Group-Bias.

Ausreißererkennung

Das Identifizieren von Ausreißern in einem Trainingssatz.

Im Gegensatz zur Neuerkennung.

erkennen

Werte, die weit von den meisten anderen Werten entfernt sind. Im Bereich maschinelles Lernen gelten alle folgenden Werte als Ausreißer:

  • Eingabedaten, deren Werte um mehr als etwa drei Standardabweichungen vom Mittelwert abweichen.
  • Gewichte mit hohen absoluten Werten.
  • Die prognostizierten Werte liegen relativ weit von den tatsächlichen Werten entfernt.

Angenommen, widget-price ist ein Feature eines bestimmten Modells. Angenommen, der Mittelwert widget-price beträgt 7 € mit einer Standardabweichung von 1 €. Beispiele mit einem widget-price von 12 € oder 2 € würden daher als Ausreißer betrachtet, da sich jeder dieser Preise um fünf Standardabweichungen vom Mittelwert unterscheidet.

Außerhalb der Norm liegende Werte werden häufig durch Tippfehler oder andere Eingabefehler verursacht. In anderen Fällen sind Ausreißer keine Fehler. Werte, die fünf Standardabweichungen vom Mittelwert entfernt sind, sind zwar selten, aber kaum unmöglich.

Ausreißer verursachen häufig Probleme beim Modelltraining. Ausbrüche lassen sich so bewältigen.

Out-of-Bag-Bewertung (OOB-Bewertung)

#df

Ein Mechanismus zur Bewertung der Qualität eines Entscheidungsbaums, bei dem jeder Entscheidungsbaum anhand der Beispiele getestet wird, die nicht während des Trainings dieses Entscheidungsbaums verwendet wurden. Im folgenden Diagramm sehen Sie beispielsweise, dass das System jeden Entscheidungsbaum anhand von etwa zwei Dritteln der Beispiele trainiert und dann anhand des verbleibenden Drittels der Beispiele bewertet.

Ein Entscheidungswald mit drei Entscheidungsbäumen.
          Ein Entscheidungsbaum wird anhand von zwei Dritteln der Beispiele trainiert und dann wird das verbleibende Drittel für die Bewertung außerhalb des Trainings verwendet.
          Ein zweiter Entscheidungsbaum wird mit zwei Dritteln der Beispiele trainiert, die sich von den Beispielen des vorherigen Entscheidungsbaums unterscheiden. Für die Bewertung außerhalb des Trainingsdatensatzes wird dann ein anderes Drittel verwendet als beim vorherigen Entscheidungsbaum.

Die Out-of-Bag-Bewertung ist eine rechnungstechnisch effiziente und konservative Näherung an den Mechanismus der Kreuzvalidierung. Bei der Kreuzvalidierung wird für jede Kreuzvalidierungsrunde ein Modell trainiert (z. B. werden bei einer 10-fachen Kreuzvalidierung 10 Modelle trainiert). Bei der Bewertung außerhalb des Trainings wird ein einzelnes Modell trainiert. Da beim Bagging einige Daten während des Trainings von jedem Baum zurückgehalten werden, können diese Daten bei der OOB-Bewertung verwendet werden, um eine Kreuzvalidierung anzunähern.

Ausgabeebene

#fundamentals

Die „letzte“ Schicht eines neuronalen Netzwerks. Die Ausgabeschicht enthält die Vorhersage.

Die folgende Abbildung zeigt ein kleines tiefes neuronales Netzwerk mit einer Eingabeschicht, zwei verborgenen Schichten und einer Ausgabeschicht:

Ein neuronales Netzwerk mit einer Eingabeschicht, zwei verborgenen Schichten und einer Ausgabeschicht. Die Eingabeebene besteht aus zwei Elementen. Die erste verborgene Schicht besteht aus drei Neuronen und die zweite aus zwei. Die Ausgabeschicht besteht aus einem einzelnen Knoten.

Überanpassung

#fundamentals

Ein Modell erstellen, das so genau mit den Trainingsdaten übereinstimmt, dass es keine korrekten Vorhersagen für neue Daten treffen kann.

Regulierungsmittel können das Überanpassen reduzieren. Auch das Training mit einem großen und vielfältigen Trainingssatz kann die Überanpassung reduzieren.

Überabtastung

Wiederverwendung der Beispiele einer Minderheitsklasse in einem unausgewogenen Dataset, um einen ausgewogeneren Trainingssatz zu erstellen.

Angenommen, Sie haben ein binäres Klassifizierungsproblem,bei dem das Verhältnis der Mehrheitsklasse zur Minderheitsklasse 5.000:1 beträgt. Wenn der Datensatz eine Million Beispiele enthält, enthält er nur etwa 200 Beispiele der Minderheitenklasse. Das sind möglicherweise zu wenige Beispiele für eine effektive Modellierung. Um diesen Mangel zu beheben, können Sie diese 200 Beispiele mehrmals übermustern (wiederverwenden). So erhalten Sie möglicherweise genügend Beispiele für ein nützliches Training.

Achten Sie beim Übersampling darauf, dass es nicht zu einem Overfitting kommt.

Im Gegensatz zum Unterbelichten.

P

komprimierte Daten

Ein Ansatz, um Daten effizienter zu speichern.

Bei komprimierten Daten werden die Daten entweder in einem komprimierten Format oder auf eine andere Weise gespeichert, die einen effizienteren Zugriff ermöglicht. Bei komprimierten Daten wird die für den Zugriff erforderliche Speicher- und Rechenleistung minimiert, was zu einem schnelleren Training und einer effizienteren Modellinferenz führt.

Komprimierte Daten werden häufig mit anderen Techniken wie Datenerweiterung und Regelmäßigkeit kombiniert, um die Leistung von Modellen weiter zu verbessern.

pandas

#fundamentals

Eine spaltenorientierte Datenanalyse-API, die auf numpy basiert. Viele Frameworks für maschinelles Lernen, einschließlich TensorFlow, unterstützen Pandas-Datenstrukturen als Eingaben. Weitere Informationen finden Sie in der Pandas-Dokumentation.

Parameter

#fundamentals

Die Gewichte und Voreingenommenheiten, die ein Modell während des Trainings lernt. In einem linearen Regressionsmodell bestehen die Parameter beispielsweise aus dem Bias (b) und allen Gewichten (w1, w2 usw.) in der folgenden Formel:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Hyperparameter sind dagegen die Werte, die Sie (oder ein Hyperparameter-Abstimmungsdienst) dem Modell zur Verfügung stellen. Die Lernrate ist beispielsweise ein Hyperparameter.

Parametereffiziente Abstimmung

#language
#generativeAI

Eine Reihe von Techniken, mit denen ein großes vortrainiertes Sprachmodell (PLM) fein abgestimmt werden kann, was effizienter ist als eine vollständige Feinabstimmung. Bei der parametereffizienten Optimierung werden in der Regel deutlich weniger Parameter optimiert als bei der vollständigen Optimierung. Trotzdem wird in der Regel ein Large Language Model erstellt, das genauso gut (oder fast genauso gut) funktioniert wie ein Large Language Model, das durch vollständige Optimierung erstellt wurde.

Vergleichen Sie die parametereffiziente Abstimmung mit:

Die parametereffiziente Abstimmung wird auch als parametereffiziente Feinabstimmung bezeichnet.

Parameterserver (PS)

#TensorFlow

Ein Job, der die Parameter eines Modells in einer verteilten Umgebung im Blick behält.

Parameteraktualisierung

Anpassung der Parameter eines Modells während des Trainings, in der Regel innerhalb einer einzelnen Iteration des Gradientenabstiegs.

Partielle Ableitung

Eine Ableitung, bei der alle Variablen bis auf eine als konstant betrachtet werden. Die partielle Ableitung von f(x, y) nach x ist beispielsweise die Ableitung von f als Funktion von x allein (d. h. bei konstantem y). Bei der partiellen Ableitung von f nach x wird nur die Änderung von x berücksichtigt. Alle anderen Variablen in der Gleichung werden ignoriert.

Teilnahmeeffekt

#fairness

Synonym für Non-Response-Bias. Weitere Informationen finden Sie unter Stichprobenfehler.

Partitionierungsstrategie

Der Algorithmus, mit dem Variablen auf Parameterserver verteilt werden.

pass at k (pass@k)

Ein Messwert zur Bestimmung der Qualität von Code (z. B. Python), der von einem Large Language Model generiert wird. Genauer gesagt gibt „Pass bei k“ an, wie wahrscheinlich es ist, dass mindestens ein generierter Codeblock von k generierten Codeblöcken alle Einheitentests besteht.

Large Language Models haben oft Schwierigkeiten, guten Code für komplexe Programmierprobleme zu generieren. Softwareentwickler reagieren auf dieses Problem, indem sie das Large Language Model auffordern, mehrere (k) Lösungen für dasselbe Problem zu generieren. Anschließend testen Softwareentwickler jede der Lösungen mithilfe von Unit-Tests. Die Berechnung von „pass“ bei k hängt vom Ergebnis der Unit-Tests ab:

  • Wenn eine oder mehrere dieser Lösungen den Unit-Test bestehen, besteht der LLM diese Codegenerierungsaufgabe.
  • Wenn keine der Lösungen den Unit-Test besteht, scheitert der LLM bei dieser Codegenerierungsaufgabe.

Die Formel für den Durchgang bei k lautet:

$$\text{pass at k} = \frac{\text{total number of passes}} {\text{total number of challenges}}$$

Im Allgemeinen führen höhere Werte von k zu höheren „bei k“-Werten. Höhere Werte von k erfordern jedoch mehr Ressourcen für Large Language Models und Unit-Tests.

Pax

Ein Programmierframework, das für das Training von neuronalen Netzwerken Modellen entwickelt wurde, die so groß sind, dass sie mehrere TPU-Beschleunigerchips Slices oder Pods umfassen.

Pax basiert auf Flax, das auf JAX basiert.

Diagramm, das die Position von Pax im Software-Stack zeigt
          Pax basiert auf JAX. Pax selbst besteht aus drei Ebenen. Die unterste Schicht enthält TensorStore und Flax.
          Die mittlere Schicht enthält Optax und Flaxformer. Die oberste Schicht enthält die Praxis Modeling Library. Fiddle basiert auf Pax.

Perzeptron

Ein System (Hardware oder Software), das einen oder mehrere Eingabewerte entgegennimmt, eine Funktion auf die gewichtete Summe der Eingaben ausführt und einen einzelnen Ausgabewert berechnet. Beim maschinellen Lernen ist die Funktion in der Regel nichtlinear, z. B. ReLU, Sigmoid oder tanh. Im folgenden Beispiel wird die Sigmoidfunktion verwendet, um drei Eingabewerte zu verarbeiten:

$$f(x_1, x_2, x_3) = \text{sigmoid}(w_1 x_1 + w_2 x_2 + w_3 x_3)$$

In der folgenden Abbildung nimmt das Perzeptron drei Eingaben an, die jeweils durch ein Gewicht geändert werden, bevor sie in das Perzeptron gelangen:

Ein Perzeptron, das drei Eingaben nimmt, die jeweils mit separaten Gewichten multipliziert werden. Das Perzeptron gibt einen einzelnen Wert aus.

Perzeptronen sind die Neuronen in neuronalen Netzwerken.

Leistung

Überladener Begriff mit den folgenden Bedeutungen:

  • Die Standardbedeutung im Softwareentwicklungsprozess. Nämlich: Wie schnell (oder effizient) läuft diese Software?
  • Die Bedeutung im Zusammenhang mit maschinellem Lernen. Hier beantwortet die Leistung die folgende Frage: Wie korrekt ist dieses Modell? Das heißt: Wie gut sind die Vorhersagen des Modells?

Bewertung von Variablen durch Permutation

#df

Eine Art der Variablenbewertung, bei der die Zunahme des Vorhersagefehlers eines Modells nach der Permutation der Werte des Features bewertet wird. Die Permutationsvariablenbewertung ist ein modellunabhängiger Messwert.

Perplexity

Ein Maß dafür, wie gut ein Modell seine Aufgabe erfüllt. Angenommen, Sie sollen die ersten Buchstaben eines Wortes lesen, das ein Nutzer auf der Tastatur eines Smartphones eingibt, und eine Liste mit möglichen Wortvervollständigungen anbieten. Die Unklarheit, P, für diese Aufgabe entspricht ungefähr der Anzahl der Vermutungen, die Sie angeben müssen, damit Ihre Liste das tatsächliche Wort enthält, das der Nutzer eingeben möchte.

Die Unklarheit hängt so mit der Kreuzentropie zusammen:

$$P= 2^{-\text{cross entropy}}$$

Pipeline

Die Infrastruktur eines Algorithmus für maschinelles Lernen. Eine Pipeline umfasst das Erfassen der Daten, das Einfügen der Daten in Trainingsdateien, das Trainieren eines oder mehrerer Modelle und das Exportieren der Modelle in die Produktion.

Pipeline

#language

Eine Form der Modellparallelität, bei der die Verarbeitung eines Modells in aufeinanderfolgende Phasen unterteilt wird und jede Phase auf einem anderen Gerät ausgeführt wird. Während in einer Phase ein Batch verarbeitet wird, kann die vorherige Phase mit dem nächsten Batch arbeiten.

Weitere Informationen finden Sie unter gestuftes Training.

pjit

Eine JAX-Funktion, die Code auf mehrere Beschleunigerchips verteilt. Der Nutzer übergibt eine Funktion an pjit, die eine Funktion mit der entsprechenden Semantik zurückgibt, die jedoch in eine XLA-Berechnung kompiliert wird, die auf mehreren Geräten (z. B. GPUs oder TPU-Kerne) ausgeführt wird.

Mit pjit können Nutzer Berechnungen mithilfe des SPMD-Partitionierungstools ohne Neuschreiben aufteilen.

Seit März 2023 wurde pjit mit jit zusammengeführt. Weitere Informationen finden Sie unter Verteilte Arrays und automatische Parallelisierung.

PLM

#language
#generativeAI

Abkürzung für vortrainiertes Language Model.

pmap

Eine JAX-Funktion, die Kopien einer Eingabefunktion mit verschiedenen Eingabewerten auf mehreren zugrunde liegenden Hardwaregeräten (CPUs, GPUs oder TPUs) ausführt. pmap basiert auf SPMD.

policy

#rl

Bei der Verstärkungslernen ist die probabilistische Zuordnung eines Agenten von Zuständen zu Aktionen gemeint.

Pooling

#image

Reduzierung einer oder mehrerer Matrizen, die von einer früheren Convolutionsschicht erstellt wurden, auf eine kleinere Matrix. Beim Pooling wird in der Regel entweder der Maximal- oder der Durchschnittswert für den gesamten zusammengeführten Bereich ermittelt. Angenommen, wir haben die folgende 3 × 3-Matrix:

Die 3 × 3-Matrix [[5,3,1], [8,2,5], [9,4,3]].

Eine Pooling-Operation teilt diese Matrix wie eine konvolutionelle Operation in Scheiben auf und verschiebt diese konvolutionelle Operation dann um Schritte. Angenommen, der Pooling-Vorgang teilt die Convolutionsmatrix in 2 × 2 Scheiben mit einem Schritt von 1 × 1 auf. Wie das folgende Diagramm zeigt, werden vier Pooling-Vorgänge ausgeführt. Angenommen, bei jedem Pooling-Vorgang wird der maximale Wert der vier Werte in diesem Ausschnitt ausgewählt:

Die Eingabematrix ist 3 × 3 mit den Werten [[5,3,1], [8,2,5], [9,4,3]].
          Die linke obere 2 × 2-Untermatrix der Eingabematrix ist [[5,3], [8,2]]. Bei der Pooling-Operation links oben ergibt sich daher der Wert 8, das Maximum von 5, 3, 8 und 2. Die rechte obere 2 × 2-Untermatrix der Eingabematrix ist [[3,1], [2,5]]. Bei der Pooling-Operation rechts oben ergibt sich daher der Wert 5. Die untere linke 2 × 2-Untermatrix der Eingabematrix ist [[8,2], [9,4]]. Der Pooling-Vorgang unten links ergibt daher den Wert 9. Die untere rechte 2 × 2-Untermatrix der Eingabematrix ist [[2,5], [4,3]]. Der rechte untere Pooling-Vorgang ergibt daher den Wert 5. Zusammenfassend ergibt der Pooling-Vorgang die 2 × 2-Matrix [[8,5], [9,5]].

Mit dem Pooling wird die Translationsinvarianz in der Eingabematrix erzwungen.

Das Pooling für Bildverarbeitungsanwendungen wird auch als räumliches Pooling bezeichnet. In Zeitreihenanwendungen wird Pooling in der Regel als zeitliches Pooling bezeichnet. In informeller Weise wird Pooling oft als Subsampling oder Downsampling bezeichnet.

Positionscodierung

#language

Ein Verfahren, mit dem Informationen zur Position eines Tokens in einer Sequenz in die Einbettung des Tokens eingefügt werden. Transformer-Modelle verwenden die Positionscodierung, um die Beziehung zwischen verschiedenen Teilen der Sequenz besser zu verstehen.

Eine gängige Implementierung der Positionscodierung verwendet eine Sinusfunktion. Insbesondere werden die Frequenz und Amplitude der Sinusfunktion durch die Position des Tokens in der Sequenz bestimmt. Mit dieser Technik kann ein Transformer-Modell lernen, je nach Position auf unterschiedliche Teile der Sequenz zu achten.

Positive Klasse

#fundamentals

Die Klasse, für die Sie testen.

Die positive Klasse in einem Krebsmodell könnte beispielsweise „Tumor“ sein. Die positive Klasse in einem E-Mail-Klassifikator könnte „Spam“ sein.

Im Gegensatz zur negativen Klasse.

Nachbearbeitung

#fairness
#fundamentals

Die Ausgabe eines Modells nach der Ausführung anpassen. Mit der Nachbearbeitung können Fairness-Einschränkungen erzwungen werden, ohne die Modelle selbst zu ändern.

So kann beispielsweise eine Nachbearbeitung auf einen binären Klassifikator angewendet werden, indem ein Klassifizierungsgrenzwert festgelegt wird, der für ein bestimmtes Attribut die Gleichbehandlung aufrechterhält. Dazu wird geprüft, ob die Rate der wahren positiven Ergebnisse für alle Werte dieses Attributs gleich ist.

Nach dem Training

#language
#image
#generativeAI

Weitgehend unscharfer Begriff, der in der Regel auf ein vortrainiertes Modell verweist, das einer Nachbearbeitung unterzogen wurde, z. B. einer oder mehreren der folgenden:

PR AUC (Fläche unter der PR-Kurve)

Fläche unter der interpolierten Genauigkeits-/Trefferquotenkurve, die durch Zeichnen von Punkten (Trefferquote, Genauigkeit) für verschiedene Werte des Klassifizierungsgrenzwerts erhalten wird.

Praxis

Eine zentrale, leistungsstarke ML-Bibliothek von Pax. Praxis wird oft als „Ebenenbibliothek“ bezeichnet.

Praxis enthält nicht nur die Definitionen für die Layer-Klasse, sondern auch die meisten unterstützenden Komponenten, darunter:

Praxis stellt die Definitionen für die Model-Klasse bereit.

Precision

Messwert für Klassifizierungsmodelle, der die folgende Frage beantwortet:

Wie hoch war der Prozentsatz der korrekten Vorhersagen, als das Modell die positive Klasse vorhersagte?

Hier ist die Formel:

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

Dabei gilt:

  • „Richtig positiv“ bedeutet, dass das Modell die positive Klasse richtig vorhergesagt hat.
  • „Falsch positiv“ bedeutet, dass das Modell die positive Klasse fälschlicherweise vorhergesagt hat.

Angenommen, ein Modell hat 200 positive Vorhersagen getroffen. Von diesen 200 positiven Vorhersagen:

  • 150 waren richtig positiv.
  • 50 davon waren falsch positive Ergebnisse.

In diesem Fall gilt:

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

Im Gegensatz zu Genauigkeit und Recall.

Weitere Informationen finden Sie unter Klassifizierung: Genauigkeit, Recall, Precision und zugehörige Messwerte.

Precision bei k (precision@k)

#language

Ein Messwert zur Auswertung einer sortierten (geordneten) Liste von Elementen. Die Genauigkeit bei k gibt den Anteil der ersten k Elemente in dieser Liste an, die „relevant“ sind. Das bedeutet:

\[\text{precision at k} = \frac{\text{relevant items in first k items of the list}} {\text{k}}\]

Der Wert von k muss kleiner oder gleich der Länge der zurückgegebenen Liste sein. Die Länge der zurückgegebenen Liste ist nicht Teil der Berechnung.

Die Relevanz ist oft subjektiv. Selbst erfahrene Bewerter sind sich oft nicht einig, welche Elemente relevant sind.

Vergleichen mit:

Precision-/Recall-Kurve

Eine Kurve der Genauigkeit im Vergleich zur Trefferquote bei verschiedenen Klassifizierungsgrenzwerten.

Vorhersage-

#fundamentals

Die Ausgabe eines Modells. Beispiel:

  • Die Vorhersage eines binären Klassifizierungsmodells ist entweder die positive oder die negative Klasse.
  • Die Vorhersage eines Klassifizierungsmodells mit mehreren Klassen bezieht sich auf eine Klasse.
  • Die Vorhersage eines linearen Regressionsmodells ist eine Zahl.

Prognosefehler

Ein Wert, der angibt, wie weit der Durchschnitt der Vorhersagen vom Durchschnitt der Labels im Dataset abweicht.

Nicht zu verwechseln mit dem Begriff „Bias“ in Machine-Learning-Modellen oder mit Voreingenommenheit in Bezug auf Ethik und Fairness.

Prognose-ML

Jedes standardmäßige (klassische) System für maschinelles Lernen

Der Begriff Prognoseorientierte KI hat keine formale Definition. Vielmehr unterscheidet der Begriff eine Kategorie von ML-Systemen, die nicht auf generativer KI basieren.

Prognoseparität

#fairness

Ein Fairness-Messwert, mit dem geprüft wird, ob die Genauigkeitsraten für einen bestimmten Klassifikator für die betrachteten Untergruppen gleich sind.

Ein Modell, das die Zulassung an einer Hochschule vorhersagt, erfüllt beispielsweise die Vorhersageparität für die Nationalität, wenn die Präzision für Lilliputaner und Brobdingnagier gleich ist.

Die Prognoseparität wird manchmal auch als Prognosepreisparität bezeichnet.

Eine ausführlichere Erläuterung der Vorhersageparität finden Sie unter Definitionen von Fairness (Abschnitt 3.2.1).

Prognosebasierte Preisparität

#fairness

Ein anderer Name für vorhersagende Parität.

Vorverarbeitung

#fairness
Daten werden verarbeitet, bevor sie zum Trainieren eines Modells verwendet werden. Die Vorverarbeitung kann so einfach sein wie das Entfernen von Wörtern aus einem englischen Textkorpus, die nicht im englischen Wörterbuch vorkommen, oder so komplex wie die Neuformulierung von Datenpunkten, um so viele Attribute wie möglich zu entfernen, die mit sensiblen Attributen korrelieren. Die Vorverarbeitung kann dazu beitragen, Fairnessvorgaben zu erfüllen.

vortrainiertes Modell

#language
#image
#generativeAI

Normalerweise ein Modell, das bereits trainiert wurde. Der Begriff kann auch einen zuvor trainierten Embedding-Vektor bezeichnen.

Der Begriff vortrainiertes Sprachmodell bezieht sich in der Regel auf ein bereits trainiertes Large Language Model.

Vortraining

#language
#image
#generativeAI

Das erste Training eines Modells mit einem großen Dataset. Einige vortrainierte Modelle sind sperrige Riesen und müssen in der Regel durch zusätzliches Training optimiert werden. So können ML-Experten beispielsweise ein Large Language Model mit einem riesigen Text-Dataset vortrainieren, z. B. mit allen englischsprachigen Seiten in Wikipedia. Nach dem Vortraining kann das resultierende Modell mithilfe einer der folgenden Methoden weiter optimiert werden:

A-priori-Glaube

Was Sie über die Daten wissen, bevor Sie mit dem Training beginnen. Bei der L2-Regularisierung wird beispielsweise davon ausgegangen, dass die Gewichte klein und normal um null herum verteilt sein sollten.

Probabilistisches Regressionsmodell

Ein Regressionsmodell, das nicht nur die Gewichte für jedes Attribut, sondern auch die Unsicherheit dieser Gewichte verwendet. Ein probabilistisches Regressionsmodell generiert eine Vorhersage und die Unsicherheit dieser Vorhersage. Ein probabilistisches Regressionsmodell könnte beispielsweise eine Vorhersage von 325 mit einer Standardabweichung von 12 liefern. Weitere Informationen zu probabilistischen Regressionsmodellen finden Sie in diesem Colab auf tensorflow.org.

Wahrscheinlichkeitsdichtefunktion

Eine Funktion, mit der die Häufigkeit von Datenstichproben ermittelt wird, die genau einen bestimmten Wert haben. Wenn die Werte eines Datensatzes kontinuierliche Gleitkommazahlen sind, kommt es selten zu genauen Übereinstimmungen. Wenn Sie jedoch eine Wahrscheinlichkeitsdichtefunktion von Wert x bis Wert y integrieren, erhalten Sie die erwartete Häufigkeit von Datenstichproben zwischen x und y.

Angenommen, Sie haben eine Normalverteilung mit einem Mittelwert von 200 und einer Standardabweichung von 30. Um die erwartete Häufigkeit von Stichproben im Bereich von 211,4 bis 218,7 zu bestimmen, können Sie die Wahrscheinlichkeitsdichtefunktion für eine Normalverteilung von 211,4 bis 218,7 integrieren.

prompt

#language
#generativeAI

Jeder Text, der als Eingabe in ein Large Language Model eingegeben wird, um das Modell auf eine bestimmte Weise zu steuern. Prompts können so kurz wie eine Wortgruppe oder beliebig lang sein (z. B. der gesamte Text eines Romans). Prompts lassen sich in mehrere Kategorien unterteilen, darunter die in der folgenden Tabelle aufgeführten:

Prompt-Kategorie Beispiel Hinweise
Frage Wie schnell kann eine Taube fliegen?
Anleitung Schreib ein lustiges Gedicht über Arbitrage. Ein Prompt, in dem das Large Language Model aufgefordert wird, etwas zu tun.
Beispiel Markdown-Code in HTML umwandeln. Beispiel:
Markdown: * Listenelement
HTML: <ul> <li>Listenelement</li> </ul>
Der erste Satz in diesem Beispiel ist eine Anweisung. Der Rest des Prompts ist das Beispiel.
Rolle Erläutern Sie einem Doktoranden in Physik, warum der Gradientenabstieg beim Training von Machine-Learning-Modellen verwendet wird. Der erste Teil des Satzes ist eine Anweisung; der Ausdruck „mit einem Doktortitel in Physik“ ist der Teil zur Rolle.
Teilweise Eingabe, die das Modell vervollständigen soll Der Premierminister des Vereinigten Königreichs wohnt unter folgender Adresse: Ein Prompt für die teilweise Eingabe kann entweder abrupt enden (wie in diesem Beispiel) oder mit einem Unterstrich.

Ein Modell für generative KI kann auf einen Prompt mit Text, Code, Bildern, Embeddings, Videos und so weiter reagieren.

Promptbasiertes Lernen

#language
#generativeAI

Eine Funktion bestimmter Modelle, die es ihnen ermöglicht, ihr Verhalten auf beliebige Texteingaben (Prompts) anzupassen. Bei einem typischen promptbasierten Lernparadigma antwortet ein Large Language Model auf einen Prompt, indem es Text generiert. Angenommen, ein Nutzer gibt den folgenden Prompt ein:

Fassen Sie das dritte Newtonsche Gesetz zusammen.

Ein Modell, das promptbasiertes Lernen unterstützt, ist nicht speziell darauf trainiert, den vorherigen Prompt zu beantworten. Vielmehr „weiß“ das Modell viele Fakten über die Physik, viele allgemeine Sprachregeln und viel darüber, was allgemein nützliche Antworten ausmacht. Dieses Wissen reicht aus, um eine (hoffentlich) nützliche Antwort zu geben. Durch zusätzliches Feedback von Menschen („Diese Antwort war zu kompliziert.“ oder „Was ist eine Reaktion?“) können einige promptbasierte Lernsysteme die Nützlichkeit ihrer Antworten nach und nach verbessern.

Prompt-Design

#language
#generativeAI

Synonym für Prompt Engineering.

Prompt Engineering

#language
#generativeAI

Die Kunst, Prompts zu erstellen, die die gewünschten Antworten aus einem Large Language Model hervorrufen. Menschen führen Prompt Engineering aus. Gut strukturierte Prompts sind wichtig, um nützliche Antworten von einem Large Language Model zu erhalten. Die Prompt-Entwicklung hängt von vielen Faktoren ab, darunter:

  • Das Dataset, das zum Vortrainieren und gegebenenfalls zur Feinabstimmung des Large Language Models verwendet wird.
  • Die Temperatur und andere Dekodierungsparameter, die das Modell zum Generieren von Antworten verwendet.

Weitere Informationen zum Verfassen hilfreicher Prompts finden Sie unter Einführung in das Prompt-Design.

Prompt-Design ist ein Synonym für Prompt Engineering.

Prompt-Tuning

#language
#generativeAI

Ein parametereffizienter Tuning-Mechanismus, der ein „Präfix“ lernt, das dem tatsächlichen Prompt vorangestellt wird.

Eine Variante der Prompt-Optimierung, die manchmal als Präfix-Optimierung bezeichnet wird, besteht darin, das Präfix vor jeder Ebene einzufügen. Bei der meisten Prompt-Optimierung wird der Eingabeebene dagegen nur ein Präfix hinzugefügt.

Proxy (sensible Attribute)

#fairness
Ein Attribut, das als Ersatz für ein sensibles Attribut verwendet wird. So kann beispielsweise die Postleitzahl einer Person als Proxy für ihr Einkommen, ihre ethnische Zugehörigkeit oder ihre ethnische Herkunft verwendet werden.

Proxy-Labels

#fundamentals

Daten, die zur Annäherung an Labels verwendet werden, die nicht direkt in einem Datensatz verfügbar sind.

Angenommen, Sie müssen ein Modell trainieren, um den Stresspegel von Mitarbeitern vorherzusagen. Ihr Dataset enthält viele prognostische Funktionen, aber kein Label mit dem Namen Stresslevel. Sie wählen „Unfälle am Arbeitsplatz“ als Proxy-Label für den Stresspegel aus. Mitarbeiter, die unter hohem Stress stehen, erleiden schließlich mehr Unfälle als ruhige Mitarbeiter. Oder doch? Vielleicht steigen und sinken die Unfälle am Arbeitsplatz aus mehreren Gründen.

Angenommen, Sie möchten Regnet es? als boolesche Kennzeichnung für Ihren Datensatz verwenden, dieser enthält aber keine Niederschlagsdaten. Wenn Fotos verfügbar sind, können Sie Bilder von Personen mit Regenschirmen als Proxylabel für Regnet es? festlegen. Ist das ein gutes Proxy-Label? Möglicherweise. In einigen Kulturen tragen Menschen jedoch eher einen Regenschirm, um sich vor der Sonne zu schützen, als vor dem Regen.

Proxy-Labels sind oft unvollständig. Wählen Sie nach Möglichkeit tatsächliche Labels anstelle von Proxy-Labels aus. Wenn kein tatsächliches Label vorhanden ist, wählen Sie das Proxylabel jedoch sehr sorgfältig aus. Wählen Sie das am wenigsten schlimme Proxylabel aus.

reine Funktion

Eine Funktion, deren Ausgabe nur von den Eingaben abhängt und keine Nebenwirkungen hat. Insbesondere verwendet oder ändert eine reine Funktion keinen globalen Status, z. B. den Inhalt einer Datei oder den Wert einer Variablen außerhalb der Funktion.

Mit reinen Funktionen können Sie threadsicheren Code erstellen, was beim Sharding von Modell-Code auf mehrere Beschleunigerchips von Vorteil ist.

Für die Funktionsweise der JAX-Funktionstransformationsmethoden ist es erforderlich, dass die Eingabefunktionen reine Funktionen sind.

Q

Q-Funktion

#rl

Im Lernen mit Verstärkung ist dies die Funktion, die den erwarteten Rückkehr vorhersagt, der sich aus der Ausführung einer Aktion in einem Zustand ergibt und der dann einer bestimmten Richtlinie folgt.

Die Q-Funktion wird auch als Zustands-Aktion-Wertfunktion bezeichnet.

Q-Lernen

#rl

Beim Verstärkungslernen ist ein Algorithmus, mit dem ein Agent die optimale Q-Funktion eines Markov-Entscheidungsprozesses durch Anwenden der Bellman-Gleichung lernen kann. Der Markov-Entscheidungsprozess modelliert eine Umgebung.

Quantil

Jeder Bucket bei der Quantil-Bucket-Methode

Quantil-Bucketing

Die Werte eines Features in Buckets verteilen, sodass jeder Bucket dieselbe (oder fast dieselbe) Anzahl von Beispielen enthält. In der folgenden Abbildung werden beispielsweise 44 Punkte in 4 Buckets unterteilt, die jeweils 11 Punkte enthalten. Damit jeder Bucket in der Abbildung dieselbe Anzahl von Punkten enthält, haben einige unterschiedliche Breite.

44 Datenpunkte, aufgeteilt in 4 Buckets mit jeweils 11 Punkten.
          Obwohl jeder Bucket dieselbe Anzahl von Datenpunkten enthält, enthalten einige Bucket einen größeren Bereich von Merkmalwerten als andere.

Quantisierung

Überladener Begriff, der auf folgende Arten verwendet werden kann:

  • Implementieren von Quantil-Bucketing für ein bestimmtes Attribut
  • Daten in Nullen und Einsen umwandeln, um sie schneller zu speichern, zu trainieren und zu inferieren. Da boolesche Daten im Vergleich zu anderen Formaten robuster gegen Rauschen und Fehler sind, kann die Quantisierung die Richtigkeit des Modells verbessern. Zu den Quantisierungstechniken gehören Rundung, Kürzung und Binärcodierung.
  • Verringerung der Anzahl der Bits, die zum Speichern der Parameter eines Modells verwendet werden. Angenommen, die Parameter eines Modells werden als 32-Bit-Gleitkommazahlen gespeichert. Bei der Quantisierung werden diese Parameter von 32 Bit auf 4, 8 oder 16 Bit reduziert. Durch die Quantisierung werden folgende Werte reduziert:

    • Rechenleistung, Arbeitsspeicher, Laufwerk und Netzwerknutzung
    • Zeit, um eine Vorhersage abzuleiten
    • Stromstärke

    Durch die Quantisierung wird jedoch manchmal die Richtigkeit der Vorhersagen eines Modells verringert.

Warteschlange

#TensorFlow

Ein TensorFlow-Vorgang, der eine Warteschlangendatenstruktur implementiert. Wird in der Regel in I/O verwendet.

R

RAG

#fundamentals

Abkürzung für Retrieval-Augmented Generation.

Random Forest

#df

Ein Ensemble von Entscheidungsbäumen, bei dem jeder Entscheidungsbaum mit einer bestimmten Zufallsstörung trainiert wird, z. B. Bagging.

Random Forests sind eine Art Entscheidungswald.

Zufallsrichtlinie

#rl

Beim Verstärkungslernen eine Richtlinie, die eine Aktion zufällig auswählt.

Rang (Ordnung)

Die Ordinalposition einer Klasse in einem Problem des maschinellen Lernens, bei dem Klassen von der höchsten zur niedrigsten kategorisiert werden. Ein Verhaltensbewertungssystem könnte beispielsweise die Belohnungen eines Hundes von der höchsten (ein Steak) bis zur niedrigsten (verwelkter Grünkohl) einstufen.

Rang (Tensor)

#TensorFlow

Die Anzahl der Dimensionen in einem Tensor. Beispielsweise hat ein Skalar den Rang 0, ein Vektor den Rang 1 und eine Matrix den Rang 2.

Nicht zu verwechseln mit dem Rang (Ordnung).

Ranking

Eine Art von überwachtem Lernen, bei dem eine Liste von Elementen sortiert werden soll.

Bewerter

#fundamentals

Eine Person, die Labels für Beispiele bereitstellt. „Bearbeiter“ ist ein anderer Name für die Bewerter.

Rückruf

Messwert für Klassifizierungsmodelle, der die folgende Frage beantwortet:

Wenn die Grundwahrheit die positive Klasse war, welcher Prozentsatz der Vorhersagen wurde vom Modell korrekt als positive Klasse identifiziert?

Hier ist die Formel:

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

Dabei gilt:

  • „Richtig positiv“ bedeutet, dass das Modell die positive Klasse richtig vorhergesagt hat.
  • „Falsch negativ“ bedeutet, dass das Modell fälschlicherweise die negative Klasse vorhergesagt hat.

Angenommen, Ihr Modell hat 200 Vorhersagen für Beispiele gemacht, bei denen die Grundwahrheit die positive Klasse war. Von diesen 200 Vorhersagen:

  • 180 waren richtig positiv.
  • 20 waren falsch negativ.

In diesem Fall gilt:

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

Weitere Informationen finden Sie unter Klassifizierung: Genauigkeit, Recall, Precision und zugehörige Messwerte.

Recall bei k (recall@k)

#language

Ein Messwert zur Bewertung von Systemen, die eine sortierte (geordnete) Liste von Elementen ausgeben. Der Recall bei k gibt den Anteil der relevanten Elemente in den ersten k Elementen dieser Liste an, bezogen auf die Gesamtzahl der zurückgegebenen relevanten Elemente.

\[\text{recall at k} = \frac{\text{relevant items in first k items of the list}} {\text{total number of relevant items in the list}}\]

Im Gegensatz zur Precision bei k.

Empfehlungssystem

#recsystems

Ein System, das für jeden Nutzer eine relativ kleine Gruppe von gewünschten Elementen aus einem großen Korpus auswählt. Ein Empfehlungssystem für Videos könnte beispielsweise zwei Videos aus einem Korpus von 100.000 Videos empfehlen und dabei für einen Nutzer Casablanca und The Philadelphia Story und für einen anderen Wonder Woman und Black Panther auswählen. Ein Empfehlungssystem für Videos kann seine Empfehlungen auf Faktoren wie die folgenden stützen:

  • Filme, die ähnliche Nutzer bewertet oder angesehen haben.
  • Genre, Regisseure, Schauspieler, demografische Zielgruppe…

Rectified Linear Unit (ReLU)

#fundamentals

Eine Aktivierungsfunktion mit folgendem Verhalten:

  • Wenn die Eingabe negativ oder null ist, ist die Ausgabe 0.
  • Wenn die Eingabe positiv ist, entspricht die Ausgabe der Eingabe.

Beispiel:

  • Wenn die Eingabe -3 ist, ist die Ausgabe 0.
  • Wenn die Eingabe +3 ist, ist die Ausgabe 3,0.

Hier ist ein Plot von ReLU:

Ein kartesisches Diagramm mit zwei Linien. Die erste Linie hat einen konstanten y-Wert von 0 und verläuft entlang der x-Achse von -∞,0 bis 0,-0.
          Die zweite Linie beginnt bei 0,0. Diese Linie hat eine Steigung von +1 und verläuft daher von 0,0 bis +unendlich,+unendlich.

ReLU ist eine sehr beliebte Aktivierungsfunktion. Trotz seines einfachen Verhaltens ermöglicht ReLU einem neuronalen Netzwerk, nichtlineare Beziehungen zwischen Features und dem Label zu lernen.

Recurrent Neural Network (RNN)

#seq

Ein neuronales Netzwerk, das absichtlich mehrmals ausgeführt wird, wobei Teile jeder Ausführung in die nächste Ausführung einfließen. Insbesondere stellen versteckte Schichten aus dem vorherigen Durchlauf einen Teil der Eingabe für dieselbe versteckte Schicht im nächsten Durchlauf bereit. Recurrent Neural Networks sind besonders nützlich für die Auswertung von Sequenzen, da die verborgenen Schichten aus früheren Ausführungen des neuronalen Netzwerks in früheren Teilen der Sequenz lernen können.

Die folgende Abbildung zeigt beispielsweise ein rekursives neuronales Netzwerk, das viermal ausgeführt wird. Die in den verborgenen Schichten aus dem ersten Durchlauf gelernten Werte werden beim zweiten Durchlauf als Eingabe für dieselben verborgenen Schichten verwendet. Ähnlich werden die in der verborgenen Schicht beim zweiten Durchlauf gelernten Werte Teil der Eingabe für dieselbe verborgene Schicht beim dritten Durchlauf. So trainiert und prognostiziert das rekursive neuronale Netzwerk nach und nach die Bedeutung der gesamten Sequenz und nicht nur die Bedeutung einzelner Wörter.

Ein RNN, das viermal ausgeführt wird, um vier Eingabewörter zu verarbeiten.

Referenztext

#language
#generativeAI

Die Antwort eines Experten auf einen Prompt. Angenommen, Sie erhalten den folgenden Prompt:

Übersetzen Sie die Frage „Wie heißen Sie?“ vom Englischen ins Französische.

Eine Antwort eines Experten könnte so lauten:

Comment vous appelez-vous?

Mit verschiedenen Messwerten wie ROUGE wird der Grad gemessen, in dem der Referenztext mit dem generierten Text eines ML-Modells übereinstimmt.

Regressionsmodell

#fundamentals

Ein Modell, das eine numerische Vorhersage generiert. Ein Klassifizierungsmodell generiert dagegen eine Klassenvorhersage. Beispiele für Regressionsmodelle:

  • Ein Modell, das den Wert eines bestimmten Hauses in Euro vorhersagt,z. B. 423.000.
  • Ein Modell, das die Lebenserwartung eines bestimmten Baums in Jahren vorhersagt, z. B. 23,2.
  • Ein Modell, das die Regenmenge in Zentimetern vorhersagt, die in einer bestimmten Stadt in den nächsten sechs Stunden fallen wird, z. B. 0,18.

Zwei gängige Arten von Regressionsmodellen sind:

  • Lineare Regression: Hiermit wird die Linie ermittelt, die Labelwerte am besten den Features zuordnet.
  • Logistische Regression: Hier wird eine Wahrscheinlichkeit zwischen 0,0 und 1,0 generiert, die ein System dann in der Regel einer Klassenvorhersage zuordnet.

Nicht jedes Modell, das numerische Vorhersagen liefert, ist ein Regressionsmodell. In einigen Fällen ist eine numerische Vorhersage lediglich ein Klassifizierungsmodell mit numerischen Klassennamen. Ein Modell, mit dem beispielsweise eine numerische Postleitzahl vorhergesagt wird, ist ein Klassifizierungsmodell und kein Regressionsmodell.

Regularisierung

#fundamentals

Jeder Mechanismus, der Überanpassung reduziert. Zu den gängigen Arten der Regularisierung gehören:

Eine Regularisierung kann auch als Strafe für die Komplexität eines Modells definiert werden.

Regularisierungsrate

#fundamentals

Eine Zahl, die die relative Bedeutung der Regulierbarkeit während des Trainings angibt. Wenn Sie die Regularisierungsrate erhöhen, wird die Überanpassung reduziert, aber die Vorhersagekraft des Modells kann sinken. Wenn Sie die Regularisierungsrate hingegen reduzieren oder weglassen, steigt die Überanpassung.

Reinforcement Learning (RL)

#rl

Eine Familie von Algorithmen, die eine optimale Richtlinie lernen, mit dem Ziel, den Ertrag bei der Interaktion mit einer Umgebung zu maximieren. In den meisten Spielen ist der Sieg beispielsweise die ultimative Belohnung. Systeme für die Verstärkungslernen können Experten im Spielen komplexer Spiele werden, indem sie Sequenzen früherer Spielzüge auswerten, die letztendlich zu Siegen und Sequenzen geführt haben, die letztendlich zu Niederlagen geführt haben.

Bestärkendes Lernen durch menschliches Feedback (RLHF)

#generativeAI
#rl

Feedback von menschlichen Bewertern nutzen, um die Qualität der Antworten eines Modells zu verbessern. Ein RLHF-Mechanismus kann Nutzer beispielsweise bitten, die Qualität der Antwort eines Modells mit einem 👍 oder 👎-Emoji zu bewerten. Das System kann dann seine zukünftigen Antworten anhand dieses Feedbacks anpassen.

ReLU

#fundamentals

Abkürzung für Rectified Linear Unit (Rektifizierte lineare Einheit).

Replay-Buffer

#rl

In DQN-ähnlichen Algorithmen ist das der Speicher, den der Agent zum Speichern von Zustandsübergängen für die Verwendung in der Erlebniswiederholung verwendet.

Replikat

Eine Kopie des Trainingsdatensatzes oder Modells, normalerweise auf einem anderen Computer. Ein System könnte beispielsweise die folgende Strategie für die Implementierung von Datenparallelismus verwenden:

  1. Repliken eines vorhandenen Modells auf mehreren Maschinen platzieren
  2. Senden Sie verschiedene Teilmengen des Trainingssatzes an jedes Replikat.
  3. Fassen Sie die Aktualisierungen der Parameter zusammen.

Berichterhebungsverzerrung

#fairness

Die Tatsache, dass die Häufigkeit, mit der Menschen über Handlungen, Ergebnisse oder Eigenschaften schreiben, nicht ihre tatsächliche Häufigkeit widerspiegelt oder den Grad, in dem eine Eigenschaft für eine Gruppe von Personen charakteristisch ist. Verzerrungen bei der Berichterstellung können die Zusammensetzung der Daten beeinflussen, aus denen Systeme für maschinelles Lernen lernen.

In Büchern ist beispielsweise das Wort lachte häufiger zu finden als atmete. Ein Modell für maschinelles Lernen, das die relative Häufigkeit von Lachen und Atmen anhand eines Buchkorpus schätzt, würde wahrscheinlich feststellen, dass Lachen häufiger vorkommt als Atmen.

Darstellung

Das Zuordnen von Daten zu nützlichen Elementen.

Neubewertung

#recsystems

Die letzte Phase eines Empfehlungssystems, in der bewertete Elemente nach einem anderen Algorithmus (in der Regel nicht ML) neu bewertet werden können. Bei der Neubewertung wird die Liste der Elemente, die in der Phase Bewertung generiert wurden, anhand der folgenden Kriterien neu bewertet:

  • Elemente entfernen, die der Nutzer bereits gekauft hat.
  • Die Bewertung aktuellerer Artikel wird erhöht.

Retrieval-Augmented Generation (RAG)

#fundamentals

Eine Methode zur Verbesserung der Qualität der Ausgabe eines Large Language Models (LLM), indem sie mit Wissensquellen fundiert wird, die nach dem Training des Modells abgerufen wurden. RAG verbessert die Genauigkeit von LLM-Antworten, indem es dem trainierten LLM Zugriff auf Informationen gewährt, die aus vertrauenswürdigen Wissensdatenbanken oder Dokumenten abgerufen werden.

Häufige Gründe für die Verwendung der Retrieval-Augmented Generation sind:

  • Die Faktenrichtigkeit der generierten Antworten eines Modells verbessern.
  • Dem Modell Zugriff auf Wissen gewähren, mit dem es nicht trainiert wurde.
  • Ändern des Wissens, das vom Modell verwendet wird.
  • Das Modell kann Quellen zitieren.

Angenommen, eine Chemie-App verwendet die PaLM API, um Zusammenfassungen zu Nutzeranfragen zu generieren. Wenn das Backend der App eine Anfrage empfängt, geschieht Folgendes:

  1. Es wird nach Daten gesucht („abgerufen“), die für die Suchanfrage des Nutzers relevant sind.
  2. Fügen Sie der Suchanfrage des Nutzers die relevanten Chemiedaten hinzu („erweitern“).
  3. Hiermit wird das LLM angewiesen, eine Zusammenfassung basierend auf den angehängten Daten zu erstellen.

Zeilenumbruch

#rl

Beim Reinforcement Learning ist der Rückgabewert bei einer bestimmten Richtlinie und einem bestimmten Zustand die Summe aller Boni, die der Agent erwartet, wenn er der Richtlinie vom Zustand bis zum Ende der Episode folgt. Der Agent berücksichtigt die Verzögerung bei erwarteten Prämien, indem er die Prämien entsprechend den Statusübergängen rabattiert, die für den Erhalt der Prämie erforderlich sind.

Wenn der Rabattfaktor also \(\gamma\)ist und \(r_0, \ldots, r_{N}\)die Prämien bis zum Ende der Folge angibt, erfolgt die Rückgabeberechnung so:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

Prämie

#rl

Bei der Reinforcement Learning ist das numerische Ergebnis der Ausführung einer Aktion in einem Zustand, wie von der Umgebung definiert.

Höhenkamm-Regelung

Synonym für L2-Regularisierung. Der Begriff Ridge-Regulierungsmittel wird häufiger in rein statistischen Kontexten verwendet, während L2-Regulierungsmittel häufiger im Bereich des maschinellen Lernens verwendet wird.

RNN

#seq

Abkürzung für recurrent neural networks (wiederkehrende neuronale Netzwerke).

ROC-Kurve (Receiver Operating Curve)

#fundamentals

Ein Diagramm der Richtig-Positiv-Rate im Vergleich zur Falsch-Positiv-Rate für verschiedene Klassifizierungsschwellenwerte bei der binären Klassifizierung.

Die Form einer ROC-Kurve gibt Aufschluss darüber, wie gut ein binäres Klassifizierungsmodell positive von negativen Klassen unterscheiden kann. Angenommen, ein binäres Klassifizierungsmodell trennt alle negativen Klassen perfekt von allen positiven Klassen:

Eine Zahlenlinie mit 8 positiven Beispielen auf der rechten Seite und 7 negativen Beispielen auf der linken Seite.

Die ROC-Kurve für das vorherige Modell sieht so aus:

Eine ROC-Kurve. Die X-Achse ist die Rate falsch positiver Ergebnisse und die Y-Achse die Rate richtig positiver Ergebnisse. Die Kurve hat die Form eines umgekehrten L. Die Kurve beginnt bei (0.0,0.0) und geht direkt nach oben zu (0.0,1.0). Die Kurve verläuft dann von (0.0,1.0) nach (1.0,1.0).

Im Gegensatz dazu zeigt die folgende Abbildung die Rohwerte der logistischen Regression für ein schlechtes Modell, das negative Klassen nicht von positiven Klassen unterscheiden kann:

Eine Zahlenlinie, auf der positive Beispiele und negative Klassen vollständig vermischt sind.

Die ROC-Kurve für dieses Modell sieht so aus:

Eine ROC-Kurve, die eigentlich eine Gerade von (0,0,0) nach (1,0,1) ist.

In der Praxis trennen die meisten binären Klassifizierungsmodelle positive und negative Klassen zwar in gewissem Maße, aber in der Regel nicht perfekt. Eine typische ROC-Kurve liegt also irgendwo zwischen den beiden Extremen:

Eine ROC-Kurve. Die X-Achse ist die Rate falsch positiver Ergebnisse und die Y-Achse die Rate richtig positiver Ergebnisse. Die ROC-Kurve nähert sich einem wackeligen Bogen, der die Kompasspunkte von Westen nach Norden durchläuft.

Der Punkt auf einer ROC-Kurve, der (0,0; 1,0) am nächsten ist, identifiziert theoretisch den idealen Klassifizierungsgrenzwert. Es gibt jedoch mehrere andere reale Probleme, die die Auswahl des idealen Klassifizierungsgrenzwerts beeinflussen. Vielleicht sind falsch negative Ergebnisse beispielsweise viel schlimmer als falsch positive.

Mit dem numerischen Messwert AUC wird die ROC-Kurve in einem einzigen Gleitkommawert zusammengefasst.

Rollenaufforderungen

#language
#generativeAI

Optionaler Teil eines Prompts, mit dem eine Zielgruppe für die Antwort eines generativen KI-Modells angegeben wird. Ohne einen Rollen-Prompt liefert ein Large Language Model eine Antwort, die für die Person, die die Fragen stellt, nützlich sein kann oder auch nicht. Mit einem Rollen-Prompt kann ein Large Language Model auf eine Weise antworten, die für eine bestimmte Zielgruppe angemessener und hilfreicher ist. In den folgenden Prompts ist beispielsweise der Teil mit dem Rollenvorschlag fett formatiert:

  • Fassen Sie diesen Artikel für einen Doktoranden in Wirtschaftswissenschaften zusammen.
  • Beschreiben Sie die Funktionsweise der Gezeiten für ein zehnjähriges Kind.
  • Erläutern Sie die Finanzkrise von 2008. Sprechen Sie so, wie Sie es mit einem kleinen Kind oder einem Golden Retriever tun würden.

Stamm

#df

Der Startknoten (die erste Bedingung) in einem Entscheidungsbaum. In der Regel wird der Stammknoten in Diagrammen oben im Entscheidungsbaum platziert. Beispiel:

Ein Entscheidungsbaum mit zwei Bedingungen und drei Blättern Die Startbedingung (x > 2) ist die Wurzel.

Stammverzeichnis

#TensorFlow

Das Verzeichnis, das Sie zum Hosten von Unterverzeichnissen der TensorFlow-Prüfpunkt- und Ereignisdateien mehrerer Modelle angeben.

Wurzel der mittleren Fehlerquadratsumme (RMSE)

#fundamentals

Die Quadratwurzel der mittleren quadratischen Abweichung.

Rotationsinvarianz

#image

Bei einem Problem der Bildklassifizierung die Fähigkeit eines Algorithmus, Bilder auch dann erfolgreich zu klassifizieren, wenn sich die Ausrichtung des Bildes ändert. So kann der Algorithmus beispielsweise einen Tennisschläger erkennen, unabhängig davon, ob er nach oben, zur Seite oder nach unten zeigt. Die Drehungsinvarianz ist jedoch nicht immer wünschenswert. Eine umgedrehte 9 sollte beispielsweise nicht als 9 klassifiziert werden.

Weitere Informationen finden Sie unter Translationsinvarianz und Größeinvarianz.

ROUGE (Recall-Oriented Understudy for Gisting Evaluation)

#language

Eine Reihe von Messwerten zur Bewertung von Modellen für automatische Zusammenfassungen und maschinelle Übersetzung. Mit ROUGE-Messwerten wird der Grad bestimmt, in dem ein Referenztext mit dem generierten Text eines ML-Modells übereinstimmt. Jedes Mitglied der ROUGE-Familie misst Überschneidungen auf unterschiedliche Weise. Je höher der ROUGE-Wert, desto ähnlicher sind der Referenztext und der generierte Text.

Für jedes Mitglied der ROUGE-Familie werden in der Regel die folgenden Messwerte generiert:

  • Precision
  • Recall
  • F1

Weitere Informationen und Beispiele finden Sie unter:

ROUGE-L

#language

Ein Mitglied der ROUGE-Familie, das sich auf die Länge der längsten gemeinsamen Untersequenz im Referenztext und im generierten Text konzentriert. Mit den folgenden Formeln werden Recall und Precision für ROUGE-L berechnet:

$$\text{ROUGE-L recall} = \frac{\text{longest common sequence}} {\text{number of words in the reference text} }$$
$$\text{ROUGE-L precision} = \frac{\text{longest common sequence}} {\text{number of words in the generated text} }$$

Mit F1 können Sie die ROUGE-L-Trefferquote und die ROUGE-L-Genauigkeit in einem einzigen Messwert zusammenfassen:

$$\text{ROUGE-L F} {_1} = \frac{\text{2} * \text{ROUGE-L recall} * \text{ROUGE-L precision}} {\text{ROUGE-L recall} + \text{ROUGE-L precision} }$$

Bei ROUGE-L werden alle Zeilenumbrüche im Referenztext und im generierten Text ignoriert. Die längste gemeinsame Untersequenz kann also mehrere Sätze umfassen. Wenn der Referenztext und der generierte Text mehrere Sätze enthalten, ist eine Variante von ROUGE-L namens ROUGE-Lsum in der Regel ein besserer Messwert. Bei ROUGE-Lsum wird die längste gemeinsame Untersequenz für jeden Satz in einem Abschnitt ermittelt und dann der Mittelwert dieser längsten gemeinsamen Untersequenzen berechnet.

ROUGE-N

#language

Eine Reihe von Messwerten innerhalb der ROUGE-Familie, mit denen die gemeinsamen N-Gramme einer bestimmten Größe im Referenztext und im generierten Text verglichen werden. Beispiel:

  • ROUGE-1 misst die Anzahl der gemeinsamen Tokens im Referenztext und im generierten Text.
  • ROUGE-2 misst die Anzahl der gemeinsamen Bigramme (2-Gramme) im Referenztext und im generierten Text.
  • ROUGE-3 misst die Anzahl der gemeinsamen Trigramme (3-Gramme) im Referenztext und im generierten Text.

Mit den folgenden Formeln können Sie die ROUGE-N-Wiedererkennungsrate und die ROUGE-N-Genauigkeit für jedes Mitglied der ROUGE-N-Familie berechnen:

$$\text{ROUGE-N recall} = \frac{\text{number of matching N-grams}} {\text{number of N-grams in the reference text} }$$
$$\text{ROUGE-N precision} = \frac{\text{number of matching N-grams}} {\text{number of N-grams in the generated text} }$$

Mit F1 können Sie die ROUGE-N-Trefferquote und die ROUGE-N-Genauigkeit zu einem einzigen Messwert zusammenfassen:

$$\text{ROUGE-N F}{_1} = \frac{\text{2} * \text{ROUGE-N recall} * \text{ROUGE-N precision}} {\text{ROUGE-N recall} + \text{ROUGE-N precision} }$$

ROUGE-S

#language

Eine fehlertolerante Form von ROUGE-N, die Skip-Gram-Abgleiche ermöglicht. Das heißt, bei ROUGE-N werden nur N-Gramme gezählt, die genau übereinstimmen. Bei ROUGE-S werden auch N-Gramme gezählt, die durch ein oder mehrere Wörter getrennt sind. Sie könnten beispielsweise Folgendes versuchen:

Bei der Berechnung von ROUGE-N stimmt das 2-Gramm Weiße Wolken nicht mit Weiße aufsteigende Wolken überein. Bei der Berechnung von ROUGE-S stimmt Weiße Wolken jedoch mit Weiße aufsteigende Wolken überein.

R-Quadrat

Ein Regressionsmesswert, der angibt, wie viel Abweichung bei einem Label auf ein einzelnes Feature oder einen Feature-Set zurückzuführen ist. R-Quadrat ist ein Wert zwischen 0 und 1, der folgendermaßen interpretiert werden kann:

  • Ein R-Quadrat von 0 bedeutet, dass keine Abweichungen eines Labels auf die Feature-Gruppe zurückzuführen sind.
  • Ein R-Quadrat von 1 bedeutet, dass die gesamte Varianz eines Labels auf die Feature-Gruppe zurückzuführen ist.
  • Ein R-Quadrat zwischen 0 und 1 gibt an, inwieweit die Abweichung des Labels anhand eines bestimmten Features oder des gesamten Feature-Sets vorhergesagt werden kann. Ein R-Quadrat von 0,10 bedeutet beispielsweise, dass 10 % der Abweichung im Label auf die Feature-Gruppe zurückzuführen sind. Ein R-Quadrat von 0,20 bedeutet, dass 20 % auf die Feature-Gruppe zurückzuführen sind.

Das Bestimmtheitsmaß ist das Quadrat des Pearson-Korrelationskoeffizienten zwischen den Werten, die ein Modell vorhergesagt hat, und der Ground Truth.

S

Stichprobenverzerrung

#fairness

Weitere Informationen finden Sie unter Stichprobenfehler.

Stichprobenerhebung mit Zurücklegen

#df

Eine Methode zum Auswählen von Elementen aus einer Gruppe von Kandidatenelementen, bei der dasselbe Element mehrmals ausgewählt werden kann. Der Ausdruck „mit Zurücklegen“ bedeutet, dass der ausgewählte Artikel nach jeder Auswahl in den Pool der Kandidatenelemente zurückgegeben wird. Bei der umgekehrten Methode, der Stichprobenerhebung ohne Zurücklegen, kann ein Element nur einmal ausgewählt werden.

Betrachten Sie beispielsweise die folgenden Früchte:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Angenommen, das System wählt fig als ersten Artikel aus. Bei der Stichprobenerhebung mit Zurücklegen wählt das System den zweiten Artikel aus dem folgenden Satz aus:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Ja, das ist derselbe Satz wie zuvor. Das System könnte also möglicherweise wieder fig auswählen.

Bei der Stichprobenerhebung ohne Zurücklegen kann eine Stichprobe nach der Auswahl nicht noch einmal ausgewählt werden. Wenn das System beispielsweise fig als erste Stichprobe zufällig auswählt, kann fig nicht noch einmal ausgewählt werden. Daher wählt das System das zweite Beispiel aus dem folgenden (reduzierten) Satz aus:

fruit = {kiwi, apple, pear, cherry, lime, mango}

SavedModel

#TensorFlow

Das empfohlene Format zum Speichern und Wiederherstellen von TensorFlow-Modellen. SavedModel ist ein sprachneutrales, wiederherstellbares Serialisierungsformat, mit dem Systeme und Tools auf höherer Ebene TensorFlow-Modelle erstellen, verwenden und transformieren können.

Ausführliche Informationen finden Sie im Abschnitt zum Speichern und Wiederherstellen des TensorFlow-Programmierhandbuchs.

Kostengünstig

#TensorFlow

Ein TensorFlow-Objekt, das für das Speichern von Modellprüfpunkten verantwortlich ist.

Skalar

Eine einzelne Zahl oder ein einzelner String, der als Tensor mit dem Rang 0 dargestellt werden kann. Mit den folgenden Codezeilen wird beispielsweise jeweils ein Skalar in TensorFlow erstellt:

breed = tf.Variable("poodle", tf.string)
temperature = tf.Variable(27, tf.int16)
precision = tf.Variable(0.982375101275, tf.float64)

Skalierung

Jede mathematische Transformation oder jedes Verfahren, mit dem der Bereich eines Labels und/oder eines Featurewerts verschoben wird. Einige Formen der Skalierung sind sehr nützlich für Transformationen wie die Normalisierung.

Zu den gängigen Formen der Skalierung, die im Bereich des maschinellen Lernens nützlich sind, gehören:

  • lineare Skalierung, bei der in der Regel eine Kombination aus Subtraktion und Division verwendet wird, um den ursprünglichen Wert durch eine Zahl zwischen −1 und +1 oder zwischen 0 und 1 zu ersetzen.
  • Logarithmische Skalierung, bei der der ursprüngliche Wert durch seinen Logarithmus ersetzt wird.
  • Z-Score-Normalisierung: Der ursprüngliche Wert wird durch einen Gleitkommawert ersetzt, der die Anzahl der Standardabweichungen vom Mittelwert dieses Merkmals darstellt.

scikit-learn

Eine beliebte Open-Source-Plattform für maschinelles Lernen. Weitere Informationen finden Sie unter scikit-learn.org.

Bewertung

#recsystems

Der Teil eines Empfehlungssystems, der für jeden Artikel, der in der Phase der Kandidatengenerierung erstellt wurde, einen Wert oder Rang liefert.

Auswahlverzerrung

#fairness

Fehler bei Schlussfolgerungen aus Stichprobendaten aufgrund eines Auswahlprozesses, der systematische Unterschiede zwischen in den Daten beobachteten und nicht beobachteten Stichproben erzeugt. Es gibt die folgenden Arten von Auswahlverzerrung:

  • Abdeckungsverzerrung: Die im Datensatz dargestellte Population stimmt nicht mit der Population überein, für die das maschinelle Lernmodell Vorhersagen trifft.
  • Stichprobenverzerrung: Die Daten werden nicht zufällig aus der Zielgruppe erhoben.
  • Nichtteilnahme-Bias (auch Teilnahme-Bias genannt): Nutzer bestimmter Gruppen nehmen in unterschiedlicher Häufigkeit an Umfragen teil als Nutzer anderer Gruppen.

Angenommen, Sie erstellen ein Machine-Learning-Modell, das vorhersagt, ob ein Film den Zuschauern gefallen wird. Um Trainingsdaten zu erheben, geben Sie allen Zuschauern in der ersten Reihe eines Kinos, in dem der Film gezeigt wird, einen Fragebogen aus. Auf den ersten Blick mag das wie eine vernünftige Methode zur Erhebung eines Datensatzes klingen. Diese Form der Datenerhebung kann jedoch zu den folgenden Formen von Auswahlverzerrung führen:

  • Abdeckungsverzerrung: Wenn Sie eine Stichprobe aus einer Population ziehen, die sich für den Film entschieden hat, lassen sich die Vorhersagen Ihres Modells möglicherweise nicht auf Personen übertragen, die sich nicht schon so sehr für den Film interessiert haben.
  • Stichprobenverzerrung: Anstatt eine zufällige Stichprobe aus der beabsichtigten Population (alle Kinobesucher) zu ziehen, haben Sie nur die Personen in der ersten Reihe befragt. Es ist möglich, dass die Leute in der ersten Reihe mehr am Film interessiert waren als die in anderen Reihen.
  • Nichterwiderung: Im Allgemeinen nehmen Personen mit ausgeprägten Meinungen häufiger an optionalen Umfragen teil als Personen mit weniger ausgeprägten Meinungen. Da die Filmumfrage optional ist, bilden die Antworten mit größerer Wahrscheinlichkeit eine bimodale Verteilung als eine normale (glockenförmige) Verteilung.

Selbstaufmerksamkeit (auch Selbstaufmerksamkeitslayer genannt)

#language

Eine neuronale Netzwerkschicht, die eine Sequenz von Einbettungen (z. B. Token-Embeddings) in eine andere Sequenz von Einbettungen umwandelt. Jede Einbettung in der Ausgabesequenz wird durch die Integration von Informationen aus den Elementen der Eingabesequenz über einen Aufmerksamkeitsmechanismus erstellt.

Der Begriff Selbst in Selbstaufmerksamkeit bezieht sich auf die Sequenz, die sich auf sich selbst und nicht auf einen anderen Kontext konzentriert. Die Selbstausrichtung ist einer der Hauptbausteine von Transformern und verwendet Wörterbuchsuchbegriffe wie „Abfrage“, „Schlüssel“ und „Wert“.

Eine Schicht mit Selbstaufmerksamkeit beginnt mit einer Sequenz von Eingabedarstellungen, eine für jedes Wort. Die Eingabedarstellung für ein Wort kann ein einfaches Einbettungsmodell sein. Für jedes Wort in einer Eingabesequenz bewertet das Netzwerk die Relevanz des Wortes für jedes Element in der gesamten Wortsequenz. Die Relevanzbewertungen geben an, inwieweit die endgültige Darstellung des Wortes die Darstellungen anderer Wörter enthält.

Betrachten Sie beispielsweise den folgenden Satz:

Das Tier hat die Straße nicht überquert, weil es zu müde war.

Die folgende Abbildung (aus Transformer: A Novel Neural Network Architecture for Language Understanding) zeigt das Aufmerksamkeitsmuster einer Schicht mit selbstausgerichteter Aufmerksamkeit für das Pronomen es. Die Dunkelheit der einzelnen Linien gibt an, wie viel jedes Wort zur Repräsentation beiträgt:

Der folgende Satz wird zweimal angezeigt: Das Tier hat die Straße nicht überquert, weil es zu müde war. Linien verbinden das Pronomen „es“ in einem Satz mit fünf Tokens („das“, „Tier“, „Straße“, „es“ und „den Punkt“) im anderen Satz.  Die Linie zwischen dem Pronomen „es“ und dem Wort „Tier“ ist am stärksten.

In der Selbstaufmerksamkeitsschicht werden Wörter hervorgehoben, die für „es“ relevant sind. In diesem Fall hat die Aufmerksamkeitsschicht gelernt, Wörter hervorzuheben, auf die es sich beziehen könnte. Dabei wird Tier das höchste Gewicht zugewiesen.

Bei einer Sequenz von n Tokens wird eine Sequenz von Einbettungen n Mal transformiert, einmal an jeder Position in der Sequenz.

Weitere Informationen finden Sie unter Aufmerksamkeit und Multi-Head-Selbstaufmerksamkeit.

Selbstüberwachtes Lernen

Eine Gruppe von Techniken zum Umwandeln eines Problems des unbeaufsichtigten maschinellen Lernens in ein Problem des überwachten maschinellen Lernens, indem Ersatz-Labels aus unbeschrifteten Beispielen erstellt werden.

Einige Transformer-basierte Modelle wie BERT nutzen das selbstüberwachte Lernen.

Das selbstüberwachte Training ist ein halbüberwachter Lernansatz.

Selbsttraining

Eine Variante des selbstüberwachten Lernens, die besonders nützlich ist, wenn alle folgenden Bedingungen erfüllt sind:

Beim selbständigen Training werden die folgenden beiden Schritte wiederholt, bis sich das Modell nicht mehr verbessert:

  1. Verwenden Sie überwachtes maschinelles Lernen, um ein Modell mit den gekennzeichneten Beispielen zu trainieren.
  2. Verwenden Sie das in Schritt 1 erstellte Modell, um Vorhersagen (Labels) für die nicht beschrifteten Beispiele zu generieren. Verschieben Sie die Beispiele mit hoher Wahrscheinlichkeit in die beschrifteten Beispiele mit dem vorhergesagten Label.

Beachten Sie, dass bei jeder Iteration von Schritt 2 weitere Labels für Schritt 1 hinzugefügt werden, anhand derer trainiert werden kann.

Halbüberwachtes Lernen

Ein Modell mit Daten trainieren, bei denen einige der Trainingsbeispiele Labels haben, andere aber nicht. Eine Methode für das semi-supervisede Lernen besteht darin, Labels für die nicht gekennzeichneten Beispiele abzuleiten und dann mit den abgeleiteten Labels zu trainieren, um ein neues Modell zu erstellen. Halbüberwachtes Lernen kann nützlich sein, wenn Labels teuer zu beschaffen sind, aber es viele Beispiele ohne Label gibt.

Selbstlernen ist eine Methode für das halbüberwachte Lernen.

sensible Attribute

#fairness
Eine menschliche Eigenschaft, die aus rechtlichen, ethischen, sozialen oder persönlichen Gründen besonders berücksichtigt wird.

Sentimentanalyse

#language

Die Gesamteinstellung einer Gruppe (positiv oder negativ) gegenüber einem Dienst, Produkt, einer Organisation oder einem Thema anhand statistischer oder Algorithmen für maschinelles Lernen bestimmen. Mithilfe von Natural Language Understanding könnte ein Algorithmus beispielsweise eine Sentimentanalyse des Textfeedbacks eines Hochschulkurses durchführen, um zu ermitteln, inwiefern der Kurs den Schülern im Allgemeinen gefallen hat oder nicht.

Sequenzmodell

#seq

Ein Modell, dessen Eingaben sequenziell voneinander abhängig sind. Beispielsweise kann anhand einer Sequenz zuvor angesehener Videos das nächste Video vorhergesagt werden.

Sequenz-zu-Sequenz-Aufgabe

#language

Eine Aufgabe, die eine Eingabesequenz von Tokens in eine Ausgabesequenz von Tokens umwandelt. Zwei gängige Arten von Sequenz-zu-Sequenz-Aufgaben sind beispielsweise:

  • Übersetzer:
    • Beispiel für eine Eingabesequenz: „Ich liebe dich.“
    • Beispiel für eine Ausgabesequenz: „Je t'aime.“
  • Fragebeantwortung:
    • Beispiel für eine Eingabesequenz: „Brauche ich mein Auto in New York City?“
    • Beispiel für eine Ausgabesequenz: „Nein. Bitte lassen Sie Ihr Auto stehen.“

Portion

Ein Verfahren, bei dem ein trainiertes Modell für Vorhersagen durch Online-Inferenz oder Offline-Inferenz verfügbar gemacht wird.

shape (Tensor)

Die Anzahl der Elemente in jeder Dimension eines Tensors. Die Form wird als Liste von Ganzzahlen dargestellt. Der folgende zweidimensionale Tensor hat beispielsweise die Form [3,4]:

[[5, 7, 6, 4],
 [2, 9, 4, 8],
 [3, 6, 5, 1]]

In TensorFlow wird die Reihenfolge der Dimensionen im Zeilen-nach-Vorgänger-Format (C-Format) dargestellt. Daher ist die Form in TensorFlow [3,4] und nicht [4,3]. Mit anderen Worten: Bei einem zweidimensionalen TensorFlow-Tensor ist die Form [Anzahl der Zeilen, Anzahl der Spalten].

Ein statischer Shape ist ein Tensor-Shape, das zur Kompilierungszeit bekannt ist.

Eine dynamische Form ist zur Kompilierungszeit unbekannt und daher von Laufzeitdaten abhängig. Dieser Tensor kann in TensorFlow mit einer Platzhalterdimension dargestellt werden, wie in [3, ?].

Shard

#TensorFlow
#GoogleCloud

Eine logische Aufteilung des Trainingsdatensatzes oder des Modells. Normalerweise werden Shards durch einen Prozess erstellt, bei dem die Beispiele oder Parameter in (in der Regel) gleich große Blöcke unterteilt werden. Jeder Shard wird dann einem anderen Computer zugewiesen.

Das Sharding eines Modells wird als Modellparallelität bezeichnet. Das Sharding von Daten wird als Datenparallelität bezeichnet.

Schrumpfung

#df

Ein Hyperparameter bei Gradient Boosting, der den Overfitting steuert. Die Schrumpfung bei der Gradientenverstärkung ist analog zur Lernrate beim Gradientenabstieg. Die Schrumpfung ist ein Dezimalwert zwischen 0,0 und 1,0. Ein niedrigerer Schrumpfungsfaktor reduziert das Überanpassen stärker als ein höherer Schrumpfungsfaktor.

Sigmoidfunktion

#fundamentals

Eine mathematische Funktion, die einen Eingabewert in einen begrenzten Bereich presst, in der Regel 0 bis 1 oder -1 bis +1. Das heißt, Sie können einer Sigmoide eine beliebige Zahl (z. B. 2, eine Million oder eine negative Milliarde) übergeben. Die Ausgabe liegt dann immer innerhalb des eingeschränkten Bereichs. Ein Diagramm der Sigmoid-Aktivierungsfunktion sieht so aus:

Ein zweidimensionaler gekrümmter Plot mit X-Werten von –unendlich bis +positiv, während die Y-Werte den Bereich von fast 0 bis fast 1 umfassen. Wenn x = 0 ist, ist y = 0,5. Die Steigung der Kurve ist immer positiv, wobei die höchste Steigung bei 0,05 liegt und die Steigung mit zunehmendem Absolutwert von x allmählich abnimmt.

Die Sigmoidfunktion hat mehrere Anwendungen im Bereich maschinelles Lernen, darunter:

Ähnlichkeitsmaß

#clustering

In Clustering-Algorithmen wird mit diesem Messwert bestimmt, wie ähnlich sich zwei Beispiele sind.

Single Program / Multiple Data (SPMD)

Ein Parallelisierungsverfahren, bei dem dieselbe Berechnung parallel auf verschiedenen Geräten mit unterschiedlichen Eingabedaten ausgeführt wird. Das Ziel von SPMD ist es, schneller Ergebnisse zu erzielen. Dies ist die gängigste Art der parallelen Programmierung.

Größeninvarianz

#image

Bei einem Problem der Bildklassifizierung die Fähigkeit eines Algorithmus, Bilder auch dann erfolgreich zu klassifizieren, wenn sich die Größe des Bildes ändert. Beispielsweise kann der Algorithmus eine Katze erkennen, unabhängig davon, ob sie 2 Millionen oder 200.000 Pixel einnimmt. Selbst die besten Algorithmen zur Bildklassifizierung haben praktische Grenzen bei der Größeninvarianz. Es ist beispielsweise unwahrscheinlich, dass ein Algorithmus (oder ein Mensch) ein Katzenbild mit nur 20 Pixeln richtig klassifizieren kann.

Siehe auch Translationsinvarianz und Rotationsinvarianz.

Skizzieren

#clustering

Unüberwachtes maschinelles Lernen: Eine Kategorie von Algorithmen, die eine vorläufige Ähnlichkeitsanalyse an Beispielen durchführen. Bei Skizzieralgorithmen wird eine lokalitätssensitive Hash-Funktion verwendet, um Punkte zu identifizieren, die wahrscheinlich ähnlich sind, und sie dann in Bucket zu gruppieren.

Durch das Skizzieren wird die für Ähnlichkeitsberechnungen bei großen Datensätzen erforderliche Rechenleistung reduziert. Anstatt die Ähnlichkeit für jedes Beispielpaar im Dataset zu berechnen, wird sie nur für jedes Punktpaar innerhalb jedes Buckets berechnet.

Skip-Gram

#language

Ein N-Gramm, das Wörter aus dem ursprünglichen Kontext auslassen (oder „überspringen“) kann, d. h., die N Wörter waren ursprünglich möglicherweise nicht nebeneinander. Genauer gesagt ist ein „k-Überspring-N-Gramm“ ein N-Gramm, bei dem bis zu k Wörter übersprungen wurden.

Für „der schnelle braune Fuchs“ gibt es beispielsweise die folgenden möglichen Zweigramme:

  • „der schnelle“
  • „quick brown“
  • „brauner Fuchs“

Ein „1-Skip-2-Gramm“ besteht aus zwei Wörtern, zwischen denen höchstens ein Wort liegt. Daher hat „der schnelle braune Fuchs“ die folgenden 2-Gramme mit einem Sprung:

  • „die braune“
  • „schneller Fuchs“

Außerdem sind alle Zwei-Gramme auch Ein-Übersprung-Zwei-Gramme, da weniger als ein Wort übersprungen werden kann.

Skip-Grams sind hilfreich, um den Kontext eines Wortes besser zu verstehen. Im Beispiel wurde „Fox“ im Satz der 1-Übersprung-2-Gramme direkt mit „quick“ verknüpft, aber nicht im Satz der 2-Gramme.

Skip-Grams helfen beim Trainieren von Wort-Embeddings.

Softmax-Funktion

#fundamentals

Eine Funktion, die Wahrscheinlichkeiten für jede mögliche Klasse in einem mehrklassigen Klassifizierungsmodell bestimmt. Die Wahrscheinlichkeiten summieren sich genau zu 1,0. In der folgenden Tabelle wird beispielsweise gezeigt, wie die Softmax-Funktion verschiedene Wahrscheinlichkeiten verteilt:

Das Bild ist eine… Probability
Hund 0,85
Cat .13
Pferd 0,02

Softmax wird auch als Full Softmax bezeichnet.

Im Gegensatz zur Kandidatenstichprobe.

Feinabstimmung von Prompts

#language
#generativeAI

Eine Methode zum Optimieren eines Large Language Models für eine bestimmte Aufgabe, ohne ressourcenintensive Feinabstimmung. Anstatt alle Gewichte im Modell neu zu trainieren, passt die Soft-Prompt-Optimierung automatisch einen Prompt an, um dasselbe Ziel zu erreichen.

Bei der weichen Prompt-Optimierung werden einem Textprompt in der Regel zusätzliche Token-Ebenen hinzugefügt und die Eingabe wird mithilfe der Backpropagation optimiert.

Ein „harter“ Prompt enthält tatsächliche Tokens anstelle von Token-Embeddings.

dünnbesetztes Feature

#language
#fundamentals

Eine Funktion, deren Werte überwiegend null oder leer sind. Ein Beispiel für ein solches Feature ist ein Feature mit einem einzelnen Wert „1“ und einer Million Nullwerte. Ein dichtes Merkmal hat dagegen Werte, die überwiegend nicht null oder leer sind.

Beim maschinellen Lernen sind eine überraschend große Anzahl von Merkmalen spärlich. Kategoriale Merkmale sind in der Regel spärliche Merkmale. Von den 300 möglichen Baumarten in einem Wald wird beispielsweise in einem einzigen Beispiel nur ein Ahorn identifiziert. Oder von den Millionen möglichen Videos in einer Videomediathek wird nur „Casablanca“ als Beispiel erkannt.

In einem Modell werden spärliche Merkmale in der Regel mit One-Hot-Codierung dargestellt. Wenn die One-Hot-Codierung groß ist, können Sie für mehr Effizienz eine Embedding-Ebene über die One-Hot-Codierung legen.

Sparse Darstellung

#language
#fundamentals

Es werden nur die Positionen der nicht nullwertigen Elemente in einem spärlichen Attribut gespeichert.

Angenommen, ein kategorisches Feature namens species gibt die 36 Baumarten in einem bestimmten Wald an. Angenommen, jedes Beispiel identifiziert nur eine einzige Art.

Sie könnten einen One-Hot-Vektor verwenden, um die Baumarten in jedem Beispiel darzustellen. Ein One-Hot-Vektor würde eine einzelne 1 (für die jeweilige Baumart in diesem Beispiel) und 35 0s (für die 35 Baumarten, die in diesem Beispiel nicht vorkommen) enthalten. Die One-Hot-Darstellung von maple könnte also so aussehen:

Ein Vektor, bei dem die Positionen 0 bis 23 den Wert 0, Position 24 den Wert 1 und die Positionen 25 bis 35 den Wert 0 haben.

Alternativ würde die spärliche Darstellung einfach die Position der jeweiligen Art angeben. Wenn maple an Position 24 steht, lautet die sparse Darstellung von maple einfach:

24

Die sparse Darstellung ist viel kompakter als die One-Hot-Darstellung.

dünn besetzten Vektor

#fundamentals

Ein Vektor, dessen Werte hauptsächlich Nullen sind. Weitere Informationen finden Sie unter sperriges Attribut und Sparsity.

dünne Besetzung

Die Anzahl der Elemente in einem Vektor oder einer Matrix, die auf Null gesetzt sind, geteilt durch die Gesamtzahl der Einträge in diesem Vektor oder dieser Matrix. Angenommen, Sie haben eine Matrix mit 100 Elementen, in der 98 Zellen den Wert 0 enthalten. Die Berechnung der Seltenheit erfolgt so:

$$ {\text{sparsity}} = \frac{\text{98}} {\text{100}} = {\text{0.98}} $$

Die Sparsity von Merkmalen bezieht sich auf die Sparsity eines Merkmalsvektors. Die Sparsity von Modellen bezieht sich auf die Sparsity der Modellgewichte.

räumliches Pooling

#image

Weitere Informationen finden Sie unter Pooling.

aufteilen

#df

In einem Entscheidungsbaum ein anderer Name für eine Bedingung.

Splitter

#df

Beim Training eines Entscheidungsbaums ist die Routine (und der Algorithmus) für die Ermittlung der besten Bedingung an jedem Knoten verantwortlich.

SPMD

Abkürzung für Single Program/Multiple Data (Einzelnes Programm/Mehrere Daten).

Quadratischer Scharnierverlust

Das Quadrat des Gliederverlusts. Beim quadratischen Achsenabstand werden Ausreißer stärker bestraft als beim regulären Achsenabstand.

Quadratische Abweichung

#fundamentals

Synonym für L2-Verlust.

Stufenweises Training

#language

Eine Taktik, bei der ein Modell in einer Abfolge von einzelnen Phasen trainiert wird. Das Ziel kann entweder darin bestehen, den Trainingsvorgang zu beschleunigen oder eine bessere Modellqualität zu erreichen.

Unten sehen Sie eine Abbildung des progressiven Stapelns:

  • Stufe 1 enthält 3 verborgene Schichten, Stufe 2 6 verborgene Schichten und Stufe 3 12 verborgene Schichten.
  • In Phase 2 beginnt das Training mit den Gewichten, die in den drei verborgenen Schichten von Phase 1 gelernt wurden. In Phase 3 beginnt das Training mit den Gewichten, die in den sechs verborgenen Schichten von Phase 2 gelernt wurden.

Drei Phasen, die als Phase 1, Phase 2 und Phase 3 gekennzeichnet sind.
          Jede Phase enthält eine andere Anzahl von Ebenen: Phase 1 enthält 3 Ebenen, Phase 2 enthält 6 Ebenen und Phase 3 enthält 12 Ebenen.
          Die drei Ebenen aus Phase 1 werden zu den ersten drei Ebenen von Phase 2.
          Die sechs Ebenen aus Phase 2 werden ebenfalls zu den ersten sechs Ebenen von Phase 3.

Weitere Informationen finden Sie unter Pipeline-Verarbeitung.

Bundesstaat

#rl

Bei der Verstärkungslernen sind das die Parameterwerte, die die aktuelle Konfiguration der Umgebung beschreiben, anhand derer der Agent eine Aktion auswählt.

Zustands-Aktion-Wertfunktion

#rl

Synonym für Q-Funktion.

statisch

#fundamentals

Eine Aktion, die nur einmal und nicht kontinuierlich ausgeführt wird. Die Begriffe statisch und offline werden synonym verwendet. Im Folgenden finden Sie einige gängige Anwendungsfälle für statische und offline im Bereich des Machine Learning:

  • Ein statisches Modell (oder Offlinemodell) ist ein Modell, das einmal trainiert und dann für eine Weile verwendet wird.
  • Beim statischen Training (oder Offlinetraining) wird ein statisches Modell trainiert.
  • Bei der statischen Inferenz (oder Offlineinferenz) generiert ein Modell jeweils einen Batch von Vorhersagen.

Im Gegensatz zu dynamisch.

Statische Inferenz

#fundamentals

Synonym für Offlineinferenzen.

Stationarität

#fundamentals

Ein Feature, dessen Werte sich in einer oder mehreren Dimensionen nicht ändern, in der Regel in Bezug auf die Zeit. Ein Beispiel für Stationarität ist ein Feature, dessen Werte 2021 und 2023 ungefähr gleich sind.

In der Praxis weisen nur sehr wenige Merkmale Stationarität auf. Selbst Merkmale, die für Stabilität stehen (z. B. der Meeresspiegel), ändern sich im Laufe der Zeit.

Im Gegensatz zur Nichtstationarität.

Schritt

Ein Vorwärts- und ein Rückwärtsdurchlauf eines Batches.

Weitere Informationen zum Vorwärts- und Rückwärtsdurchlauf finden Sie unter Backpropagation.

Schrittgröße

Synonym für Lernrate.

Stochastischer Gradientenabstieg (SGD)

#fundamentals

Ein Gradientenabstiegsalgorithmus, bei dem die Batchgröße 1 ist. Mit anderen Worten: SGD wird anhand eines einzelnen Beispiels trainiert, das nach dem Zufallsprinzip aus einem Trainingssatz ausgewählt wird.

Stride

#image

Bei einem Convolutional- oder Pooling-Vorgang das Delta in jeder Dimension der nächsten Reihe von Eingabescheiben. In der folgenden Animation wird beispielsweise ein Schritt von (1,1) während einer Convolutionsoperation veranschaulicht. Daher beginnt der nächste Eingabeabschnitt eine Position rechts vom vorherigen Eingabeabschnitt. Wenn der Vorgang den rechten Rand erreicht, wird der nächste Ausschnitt ganz nach links, aber eine Position nach unten verschoben.

Eine Eingabematrix von 5 × 5 und ein 3 × 3-Faltungsfilter. Da der Schritt (1,1) ist, wird ein Convolutional-Filter neunmal angewendet. Im ersten Convolutional-Stich wird die 3 × 3 große Teilmatrix oben links in der Eingabematrix ausgewertet. Im zweiten Ausschnitt wird die obere mittlere 3 × 3-Teilmatrix ausgewertet. Die dritte Convolutional-Scheiben-Ebene wertet die rechte obere 3 × 3-Teilmatrix aus.  Im vierten Streifen wird die mittlere linke 3 × 3-Untermatrix ausgewertet.
     Im fünften Streifen wird die mittlere 3 × 3-Untermatrix ausgewertet. Der sechste Ausschnitt bewertet die mittlere rechte 3 × 3-Untermatrix. Die siebte Scheibe bewertet die untere linke 3 × 3-Untermatrix.  Im achten Ausschnitt wird die untere mittlere 3 × 3-Teilmatrix ausgewertet. Der neunte Ausschnitt bewertet die untere rechte 3 × 3-Teilmatrix.

Das vorherige Beispiel zeigt einen zweidimensionalen Schritt. Wenn die Eingabematrix dreidimensional ist, ist auch der Schritt dreidimensional.

Strukturelle Risikominimierung (SRM)

Ein Algorithmus, der zwei Ziele in Einklang bringt:

  • Die Notwendigkeit, das beste Prognosemodell zu erstellen (z. B. mit dem geringsten Verlust).
  • Das Modell muss so einfach wie möglich gehalten werden (z. B. durch starke Regularisierung).

Eine Funktion, die Verlust + Regularisierung im Trainingssatz minimiert, ist beispielsweise ein Algorithmus zur Minimierung des strukturellen Risikos.

Im Gegensatz zur empirischen Risikominimierung.

Subsampling

#image

Weitere Informationen finden Sie unter Pooling.

Unterwort-Token

#language

In Sprachmodellen ist ein Token ein Teilstring eines Wortes, der auch das gesamte Wort sein kann.

Ein Wort wie „auflisten“ kann beispielsweise in die Teile „Artikel“ (ein Stammwort) und „isieren“ (ein Suffix) zerlegt werden, die jeweils durch ein eigenes Token dargestellt werden. Wenn seltene Wörter in solche Teile zerlegt werden, die als Subwords bezeichnet werden, können Sprachmodelle mit den gängigeren Bestandteilen des Wortes arbeiten, z. B. Präfixen und Suffixen.

Umgekehrt werden häufig verwendete Wörter wie „gehen“ möglicherweise nicht aufgeteilt und durch ein einzelnes Token dargestellt.

Zusammenfassung

#TensorFlow

In TensorFlow ein Wert oder eine Reihe von Werten, die in einem bestimmten Schritt berechnet werden. Sie werden in der Regel zum Überwachen von Modellmesswerten während des Trainings verwendet.

Supervised Machine Learning

#fundamentals

Training eines Modells anhand von Features und ihren entsprechenden Labels. Supervised Machine Learning ist vergleichbar mit dem Lernen eines Themas durch das Studium einer Reihe von Fragen und der entsprechenden Antworten. Nachdem die Zuordnung von Fragen und Antworten gemeistert wurde, kann ein Schüler oder Student Antworten auf neue (noch nie zuvor gesehene) Fragen zum selben Thema geben.

Vergleich mit nicht überwachtem maschinellem Lernen

synthetisches Feature

#fundamentals

Ein Attribut, das nicht zu den Eingabeattributen gehört, sondern aus einem oder mehreren davon zusammengestellt wurde. Zu den Methoden zum Erstellen synthetischer Elemente gehören:

  • Bucketing eines kontinuierlichen Features in Bereichsgruppen.
  • Erstellen eines Feature-Cross
  • Multiplizieren (oder Dividieren) eines Featurewerts mit anderen Featurewerten oder mit sich selbst. Wenn a und b beispielsweise Eingabefeatures sind, sind die folgenden Beispiele für synthetische Features:
    • ab
    • a2
  • Anwenden einer transzendentalen Funktion auf einen Featurewert. Wenn c beispielsweise ein Eingabeelement ist, sind die folgenden Beispiele für synthetische Elemente:
    • sin(c)
    • ln(c)

Funktionen, die durch Normalisierung oder Skalierung allein erstellt wurden, gelten nicht als synthetische Funktionen.

T

T5

#language

Ein Transfer-Learning-Modell für die Text-zu-Text-Transformation, das 2020 von Google AI eingeführt wurde. T5 ist ein Encoder-Decoder-Modell, das auf der Transformer-Architektur basiert und auf einem extrem großen Dataset trainiert wurde. Es eignet sich für eine Vielzahl von Aufgaben der natürlichen Sprachverarbeitung, z. B. für die Textgenerierung, die Übersetzung von Sprachen und die Beantwortung von Fragen in natürlicher Sprache.

T5 leitet sich von den fünf Ts in „Text-to-Text Transfer Transformer“ ab.

T5X

#language

Ein Open-Source-Machine-Learning-Framework, mit dem sich groß angelegte Modelle für die Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) erstellen und trainieren lassen. T5 ist in der T5X-Codebasis implementiert, die auf JAX und Flax basiert.

Tabellen-Q-Lernen

#rl

Beim Verstärkungslernen wird Q-Lernen implementiert, indem die Q-Funktionen für jede Kombination aus Zustand und Aktion in einer Tabelle gespeichert werden.

Ziel

Synonym für Label.

Zielnetzwerk

#rl

Bei Deep-Q-Learning ist ein neuronales Netzwerk eine stabile Approximation des Hauptneuronalen Netzwerks, in dem entweder eine Q-Funktion oder eine Richtlinie implementiert ist. Anschließend können Sie das Hauptnetzwerk anhand der vom Zielnetzwerk vorhergesagten Q-Werte trainieren. So wird die Feedbackschleife verhindert, die auftritt, wenn das Hauptnetzwerk anhand von selbst vorhergesagten Q-Werten trainiert wird. Indem Sie dieses Feedback vermeiden, steigt die Trainingsstabilität.

Task (in computational context, see definition)

Ein Problem, das mithilfe von Techniken für maschinelles Lernen gelöst werden kann, z. B.:

Temperatur

#language
#image
#generativeAI

Ein Hyperparameter, der den Grad der Zufälligkeit der Ausgabe eines Modells steuert. Höhere Temperaturen führen zu einer stärker zufälligen Ausgabe, während niedrigere Temperaturen zu einer weniger zufälligen Ausgabe führen.

Die Auswahl der optimalen Temperatur hängt von der jeweiligen Anwendung und den gewünschten Eigenschaften der Ausgabe des Modells ab. Sie würden die Temperatur beispielsweise wahrscheinlich erhöhen, wenn Sie eine Anwendung erstellen, die kreative Inhalte generiert. Umgekehrt würden Sie die Temperatur wahrscheinlich senken, wenn Sie ein Modell erstellen, das Bilder oder Text klassifiziert, um die Genauigkeit und Konsistenz des Modells zu verbessern.

Die Temperatur wird häufig mit softmax verwendet.

zeitliche Daten

Daten, die zu unterschiedlichen Zeitpunkten erfasst wurden. Zeitliche Daten sind beispielsweise die Verkäufe von Wintermänteln, die für jeden Tag des Jahres erfasst werden.

Tensor

#TensorFlow

Die primäre Datenstruktur in TensorFlow-Programmen. Tensoren sind n-dimensionale (wobei n sehr groß sein kann) Datenstrukturen, am häufigsten Skalare, Vektoren oder Matrizen. Die Elemente eines Tensors können Ganzzahlen, Gleitkommazahlen oder Stringwerte enthalten.

TensorBoard

#TensorFlow

Das Dashboard mit den Zusammenfassungen, die während der Ausführung eines oder mehrerer TensorFlow-Programme gespeichert wurden.

TensorFlow

#TensorFlow

Eine groß angelegte, verteilte Plattform für maschinelles Lernen. Der Begriff bezieht sich auch auf die Basis-API-Ebene im TensorFlow-Stack, die allgemeine Berechnungen in Dataflow-Grafiken unterstützt.

Obwohl TensorFlow hauptsächlich für maschinelles Lernen verwendet wird, können Sie es auch für andere Aufgaben verwenden, die numerische Berechnungen mithilfe von Dataflow-Grafiken erfordern.

TensorFlow Playground

#TensorFlow

Ein Programm, das visualisiert, wie sich verschiedene Hyperparameter auf das Modelltraining (vor allem auf das Training von neuronalen Netzwerken) auswirken. Unter http://playground.tensorflow.org können Sie mit TensorFlow Playground experimentieren.

TensorFlow bereitstellen

#TensorFlow

Eine Plattform zum Bereitstellen trainierter Modelle in der Produktion.

Tensor Processing Unit (TPU)

#TensorFlow
#GoogleCloud

Ein anwendungsspezifischer integrierter Schaltkreis (Application-Specific Integrated Circuit, ASIC), der die Leistung von Arbeitslasten für maschinelles Lernen optimiert. Diese ASICs werden als mehrere TPU-Chips auf einem TPU-Gerät bereitgestellt.

Tensorrang

#TensorFlow

Weitere Informationen finden Sie unter Rang (Tensor).

Tensorform

#TensorFlow

Die Anzahl der Elemente, die ein Tensor in verschiedenen Dimensionen enthält. Ein [5, 10]-Tensor hat beispielsweise eine Form von 5 in einer Dimension und 10 in einer anderen.

Tensorgröße

#TensorFlow

Die Gesamtzahl der Skalare, die ein Tensor enthält. Ein [5, 10]-Tensor hat beispielsweise eine Größe von 50.

TensorStore

Eine Bibliothek zum effizienten Lesen und Schreiben großer mehrdimensionaler Arrays.

Beendigungsbedingung

#rl

Bei Verstärkungslernen sind das die Bedingungen, die bestimmen, wann eine Episode endet, z. B. wenn der Agent einen bestimmten Status erreicht oder eine Grenzzahl von Statusübergängen überschreitet. Bei Tic-Tac-Toe (auch als „Mensch ärgere dich nicht“ bekannt) endet eine Folge beispielsweise, wenn ein Spieler drei aufeinanderfolgende Felder markiert oder alle Felder markiert sind.

Test

#df

In einem Entscheidungsbaum ein anderer Name für eine Bedingung.

Testverlust

#fundamentals

Ein Messwert, der den Verlust eines Modells im Vergleich zum Test-Dataset darstellt. Beim Erstellen eines Modells versuchen Sie in der Regel, den Testverlust zu minimieren. Das liegt daran, dass ein niedriger Testverlust ein stärkeres Qualitätssignal ist als ein niedriger Trainingsverlust oder ein niedriger Validierungsverlust.

Ein großer Unterschied zwischen Testverlust und Trainingsverlust oder Validierungsverlust weist manchmal darauf hin, dass Sie die Regulierungsrate erhöhen müssen.

Test-Dataset

Ein Teil des Datasets, der zum Testen eines trainierten Modells reserviert ist.

Traditionell werden Beispiele im Dataset in die folgenden drei verschiedenen Teilmengen unterteilt:

Jedes Beispiel in einem Datensatz sollte nur einer der oben genannten Teilmengen angehören. Ein einzelnes Beispiel sollte beispielsweise nicht sowohl zum Trainings- als auch zum Test-Dataset gehören.

Das Trainings- und das Validierungs-Dataset sind eng mit dem Training eines Modells verbunden. Da der Testsatz nur indirekt mit dem Training verknüpft ist, ist der Testverlust ein weniger verzerrter und hochwertigerer Messwert als der Trainingsverlust oder der Validierungsverlust.

Textspanne

#language

Der Arrayindexbereich, der mit einem bestimmten Teil eines Textstrings verknüpft ist. Das Wort good im Python-String s="Be good now" nimmt beispielsweise die Textspanne von 3 bis 6 ein.

tf.Example

#TensorFlow

Ein standardmäßiger Protokoll-Buffer zum Beschreiben von Eingabedaten für das Training oder die Inferenz von Modellen für maschinelles Lernen.

tf.keras

#TensorFlow

Eine Implementierung von Keras, die in TensorFlow eingebunden ist.

Grenzwert (für Entscheidungsbäume)

#df

In einer achsorientierten Bedingung ist dies der Wert, mit dem ein Element verglichen wird. In der folgenden Bedingung ist 75 beispielsweise der Grenzwert:

grade >= 75

Zeitreihenanalyse

#clustering

Ein Teilgebiet des maschinellen Lernens und der Statistik, bei dem zeitliche Daten analysiert werden. Viele Arten von Problemen mit maschinellem Lernen erfordern eine Zeitreihenanalyse, einschließlich Klassifizierung, Clustering, Prognose und Anomalieerkennung. Mithilfe einer Zeitreihenanalyse können Sie beispielsweise die zukünftigen Verkäufe von Wintermänteln nach Monat anhand von bisherigen Verkaufsdaten prognostizieren.

Zeitschritt

#seq

Eine „entwickelte“ Zelle in einem recurrent neural network. Die folgende Abbildung zeigt beispielsweise drei Zeitschritte (mit den Unterindizes t-1, t und t+1 gekennzeichnet):

Drei Zeitschritte in einem rekurrenten neuronalen Netzwerk. Die Ausgabe des ersten Zeitschritts wird als Eingabe für den zweiten Zeitschritt verwendet. Die Ausgabe des zweiten Zeitschritts wird als Eingabe für den dritten Zeitschritt verwendet.

Token

#language

In einem Language Model ist es die atomare Einheit, anhand derer das Modell trainiert und Vorhersagen trifft. Ein Token ist in der Regel eines der folgenden:

  • ein Wort. Der Ausdruck „Hunde mögen Katzen“ besteht beispielsweise aus drei Wort-Tokens: „Hunde“, „mögen“ und „Katzen“.
  • ein Zeichen. Der Begriff „Fahrrad Fisch“ besteht beispielsweise aus neun Zeichentokens. Hinweis: Das Leerzeichen zählt als eines der Tokens.
  • Subwords: Ein einzelnes Wort kann ein einzelnes Token oder mehrere Tokens sein. Ein Teilwort besteht aus einem Stammwort, einem Präfix oder einem Suffix. Ein Sprachmodell, das Subwörter als Tokens verwendet, könnte das Wort „Hunde“ beispielsweise als zwei Tokens betrachten: das Stammwort „Hund“ und das Pluralsuffix „-e“. Dieses Sprachmodell könnte das einzelne Wort „größer“ als zwei Teilwörter betrachten (das Stammwort „groß“ und das Suffix „er“).

In anderen Bereichen als Sprachmodellen können Tokens auch andere Arten von atomaren Einheiten darstellen. Beim maschinellen Sehen kann ein Token beispielsweise ein Teil eines Bildes sein.

Top-K-Genauigkeit

#language

Der Prozentsatz, mit dem ein „Ziellabel“ in den ersten k Positionen der generierten Listen erscheint. Die Listen können personalisierte Empfehlungen oder eine Liste von Elementen sein, die nach softmax sortiert sind.

Die Top-K-Genauigkeit wird auch als Genauigkeit bei k bezeichnet.

Tower

Eine Komponente eines neuronalen Deep-Learning-Netzwerks, das selbst ein neuronales Deep-Learning-Netzwerk ist. In einigen Fällen liest jeder Turm aus einer unabhängigen Datenquelle und diese bleiben unabhängig, bis ihre Ausgabe in einer letzten Schicht kombiniert wird. In anderen Fällen (z. B. im Encoder- und Decoder-Turm vieler Transformer) sind die Türme miteinander verbunden.

Toxizität

#language

Der Grad, in dem Inhalte missbräuchlich, bedrohlich oder anstößig sind. Viele Modelle für maschinelles Lernen können Toxizität erkennen und messen. Die meisten dieser Modelle erkennen toxisches Verhalten anhand mehrerer Parameter, z. B. anhand des Ausmaßes an missbräuchlicher und bedrohlicher Sprache.

TPU

#TensorFlow
#GoogleCloud

Abkürzung für Tensor Processing Unit.

TPU-Chip

#TensorFlow
#GoogleCloud

Ein programmierbarer Beschleuniger für lineare Algebra mit On-Chip-Speicher mit hoher Bandbreite, der für Arbeitslasten für maschinelles Lernen optimiert ist. Mehrere TPU-Chips werden auf einem TPU-Gerät bereitgestellt.

TPU-Gerät

#TensorFlow
#GoogleCloud

Eine Leiterplatte (Printed Circuit Board, PCB) mit mehreren TPU-Chips, Netzwerkschnittstellen mit hoher Bandbreite und Systemkühlungshardware.

TPU-Master

#TensorFlow
#GoogleCloud

Der zentrale Koordinierungsprozess, der auf einem Hostcomputer ausgeführt wird und Daten, Ergebnisse, Programme, Leistungs- und Systemstatusinformationen an die TPU-Worker sendet und empfängt. Der TPU-Master verwaltet auch die Einrichtung und das Herunterfahren von TPU-Geräten.

TPU-Knoten

#TensorFlow
#GoogleCloud

Eine TPU-Ressource in Google Cloud mit einem bestimmten TPU-Typ. Der TPU-Knoten stellt über ein Peer-VPC-Netzwerk eine Verbindung zu Ihrem VPC-Netzwerk her. TPU-Knoten sind eine in der Cloud TPU API definierte Ressource.

TPU-Pod

#TensorFlow
#GoogleCloud

Eine bestimmte Konfiguration von TPU-Geräten in einem Google-Rechenzentrum. Alle Geräte in einem TPU-Pod sind über ein dediziertes Hochgeschwindigkeitsnetzwerk miteinander verbunden. Ein TPU-Pod ist die größte Konfiguration von TPU-Geräten, die für eine bestimmte TPU-Version verfügbar ist.

TPU-Ressource

#TensorFlow
#GoogleCloud

Eine TPU-Entität in Google Cloud, die Sie erstellen, verwalten oder nutzen. Beispiele für TPU-Ressourcen sind TPU-Knoten und TPU-Typen.

TPU-Slice

#TensorFlow
#GoogleCloud

Ein TPU-Slice ist ein Bruchteil der TPU-Geräte in einem TPU-Pod. Alle Geräte in einem TPU-Speil sind über ein dediziertes Hochgeschwindigkeitsnetzwerk miteinander verbunden.

TPU-Typ

#TensorFlow
#GoogleCloud

Eine Konfiguration von einem oder mehreren TPU-Geräten mit einer bestimmten TPU-Hardwareversion. Sie wählen einen TPU-Typ aus, wenn Sie einen TPU-Knoten in Google Cloud erstellen. Ein v2-8-TPU-Typ ist beispielsweise ein einzelnes TPU v2-Gerät mit 8 Kernen. Ein v3-2048-TPU-Typ hat 256 vernetzte TPU v3-Geräte und insgesamt 2.048 Kerne. TPU-Typen sind Ressourcen, die in der Cloud TPU API definiert sind.

TPU-Worker

#TensorFlow
#GoogleCloud

Ein Prozess, der auf einem Hostcomputer ausgeführt wird und Programme für maschinelles Lernen auf TPU-Geräten ausführt.

Training

#fundamentals

Der Prozess, bei dem die idealen Parameter (Gewichte und Verzerrungen) eines Modells bestimmt werden. Während des Trainings liest ein System Beispiele ein und passt die Parameter nach und nach an. Bei der Modellierung werden die einzelnen Beispiele einige Male bis hin zu Milliarden Mal verwendet.

Trainingsverlust

#fundamentals

Ein Messwert, der den Verlust eines Modells während einer bestimmten Trainingsiteration darstellt. Angenommen, die Verlustfunktion ist der Quadratische Mittelwert. Angenommen, der Trainingsverlust (der mittlere quadratische Fehler) für die 10.Iteration beträgt 2,2 und der Trainingsverlust für die 100.Iteration 1,9.

Eine Verlustkurve stellt den Trainingsverlust in Abhängigkeit von der Anzahl der Iterationen dar. Eine Verlustkurve liefert folgende Hinweise zum Training:

  • Ein nach unten geneigter Verlauf bedeutet, dass sich das Modell verbessert.
  • Eine Steigung bedeutet, dass das Modell schlechter wird.
  • Eine flache Steigung bedeutet, dass das Modell Konvergenz erreicht hat.

Die folgende etwas idealisierte Verlustkurve zeigt beispielsweise:

  • Ein starker Abfall während der ersten Iterationen, was auf eine schnelle Modellverbesserung hindeutet.
  • Eine allmählich flachere (aber weiterhin abwärts gerichtete) Steigung bis kurz vor Ende des Trainings, was eine kontinuierliche Modellverbesserung mit etwas geringerem Tempo als bei den ersten Iterationen bedeutet.
  • Eine flache Steigung gegen Ende des Trainings, was auf eine Konvergenz hindeutet.

Die Darstellung des Trainingsverlusts im Vergleich zu den Iterationen. Diese Verlustkurve beginnt mit einer steilen Abwärtsneigung. Die Steigung wird allmählich flacher, bis sie null ist.

Auch wenn der Trainingsverlust wichtig ist, sollten Sie sich auch mit der Generalisierung befassen.

Abweichungen zwischen Training und Bereitstellung

#fundamentals

Der Unterschied zwischen der Leistung eines Modells während des Trainings und der Leistung desselben Modells während der Bereitstellung.

Trainings-Dataset

#fundamentals

Die Teilmenge des Datasets, die zum Trainieren eines Modells verwendet wird.

Traditionell werden Beispiele im Dataset in die folgenden drei verschiedenen Teilmengen unterteilt:

Idealerweise sollte jedes Beispiel im Dataset nur einer der vorherigen Teilmengen angehören. Ein einzelnes Beispiel sollte beispielsweise nicht sowohl zum Trainings- als auch zum Validierungs-Dataset gehören.

Entwicklung

#rl

Beim Lernen mit Verstärkung ist eine Sequenz von Tupeln, die eine Sequenz von Zustandsübergängen des Agenten darstellen, wobei jedes Tupel dem Status, der Aktion, dem Belohnungswert und dem nächsten Status für einen bestimmten Zustandsübergang entspricht.

Transferlernen

Übertragung von Informationen von einer Aufgabe des maschinellen Lernens auf eine andere. Beim Multi-Task-Lernen löst ein einzelnes Modell beispielsweise mehrere Aufgaben, z. B. ein Deep Learning-Modell mit verschiedenen Ausgabeknoten für verschiedene Aufgaben. Beim Transferlernen kann Wissen aus der Lösung einer einfacheren Aufgabe auf eine komplexere übertragen werden oder Wissen aus einer Aufgabe mit mehr Daten auf eine Aufgabe mit weniger Daten.

Die meisten Systeme für maschinelles Lernen lösen eine einzelne Aufgabe. Der Transfer-Lernprozess ist ein erster Schritt in Richtung künstlicher Intelligenz, bei dem ein einzelnes Programm mehrere Aufgaben lösen kann.

Transformer

#language

Eine von Google entwickelte Architektur für künstliche neuronale Netze, die auf Selbstaufmerksamkeitsmechanismen basiert, um eine Sequenz von Eingabe-Embeddings in eine Sequenz von Ausgabe-Embeddings umzuwandeln, ohne Konvolutionen oder rekurrente neuronale Netze zu verwenden. Ein Transformer kann als Stapel von Self-Attention-Schichten betrachtet werden.

Ein Transformator kann Folgendes enthalten:

  • einen Encoder
  • einen Decoder
  • sowohl einen Encoder als auch einen Decoder

Ein Encoder wandelt eine Sequenz von Einbettungen in eine neue Sequenz derselben Länge um. Ein Encoder besteht aus N identischen Schichten, von denen jede zwei Unterschichten enthält. Diese beiden Unterschichten werden an jeder Position der Eingabe-Embedding-Sequenz angewendet und wandeln jedes Element der Sequenz in ein neues Embedding um. Die erste Encoder-Unterschicht aggregiert Informationen aus der gesamten Eingabesequenz. Die zweite Encoder-Unterschicht wandelt die aggregierten Informationen in ein Ausgabe-Embedding um.

Ein Decoder wandelt eine Sequenz von Eingabe-Embeddings in eine Sequenz von Ausgabe-Embeddings um, möglicherweise mit einer anderen Länge. Ein Decoder enthält außerdem N identische Schichten mit drei Unterschichten, von denen zwei den Unterschichten des Encoders ähneln. Die dritte Decoder-Unterschicht nimmt die Ausgabe des Encoders und wendet den Mechanismus der Selbstaufmerksamkeit an, um Informationen daraus zu gewinnen.

Der Blogpost Transformer: A Novel Neural Network Architecture for Language Understanding bietet eine gute Einführung in Transformer.

Translationsinvarianz

#image

Bei einem Bildklassifizierungsproblem die Fähigkeit eines Algorithmus, Bilder auch dann erfolgreich zu klassifizieren, wenn sich die Position der Objekte im Bild ändert. Der Algorithmus kann beispielsweise einen Hund erkennen, unabhängig davon, ob er sich in der Mitte oder am linken Ende des Frames befindet.

Weitere Informationen finden Sie unter Größeninvarianz und Drehsymmetrie.

Trigramm

#seq
#language

Ein N-Gramm mit N=3.

Richtig negativ (TN)

#fundamentals

Ein Beispiel, in dem das Modell die negative Klasse richtig vorhersagt. Angenommen, das Modell schließt daraus, dass eine bestimmte E-Mail kein Spam ist, und diese E-Mail ist tatsächlich kein Spam.

Richtig positiv (TP)

#fundamentals

Ein Beispiel, in dem das Modell die positive Klasse richtig vorhersagt. Angenommen, das Modell schließt daraus, dass eine bestimmte E-Mail-Nachricht Spam ist, und diese E-Mail-Nachricht ist tatsächlich Spam.

Rate richtig positiver Ergebnisse (True Positive Rate, TPR)

#fundamentals

Synonym für Erinnerung. Das bedeutet:

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

Die Rate richtig positiver Ergebnisse ist die y-Achse einer ROC-Kurve.

U

Unwissenheit (über ein sensibles Attribut)

#fairness

Eine Situation, in der sensible Attribute vorhanden, aber nicht in den Trainingsdaten enthalten sind. Da sensible Attribute oft mit anderen Attributen der Daten korrelieren, kann ein Modell, das ohne Kenntnis eines sensiblen Attributs trainiert wurde, dennoch unterschiedliche Auswirkungen auf dieses Attribut haben oder gegen andere Fairness-Einschränkungen verstoßen.

Unteranpassung

#fundamentals

Ein Modell mit schlechter Vorhersagefähigkeit erstellen, weil es die Komplexität der Trainingsdaten nicht vollständig erfasst hat. Viele Probleme können zu einer Unteranpassung führen, darunter:

Unterbelichtete Bilder

Entfernen von Beispielen aus der Mehrheitsklasse in einem ungleichgewichteten Dataset, um einen ausgewogeneren Trainingssatz zu erstellen.

Angenommen, Sie haben einen Datensatz, in dem das Verhältnis der Mehrheitsklasse zur Minderheitsklasse 20:1 beträgt. Um dieses Ungleichgewicht zu beheben, können Sie einen Trainingssatz erstellen, der alle Beispiele der Minderheitenklasse, aber nur ein Zehntel der Beispiele der Mehrheitsklasse enthält. Das würde ein Klassenverhältnis von 2:1 im Trainingssatz ergeben. Durch die Unterstichprobenerhebung kann mit diesem ausgewogeneren Trainings-Dataset möglicherweise ein besseres Modell erstellt werden. Alternativ enthält dieses ausgewogenere Trainingsset möglicherweise nicht genügend Beispiele, um ein effektives Modell zu trainieren.

Im Gegensatz zum Übersampling.

unidirektional

#language

Ein System, das nur den Text prüft, der vor einem Zieltextabschnitt steht. Ein bidirektionales System hingegen wertet sowohl den Text aus, der vor als auch den, der nach dem Zieltextabschnitt kommt. Weitere Informationen finden Sie unter bidirektional.

unidirektionales Sprachmodell

#language

Ein Sprachmodell, das seine Wahrscheinlichkeiten nur auf den Tokens gründet, die vor, nicht nach dem Zieltoken bzw. den Zieltokens erscheinen. Im Gegensatz zu einem bidirektionalen Sprachmodell.

Beispiel ohne Label

#fundamentals

Ein Beispiel, das Features, aber kein Label enthält. Die folgende Tabelle enthält beispielsweise drei Beispiele ohne Labels aus einem Modell zur Immobilienbewertung. Jedes Beispiel enthält drei Merkmale, aber keinen Hauswert:

Anzahl der Schlafzimmer Anzahl der Badezimmer Alter des Gebäudes
3 2 15
2 1 72
4 2 34

Beim überwachten maschinellen Lernen werden Modelle anhand von Beispielen mit Labels trainiert und treffen Vorhersagen für Beispiele ohne Labels.

Beim halbüberwachten und unbeaufsichtigten Lernen werden während des Trainings nicht beschriftete Beispiele verwendet.

Stellen Sie das Beispiel ohne Labels dem Beispiel mit Labels gegenüber.

unüberwachtes maschinelles Lernen

#clustering
#fundamentals

Training eines Modells zum Finden von Mustern in einem Dataset, in der Regel einem nicht beschrifteten Dataset.

Die am häufigsten verwendete Methode für unbeaufsichtigtes maschinelles Lernen ist das Clustering von Daten in Gruppen ähnlicher Beispiele. Ein unüberwachter Algorithmus für maschinelles Lernen kann beispielsweise Songs basierend auf verschiedenen Eigenschaften der Musik gruppieren. Die resultierenden Cluster können als Eingabe für andere Algorithmen des maschinellen Lernens verwendet werden, z. B. für einen Musikempfehlungsservice. Clustering kann hilfreich sein, wenn nützliche Labels selten oder gar nicht vorhanden sind. In Bereichen wie Missbrauchs- und Betrugsprävention können Cluster beispielsweise Menschen helfen, die Daten besser zu verstehen.

Im Gegensatz zu überwachtem maschinellem Lernen.

Modellierung der Leistungssteigerung

Ein Modellierungstechnik, die häufig im Marketing verwendet wird, um den „Kausaleffekt“ (auch als „Inkrementelle Auswirkung“ bezeichnet) einer „Behandlung“ auf ein „Individuum“ zu modellieren. Hier sind zwei Beispiele:

  • Ärzte können mithilfe von Steigerungsmodellen die Mortalitätsrate (Kausaleffekt) eines medizinischen Eingriffs (Behandlung) je nach Alter und Krankengeschichte eines Patienten (Einzelperson) vorhersagen.
  • Werbetreibende können mithilfe von Leistungssteigerungsmodellen die Wahrscheinlichkeit eines Kaufs (Kausaleffekt) aufgrund einer Werbung (Testverzweigung) für eine Person (Einzelperson) vorhersagen.

Die Leistungssteigerungsmodellierung unterscheidet sich von der Klassifizierung oder Regression dadurch, dass bei der Leistungssteigerungsmodellierung immer einige Labels fehlen (z. B. die Hälfte der Labels bei binären Behandlungen). Ein Patient kann beispielsweise eine Behandlung erhalten oder nicht. Daher können wir nur in einer dieser beiden Situationen beobachten, ob der Patient gesund wird oder nicht (aber nie in beiden). Der Hauptvorteil eines Steigerungsmodells besteht darin, dass es Vorhersagen für die nicht beobachtete Situation (die kontrafaktische Situation) generieren und damit den kausalen Effekt berechnen kann.

Gewichtung

Wenden Sie auf die herunterskalierte Klasse ein Gewicht an, das dem Faktor entspricht, mit dem Sie die Daten herunterskaliert haben.

Nutzermatrix

#recsystems

In Empfehlungssystemen: Ein Embedding-Vektor, der durch Matrixfaktorisierung generiert wird und latente Signale zu Nutzerpräferenzen enthält. Jede Zeile der Nutzermatrix enthält Informationen zur relativen Stärke verschiedener latenter Signale für einen einzelnen Nutzer. Nehmen wir als Beispiel ein Film-Empfehlungssystem. In diesem System können die latenten Signale in der Nutzermatrix das Interesse der einzelnen Nutzer an bestimmten Genres darstellen oder schwieriger zu interpretierende Signale sein, die komplexe Interaktionen über mehrere Faktoren hinweg umfassen.

Die Nutzermatrix enthält eine Spalte für jedes latente Merkmal und eine Zeile für jeden Nutzer. Die Nutzermatrix hat also dieselbe Anzahl von Zeilen wie die Zielmatrix, die faktorisiert wird. Ein Film-Empfehlungssystem für 1.000.000 Nutzer hat beispielsweise 1.000.000 Zeilen.

V

Validierung

#fundamentals

Die erste Bewertung der Qualität eines Modells. Bei der Validierung wird die Qualität der Vorhersagen eines Modells anhand des Validierungs-Datasets überprüft.

Da sich das Validierungs-Dataset vom Trainings-Dataset unterscheidet, hilft die Validierung, eine Überanpassung zu vermeiden.

Sie können die Bewertung des Modells anhand des Validierungs-Sets als erste Testrunde und die Bewertung des Modells anhand des Test-Sets als zweite Testrunde betrachten.

Ausschussrate

#fundamentals

Ein Messwert, der den Verlust eines Modells im Validierungs-Dataset während einer bestimmten Iteration des Trainings darstellt.

Siehe auch Generalisierungskurve.

Validierungs-Dataset

#fundamentals

Die Teilmenge des Datasets, mit der die erste Bewertung anhand eines trainierten Modells durchgeführt wird. Normalerweise wird das trainierte Modell mehrmals anhand des Validierungs-Datasets bewertet, bevor es anhand des Test-Datasets bewertet wird.

Traditionell werden die Beispiele im Dataset in die folgenden drei verschiedenen Teilmengen unterteilt:

Idealerweise sollte jedes Beispiel im Dataset nur einer der vorherigen Teilmengen angehören. Ein einzelnes Beispiel sollte beispielsweise nicht sowohl zum Trainings- als auch zum Validierungs-Dataset gehören.

Wertimpfungen

Ein fehlender Wert wird durch einen akzeptablen Ersatzwert ersetzt. Wenn ein Wert fehlt, können Sie entweder das gesamte Beispiel verwerfen oder die Wertimpfüllung verwenden, um das Beispiel zu retten.

Angenommen, Sie haben ein Dataset mit einem temperature-Merkmal, das jede Stunde aufgezeichnet werden soll. Die Temperaturmessung war jedoch für eine bestimmte Stunde nicht verfügbar. Hier ist ein Ausschnitt aus dem Datensatz:

Zeitstempel Temperatur
1680561000 10
1680564600 12
1680568200 fehlt
1680571800 20
1680575400 21
1680579000 21

Ein System kann das fehlende Beispiel entweder löschen oder die fehlende Temperatur je nach Imputationsalgorithmus als 12, 16, 18 oder 20 imputieren.

Problem mit verschwindendem Gradienten

#seq

Die Tendenz der Gradienten der frühen verborgenen Schichten einiger Deep-Learning-Netzwerke, überraschend flach (niedrig) zu werden. Immer niedrigere Gradienten führen zu immer kleineren Änderungen an den Gewichten der Knoten in einem Deep-Learning-Netzwerk, was zu wenig oder gar keinem Lernen führt. Modelle, die von diesem Problem betroffen sind, lassen sich nur schwer oder gar nicht trainieren. Long Short-Term Memory-Zellen lösen dieses Problem.

Vergleichen Sie dies mit dem Problem des explodierenden Gradienten.

Variablenbewertungen

#df

Eine Reihe von Werten, die die relative Wichtigkeit jedes Features für das Modell angeben.

Betrachten Sie beispielsweise einen Entscheidungsbaum, mit dem Hauspreise geschätzt werden. Angenommen, dieser Entscheidungsbaum verwendet drei Merkmale: Größe, Alter und Stil. Wenn die Variablen für die drei Merkmale {Größe=5,8; Alter=2,5; Stil=4,7} berechnet werden, ist die Größe für den Entscheidungsbaum wichtiger als Alter oder Stil.

Es gibt verschiedene Messwerte zur Variablenwichtigkeit, mit denen ML-Experten verschiedene Aspekte von Modellen ermitteln können.

Variations-Autoencoder (VAE)

#language

Eine Art Autoencoder, der die Abweichung zwischen Eingaben und Ausgaben nutzt, um modifizierte Versionen der Eingaben zu generieren. Variationale Autoencoder sind nützlich für generative KI.

VAEs basieren auf der Variationsinference, einem Verfahren zur Schätzung der Parameter eines Wahrscheinlichkeitsmodells.

Vektor

Ein sehr überladener Begriff, dessen Bedeutung in verschiedenen mathematischen und wissenschaftlichen Bereichen variiert. Im Bereich maschinelles Lernen hat ein Vektor zwei Eigenschaften:

  • Datentyp: Vektoren im Bereich maschinelles Lernen enthalten in der Regel Gleitkommazahlen.
  • Anzahl der Elemente: Dies ist die Länge oder Dimension des Vektors.

Angenommen, Sie haben einen Featurevektor mit acht Gleitkommazahlen. Dieser Featurevektor hat eine Länge oder Dimension von acht. Hinweis: Vektoren für maschinelles Lernen haben oft eine große Anzahl von Dimensionen.

Viele verschiedene Arten von Informationen können als Vektor dargestellt werden. Beispiel:

  • Jede Position auf der Erdoberfläche kann als zweidimensionaler Vektor dargestellt werden, wobei eine Dimension der Breitengrad und die andere der Längengrad ist.
  • Die aktuellen Preise von 500 Aktien können als 500-dimensionaler Vektor dargestellt werden.
  • Eine Wahrscheinlichkeitsverteilung über eine endliche Anzahl von Klassen kann als Vektor dargestellt werden. Ein Klassifizierungssystem mit mehreren Klassen, das eine von drei Ausgabefarben (Rot, Grün oder Gelb) vorhersagt, könnte den Vektor (0.3, 0.2, 0.5) für P[red]=0.3, P[green]=0.2, P[yellow]=0.5 ausgeben.

Vektoren können zusammengeführt werden, sodass eine Vielzahl verschiedener Medien als einzelner Vektor dargestellt werden kann. Einige Modelle arbeiten direkt mit der Koncatenate vieler One-Hot-Codierungen.

Spezielle Prozessoren wie TPUs sind für mathematische Operationen auf Vektoren optimiert.

Ein Vektor ist ein Tensor mit dem Rang 1.

W

Verlust von Wasserstein

Eine der Verlustfunktionen, die häufig in generativen Adversarial Networks verwendet wird. Sie basiert auf der Earth Mover's Distance zwischen der Verteilung der generierten Daten und der der tatsächlichen Daten.

Gewicht

#fundamentals

Ein Wert, der in einem Modell mit einem anderen Wert multipliziert wird. Beim Training werden die idealen Gewichte eines Modells ermittelt. Bei der Inferenz werden diese gelernten Gewichte verwendet, um Vorhersagen zu treffen.

Gewichtete alternierende kleinste Quadrate (WALS)

#recsystems

Ein Algorithmus zur Minimierung der Zielfunktion bei der Matrixfaktorisierung in Empfehlungssystemen, der eine geringere Gewichtung der fehlenden Beispiele ermöglicht. WALS minimiert den gewichteten quadratischen Fehler zwischen der ursprünglichen Matrix und der Rekonstruktion, indem abwechselnd die Zeilen- und die Spaltenfaktorisierung festgelegt wird. Jede dieser Optimierungen kann durch die Methode der kleinsten Quadrate und konvexe Optimierung gelöst werden. Weitere Informationen finden Sie im Kurs zu Empfehlungssystemen.

gewichtete Summe

#fundamentals

Die Summe aller relevanten Eingabewerte multipliziert mit ihren entsprechenden Gewichten. Angenommen, die relevanten Eingaben bestehen aus Folgendem:

Eingabewert Eingabegewicht
2 -1,3
-1 0,6
3 0,4

Die gewichtete Summe ist daher:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Eine gewichtete Summe ist das Eingabeargument einer Aktivierungsfunktion.

Wide-Model

Ein lineares Modell mit vielen sehr wenigen Eingabefeatures. Wir bezeichnen es als „breit“, da es sich bei einem solchen Modell um eine spezielle Art von neuronalem Netzwerk handelt, das eine große Anzahl von Eingaben hat, die direkt mit dem Ausgabeknoten verbunden sind. Breite Modelle lassen sich oft einfacher debuggen und prüfen als Deep Learning-Modelle. Obwohl nichtlineare Funktionen in Wide-Modellen nicht mit versteckten Schichten ausgedrückt werden können, können sie mithilfe von Transformationen wie Feature-Kreuzung und Bucket-Analyse auf unterschiedliche Weise modelliert werden.

Im Gegensatz zu einem Deep Learning-Modell.

Breite

Die Anzahl der Neuronen in einer bestimmten Schicht eines neuronalen Netzwerks.

Die Weisheit der Vielen

#df

Die Annahme, dass die Durchschnittswerte der Meinungen oder Schätzungen einer großen Gruppe von Menschen („die Masse“) oft überraschend gute Ergebnisse liefern. Angenommen, es geht darum, die Anzahl der Gummibärchen in einem großen Glas zu erraten. Obwohl die meisten einzelnen Schätzungen ungenau sind, liegt der Durchschnitt aller Schätzungen empirisch gesehen überraschend nah an der tatsächlichen Anzahl der Gummibärchen im Glas.

Ensembles sind ein Softwareanalogon der Weisheit der Vielen. Selbst wenn einzelne Modelle sehr ungenaue Vorhersagen treffen, führt die Durchschnittsbildung der Vorhersagen vieler Modelle oft zu überraschend guten Vorhersagen. So kann ein einzelner Entscheidungsbaum beispielsweise schlechte Vorhersagen treffen, während ein Entscheidungswald oft sehr gute Vorhersagen liefert.

Worteinbettung

#language

Darstellung jedes Wortes in einem Wortsatz in einem Embedding-Vektor, d.h.Darstellung jedes Wortes als Vektor von Gleitkommawerten zwischen 0,0 und 1,0. Wörter mit ähnlicher Bedeutung haben ähnlichere Darstellungen als Wörter mit unterschiedlicher Bedeutung. Beispielsweise würden Karotten, Sellerie und Gurken alle relativ ähnliche Darstellungen haben, die sich stark von den Darstellungen von Flugzeugen, Sonnenbrillen und Zahnpasta unterscheiden würden.

X

XLA (Accelerated Linear Algebra)

Ein Open-Source-Compiler für maschinelles Lernen für GPUs, CPUs und ML-Beschleuniger.

Der XLA-Compiler nimmt Modelle aus gängigen ML-Frameworks wie PyTorch, TensorFlow und JAX und optimiert sie für eine leistungsstarke Ausführung auf verschiedenen Hardwareplattformen, einschließlich GPUs, CPUs und ML-Beschleunigern.

Z

Zero-Shot-Learning

Eine Art von Training für maschinelles Lernen, bei dem das Modell eine Vorhersage für eine Aufgabe ableitet, für die es nicht speziell trainiert wurde. Mit anderen Worten: Dem Modell werden keine aufgabenspezifischen Beispiele für das Training zur Verfügung gestellt, es wird aber aufgefordert, Inferenzen für diese Aufgabe zu treffen.

Zero-Shot-Prompts

#language
#generativeAI

Ein Prompt, der kein Beispiel dafür enthält, wie das Large Language Model antworten soll. Beispiel:

Teile eines Prompts Hinweise
Was ist die offizielle Währung des angegebenen Landes? Die Frage, die das LLM beantworten soll.
Indien: Die tatsächliche Suchanfrage.

Das Large Language Model könnte mit einer der folgenden Antworten antworten:

  • Rupie
  • INR
  • Indische Rupie
  • Die Rupie
  • Die indische Rupie

Alle Antworten sind richtig, aber Sie bevorzugen möglicherweise ein bestimmtes Format.

Vergleichen Sie Zero-Shot-Prompts mit den folgenden Begriffen:

Normalisierung nach Z-Wert

#fundamentals

Eine Skalierungsmethode, bei der ein Rohwert eines Features durch einen Gleitkommawert ersetzt wird, der die Anzahl der Standardabweichungen vom Mittelwert dieses Features darstellt. Angenommen, ein Feature hat einen Mittelwert von 800 und eine Standardabweichung von 100. In der folgenden Tabelle wird gezeigt, wie der Rohwert bei der Normalisierung mit dem Z-Wert abgeglichen wird:

Unverarbeiteter Wert Z-Wert
800 0
950 +1,5
575 -2,25

Das Modell für maschinelles Lernen wird dann anhand der Z-Werte für dieses Merkmal und nicht anhand der Rohwerte trainiert.