Machine Learning Glossary

In diesem Glossar werden allgemeine Begriffe des maschinellen Lernens für TensorFlow spezifische Begriffe.

A

Ablation

Verfahren zur Bewertung der Bedeutung einer Funktion oder Komponente, indem Sie sie vorübergehend aus einem Modell entfernen. Anschließend das Modell ohne dieses Feature oder diese Komponente neu zu trainieren und wenn das neu trainierte Modell erheblich schlechter ist, wurde die entfernte Funktion oder Komponente ist wahrscheinlich wichtig.

Angenommen, Sie trainieren ein Klassifizierungsmodell auf 10 Funktionen und eine Genauigkeit von 88% auf der Test-Dataset Um die Wichtigkeit zu prüfen können Sie das Modell mit den neun anderen Funktionen. Wenn das neu trainierte Modell eine erheblich schlechtere Leistung erbringt (z. B. 55% Präzision), dann war das entfernte Element wahrscheinlich wichtig. Umgekehrt Wenn das neu trainierte Modell die gleiche Leistung erzielt, nicht so wichtig.

Ablation kann auch dabei helfen, die Bedeutung von:

  • Größere Komponenten, z. B. das gesamte Subsystem eines größeren ML-Systems
  • Prozesse oder Techniken, z. B. ein Schritt zur Datenvorverarbeitung

In beiden Fällen beobachten Sie, wie sich die Systemleistung (oder unverändert), nachdem Sie die Komponente entfernt haben.

A/B-Tests

Eine statistische Methode zum Vergleich von zwei (oder mehr) Verfahren – dem A und das B. Üblicherweise ist A ein vorhandenes Verfahren und der B ist eine neue Technik. Durch A/B-Tests wird nicht nur ermittelt, welche Technik besser funktioniert. sondern auch, ob der Unterschied statistisch signifikant ist.

Bei A/B-Tests wird normalerweise ein einzelner Messwert für zwei Verfahren verglichen: Wie lässt sich beispielsweise die Modellgenauigkeit im Vergleich zu zwei Techniken? Bei A/B-Tests kann jedoch auch eine beliebige endliche Anzahl von Messwerte.

Beschleuniger-Chip

#GoogleCloud

Kategorie spezieller Hardwarekomponenten zur Ausführung wichtiger Berechnungen für Deep-Learning-Algorithmen.

Beschleunigerchips (auch Beschleuniger genannt) können Die Geschwindigkeit und Effizienz von Trainings- und Inferenzaufgaben erhöhen im Vergleich zu einer Allzweck-CPU. Sie sind ideal für Schulungen, neuronalen Netzen und ähnlichen rechenintensiven Aufgaben.

Beispiele für Beschleuniger-Chips:

  • Tensor Processing Units (TPUs) von Google mit dedizierter Hardware für Deep Learning.
  • Die GPUs von NVIDIA, die zwar ursprünglich für die Grafikverarbeitung entwickelt wurden, die eine parallele Verarbeitung ermöglichen, Verarbeitungsgeschwindigkeit erhöhen.

Genauigkeit

#fundamentals

Die Anzahl der Vorhersagen für die richtige Klassifizierung geteilt durch durch die Gesamtzahl der Vorhersagen. Das bedeutet:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Beispiel: Ein Modell, das 40 richtige und 10 falsche Vorhersagen gemacht hat, Vorhersagen eine Genauigkeit von:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

Die Binärklassifizierung stellt bestimmte Namen bereit. für die verschiedenen Kategorien richtiger Vorhersagen und falsche Vorhersagen. Die Genauigkeitsformel für die binäre Klassifizierung lautet:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

Dabei gilt:

Vergleichen Sie die Genauigkeit mit Precision und Rückruf.

Siehe Klassifizierung: Genauigkeit, Trefferquote, Genauigkeit und verwandte Messwerte im Crashkurs „Machine Learning“.

Aktion

#rl

Im Bereich bestärkendes Lernen den Mechanismus, mit dem der Agent Übergänge zwischen Bundesstaaten des Umgebung. Der Kundenservicemitarbeiter wählt die Aktion mithilfe einer Richtlinie

Aktivierungsfunktion

#fundamentals

Eine Funktion, mit der neuronale Netzwerke lernen können nonlinear (komplexe) Beziehungen zwischen Elementen und das Label.

Beliebte Aktivierungsfunktionen sind:

Die Diagramme von Aktivierungsfunktionen sind niemals gerade Linien. Das Diagramm der ReLU-Aktivierungsfunktion besteht beispielsweise aus zwei gerade Linien:

Ein kartesisches Diagramm mit zwei Linien. Die erste Linie hat eine Konstante,
          y-Wert von 0, der entlang der x-Achse von -unendlich,0 bis 0,-0 verläuft.
          Die zweite Zeile beginnt bei 0,0. Diese Linie hat eine Steigung von +1,
          von 0,0 bis +unendlich,+unendlich.

Ein Diagramm der Sigmoid-Aktivierungsfunktion sieht so aus:

Ein zweidimensionales, gebogenes Diagramm mit x-Werten, die die Domain umfassen
          -endlos zu +positiv, während y-Werte einen Bereich von fast 0 bis
          Fast 1. Wenn x 0 ist, ist y 0,5. Die Steigung der Kurve ist immer gleich
          positiv, wobei die höchste Steigung bei 0,0,5 liegt und allmählich abnimmt.
          wenn der Absolutwert von x ansteigt.

Siehe Neuronale Netzwerke: Aktivierung Funktionen im Crashkurs „Machine Learning“.

aktives Lernen

Ein Trainingsansatz, bei dem die Der Algorithmus wählt einige der Daten aus, aus denen er lernt. Aktives Lernen ist besonders nützlich, wenn Beispiele mit Labels selten oder teuer zu beschaffen sind. Anstatt blind nach einem vielfältigen Beispiel mit einer Liste von gekennzeichneten Beispielen, sucht ein Algorithmus für die für den Lernprozess benötigt werden.

AdaGrad

Ein ausgefeilter Algorithmus für den Gradientenabstieg, der Gradienten jedes Parameters, der praktisch jeden Parameter ergibt. eine unabhängige Lernrate. Eine ausführliche Erläuterung finden Sie unter diesem AdaGrad-Papier.

Agent

#rl

Im Bereich bestärkendes Lernen die Entität, die ein Richtlinie, um die erwartete Rendite aus der Übergang zwischen den Bundesstaaten Umgebung.

Im Allgemeinen ist ein Agent Software, die autonom ein mit der Fähigkeit, sich an Veränderungen anzupassen, in seiner Umgebung. Ein LLM-basierter Agent kann beispielsweise einen LLM verwendet, um einen Plan zu erstellen, anstatt eine Richtlinie für Reinforcement Learning anzuwenden.

Agglomeratives Clustering

#clustering

Siehe Hierarchisches Clustering.

Anomalieerkennung

Prozess der Identifizierung von Ausreißern. Wenn beispielsweise der Mittelwert für eine bestimmte Funktion 100 mit einer Standardabweichung von 10 ist, sollte die Anomalieerkennung einen Wert von 200 als verdächtig markieren.

AR

Abkürzung für Augmented Reality.

Bereich unter der PR-Kurve

Siehe PR AUC (Area under the PR Curve).

Bereich unter der ROC-Kurve

Siehe AUC (Bereich unter der ROC-Kurve).

künstliche allgemeine Intelligenz

Ein nicht menschlicher Mechanismus, der ein breites Spektrum an Problemlösungen veranschaulicht, Kreativität und Anpassungsfähigkeit. Ein Programm demonstriert beispielsweise künstliche kann allgemeine Intelligenz Texte übersetzen, Symphonien komponieren und die noch nicht erfunden wurden.

künstliche Intelligenz

#fundamentals

Ein nicht-menschliches Programm oder Modell, das komplexe Aufgaben lösen kann. Beispielsweise ein Programm oder Modell, das Text übersetzt, oder ein Programm oder Modell, identifiziert Krankheiten in radiologischen Bildern, die beide künstliche Intelligenz zeigen.

Formal ist maschinelles Lernen ein Teilbereich des künstlichen Bedrohungsdaten. In den letzten Jahren haben einige Unternehmen jedoch damit begonnen, Begriffe künstliche Intelligenz und Maschinelles Lernen synonym.

aufmerksamkeit

#language

Mechanismus in einem neuronalen Netzwerk, der angibt, die Bedeutung eines bestimmten Wortes oder Teils eines Wortes. Aufmerksamkeitskompresse die Menge an Informationen, die ein Modell benötigt, um das nächste Token/Wort vorherzusagen. Ein typischer Aufmerksamkeitsmechanismus gewichtete Summe über eine Reihe von Eingaben, wobei der Wert Das weight für jede Eingabe wird von einem anderen Teil des neuronalen Netzes.

Weitere Informationen finden Sie unter Selbstaufmerksamkeit und mehrköpfige Selbstaufmerksamkeit, Bausteine von Transformers.

Weitere Informationen finden Sie unter LLMs: What's a Large Language (LLMs: What's a Large Language) Modell? im Crashkurs „Machine Learning“.

Attribut

#fairness

Synonym für feature.

Bei der Fairness beim maschinellen Lernen beziehen sich Attribute oft Merkmale von Individuen.

Stichprobenerhebung für Attribute

#df

Eine Taktik zum Trainieren eines Entscheidungswalds, in der jede Der Entscheidungsbaum berücksichtigt nur eine zufällige Teilmenge möglicher Funktionen beim Lernen der Bedingung. Im Allgemeinen wird für jedes Element node. Beim Trainieren eines Entscheidungsbaums ohne Attribut-Sampling werden alle möglichen Features für jeden Knoten berücksichtigt.

AUC (Bereich unter der ROC-Kurve)

#fundamentals

Eine Zahl zwischen 0,0 und 1,0, die ein binäre Klassifizierung des Modells positive Klassen von negative Klassen. Je näher die AUC an 1,0 liegt, desto besser kann das Modell Klassen voneinander zu lernen.

Die folgende Abbildung zeigt beispielsweise ein Klassifikatormodell zur Trennung von positiven Klassen (grüne Ovale) von negativen Klassen. (lila Rechtecke) perfekt. Dieses unrealistisch perfekte Modell eine AUC von 1,0:

Eine Zahlenreihe mit acht positiven Beispielen auf einer Seite und
          9 Negativbeispiele auf der anderen Seite.

Umgekehrt sind in der folgenden Abbildung die Ergebnisse für einen Klassifikator das zufällige Ergebnisse generiert hat. Dieses Modell hat eine AUC von 0,5:

Eine Zahlenreihe mit 6 positiven und 6 negativen Beispielen.
          Die Reihenfolge der Beispiele ist positiv, negativ,
          positiv, negativ, positiv, negativ, positiv, negativ, positiv
          negativ, positiv, negativ.

Ja, das vorherige Modell hat eine AUC von 0,5, nicht 0,0.

Die meisten Modelle befinden sich irgendwo zwischen zwei Extremen. Zum Beispiel folgendes Modell trennt Positive von Negativen in gewisser Weise. liegt eine AUC zwischen 0,5 und 1,0:

Eine Zahlenreihe mit 6 positiven und 6 negativen Beispielen.
          Die Reihenfolge der Beispiele ist negativ, negativ, negativ, negativ,
          positiv, negativ, positiv, positiv, negativ, positiv, positiv,
          positiv zu bewerten.

AUC ignoriert alle Werte, die Sie für Klassifizierungsschwellenwert. Stattdessen wird AUC berücksichtigt alle möglichen Klassifizierungsschwellenwerte.

Siehe Klassifizierung: ROC und AUC im Crashkurs „Machine Learning“.

Augmented Reality

#image

Technologie, die ein computergeneriertes Bild über die Sicht der Nutzenden blendet der realen Welt und liefert so eine zusammengesetzte Ansicht.

Autoencoder

#language
#image

Ein System, das lernt, die wichtigsten Informationen aus der Eingabe. Autoencoder sind eine Kombination aus einem Encoder und Decoder verwenden. Autoencoder basieren auf dem folgenden zweistufigen Prozess:

  1. Der Encoder ordnet die Eingabe einer (in der Regel) verlustbehafteten, niedrigeren Dimension zu (Zwischenformat).
  2. Der Decoder erstellt eine verlustbehaftete Version der ursprünglichen Eingabe, indem er dem niedrigdimensionalen Format zum ursprünglichen, höherdimensionalen Format Eingabeformat.

Autoencoder werden durchgängig trainiert, indem der Decoder versucht, die ursprüngliche Eingabe aus dem Zwischenformat des Encoders rekonstruieren so genau wie möglich. Da das Zwischenformat kleiner ist, (geringere Dimension) als das Originalformat haben, wird der Autoencoder erzwungen. welche Informationen in der Eingabe wichtig sind, und die Ausgabe mit der Eingabe identisch sein.

Beispiel:

  • Handelt es sich bei den Eingabedaten um grafische Darstellungen, entspricht die nicht exakte Kopie der folgenden: Originalgrafik, aber etwas modifiziert. Vielleicht die bei einem unpassenden Text das Rauschen aus der Originalgrafik entfernt oder einige fehlende Pixel.
  • Handelt es sich bei den Eingabedaten um Text, generiert ein Autoencoder neuen Text, der ahmt den Originaltext nach, ist aber nicht damit identisch.

Weitere Informationen finden Sie unter Variative Autoencoder.

Automatisierungsverzerrung

#fairness

Wenn ein menschlicher Entscheidungsträger Empfehlungen durch einen automatisierten über Informationen, die ohne Automatisierung gewonnen werden, selbst wenn das automatisierte Entscheidungssystem Fehler macht.

Siehe Fairness: Arten von Voreingenommenheit im Crashkurs „Machine Learning“.

AutoML

Automatisierte Prozesse zum Erstellen von maschinellem Lernen Modelle. AutoML kann z. B. automatisch die folgenden Aufgaben ausführen:

  • Suchen Sie nach dem Modell, das am besten geeignet ist.
  • Stimmen Sie Hyperparameter ab.
  • Daten vorbereiten (einschließlich der Durchführung Feature Engineering).
  • Stellen Sie das resultierende Modell bereit.

AutoML ist nützlich für Data Scientists, weil sie damit Zeit und Geld sparen können. der Entwicklung von ML-Pipelines und der Verbesserung der Vorhersage Genauigkeit. Sie ist auch für Laien nützlich, da sie komplizierte und Aufgaben des maschinellen Lernens erleichtert werden können.

Siehe Automatisierte Maschine Lernen (AutoML) im Crashkurs „Machine Learning“.

automatisch regressives Modell

#language
#image
#generativeAI

Ein Modell, das eine Vorhersage anhand seiner eigenen vorherigen Vorhersagen zu treffen. Automatisch regressive Sprachmodelle sagen beispielsweise token basiert auf den zuvor vorhergesagten Tokens. Alle Transformer-basierten Large Language Models sind automatisch regressiv.

Im Gegensatz dazu sind GAN-basierte Bildmodelle normalerweise nicht automatisch regressiv. da sie ein Bild mit einem einzigen Vorwärtsdurchlauf und nicht iterativ in Schritte. Bestimmte Modelle zur Bildgenerierung sind jedoch automatisch regressiv, wird schrittweise ein Bild generiert.

Hilfsverlust

Eine Verlustfunktion, die in Verbindung mit einer neuronales Netzwerk Modell Verlustfunktion, die dazu beiträgt, das Training während der Iterationen, wenn Gewichtungen zufällig initialisiert werden.

Hilfsverlustfunktionen übertragen effektive Verläufe zu den früheren Layers. Dies erleichtert Konvergenz während des Trainings indem Sie das Problem mit dem Farbverlauf „Verschwinden“ beheben.

durchschnittliche Precision

Messwert zum Zusammenfassen der Leistung einer Rangfolge von Ergebnissen. Die durchschnittliche Genauigkeit wird berechnet, indem der Durchschnitt der preferences-Werte für jedes relevante Ergebnis (jedes Ergebnis in der Rangliste, bei der der Recall im Verhältnis zum vorherigen Ergebnis zunimmt).

Siehe auch Fläche unter der PR-Kurve.

Achsenausrichtung

#df

In einem Entscheidungsbaum wird eine Bedingung die nur eine einzige Funktion umfasst. Wenn beispielsweise eine Region ist eine Achsenausrichtung:

area > 200

Kontrast zur schrägen Bedingung

B

Rückpropagierung

#fundamentals

Der Algorithmus, der die Gradientenverfahren in neuronale Netzwerke.

Das Training eines neuronalen Netzwerks beinhaltet viele Iterationen des folgenden Zyklus mit zwei Durchläufen:

  1. Während der Vorwärtsterminierung verarbeitet das System einen Batch von Beispiele für Vorhersagen. Das System vergleicht alle Vorhersage für jeden label-Wert. Der Unterschied zwischen der Vorhersage und der Labelwert ist der Verlust für dieses Beispiel. Das System aggregiert die Verluste für alle Beispiele, um die Gesamtsumme zu berechnen. für den aktuellen Batch.
  2. Während der Rückwärtspropagierung (Rückpropagierung) reduziert das System den Verlust um die Gewichtung aller Neuronen in allen ausgeblendete Ebene(n):

Neuronale Netzwerke umfassen oft viele Neuronen auf vielen verborgenen Schichten. Jedes dieser Neuronen trägt auf unterschiedliche Weise zum Gesamtverlust bei. Die Rückpropagierung bestimmt, ob die Gewichtungen erhöht oder verringert werden sollen auf bestimmte Neuronen angewendet.

Die Lernrate ist ein Multiplikator, der die Grad, um den die Gewichtung bei jedem Rückwärtsgang zu- oder abnimmt. Eine große Lernrate erhöht oder verringert jede Gewichtung um mehr als ein eine geringe Lernrate.

Rechnerisch betrachtet wird bei der Rückpropagierung die Methode Kettenregel. aus Differenzial- und Integralrechnungen. Das heißt, die Rückpropagierung berechnet partielle Ableitung des Fehlers mit in Bezug auf den jeweiligen Parameter.

Vor Jahren mussten ML-Anwender Code schreiben, um die Rückpropagierung zu implementieren. Moderne ML-APIs wie Keras implementieren jetzt die Rückpropagierung für Sie. Geschafft!

Siehe Neuronale Netzwerke im Crashkurs „Machine Learning“.

Bagging

#df

Eine Methode zum Trainieren eines Ensembles, bei der jedes Das Teilnehmende-Modell wird mit einer zufälligen Teilmenge von Trainings trainiert. Beispiele mit Ersatzstichproben. Ein Random Forest ist beispielsweise eine Sammlung von Entscheidungsbäume, die mithilfe von Bagging trainiert wurden.

Bagging steht für Aggregating von Schnürsenkeln.

Weitere Informationen finden Sie im Hilfeartikel Random Forests. finden Sie weitere Informationen dazu.

Bag of Words

#language

Darstellung der Wörter in einer Wortgruppe oder Passage unabhängig von der Reihenfolge. Beispiel: Bag of Words steht für die auf die gleiche Weise:

  • Der Hund springt
  • springt den Hund
  • Hund springt

Jedes Wort wird einem Index in einem dünnen Vektor zugeordnet, wobei hat der Vektor einen Index für jedes Wort im Vokabular. Beispiel: Der Ausdruck der Hund springt wird einem Featurevektor mit einer Zahl ungleich null zugeordnet. Werte in den drei Indexen, die den Wörtern the, dog und Sprünge. Bei einem Wert ungleich null kann es sich um einen der folgenden Werte handeln:

  • Eine 1, die angibt, dass ein Wort vorhanden ist.
  • Gibt an, wie oft ein Wort in einer Tasche erscheint. Beispiel: Wenn die Wortgruppe der kastanienbraune Hund ist ein Hund mit kastanienbraunem Fell wäre, dann gilt sowohl maroon und dog werden als 2 dargestellt, während die anderen Wörter als 1 dargestellt werden.
  • Ein anderer Wert, z. B. der Logarithmus der Anzahl Mal, wenn ein Wort in der Tasche erscheint.

baseline

Ein Modell, das als Referenzpunkt zum Vergleich verwendet wird, wie gut ein anderes Modell (normalerweise ein komplexeres) Modell funktioniert. Beispiel: logistisches Regressionsmodell kann als gute Basislinie für ein tiefes Modell ist.

Für ein bestimmtes Problem hilft die Basislinie Modellentwicklern bei der Quantifizierung die minimale erwartete Leistung, die ein neues Modell für das neue um nützlich zu sein.

Batch

#fundamentals

Die in einem Training verwendeten Beispiele Iteration. Die Batchgröße bestimmt die Anzahl der Beispiele in einer Batch.

Unter Epoche finden Sie eine Erläuterung, wie sich ein Batch auf eine Epoche.

Siehe Lineare Regression: Hyperparameter im Crashkurs „Machine Learning“.

Batch-Inferenz

#TensorFlow
#GoogleCloud

Der Prozess des Ableitens von Vorhersagen aus mehreren Beispiele ohne Label, unterteilt in kleinere Teilmengen ("Batches").

Für die Batchinferenz können die Parallelisierungsfeatures Beschleuniger-Chips. Das heißt, mehrere Beschleuniger können gleichzeitig Vorhersagen für verschiedene Batches ohne Label ableiten. und damit die Anzahl der Inferenzen pro Sekunde drastisch erhöhen.

Siehe Produktions-ML-Systeme: Statisch vs. dynamisch Inferenz im Crashkurs „Machine Learning“.

Batchnormalisierung

Eine Normalisierung der Ein- und Ausgabe des Aktivierungsfunktionen in einem ausgeblendete Ebene: Die Batchnormalisierung kann bieten folgende Vorteile:

Batchgröße

#fundamentals

Die Anzahl der Beispiele in einem Batch. Wenn die Batchgröße beispielsweise 100 beträgt, verarbeitet das Modell 100 Beispiele pro Version

Im Folgenden sind beliebte Strategien für die Batchgröße aufgeführt:

  • Stochastic Gradient Descent (SGD) mit einer Batchgröße von 1.
  • Vollständiger Batch, bei dem die Batchgröße die Anzahl der Beispiele im gesamten Trainings-Dataset Wenn z. B. das Trainings-Dataset eine Million Beispiele enthält, wäre die Batchgröße eine Million Beispiele. Ein vollständiger Batch ist normalerweise eine ineffiziente Strategie.
  • Mini-Batch, bei dem die Batchgröße normalerweise zwischen 10 und 1.000. Mini-Batches sind normalerweise die effizienteste Strategie.

Weitere Informationen finden Sie hier:

Bayessches neuronales Netzwerk

Ein probabilistisches neuronales Netzwerk, das Unsicherheit in Gewichtungen und Ausgaben. Ein neuronales Standardnetzwerk Regressionsmodell prognostiziert normalerweise einen Skalarwert. Ein Standardmodell prognostiziert z. B. einen Hauspreis von 853.000. Im Gegensatz dazu prognostiziert ein Bayes'sches neuronales Netzwerk Werte; Ein bayessches Modell prognostiziert beispielsweise einen Hauspreis von 853.000 mit eine Standardabweichung von 67.200.

Ein Bayes'sches neuronales Netzwerk <ph type="x-smartling-placeholder"></ph> Bayes Satz um Unsicherheiten bei Gewichtungen und Vorhersagen zu berechnen. Bayessches Neural Netzwerk kann nützlich sein, wenn es wichtig ist, Unsicherheit zu quantifizieren, z. B. mit Bezug auf Arzneimittel. Bayessche neuronale Netzwerke können auch um eine Überanpassung zu vermeiden.

Bayes'sche Optimierung

Ein probabilistisches Regressionsmodell zur Optimierung rechenintensiver Prozesse Zielfunktionen, indem Sie stattdessen einen Ersatzwert optimieren das die Unsicherheit mithilfe einer bayesschen Lerntechnik quantifiziert. Seit Die Bayes'sche Optimierung ist selbst sehr teuer. Sie wird normalerweise zur Optimierung teure zu bewertende Aufgaben mit einer kleinen Anzahl von Parametern, wie und wählen Sie Hyperparameter aus.

Bellman-Gleichung

#rl

Beim Reinforcement Learning wurde die Q-Funktion:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

Die Algorithmen des Bestärkenden Lernens wenden das an. Identität, um Q-learning über die folgende Aktualisierungsregel zu erstellen:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

Neben bestärkendem Lernen bietet die Bellman-Gleichung auch dynamische Programmierung. Weitere Informationen finden Sie in der <ph type="x-smartling-placeholder"></ph> Wikipedia-Eintrag zur Bellman-Gleichung.

BERT (Bidirektionaler Encoder) Darstellungen von Transformern)

#language

Eine Modellarchitektur für die Textdarstellung. Ein geschulter BERT-Modells können Teil eines größeren Modells zur Textklassifizierung oder zum und andere ML-Aufgaben.

BERT hat die folgenden Eigenschaften:

Zu den BERT-Varianten gehören:

  • Hallo ALBERT, Das ist ein Akronym für A Light BERT.
  • LaBSE

Siehe BERT für Open Sourcing: State-of-the-Art Pre-Training for Natural Language Wird verarbeitet um einen Überblick über BERT zu erhalten.

Voreingenommenheit (Ethik/Fairness)

#fairness
#fundamentals

1. Vorurteile, Vorurteile gegenüber bestimmten Dingen, Menschen, oder Gruppen vor anderen. Diese Voreingenommenheiten können sich auf die Erfassung und Interpretation von Daten, das Design eines Systems und die Art und Weise, wie Nutzende interagieren mit einem System. Zu diesen Formen von Verzerrungen gehören:

2. Systematischer Fehler, der durch ein Stichproben- oder Meldeverfahren verursacht wird. Zu diesen Formen von Verzerrungen gehören:

Nicht zu verwechseln mit dem Begriff „Voreingenommenheit“ in Modellen für maschinelles Lernen oder Vorhersageverzerrung.

Siehe Fairness: Arten von Verzerrung bei der Crashkurs „Maschinelles Lernen“.

Verzerrung (Mathematik) oder Bias-Begriff

#fundamentals

Ein Achsenabschnitt oder Versatz von einem Ursprung. Verzerrung ist ein Parameter in die durch eine der beiden Methoden Folgendes:

  • M
  • W0

Verzerrungen sind beispielsweise das b in der folgenden Formel:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Bei einer einfachen zweidimensionalen Linie bedeutet Verzerrung einfach "y-Achsenabschnitt". Die Verzerrung der Linie in der folgenden Abbildung beträgt beispielsweise 2.

Diagramm einer Geraden mit einer Steigung von 0,5 und einer Verzerrung (y-Achsenabschnitt) von 2.

Verzerrung liegt vor, weil nicht alle Modelle am Ursprung (0,0) beginnen. Beispiel: Ein Vergnügungspark kostet 2 € und eine weitere 0,50 € pro Stunde, die ein Kunde übernachtet. Daher kann ein Modell, das die Die Gesamtkosten weisen eine Verzerrung von 2 auf, da die niedrigsten Kosten 2 Euro betragen.

Voreingenommenheit ist nicht zu verwechseln mit Voreingenommenheit in Bezug auf Ethik und Fairness. oder Vorhersageverzerrung.

Siehe Lineare Regression im Crashkurs „Machine Learning“.

bidirektional

#language

Ein Begriff, der ein System beschreibt, das den Text auswertet, der vorher und folgt einem Zieltextabschnitt. Im Gegensatz dazu Nur unidirektionales System wertet den Text aus, der einem Zieltextabschnitt vor ist.

Nehmen wir als Beispiel ein maskiertes Sprachmodell, das müssen die Wahrscheinlichkeiten für das Wort oder die Wörter bestimmen, die den Unterstrich in folgende Frage:

Was ist _____ bei dir?

Ein unidirektionales Sprachmodell müsste nur auf seine Wahrscheinlichkeiten basieren. zum Kontext der Wörter „Was“, „ist“ und „der“. Im Gegensatz dazu könnte ein bidirektionales Language Model auch Kontext durch und „you“, was dem Modell helfen kann, bessere Vorhersagen zu generieren.

Bidirektionales Sprachmodell

#language

Ein Sprachmodell, das die Wahrscheinlichkeit bestimmt, dass ein an einer bestimmten Position in einem Textauszug vorhanden ist, vorangehenden und folgenden Text verwenden.

Bigram

#seq
#language

Ein N-Gramm mit N=2.

Binäre Klassifizierung

#fundamentals

Eine Art der Klassifizierung, die sagt eine von zwei sich gegenseitig ausschließende Klassen voraus:

Die folgenden beiden ML-Modelle erzielen beispielsweise Binäre Klassifizierung:

  • Ein Modell, das bestimmt, ob E-Mails spam (die positive Klasse) oder not spam (die negative Klasse).
  • Modell, das medizinische Symptome bewertet, um festzustellen, ob eine Person hat eine bestimmte Krankheit (die positive Klasse) oder nicht Krankheit (die negative Klasse).

Im Kontrast zur Klassifizierung mit mehreren Klassen stehen.

Siehe auch logistische Regression und Klassifizierungsschwellenwert.

Siehe Klassifizierung im Crashkurs „Machine Learning“.

Binärbedingung

#df

In einem Entscheidungsbaum wird eine Bedingung mit zwei möglichen Ergebnissen, typischerweise ja oder nein. Das folgende Beispiel zeigt eine binäre Bedingung:

temperature >= 100

Im Kontrast zur nicht binären Bedingung stehen.

Weitere Informationen finden Sie unter Bedingungstypen. finden Sie weitere Informationen dazu.

Gruppieren

Synonym für bucketing.

BLEU (Bilingual Evaluation Understudy)

#language

Ein Wert zwischen 0,0 und 1,0 (jeweils einschließlich), der die Qualität einer Übersetzung angibt. zwischen zwei menschlichen Sprachen (z. B. Englisch und Russisch) zu vergleichen. Ein Bleu ein Wert von 1,0 bedeutet, dass die Übersetzung perfekt ist. Ein BLEU-Wert von 0,0 zeigt an, eine schlechte Übersetzung.

Boosting

Verfahren des maschinellen Lernens, das iterativ eine Reihe einfacher und nicht sehr genauen Klassifikatoren (sogenannte schwache) Klassifikatoren, Klassifikator mit hoher Genauigkeit (ein „starker“ Klassifikator) hochskalieren der Beispiele, in denen sich das Modell derzeit befindet falsche Klassifizierung.

Farbverlauf-Boosted-Entscheidung ansehen Bäume? finden Sie weitere Informationen dazu.

Begrenzungsrahmen

#image

In einem Bild werden die Koordinaten (x, y) eines Rechtecks um eine Fläche von Interesse, wie der Hund im Bild unten.

Foto eines Hundes, der auf einem Sofa sitzt. Ein grüner Begrenzungsrahmen
          mit den Koordinaten (275, 1271) oben links und rechts unten
          Die Koordinaten von (2954, 2761) beschriftet den Körper des Hundes.

Broadcasting

Erweiterung der Form eines Operanden in einer mathematischen Matrixoperation zu Dimensionen an, die mit diesem Vorgang kompatibel sind. Beispiel: linearen Algebra erfordert, dass die beiden Operanden in einer Matrix Additionsoperation müssen dieselben Abmessungen haben. Daher können Sie keine Formmatrix hinzufügen. (m, n) zu einem Vektor der Länge n. Broadcasting ermöglicht diesen Vorgang, indem die virtuelle Erweiterung des Vektors der Länge n auf eine Matrix der Form (m, n) durch und repliziert dieselben Werte in jeder Spalte.

Angesichts der folgenden Definitionen verbietet die lineare Algebra beispielsweise A+B, da A und B unterschiedliche Dimensionen haben:

A = [[7, 10, 4],
     [13, 5, 9]]
B = [2]

Broadcasting ermöglicht jedoch die Operation A+B durch die virtuelle Erweiterung von B auf:

 [[2, 2, 2],
  [2, 2, 2]]

Daher ist A+B jetzt eine gültige Operation:

[[7, 10, 4],  +  [[2, 2, 2],  =  [[ 9, 12, 6],
 [13, 5, 9]]      [2, 2, 2]]      [15, 7, 11]]

Siehe folgende Beschreibung Übertragung in NumPy.

Bucketing

#fundamentals

Ein einzelnes feature in mehrere binäre Features umwandeln als buckets oder bins, in der Regel auf einem Wertebereich basieren. Die geschnittene Funktion ist in der Regel ein fortlaufende Funktion:

Anstatt beispielsweise die Temperatur als einzelnes Gleitpunktelement definiert ist, können Sie Temperaturbereiche in separate Gruppen unterteilen, z. B.:

  • <= 10 Grad Celsius wäre die „kalte“ Temperatur Bucket.
  • 11 bis 24 Grad Celsius wären das gemäßigte Temperatur Bucket.
  • >= 25 Grad Celsius wären Bucket.

Das Modell behandelt jeden Wert im selben Bucket gleich. Für Beispiel: Die Werte 13 und 22 befinden sich beide im gemäßigten Bucket, sodass der Wert werden beide Werte gleich behandelt.

Siehe Numerische Daten: Gruppieren im Crashkurs „Machine Learning“.

C

Kalibrierungsschicht

Eine Anpassung nach der Vorhersage, in der Regel, um Vorhersageverzerrung. Die angepassten Vorhersagen und die Wahrscheinlichkeiten der Verteilung eines beobachteten Satzes von Labels entsprechen.

Kandidatengenerierung

#recsystems

Der erste Satz von Empfehlungen, die von einem Empfehlungssystem. Stellen Sie sich zum Beispiel eine Buchhandlung mit 100.000 Titeln. In der Phase der Kandidatenerstellung werden eine viel kleinere Liste geeigneter Bücher für einen bestimmten Nutzer, z. B. 500. Aber selbst 500 Bücher sind viel zu viele, um sie einem Nutzer zu empfehlen. Nachfolgende, teurere, Phasen eines Empfehlungssystems (z. B. Bewertung und Re-Ranking) diese 500 auf einen viel kleineren nützlichere Empfehlungen erhalten.

Siehe Generieren von Kandidaten Übersicht finden Sie weitere Informationen dazu.

Stichprobenerhebung bei Kandidaten

Eine Optimierung während der Trainingszeit, die eine Wahrscheinlichkeit für alle positive Labels, z. B. mit Softmax, aber nur für eine zufällige Stichprobe negativer Labels. Bei einem Beispiel mit der Bezeichnung beagle und dog – durch Kandidatenstichproben werden die vorhergesagten Wahrscheinlichkeiten berechnet. und entsprechende Verlustbedingungen für:

  • Beagle
  • Hund
  • eine zufällige Teilmenge der verbleibenden negativen Klassen (z. B. cat, lollipop, fence).

Die Idee dahinter ist, negative Klassen können aus weniger häufigen Kursen lernen negative Verstärkung, solange positive Klassen sind immer richtig positiv und empirisch zu beobachten.

Die Stichprobenerhebung bei Kandidaten ist recheneffizienter als die Trainingsalgorithmen. die Vorhersagen für alle negativen Klassen berechnen, insbesondere wenn die die Anzahl negativer Klassen sehr groß ist.

Kategorische Daten

#fundamentals

Elemente mit einem bestimmten Satz möglicher Werte. Beispiel: betrachten wir ein kategoriales Merkmal namens traffic-light-state, das nur haben einen der folgenden drei möglichen Werte:

  • red
  • yellow
  • green

Wenn traffic-light-state als kategoriales Merkmal dargestellt wird, kann ein Modell lernen, unterschiedliche Auswirkungen von red, green und yellow auf das Fahrverhalten.

Kategoriale Merkmale werden manchmal als diskrete Funktionen:

Einen Kontrast zu numerischen Daten

Weitere Informationen finden Sie unter Mit kategorialen Daten im Crashkurs „Machine Learning“.

kausales Language Model

#language

Synonym für unidirektionales Sprachmodell.

Weitere Informationen finden Sie unter bidirektionales Sprachmodell verschiedene Richtungsansätze in der Sprachmodellierung gegenüberzustellen.

Schwerpunkt

#clustering

Zentrum eines Clusters, bestimmt durch ein k-Means- oder k-Median-Algorithmus. Beispiel: Wenn k gleich 3 ist, findet der k-Means- oder k-Median-Algorithmus 3 Schwerpunkte.

Siehe Clustering-Algorithmen im Clustering-Kurs.

Schwerpunktbasiertes Clustering

#clustering

Eine Kategorie von Clustering-Algorithmen, die Daten organisieren in nicht hierarchischen Clustern verteilt werden. k-Means ist der am weitesten verbreitete zenroidbasierten Clustering-Algorithmus.

Im Gegensatz zu hierarchischem Clustering Algorithmen.

Siehe Clustering-Algorithmen im Clustering-Kurs.

Chain-of-Thought Prompting

#language
#generativeAI

Eine Prompt-Engineering-Technik, die dazu beiträgt, ein Large Language Model (LLM) nutzen, um seine Logik, Schritt für Schritt. Betrachten Sie zum Beispiel den folgenden Prompt: insbesondere auf den zweiten Satz:

Wie viele g-Kräfte würde ein Fahrer in einem Auto von 0 auf 60 erleben Meilen pro Stunde in 7 Sekunden? Zeigen Sie in der Antwort alle relevanten Berechnungen an.

Die Antwort des LLM würde wahrscheinlich:

  • Eine Reihe physikalischer Formeln zeigen, wobei die Werte 0, 60 und 7 eingesetzt werden an geeigneten Stellen.
  • Erklären Sie, warum diese Formeln gewählt wurden und was die verschiedenen Variablen bedeuten.

Das LLM zwingt das LLM, alle Berechnungen durchzuführen, was zu einer richtigen Antwort führen könnte. Darüber hinaus ist eine Chain-of-Thinking-Methode Prompts ermöglichen es Nutzenden, die Schritte des LLM zu untersuchen, um festzustellen, ob die Antwort sinnvoll ist.

Chat

#language
#generativeAI

Die Inhalte eines wechselseitigen Dialogs mit einem ML-System, in der Regel Large Language Model: Vorherige Interaktion in einem Chat was Sie eingegeben haben und wie das Large Language Model geantwortet hat. Kontext für die nachfolgenden Teile des Chats.

Ein Chatbot ist eine Anwendung eines Large Language Model.

CHECKPOINT

Daten, die den Status der Parameter eines Modells erfassen, entweder oder nach Abschluss des Trainings. Während des Trainings können Sie:

  1. Beenden Sie das Training, vielleicht absichtlich oder aufgrund von zu bestimmten Fehlern führen.
  2. Prüfpunkt erfassen
  3. Aktualisieren Sie den Prüfpunkt später, möglicherweise auf einer anderen Hardware.
  4. Training neu starten.

Klasse

#fundamentals

Eine Kategorie, zu der ein Label gehören kann. Beispiel:

Ein Klassifizierungsmodell sagt eine Klasse vorher. Im Gegensatz dazu sagt ein Regressionsmodell eine Zahl und nicht auf einen Kurs.

Siehe Klassifizierung im Crashkurs „Machine Learning“.

Klassifizierungsmodell

#fundamentals

Ein Modell, dessen Vorhersage eine Klasse ist. Im Folgenden finden Sie alle Klassifizierungsmodelle:

  • Ein Modell, das die Sprache eines Eingabesatzes vorhersagt (Französisch? Spanisch? Italienisch?).
  • Ein Modell, das Baumarten vorhersagt (Maple? Eiche? Affenbrot?).
  • Modell, das die positive oder negative Klasse für eine bestimmte Erkrankungen.

Im Gegensatz dazu sagen Regressionsmodelle Zahlen voraus. und nicht für Kurse.

Zwei gängige Arten von Klassifizierungsmodellen sind:

Klassifizierungsschwellenwert

#fundamentals

Bei einer binären Klassifizierung ist ein Zahl zwischen 0 und 1, die die Rohausgabe eines logistisches Regressionsmodell in eine Vorhersage entweder der positiven Klasse oder die negative Klasse. Der Klassifizierungsschwellenwert wird vom Nutzer ausgewählt. kein Wert, der vom Modelltraining ausgewählt wurde.

Ein logistisches Regressionsmodell gibt einen Rohwert zwischen 0 und 1 aus. Dann:

  • Wenn dieser Rohwert größer als der Klassifizierungsschwellenwert ist, dann: wird die positive Klasse vorhergesagt.
  • Wenn dieser Rohwert kleiner als Klassifizierungsschwellenwert ist, gilt: wird die negative Klasse vorhergesagt.

Angenommen, der Klassifizierungsschwellenwert beträgt 0,8. Wenn der Rohwert 0,9 ist, sagt das Modell die positive Klasse vorher. Wenn der Rohwert gleich 0,7 ist, sagt das Modell die negative Klasse vorher.

Die Wahl des Klassifizierungsschwellenwerts wirkt sich stark auf die Anzahl der falsch positive Ergebnisse und falsch negative Ergebnisse.

Siehe Grenzwerte und die Verwirrung Matrix im Crashkurs „Machine Learning“.

Dataset mit klassenunausgeglichenem Dataset

#fundamentals

Ein Dataset für ein Klassifizierungsproblem, bei dem die Gesamtzahl der Labels jeder Klasse unterscheiden sich erheblich. Nehmen wir als Beispiel ein binäres Klassifizierungs-Dataset, dessen zwei Labels wie folgt aufgeteilt:

  • 1.000.000 auszuschließende Labels
  • 10 positive Labels

Das Verhältnis von negativen zu positiven Labels beträgt 100.000:1. ist ein klassenunausgeglichenes Dataset.

Im Gegensatz dazu ist das folgende Dataset nicht klassenunausgewogen, da die Verhältnis von negativen Labels zu positiven Labels liegt relativ nahe bei 1:

  • 517 ausschließende Labels
  • 483 positive Labels

Datasets mit mehreren Klassen können auch klassenunausgewogen sein. Beispiel: Das mehrklassige Klassifizierungs-Dataset ist ebenfalls unausgewogen, da ein Label enthält weit mehr Beispiele als die anderen beiden:

  • 1.000.000 Labels mit der Klasse „green“
  • 200 Labels mit der Klasse „lila“
  • 350 Labels mit der Klasse „orange“

Siehe auch Entropie, Mehrheitsklasse, und Minderheitenklasse.

Clipping

#fundamentals

Verfahren zum Umgang mit Ausreißern durch Entweder oder beide:

  • Reduzieren von feature-Werten, die größer als ein Maximum sind Grenzwert unter diesen Höchstwert reduzieren.
  • Die Erhöhung von Featurewerten unter einem Mindestgrenzwert bis zu diesem Wert Untergrenze.

Angenommen, < 0,5% der Werte für ein bestimmtes Feature fallen außerhalb des Bereichs von 40 bis 60 liegt. In diesem Fall könnten Sie so vorgehen:

  • Alle Werte über 60 (der maximale Schwellenwert) werden auf genau 60 reduziert.
  • Alle Werte unter 40 (die Mindestgrenze) werden auf genau 40 gekürzt.

Ausreißer können Modelle beschädigen und manchmal Gewichtungen verursachen. während des Trainings überlaufen. Einige Ausreißer können auch dramatisch verderben Messwerte wie Genauigkeit. Das Abschneiden ist eine gängige Methode, für den Schaden.

Kräfte zum Abschneiden des Farbverlaufs Gradienten-Werten innerhalb eines festgelegten Bereichs während des Trainings.

Siehe Numerische Daten: Normalisierung im Crashkurs „Machine Learning“.

Cloud TPU

#TensorFlow
#GoogleCloud

Spezieller Hardwarebeschleuniger zum Beschleunigen der Maschine Lernarbeitslasten in Google Cloud.

Clustering

#clustering

Gruppieren verwandter Beispiele, insbesondere während unüberwachtes Lernen: Sobald alle gruppiert werden, kann ein Mensch jedem Cluster optional Bedeutung verleihen.

Es gibt viele Clustering-Algorithmen. Das k-Means-Objekt zum Beispiel Algorithmus-Cluster-Beispiele anhand ihrer Nähe zu einem Schwerpunkt, wie im folgenden Diagramm:

Ein zweidimensionales Diagramm, in dem die x-Achse mit der Baumbreite beschriftet ist,
          und die Y-Achse ist mit
Baumhöhe beschriftet. Das Diagramm enthält zwei
          Schwerpunkte und mehrere Dutzend Datenpunkte. Die Datenpunkte sind
          nach ihrer Nähe kategorisiert. Das heißt, die Datenpunkte
          einem Schwerpunkt als Cluster 1 kategorisiert, während diejenigen
          dem anderen Schwerpunkt liegt,
werden als Cluster 2 kategorisiert.

Ein menschlicher Forscher könnte dann die Cluster überprüfen und zum Beispiel Cluster 1 als „Zwergbäume“ kennzeichnen und Cluster 2 als „Bäume in voller Größe“ angezeigt.

Ein weiteres Beispiel ist ein Clustering-Algorithmus, der auf einem Abstand des Beispiels von einem Mittelpunkt, wie hier dargestellt:

Dutzende Datenpunkte sind in konzentrischen Kreisen angeordnet,
          wie Löcher um die Mitte einer Dartscheibe. Der innerste Ring
          der Datenpunkte wird als Cluster 1 kategorisiert, der mittlere Ring
          als Cluster 2 kategorisiert und der äußerste Ring
          Cluster 3.

Weitere Informationen finden Sie im Kurs zu Clustering. .

Co-Anpassung

Wenn Neuronen Muster in Trainingsdaten vorhersagen, indem sie fast ausschließlich auf die Ausgaben bestimmter anderer Neuronen verwendet, anstatt sich auf und das Verhalten des Netzwerks als Ganzes. Wenn die Muster, die die Co-Anpassung verursachen, nicht in den Validierungsdaten vorhanden sind, führt die Co-Anpassung zu einer Überanpassung. Dropout-Regularisierung reduziert die Co-Anpassung weil es dafür sorgt, dass Neuronen sich nicht nur auf bestimmte andere Neuronen verlassen können.

kollaboratives Filtern

#recsystems

Vorhersagen zu den Interessen eines Nutzers treffen die auf den Interessen vieler anderer Nutzenden basieren. Kollaboratives Filtern wird häufig in Empfehlungssystemen verwendet.

Siehe Collaborative Filtern finden Sie weitere Informationen dazu.

Konzeptabweichung

Eine Verschiebung in der Beziehung zwischen Elementen und dem Label. Im Laufe der Zeit verringert eine Konzeptabweichung die Qualität eines Modells.

Während des Trainings lernt das Modell die Beziehung zwischen den Features und ihre Labels im Trainings-Dataset. Wenn die Labels im Trainings-Dataset gute Proxys für die reale Welt haben, sollte sich das Modell damit Vorhersagen aus der realen Welt. Aufgrund von Konzeptabweichungen mit der Zeit verschlechtern.

Angenommen, Sie verwenden eine binäre Klassifizierung. ein Modell, das vorhersagt, ob ein bestimmtes Automodell "kraftstoffeffizient" ist. Mögliche Funktionen:

  • Fahrzeuggewicht
  • Motorkompressung
  • Übertragungstyp

Das Label ist entweder:

  • spritsparend
  • nicht spritsparend

Das Konzept des „kraftstoffsparenden Autos“ behält ändern. Ein Automodell mit der Bezeichnung kraftstoffsparend im Jahr 1994 würde mit hoher Wahrscheinlichkeit 2024 als nicht spritsparend gekennzeichnet werden. Modell mit Konzeptabweichung Vorhersagen im Laufe der Zeit immer weniger nützlich.

Vergleichen Sie sie mit der Instationarität.

condition

#df

In einem Entscheidungsbaum kann jeder Knoten, der einen Ausdruck auswertet. Der folgende Teil einer Entscheidungsbaum enthält zwei Bedingungen:

Einen Entscheidungsbaum, der aus zwei Bedingungen besteht: (x > 0) und
          (y > 0)

Eine Bedingung wird auch als Split oder Test bezeichnet.

Kontrastbedingung mit Blatt

Siehe auch:

Weitere Informationen finden Sie unter Bedingungstypen. finden Sie weitere Informationen dazu.

Konfabulation

#language

Synonym für Halluzination.

Konfabulation ist technisch wahrscheinlich ein besserer Begriff als Halluzination. Halluzinationen wurden jedoch zuerst beliebt.

Konfiguration

Das Zuweisen der anfänglichen Attributwerte, die zum Trainieren eines Modells verwendet werden, einschließlich:

In ML-Projekten kann die Konfiguration über eine spezielle Konfigurationsdatei oder mithilfe von Konfigurationsbibliotheken wie den folgenden verwenden:

Bestätigungsverzerrung

#fairness

Die Tendenz, Informationen zu suchen, zu interpretieren, zu bevorzugen und in Erinnerung zu rufen, bereits bestehende Überzeugungen oder Hypothesen bestätigen. Entwickelnde für maschinelles Lernen können versehentlich Daten erheben oder kennzeichnen, Daten so beeinflussen, dass sie ein Ergebnis beeinflussen, das ihre bestehenden und Überzeugungen. Der Bestätigungsfehler ist eine Form der impliziten Voreingenommenheit.

Die Experimentatorverzerrung ist eine Form der Bestätigungsverzerrung, bei der trainiert ein Experimentator das Modell so lange weiter, bis ein dass die Hypothese bestätigt ist.

Wahrheitsmatrix

#fundamentals

Eine NxN-Tabelle, die die Anzahl der richtigen und falschen Vorhersagen zusammenfasst die ein Klassifizierungsmodell erstellt hat. Betrachten Sie beispielsweise die folgende Wahrheitsmatrix für ein binäres Klassifizierungsmodell:

Tumor (prognostiziert) Kein Tumor (prognostiziert)
Tumor (Ground Truth) 18 (TP) 1 (FN)
Nicht Tumor (Ground Truth) 6 (FP) 452 (TN)

Die obige Wahrheitsmatrix zeigt Folgendes:

  • Von den 19 Vorhersagen, bei denen Ground Truth Tumor war, dass das Modell 18 richtig und falsch 1 klassifiziert hat.
  • Von den 458 Vorhersagen, bei denen die Grundwahrheit „Nicht-Tumor“ war, wurde das Modell richtig klassifiziert 452 und falsch klassifiziert 6.

Die Wahrheitsmatrix für eine Klassifizierung mit mehreren Klassen kann Ihnen helfen, Fehlermuster zu erkennen. Betrachten Sie beispielsweise die folgende Wahrheitsmatrix für eine 3-Klassen-Klasse. Klassifizierungsmodell mit mehreren Klassen, das drei verschiedene Iristypen kategorisiert (Virginica, Versicolor und Setosa). Als die Grundwahrheit Virginica war, Die Wahrheitsmatrix zeigt, dass das Modell viel häufiger Versicolor als Setosa vorhersagen:

  Setosa (prognostiziert) Versicolor (vorhergesagt) Virginica (prognostiziert)
Setosa (Ground Truth) 88 12 0
Versicolor (Ground Truth) 6 141 7
Virginica (Ground Truth) 2 27 109

Ein weiteres Beispiel: Eine Wahrheitsmatrix könnte zeigen, dass ein trainiertes Modell handschriftliche Ziffern zu erkennen, bestimmt fälschlicherweise 9 statt 4 vorher, oder versehentlich 1 statt 7 vorhersagen.

Wahrheitsmatrizes enthalten genügend Informationen, um eine verschiedene Leistungsmesswerte, einschließlich Genauigkeit und Recall.

Wahlkreis-Parsing

#language

Das Unterteilen eines Satzes in kleinere grammatische Strukturen („Bestandteile“). Einen späteren Teil des ML-Systems, z. B. Natural Language Understanding verwendet, die Bestandteile leichter parsen können als der ursprüngliche Satz. Beispiel: stellen Sie sich den folgenden Satz vor:

Mein Freund hat zwei Katzen adoptiert.

Ein Wahlkreisparser kann diesen Satz in folgende unterteilen: zwei Personen:

  • Mein Freund ist eine Nominalphrase.
  • zwei Katzenadoptionen ist eine Verbphrase.

Diese Personen lassen sich in kleinere Unterteilungen unterteilen. Zum Beispiel kann das Verb

hat zwei Katzen adoptiert

könnte weiter unterteilt werden in:

  • adopted ist ein Verb.
  • zwei Katzen ist eine weitere Nominalphrase.

kontextbezogene Spracheinbettung

#language
#generativeAI

Eine Einbettung, die dem „Verständnis“ nahekommt Wörter und Formulierungen auf eine Art und Weise, wie Muttersprachler es können. Kontextbezogene Sprache Einbettungen können komplexe Syntax, Semantik und Kontext verstehen.

Sehen wir uns als Beispiel Einbettungen des englischen Wortes cow an. Ältere Einbettungen wie word2vec für Englisch stehen. Wörter, sodass die Entfernung im eingebetteten Raum von Kuh nach Bull ist ähnlich der Entfernung von ewe (weibliche Schafe) bis ram (männliche Schafe) oder weiblich zu männlich. Kontextbezogene Sprache Einbettungen können sogar noch einen Schritt weiter gehen, da sie erkennen, dass englischsprachige Nutzer das Wort Kuh für Kuh oder Stier.

Kontextfenster

#language
#generativeAI

Die Anzahl der Tokens, die ein Modell in einem bestimmten Prompt: Je größer das Kontextfenster, desto mehr Informationen das Modell verwenden kann, um kohärente und konsistente Antworten zu liefern zur Aufforderung hinzu.

stetiges Feature

#fundamentals

Ein Gleitkomma-Element mit einem unendlichen Bereich möglicher wie Temperatur oder Gewicht.

Stellen Sie einen Kontrast mit der diskreten Funktion her.

willkürliche Stichproben

Verwendung eines Datasets, das nicht wissenschaftlich erfasst wurde, um schnell zu funktionieren zu testen. Später ist es unerlässlich, auf wissenschaftlich Dataset.

Konvergenz

#fundamentals

Ein Status, bei dem sich die Verlustwerte kaum oder kaum ändern überhaupt nicht bei jeder Iteration. Beispiel: Die Verlustkurve suggeriert eine Konvergenz bei etwa 700 Iterationen:

kartesisches Diagramm. Die X-Achse steht für Verlust. Die Y-Achse steht für die Anzahl der Trainings,
          Iterationen vor. Die Verluste sind in den ersten Iterationen sehr hoch,
          stark ab. Nach etwa 100 Iterationen ist der Verlust immer noch
          absteigend, aber viel allmählicher. Nach etwa 700 Iterationen
          bleiben die Verluste stabil.

Ein Modell konvergiert, wenn zusätzliches Training nicht das Modell zu verbessern.

Beim Deep Learning bleiben Verlustwerte bei vielen Iterationen annähernd vor dem Absteigen. Über einen längeren Zeitraum konstanter Verlustwerte zu sehen, kann es sein, dass Sie temporär ein falsches Konvergenzgefühl haben.

Siehe auch Vorzeitiges Beenden.

Siehe Modellkonvergenz und -verlust Kurven im Crashkurs „Machine Learning“.

konvexe Funktion

Eine Funktion, bei der der Bereich über dem Graphen der Funktion ein convex set fest. Die prototypische konvexe Funktion ist die dem Buchstaben U ähnelt. Beispiel: sind alles konvexe Funktionen:

U-förmige Kurven mit jeweils einem Minimalpunkt.

Im Gegensatz dazu ist die folgende Funktion nicht konvex. Beachten Sie, wie die Region über dem Diagramm ist keine konvexe Menge:

Eine W-förmige Kurve mit zwei verschiedenen lokalen Minimalpunkten.

Eine strikt konvexe Funktion hat genau einen lokalen Mindestpunkt, der ist auch der globale Minimalpunkt. Die klassischen U-förmigen Funktionen sind konvexen Funktionen. Einige konvexe Funktionen (z. B. gerade Linien) nicht u-förmig sind.

Siehe Konvergenz und konvex Funktionen im Crashkurs „Machine Learning“.

Konvex-Optimierung

Der Prozess der Anwendung mathematischer Techniken wie Gradientenverfahren, das Minimum einer konvexen Funktion. Die Forschung im Bereich des maschinellen Lernens berücksichtigt die Formulierung verschiedener wie konvexe Optimierungsprobleme auftreten, effizient kommunizieren können.

Vollständige Details finden Sie bei Boyd und Vandenberghe, Convex Optimierung:

konvexe Menge

Eine Teilmenge des euklidischen Raums, bei der eine Linie zwischen zwei beliebigen Punkten im vollständig innerhalb der Teilmenge bleibt. Die folgenden zwei Beispiele: Formen sind konvexe Sätze:

Abbildung eines Rechtecks Weitere Abbildung eines Ovals.

Im Gegensatz dazu sind die folgenden beiden Formen keine konvexen Mengen:

Eine Abbildung eines Kreisdiagramms mit einem fehlenden Segment.
          Eine weitere Abbildung eines extrem unregelmäßigen Polygons.

Faltung

#image

In der Mathematik, beiläufig gesprochen, eine Mischung aus zwei Funktionen. Auf dem Computer beim Lernen vermischt eine Faltung die Convolutional Filter und die Eingabematrix um die Gewichte zu trainieren.

Der Begriff „Faltung“ beim maschinellen Lernen ist eine kurze Möglichkeit, sich entweder auf einen Convolutional Operator oder Convolutional Layer.

Ohne Faltungen müsste ein Algorithmus für maschinelles Lernen lernen, eine separate Gewichtung für jede Zelle in einem großen Tensor. Beispiel: ein ML-Algorithmustraining mit 2.000 x 2.000 Bildern 4 Millionen separate Gewichte finden. Dank Faltungen wird maschinelles Lernen der Algorithmus nur die Gewichtungen für jede Zelle im Convolutional-Filter, der drastisch reduziert zum Trainieren des Modells benötigt. Wenn der Convolutional-Filter angewendet, wird er einfach in den Zellen repliziert, sodass jede davon multipliziert wird. durch den Filter an.

Siehe Einführung in Convolutional Neural Netzwerke finden Sie weitere Informationen dazu.

Convolutional-Filter

#image

Einer der beiden Schauspieler in einem Convolutional Operator. (Der andere Schauspieler ist ein Segment einer Eingabematrix.) Ein Faltungsfilter ist eine Matrix mit denselben Rang wie die Eingabematrix, jedoch eine kleinere Form. Bei einer 28-x-28-Eingabematrix könnte der Filter beispielsweise eine beliebige 2D-Matrix sein. kleiner als 28 x 28 ist.

Bei der fotografischen Manipulation werden alle Zellen in einem Faltungsfilter in der Regel auf ein konstantes Muster aus Einsen und Nullen eingestellt. Beim maschinellen Lernen Faltungsfilter werden in der Regel mit Zufallszahlen versehen, trainiert das Netzwerk die idealen Werte.

Siehe Faltung finden Sie weitere Informationen dazu.

Convolutional Layer

#image

Die Schicht eines neuronalen Deep-Learning-Netzwerks, in der ein Der Faltungsfilter übergibt eine Eingabe Matrixstruktur. Betrachten Sie zum Beispiel das folgende 3x3- Convolutional-Filter:

Eine 3x3-Matrix mit den folgenden Werten: [[0,1,0], [1,0,1], [0,1,0]]

Die folgende Animation zeigt eine Convolutional-Ebene, die aus 9 Faltungsoperationen mit der 5x5-Eingabematrix. Beachten Sie, dass jede Die Faltungsfunktion arbeitet mit einem anderen 3x3-Slice der Eingabematrix. Die daraus resultierende 3x3-Matrix (rechts) besteht aus den Ergebnissen der 9 Faltungsvorgänge:

Eine Animation, die zwei Matrizen zeigt. Die erste Matrix ist 5x5
          Matrix: [[128,97,53,201,198], [35,22,25,200,195],
          [37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]].
          Die zweite Matrix ist die 3x3-Matrix:
          [[181.303.618], [115.338.605], [169.351.560]]
          Die zweite Matrix wird durch Anwendung der Faltung
          Filter [[0, 1, 0], [1, 0, 1], [0, 1, 0]] über
          3x3-Teilmengen der 5x5-Matrix.

Siehe Vollständig verbunden Ebenen finden Sie weitere Informationen dazu.

Convolutional Neural Network

#image

Ein neuronales Netzwerk, in dem mindestens eine Schicht ein Convolutional Layer: Eine typische Faltung eines neuronalen Netzwerks besteht aus einer Kombination der folgenden Schichten:

Convolutional Neural Networks waren in bestimmten Bereichen sehr erfolgreich von Problemen wie der Bilderkennung.

Faltungsvorgang

#image

Die folgende zweistufige mathematische Operation:

  1. Elementweise Multiplikation von Convolutional-Filter und ein Segment eines die Eingabematrix. (Das Segment der Eingabematrix hat den gleichen Rang und „size“ als Convolutional-Filter.)
  2. Addition aller Werte in der resultierenden Produktmatrix.

Betrachten Sie beispielsweise die folgende 5x5-Eingabematrix:

Die 5x5-Matrix: [[128,97,53,201,198], [35,22,25,200,195],
          [37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]].

Stellen Sie sich nun den folgenden 2x2-Faltungsfilter vor:

Die 2x2-Matrix: [[1, 0], [0, 1]]

Jede Faltungsvorgang umfasst ein einzelnes 2x2-Segment der die Eingabematrix. Nehmen wir beispielsweise an, wir verwenden das 2x2-Slice bei der in der Eingabematrix angezeigt. Die Faltung sieht dieses Slice so aus:

Den Faltungsfilter [[1, 0], [0, 1]] oben links anwenden
          2x2-Abschnitt der Eingabematrix, also [[128,97], [35,22]].
          Der Faltungsfilter lässt 128 und 22 unverändert, aber Nullen
          die 97 und 35 aus. Folglich ergibt die Faltung
          den Wert 150 (128+22).

Eine Convolutional Layer besteht aus einer Reihe von Faltungsoperationen, die sich jeweils auf ein anderes Segment auswirken der Eingabematrix ist.

Kosten

Synonym für loss.

gemeinsames Training

Teilüberwachtes Lernen besonders nützlich, wenn alle der folgenden Bedingungen erfüllt sind:

Beim gemeinsamen Training werden unabhängige Signale zu einem stärkeren Signal verstärkt. Nehmen wir als Beispiel ein Klassifizierungsmodell, einzelne Gebrauchtwagen als Gut oder Schlecht kategorisiert. Ein Satz von Prognosefunktionen können sich auf aggregierte Merkmale wie Jahr, Jahr, Marke und Modell des Autos, werden sich andere Vorhersagefunktionen auf den Fahrtverlauf des Vorbesitzers und den Wartungsverlauf des Autos.

Der bahnbrechende Artikel zum gemeinsamen Training lautet Combining Labeled and Unlabeled Data with Co-Training von Blum und Mitchell.

kontrafaktische Fairness

#fairness

Fairnessmesswert, der prüft, ob ein Klassifikator bei einer Person dasselbe Ergebnis erzielen wie bei einer anderen Person. die mit der ersten identisch sind, außer in Bezug auf mindestens eins sensible Attribute: Bewerten eines Klassifikators für kontrafaktische Fairness ist eine Methode, Verzerrungen in einem Modell.

Weitere Informationen finden Sie in den folgenden Artikeln:

Abdeckungsverzerrung

#fairness

Siehe Auswahlverzerrung.

Crash Blossom

#language

Ein Satz oder Satz mit mehrdeutiger Bedeutung. Absturzblüten stellen ein erhebliches Problem in natürlichen Sprachverständnis. Die Überschrift Rotes Klebeband hält Skyscraper ist beispielsweise eine weil ein NLU-Modell die Schlagzeile wörtlich interpretieren könnte im übertragenen Sinne.

Kritiker

#rl

Synonym für Deep Q-Network.

Kreuzentropie

Eine Generalisierung des Logverlusts an Klassifizierungsprobleme mit mehreren Klassen. Kreuzentropie quantifiziert die Differenz zwischen zwei Wahrscheinlichkeitsverteilungen. Siehe auch Perplex aus.

Kreuzvalidierung

Ein Mechanismus zur Schätzung, wie gut ein Modell in Bezug auf neue Daten durch Testen des Modells an einer oder mehreren sich nicht überschneidenden Datenteilmengen die aus dem Trainings-Dataset ausgeschlossen sind.

Kumulierte Verteilungsfunktion (Kumulierte Verteilungsfunktion)

Eine Funktion, die die Häufigkeit von Stichproben definiert, die kleiner oder gleich einem Zielwert Stellen Sie sich zum Beispiel eine Normalverteilung kontinuierlicher Werte vor. Eine CDF sagt aus, dass ungefähr 50% der Stichproben kleiner oder gleich sein sollten und dass ungefähr 84% der Stichproben kleiner oder gleich bis eine Standardabweichung über dem Mittelwert liegt.

D

Datenanalyse

Ein Verständnis von Daten durch Berücksichtigung von Stichproben, Messungen und Visualisierung. Die Datenanalyse kann besonders nützlich sein, Das Dataset wird zuerst empfangen, bevor das erste Modell erstellt wird. Sie ist auch wichtig, um Tests zu verstehen und Probleme mit System.

Datenerweiterung

#image

Reichweite und Anzahl der Beispiele für training indem Sie bestehende Beispiele zum Erstellen weiterer Beispiele. Beispiel: nehmen wir an, dass Bilder zu Ihren features, aber Ihr Dataset nicht ausreichend Bildbeispiele enthalten, damit das Modell nützliche Verknüpfungen lernen kann. Idealerweise sollten Sie mit einem Label versehene Bilder in Ihr Dataset, um damit Ihr Modell richtig trainiert wird. Wenn das nicht möglich ist, können jedes Bild drehen, strecken und reflektieren, um viele Varianten des Originalbild zu extrahieren, sodass möglicherweise genügend Daten mit Labels zur Verfügung stehen, um eine ausgezeichnete .

DataFrame

#fundamentals

Ein beliebter pandas-Datentyp zur Darstellung Datasets im Arbeitsspeicher.

Ein DataFrame ist analog zu einer Tabelle. Jede Spalte von ein DataFrame einen Namen (eine Kopfzeile) hat und jede Zeile durch ein eindeutige Nummer.

Jede Spalte in einem DataFrame ist wie ein 2D-Array strukturiert, außer dass kann jeder Spalte ein eigener Datentyp zugewiesen werden.

Siehe auch die offizielle pandas.DataFrame-Referenz .

Datenparallelität

Eine Möglichkeit zur Skalierung von Training oder Inferenz ein ganzes Modell in und gibt dann eine Teilmenge der Eingabedaten an jedes Gerät weiter. Datenparallelität kann Training und Inferenz auf sehr großen Batchgrößen; Datenparallelität erfordert jedoch, dass das Modell so klein ist, dass es auf alle Geräte passt.

Datenparallelität beschleunigt normalerweise das Training und die Inferenz.

Siehe auch Modellparallelität.

Dataset oder Dataset

#fundamentals

Eine Sammlung von Rohdaten, die üblicherweise (aber nicht ausschließlich) in einem der folgenden Formate verwenden:

  • Tabelle
  • Eine Datei im CSV-Format (Comma-Separated Values, durch Kommas getrennte Werte)

Dataset API (tf.data)

#TensorFlow

Eine übergeordnete TensorFlow API zum Lesen von Daten und und wandelt es in eine Form um, die der Algorithmus für maschinelles Lernen benötigt. Ein tf.data.Dataset-Objekt stellt eine Abfolge von Elementen dar, in der Jedes Element enthält einen oder mehrere Tensors. Ein tf.data.Iterator -Objekt bietet Zugriff auf die Elemente eines Dataset.

Entscheidungsgrenze

Das Trennzeichen zwischen Kurse, die von einem Modell in einem Binärklasse oder Klassifizierungsprobleme mit mehreren Klassen. Beispiel: in der folgenden Abbildung ein binäres Klassifizierungsproblem darstellt, Die Entscheidungsgrenze ist die Grenze zwischen der orangefarbenen Klasse und der blauen Klasse:

Eine klar definierte Grenze zwischen einer Klasse und einer anderen.

Entscheidungswald

#df

Ein Modell, das aus mehreren Entscheidungsbäumen erstellt wurde. Ein Entscheidungswald fasst die Vorhersagen Entscheidungsbäume. Zu den beliebtesten Arten von Entscheidungswäldern gehören Random Forests und Gradient Boosted Trees.

Entscheidung ansehen Wälder im Kurs zu Entscheidungswäldern.

Entscheidungsschwellenwert

Synonym für Klassifizierungsschwellenwert.

Entscheidungsbaum

#df

Ein Modell für überwachtes Lernen, das aus einer Bedingungen und Blätter sind hierarchisch organisiert. Das folgende Beispiel zeigt einen Entscheidungsbaum:

Entscheidungsbaum mit vier angeordneten Bedingungen
          die zu fünf Blättern führen.

Decoder

#language

Im Allgemeinen ist jedes ML-System, das von einem verarbeiteten, dichten oder interne Darstellung in eine roher, dünnbesetzte oder externe Darstellung.

Decodierer sind oft eine Komponente eines größeren Modells, mit einem Encoder gekoppelt.

Bei Sequenz-zu-Sequenz-Aufgaben: Ein Decoder beginnt mit dem internen Zustand, der vom Encoder generiert wird, um den nächsten Sequenz hinzufügen.

Unter Transformer finden Sie die Definition eines Decoders in der Transformer-Architektur.

Siehe Large Language Models im Crashkurs „Machine Learning“.

Deep-Modell

#fundamentals

Ein neuronales Netzwerk mit mehr als einem verborgene Ebene:

Ein tiefes Modell wird auch als neuronales Deep-Learning-Netzwerk bezeichnet.

Kontrast zum breiten Modell

neuronales Deep-Learning-Netzwerk

Synonym für Deep Model.

Deep Q-Network (DQN)

#rl

In Q-learning ein tiefes Q-learning das Q-Funktionen vorhersagt.

Critic ist ein Synonym für „Deep Q-Network“.

demografische Gleichheit

#fairness

Ein Fairness-Messwert, der erfüllt ist, wenn sind die Ergebnisse der Klassifizierung eines Modells nicht sensibles Attribut angegeben.

Beispiel: Wenn sich sowohl die Lilliputianer als auch die Brobdingnagians Glubbdubdrib University erreicht, wird die demografische Einheitlichkeit erreicht, wenn der Prozentsatz der zugelassenen Lilliputianer entspricht dem Anteil der Brobdingnagier . zugelassen, unabhängig davon, ob eine Gruppe im Durchschnitt höher qualifiziert ist als das andere.

Im Vergleich zu gleichmäßigen Gewinnchancen Chancengleichheit, die die Klassifizierungsergebnisse aggregiert von sensiblen Attributen abhängig. lassen jedoch keine Klassifizierungsergebnisse für bestimmte Ground-Truth-Labels, die von sensiblen Attributen abhängig sind. Weitere Informationen finden Sie unter „Angriffe „Diskriminierung durch intelligentes maschinelles Lernen“. welche Nachteile es bei der Optimierung der demografischen Gleichheit gibt.

Siehe Fairness: demografische Merkmale Einheitlichkeit im Crashkurs „Machine Learning“.

Entrauschen

#language

Ein gängiger Ansatz für selbstüberwachtes Lernen Dabei gilt:

  1. Rauschen wird dem Datensatz künstlich hinzugefügt.
  2. Das Modell versucht, das Rauschen zu entfernen.

Die Rauschunterdrückung ermöglicht das Lernen aus Beispielen ohne Labels. Das ursprüngliche Dataset dient als Ziel oder label und die Daten mit Rauschen als Eingabe.

Einige maskierte Sprachmodelle verwenden die Rauschunterdrückung. wie folgt:

  1. Rauschen wird einem Satz ohne Label künstlich hinzugefügt, indem einige der die Tokens.
  2. Das Modell versucht, die ursprünglichen Tokens vorherzusagen.

vollbesetztes Feature

#fundamentals

Eine Funktion, bei der die meisten oder alle Werte ungleich null sind, typischerweise Ein Tensor mit Gleitkommawerten Beispiel: Tensor mit 10 Elementen ist dicht, weil 9 seiner Werte ungleich null sind:

8 3 7 5 2 4 0 4 9 6

Kontrast zur dünnbesetzten Funktion

Dichte Schicht

Synonym für vollständig verbundene Ebene.

Tiefe

#fundamentals

Die Summe der folgenden Messwerte in einem neuronalen Netzwerk:

Beispiel: ein neuronales Netzwerk mit fünf verborgenen Schichten und einer Ausgabeschicht hat eine Tiefe von 6.

Beachten Sie, dass die Eingabeebene die Einflusstiefe.

Deepwise Separable Convolutional Neural Network (sepCNN)

#image

Ein Convolutional Neural Network Architektur basierend auf Einführung, In diesem Fall werden Inception-Module durch tief trennbare Faltungen. Wird auch Xception genannt.

Eine tiefenweise trennbare Faltung (auch als trennbare Faltung abgekürzt) berücksichtigt eine standardmäßige 3D-Faltung in zwei separate Faltungsvorgänge die recheneffizienter sind: eine tiefgehende Faltung, mit einer Tiefe von 1 (n × n × 1) und dann eine punktweise Faltung, mit der Länge und Breite 1 (1 × 1 × n).

Weitere Informationen finden Sie unter Xception: Deep Learning with Depthwise Separable Faltungen:

abgeleitetes Label

Synonym für Proxylabel.

Gerät

#TensorFlow
#GoogleCloud

Ein überlasteter Begriff mit den folgenden zwei möglichen Definitionen:

  1. Hardwarekategorie, auf der eine TensorFlow-Sitzung ausgeführt werden kann, einschließlich CPUs, GPUs und TPUs.
  2. Beim Trainieren eines ML-Modells auf Beschleunigerchips (GPUs oder TPUs), der Teil des Systems, der Tensoren und Einbettungen Das Gerät wird auf Beschleuniger-Chips ausgeführt. Im Gegensatz dazu hat der Host läuft normalerweise auf einer CPU.

Differential Privacy

Anonymisierungsansatz zum Schutz sensibler Daten im maschinellen Lernen (z. B. personenbezogene Daten einer Person) in der Trainingssatz nicht verfügbar gemacht. Dieser Ansatz sorgt dafür, dass das Modell nicht viel über eine bestimmte Person. Dies wird erreicht, indem während des Modells Stichproben genommen werden und Rauschen hinzugefügt wird. einzelne Datenpunkte zu verbergen und so das Risiko zu minimieren, sensiblen Trainingsdaten.

Differential Privacy wird auch außerhalb des maschinellen Lernens verwendet. Beispiel: Data Scientists nutzen manchmal Differential Privacy, um Einzelpersonen Datenschutz bei der Berechnung von Produktnutzungsstatistiken für verschiedene demografische Merkmale.

Dimensionsreduzierung

Verringern Sie die Anzahl der Dimensionen, die zur Darstellung eines bestimmten Elements verwendet werden. in einem Featurevektor, in der Regel in einen Einbettungsvektor konvertieren.

Dimensionen

Überladener Begriff mit einer der folgenden Definitionen:

  • Die Anzahl der Koordinatenebenen in einem Tensor. Beispiel:

    • Ein Skalar hat null Dimensionen. z. B. ["Hello"].
    • Ein Vektor hat eine Dimension: z. B. [3, 5, 7, 11].
    • Eine Matrix hat zwei Dimensionen: z. B. [[2, 4, 18], [5, 7, 14]]. Sie können eine bestimmte Zelle in einem eindimensionalen Vektor eindeutig angeben mit einer Koordinate; benötigen Sie zwei Koordinaten, um bestimmte Zelle in einer zweidimensionalen Matrix.
  • Die Anzahl der Einträge in einem Featurevektor.

  • Die Anzahl der Elemente in einer Einbettungsebene.

direkte Aufforderungen

#language
#generativeAI

Synonym für Zero-Shot-Prompting.

diskretes Feature

#fundamentals

Ein Feature mit einer endlichen Reihe möglicher Werte. Beispiel: Ein Element, dessen Werte nur Tier, Gemüse oder Mineral sein dürfen, ist ein diskretes (oder kategoriales) Merkmal.

Kontrast zur kontinuierlichen Funktion

Diskriminatives Modell

Ein Modell, das Labels aus einem Satz von einem oder weitere Funktionen. Formal definieren diskriminative Modelle die bedingte Wahrscheinlichkeit einer Ausgabe angesichts der Features und weights; Das bedeutet:

p(output | features, weights)

Beispiel: Ein Modell, das vorhersagt, ob es sich bei einer E-Mail um Spam von Funktionen handelt Gewichtungen ein diskriminierendes Modell sind.

Die überwiegende Mehrheit der Modelle für überwachtes Lernen, einschließlich Klassifizierung und Regressionsmodelle, sind diskriminative Modelle.

Im Vergleich zum generativen Modell

Diskriminator

Ein System, das bestimmt, ob Beispiele echt oder vorgetäuscht sind.

Das Subsystem innerhalb eines generativen Konzerns Netzwerk, das bestimmt, Die vom Generator erstellten Beispiele sind echt oder erfunden.

Siehe Der Diskriminator im GAN-Kurs.

unterschiedliche Auswirkungen

#fairness

Entscheidungen über Menschen treffen, die unterschiedliche Bevölkerungsgruppen betreffen Untergruppen unverhältnismäßig. Dies bezieht sich in der Regel wenn ein algorithmischer Entscheidungsprozess schadet oder davon profitiert. einige Untergruppen häufiger als andere.

Angenommen, ein Algorithmus ermittelt, Anspruch auf einen Darlehen für Minibauten mit höherer Wahrscheinlichkeit als „nicht geeignet“ ein, wenn die Postanschrift eine bestimmte Postleitzahl. Wenn Big-Endian-Lilliputianer eher Adressen mit dieser Postleitzahl als Little-Endian Lilliputians, kann dieser Algorithmus unterschiedliche Auswirkungen haben.

Im Kontrast zu unterschiedlicher Behandlung stehen der sich auf die Unterschiede konzentriert, die sich aus den Eigenschaften der Untergruppe ergeben. sind explizite Eingaben für einen algorithmischen Entscheidungsprozess.

unterschiedliche Behandlung

#fairness

Faktorisierung der Probanden sensible Attribute in einen algorithmischen Entscheidungsprozess einfließen, sodass verschiedene Untergruppen der Menschen werden anders behandelt.

Stellen Sie sich z. B. einen Algorithmus vor, bestimmt Lilliputians' Anspruch auf einen Darlehen für Minibauten Daten, die sie in ihrem Kreditantrag angeben. Wenn der Algorithmus Die Verbindung von Lilliputian als Big-Endian oder Little-Endian ist eine unterschiedliche Behandlung in dieser Dimension.

Im Kontrast zu unterschiedlichen Auswirkungen stehen über Unterschiede bei den gesellschaftlichen Auswirkungen algorithmusbasierter Entscheidungen auf Untergruppen, unabhängig davon, ob diese Untergruppen Eingaben für das Modell sind.

Destillation

#generativeAI

Der Vorgang, bei dem die Größe eines Modells (auch als Kursleiter) in ein kleineres Modell (student) zu übertragen, die Vorhersagen des Originalmodells so zuverlässig wie möglich. Destillation ist nützlich, da das kleinere Modell zwei wesentliche Vorteile gegenüber dem größeren (Lehrkraft):

  • Schnellere Inferenzzeit
  • Geringerer Speicher- und Energieverbrauch

Die Vorhersagen der Schüler sind jedoch in der Regel nicht so gut wie auf die Vorhersagen der Lehrkraft.

Bei der Destillation wird das Schülermodell so trainiert, Verlustfunktion basierend auf der Differenz zwischen den Ausgaben der Vorhersagen der Schüler- und Lehrermodelle.

Vergleichen Sie die Destillation mit den folgenden Begriffen:

Siehe LLMs: Abstimmung, Destillation und Prompt Engineering im Crashkurs „Machine Learning“.

Verteilung

Die Häufigkeit und der Bereich verschiedener Werte für eine bestimmte feature oder Label: Eine Verteilung gibt an, wie wahrscheinlich ein bestimmter Wert ist.

Die folgende Abbildung zeigt Histogramme von zwei verschiedenen Verteilungen:

  • Auf der linken Seite ist das Machtgesetz der Vermögensverteilung im Vergleich zur Anzahl der Menschen die diesen Reichtum besitzen.
  • Auf der rechten Seite eine normale Verteilung der Größe im Vergleich zur Anzahl der Personen die diese Höhe haben.

Zwei Histogramme. Ein Histogramm zeigt eine Potenzgesetzverteilung mit
          Wohlstand auf der x-Achse und die Anzahl der Menschen, die diesen Wohlstand auf der
          y-Achse definiert werden. Die meisten Menschen haben sehr wenig Vermögen, und einige
          viel Reichtum. Das andere Histogramm zeigt eine Normalverteilung,
          mit der Größe auf der x-Achse und der Anzahl der Personen mit dieser Größe
          auf der Y-Achse. Die meisten Menschen befinden sich irgendwo in der Nähe des Mittelwerts.

Wenn Sie die Verteilung der einzelnen Funktionen und Labels verstehen, können Sie bestimmen, um Werte zu normalisieren und Ausreißer zu erkennen.

Der Ausdruck out of distribution bezieht sich auf einen Wert, der nicht im oder sehr selten ist. Ein Bild vom Planeten Saturn wäre beispielsweise für ein Dataset, das aus Katzenbildern besteht, außerhalb der Verteilung erachtet wird.

divisives Clustering

#clustering

Siehe Hierarchisches Clustering.

Downsampling

#image

Überladener Begriff, der Folgendes bedeuten kann:

  • Die Menge der Informationen in einem Element in einer um ein Modell effizienter zu trainieren. Beispiel: bevor Sie ein Bilderkennungsmodell trainieren. Dabei wird die Auflösung hoher Auflösung in einem Format mit geringerer Auflösung speichern.
  • Schulung zu einem unverhältnismäßig niedrigen Prozentsatz der überrepräsentierten Gruppe Klasse um das Modelltraining für unterrepräsentierte Klassen zu verbessern. Beispiel: In einer class-unbalanced , lernen die Modelle tendenziell viel über Mehrheitsklasse und nicht genug über Minderheitenklasse. Downsampling hilft den Schulungsbedarf auf Mehrheits- und Minderheitenklassen auszugleichen.

Siehe Datasets: Unausgeglichen Datasets im Crashkurs „Machine Learning“.

DQN

#rl

Abkürzung für Deep Q-Network.

Dropout-Regularisierung

Eine Form der Regularisierung, die für das Training nützlich ist neuronale Netzwerke. Dropout-Regularisierung entfernt eine zufällige Auswahl einer festen Anzahl von Einheiten in einem Netzwerk für einen einzelnen Farbverlaufsschritt. Je mehr Einheiten herausgefallen sind, desto stärker die Regularisierung. Dies ist vergleichbar mit dem Trainieren des Netzwerks, ein exponentiell großes Ensemble kleinerer Netzwerke ist. Weitere Informationen finden Sie unter Dropout: Eine einfache Methode, um neuronale Netzwerke zu verhindern Überanpassung.

dynamic

#fundamentals

Etwas, das häufig oder kontinuierlich ausgeführt wird. Die Begriffe dynamisch und online sind Synonyme im maschinellen Lernen. Im Folgenden werden gängige Anwendungen von dynamisch und online in Maschinen genannt. Lernen:

  • Ein dynamisches Modell (oder Onlinemodell) ist ein Modell das häufig oder kontinuierlich neu trainiert wird.
  • Dynamisches Training (oder Online-Training) ist der Trainingsprozess. häufig oder fortlaufend sein.
  • Dynamische Inferenz (oder Online-Inferenz) ist der Prozess, Vorhersagen bei Bedarf zu erstellen.

dynamisches Modell

#fundamentals

Ein Modell, das häufig, vielleicht sogar kontinuierlich, erneut trainiert. Ein dynamisches Modell ist ein „lebenslang Lernender“. das passt sich ständig an neue Daten an. Ein dynamisches Modell wird auch als Onlinemodell.

Im Kontrast zum statischen Modell stehen.

E

eifrig hingerichtet

#TensorFlow

Eine TensorFlow-Programmierumgebung, in der Operationen sofort ausgeführt werden. Im Gegensatz dazu werden Vorgänge, die in Grafikausführung werden erst ausgeführt, bewertet. Eine zügige Ausführung ist ein imperative Schnittstelle, wie der Code in den meisten Programmiersprachen. Schnelle Ausführungsprogramme sind in der Regel viel einfacher zu debuggen als Graphausführungsprogramme.

vorzeitiges Beenden

#fundamentals

Eine Methode zur Regularisierung, bei der das Ende Training vor Ende der Trainingsverluste nimmt ab. Beim vorzeitigen Beenden stoppen Sie das Training des Modells absichtlich. Der Verlust eines Validierungs-Datasets beginnt, increase; Das heißt, wenn Die Leistung der Generalisierung verschlechtert sich.

Entfernung der Erde (EMD)

Ein Maß für die relative Ähnlichkeit zweier Verteilungen. Je geringer die Entfernung ist, desto ähnlicher sind die Verteilungen.

Strecke bearbeiten

#language

Ein Maß dafür, wie ähnlich zwei Textzeichenfolgen einander sind. Beim maschinellen Lernen ist die Bearbeitung von Entfernungen nützlich, und eine effektive Möglichkeit zum Vergleichen von zwei Strings, die bekanntermaßen die einer bestimmten Zeichenfolge ähnlich sind.

Es gibt mehrere Definitionen für die Bearbeitung von Entfernungen, die jeweils eine andere Zeichenfolge verwenden Geschäftsabläufe. Beispiel: Der Parameter <ph type="x-smartling-placeholder"></ph> Levenshtein-Distanz berücksichtigt die wenigsten Lösch-, Einfüge- und Ersetzungsvorgänge.

Zum Beispiel der Levenshtein-Abstand zwischen den Wörtern „Herz“ und "darts". ist 3, weil die folgenden 3 Änderungen die wenigsten Änderungen darstellen, um ein Wort zu ändern. in das andere:

  1. Herz → herabsetzen („h“ durch „d“ ersetzen)
  2. deart → dart (löschen "e")
  3. dart → darts (einfügen "s")

Einsum-Notation

Eine effiziente Notation, um zu beschreiben, wie zwei Tensoren berechnet werden sollen kombiniert. Die Tensoren werden durch Multiplizieren der Elemente eines Tensors kombiniert des anderen Tensors durch und summieren die Produkte. Die Einsum-Notation identifiziert mithilfe von Symbolen die Achsen jedes Tensors. werden dieselben Symbole neu angeordnet, um die Form des neuen resultierenden Tensors anzugeben.

NumPy stellt eine gängige Einsum-Implementierung bereit.

Einbettungsebene

#language
#fundamentals

Eine spezielle verborgene Ebene, die auf einem ein hochdimensionales kategoriales Feature einen Einbettungsvektor niedrigerer Dimension lernen. Eine kann ein neuronales Netzwerk weitaus mehr als nur das hochdimensionale kategoriale Merkmal trainieren.

So unterstützt Google Earth derzeit etwa 73.000 Baumarten. Angenommen, Die Baumart ist ein Merkmal in Ihrem Modell. Die Eingabeebene enthält einen One-Hot-Vektor 73.000 Elemente lang sein. Beispielsweise würde baobab in etwa so dargestellt:

Ein Array mit 73.000 Elementen. Die ersten 6.232 Elemente enthalten den Wert
     0. Das nächste Element enthält den Wert 1. Die letzten 66.767 Elemente
     den Wert Null.

Ein Array mit 73.000 Elementen ist sehr lang. Wenn Sie keine Einbettungsebene hinzufügen ist das Training sehr zeitaufwändig, multipliziert mit 72.999 Nullen. Vielleicht wählen Sie die Einbettungsebene aus, von 12 Dimensionen. Daher lernt die Einbettungsebene allmählich einen neuen Einbettungsvektor für jede Baumart erstellen.

In bestimmten Situationen ist Hashing eine sinnvolle Alternative. mit einer Einbettungsebene.

Siehe Einbettungen im Crashkurs „Machine Learning“.

Einbettungsbereich

#language

Der d-dimensionale Vektorraum, der aus einem höherdimensionalen Vektorraum besteht Vektorraum zugeordnet ist. Im Idealfall enthält der Einbettungsbereich einen Struktur, die aussagekräftige mathematische Ergebnisse liefert, zum Beispiel in einem idealen Einbettungsbereich addieren oder subtrahieren. Wortanalytik-Aufgaben lösen können.

Punktprodukt zwei Einbettungen ist ein Maß für ihre Ähnlichkeit.

Einbettungsvektor

#language

Im Grunde ist ein Array von Gleitkommazahlen aus beliebigen verborgenen Layer, der die Eingaben für diese verborgene Ebene beschreibt. Häufig ist ein Einbettungsvektor ein Array von Gleitkommazahlen, eine Einbettungsebene. Angenommen, eine Einbettungsebene muss Einbettungsvektor für jede der 73.000 Baumarten auf der Erde. Vielleicht die folgendes Array ist der Einbettungsvektor für einen Affenbrotbaum:

Ein Array aus 12 Elementen, die jeweils eine Gleitkommazahl enthalten
          zwischen 0,0 und 1,0 liegt.

Ein Einbettungsvektor ist kein Haufen Zufallszahlen. Eine Einbettungsebene ermittelt diese Werte durch Training, ähnlich wie lernt das neuronale Netzwerk während des Trainings andere Gewichtungen. Jedes Element des Array ist eine Bewertung anhand eines Merkmals einer Baumart. Welche -Element darstellt, welche Baumart charakteristischen Merkmale? Das ist sehr schwierig damit Menschen feststellen können.

Das mathematisch bemerkenswerteste Teil eines Einbettungsvektors ist, Elemente haben ähnliche Mengen von Gleitkommazahlen. Ähnliche Baumarten eine ähnliche Menge von Gleitkommazahlen haben als unterschiedlichen Baumarten. Mammutbäume und Mammutbäume sind verwandte Baumarten. sodass sie einen ähnlichen Satz von Gleitkommazahlen haben als Mammutbäume und Kokospalmen. Die Zahlen im Einbettungsvektor sich jedes Mal ändern, wenn Sie das Modell neu trainieren, auch wenn Sie es neu trainieren mit identischer Eingabe.

empirische kumulative Verteilungsfunktion (eCDF oder EDF)

Eine kumulierte Verteilungsfunktion basierend auf empirischen Messungen aus einem echten Dataset. Der Wert der Eigenschaft an einem beliebigen Punkt der x-Achse ist der Bruchteil der Beobachtungen Dataset, die kleiner oder gleich dem angegebenen Wert sind.

empirische Risikominimierung (ERM)

Auswählen der Funktion, die den Verlust im Trainings-Dataset minimiert Kontrast mit struktureller Risikominimierung.

Encoder

#language

Im Allgemeinen ist jedes ML-System, das von einem rohen, dünnbesetzten oder externen in eine stärker verarbeitete, dichtere oder internere Darstellung umwandeln.

Encoder sind oft eine Komponente eines größeren Modells, mit einem Decoder kombiniert werden. Einige Transformatoren Encoder mit Decodern koppeln, während andere Transformer nur den Encoder verwenden oder nur den Decoder.

Einige Systeme nutzen die Ausgabe des Encoders als Eingabe für eine Klassifizierung oder Regressionsnetzwerks.

Bei Sequenz-zu-Sequenz-Aufgaben: ein Encoder nimmt eine Eingabesequenz und gibt einen internen Status (einen Vektor) zurück. Das Feld decoder verwendet diesen internen Status, um die nächste Sequenz vorherzusagen.

Unter Transformer findest du die Definition eines Encoders in der Transformer-Architektur.

Weitere Informationen finden Sie unter LLMs: What's a Large Language (LLMs: What's a Large Language) Modell im Crashkurs „Machine Learning“.

Ensemble

Eine Sammlung von Modellen, die unabhängig trainiert wurden und deren Vorhersagen gemittelt oder aggregiert werden. In vielen Fällen produziert ein Ensemble bessere als ein einzelnes Modell. Beispiel: Random Forest ist ein Ensemble, das aus mehreren Entscheidungsbäume. Beachten Sie, dass nicht alle Entscheidungswälder sind Ensembles.

Siehe Zufallsauswahl Wald im Crashkurs „Machine Learning“.

Entropie

#df

In <ph type="x-smartling-placeholder"></ph> Informationstheorie, eine Beschreibung, wie unvorhersehbar eine Wahrscheinlichkeit ist, die Verteilung der Daten ist. Alternativ wird als Entropie definiert, Informationen, die jedes Beispiel enthält. Eine Verteilung hat höchste mögliche Entropie, wenn alle Werte einer Zufallsvariablen sind gleich wahrscheinlich.

Die Entropie einer Menge mit zwei möglichen Werten „0“ und „1“ (Beispiel: Labels bei einem binären Klassifizierungsproblem) verwendet die folgende Formel:

<ph type="x-smartling-placeholder"></ph> H = -p log p - q log q = -p log p - (1-p) * log (1-p)

Dabei gilt:

  • H ist die Entropie.
  • p ist der Bruchteil von "1". Beispiele.
  • q ist der Bruchteil von "0". Beispiele. Beachten Sie, dass q = (1 - p) ist.
  • log ist im Allgemeinen log2. In diesem Fall ist die Entropie ist eine Einheit.

Nehmen wir beispielsweise Folgendes an:

  • 100 Beispiele enthalten den Wert „1“
  • 300 Beispiele enthalten den Wert „0“

Daher ist der Entropiewert:

  • p = 0,25
  • q = 0,75
  • H = (-0,25)log2(0,25) - (0,75)log2(0,75) = 0,81 Bit pro Beispiel

Ein Satz, der perfekt ausgeglichen ist (z. B. 200 „0“ und 200 „1“). eine Entropie von 1,0 Bit pro Beispiel. Je mehr sich ein Set unausgeglichen bewegt sich seine Entropie in Richtung 0, 0.

In Entscheidungsbäumen hilft die Entropie bei der Formulierung Informationsgewinn, Splitter: Wählen Sie die Bedingungen aus. während des Wachstums eines Klassifizierungs-Entscheidungsbaums.

Entropie vergleichen mit:

Die Entropie wird oft als Shannon-Entropie bezeichnet.

Siehe Exakter Splitter für die binäre Klassifizierung mit numerischen Werten Funktionen finden Sie weitere Informationen dazu.

Umgebung

#rl

Beim Reinforcement Learning ist die Welt, in der sich der Agent befindet, und ermöglicht es dem Agent, diesen Zustand zu beobachten. Beispiel: kann die dargestellte Welt ein Spiel wie Schach oder eine physische Welt wie Labyrinth. Wenn der Agent eine Aktion auf die Umgebung anwendet, wechselt die Umgebung zwischen den Zuständen.

Folge

#rl

Beim Reinforcement Learning ist jeder der wiederholten Versuche des Agent, um eine Umgebung zu erlernen.

Epoche

#fundamentals

Einen vollständigen Trainingsdurchlauf für das gesamte Trainings-Dataset Dadurch wurde jedes Beispiel einmal verarbeitet.

Eine Epoche stellt N/Batchgröße dar. Trainingsiterationen, wobei N der Wert für Gesamtzahl der Beispiele.

Beispiel:

  • Das Dataset besteht aus 1.000 Beispielen.
  • Die Batchgröße beträgt 50 Beispiele.

Daher sind für eine einzelne Epoche 20 Iterationen erforderlich:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

Siehe Lineare Regression: Hyperparameter im Crashkurs „Machine Learning“.

Epsilon-Richtlinie „Greedy“

#rl

Beim bestärkenden Lernen eine Richtlinie, die entweder Random Policy mit Epsilon-Wahrscheinlichkeit oder einem Greesy-Richtlinie. Wenn z. B. Epsilon gleich 0.9, folgt die Richtlinie in 90% der Fälle einer willkürlichen Richtlinie und in 10% der Fälle entsprechen.

Über aufeinanderfolgende Folgen reduziert der Algorithmus den Epsilon-Wert, von einer zufälligen zu einer gierigen Richtlinie wechseln. Von Beim Verschieben der Richtlinie erkundet der Agent nach dem Zufallsprinzip nutzt dann gierig die Ergebnisse der zufälligen Erkundung.

Chancengleichheit

#fairness

Fairnessmesswert zur Beurteilung, ob ein Modell das gewünschte Ergebnis für alle Werte eines sensibles Attribut: Mit anderen Worten, wenn der Parameter gewünschtes Ergebnis für ein Modell ist die positive Klasse, Ziel wäre die tatsächlich positive Rate für alle Gruppen gleich.

Chancengleichheit hängt mit gleichmäßigen Chancen zusammen, Dazu müssen die Richtig-Positiv-Raten und Der Anteil falsch positiver Ergebnisse ist für alle Gruppen gleich.

Angenommen, die Glubbdubdrib-Universität lässt sowohl Lilliputianer als auch Brobdingnagians zu bis hin zu einem anspruchsvollen Mathematikprogramm. Lilliputians an weiterführenden Schulen einen soliden Lehrplan für Mathematikkurse, bei dem die überwiegende Mehrheit der Universitätsprogramm qualifiziert sind. Brobdingnagiers an weiterführenden Schulen überhaupt Mathematikkurse angeboten, sodass weit weniger Schüler qualifiziert sind. Chancengleichheit für das bevorzugte Label von "zugelassen" in Bezug auf die Nationalität (Lilliputer oder Brobdingnagisch), wenn infrage kommende Lernende werden mit gleicher Wahrscheinlichkeit zugelassen, unabhängig davon, ob sie sind Lilliputer oder Brobdingnager.

Angenommen, 100 Lilliputianer und 100 Brobdingnagians Glubbdubdrib University. Die Zulassungsentscheidungen werden wie folgt getroffen:

Tabelle 1. Bewerber in Lilliputen (90% sind qualifiziert)

  Qualifiziert Unqualifiziert
Zugelassen 45 3
Abgelehnt 45 7
Gesamt 90 10
Prozentsatz der zugelassenen Schüler/Studenten: 45/90 = 50%
Prozentsatz abgelehnter nicht qualifizierter Schüler/Studenten: 7/10 = 70%
Gesamtprozentsatz der zugelassenen lilliputischen Schüler: (45+3)/100 = 48%

 

Tabelle 2: Bewerber aus dem Brobdingnag-Programm (10% sind qualifiziert):

  Qualifiziert Unqualifiziert
Zugelassen 5 9
Abgelehnt 5 81
Gesamt 10 90
Prozentsatz der zugelassenen Schüler/Studenten: 5/10 = 50%
Prozentsatz abgelehnter nicht qualifizierter Schüler/Studenten: 81/90 = 90%
Gesamtprozentsatz der zugelassenen Brobdingnagian-Studenten: (5+9)/100 = 14%

Die obigen Beispiele erfüllen die Chancengleichheit bei der Akzeptanz von da sich sowohl die Lilliputianer als auch die Brobdingnagians eine 50% ige Chance, zugelassen zu werden.

Die beiden folgenden Messwerte für Fairness nicht zufrieden sind:

  • demografische Gleichheit: Lilliputen und Brobdingnagier werden zu unterschiedlichen Zeiten an der Universität zugelassen. 48% der Lilliputians-Schüler sind zugelassen, aber nur 14 % Brobdingnagische Schüler sind zugelassen.
  • gleichberechtigte Chancen: als Lilliputianer und Brobdingnagian-Studenten haben die gleichen Chancen, zugelassen zu werden, dass unqualifizierte Lilliputians und Lilliputians Die beiden haben die gleiche Chance, abgelehnt zu werden, zufrieden sind. Unqualifizierte Lilliputians haben eine Ablehnungsrate von 70 %, nicht qualifizierte Brobdingnagians eine Ablehnungsrate von 90 %.

Siehe Fairness: Gleichheit der Geschäftschance im Crashkurs „Machine Learning“.

ausgeglichene Chancen

#fairness

Fairness-Messwert, mit dem bewertet wird, ob ein Modell Ergebnisse gleichermaßen vorhersagt für alle Werte eines sensiblen Attributs sowohl in Bezug auf die positive Klasse als auch negative Klasse – nicht nur eine Klasse oder den anderen . Mit anderen Worten: Sowohl die Rate wirklich positiver Ergebnisse und die Rate falsch negativer Ergebnisse für alle Gruppen.

Ausgeglichene Chancen stehen in Zusammenhang mit Chancengleichheit, bei der der Fokus bei Fehlerraten für eine einzelne Klasse (positiv oder negativ).

Angenommen, die Universität Glubbdubdrib lässt sowohl Lilliputians als auch Brobdingnagiers zu einem strengen Mathematikprogramm. Lilliputians sekundär Bildungseinrichtungen einen soliden Lehrplan für Mathematik anbieten, und die überwiegende Mehrheit der sind für das Universitätsprogramm qualifiziert. Brobdingnagiers sekundär Schulen überhaupt keinen Mathematikunterricht und infolgedessen bieten deutlich weniger dass die Lernenden qualifiziert sind. Gleiche Chancen sind erfüllt, vorausgesetzt, unabhängig davon, ob ein Bewerber ein Lilliputer oder ein Brobdingnager ist, qualifiziert sind, haben sie die gleiche Chance, für das Programm zugelassen zu werden, Nicht qualifiziert ist die Wahrscheinlichkeit, dass sie abgelehnt werden.

Angenommen, 100 Lilliputianen und 100 Brobdingnagians bewerben sich für Glubbdubdrib. Universitäts- und Zulassungsentscheidungen werden folgendermaßen getroffen:

Tabelle 3 Bewerber in Lilliputen (90% sind qualifiziert)

  Qualifiziert Unqualifiziert
Zugelassen 45 2
Abgelehnt 45 8
Gesamt 90 10
Prozentsatz der zugelassenen Schüler/Studenten: 45/90 = 50%
Prozentsatz abgelehnter nicht qualifizierter Schüler/Studenten: 8/10 = 80%
Gesamtprozentsatz der zugelassenen lilliputischen Schüler: (45+2)/100 = 47%

 

Tabelle 4 Bewerber aus dem Brobdingnag-Programm (10% sind qualifiziert):

  Qualifiziert Unqualifiziert
Zugelassen 5 18
Abgelehnt 5 72
Gesamt 10 90
Prozentsatz der zugelassenen Schüler/Studenten: 5/10 = 50%
Prozentsatz abgelehnter nicht qualifizierter Schüler/Studenten: 72/90 = 80%
Gesamtprozentsatz der zugelassenen Brobdingnagian-Studenten: (5+18)/100 = 23%

Die Chancengleichheit ist zufrieden, da die Qualifizierung Lilliputian und Brobdingnagian Schüler haben eine 50-prozentige Chance, zugelassen zu werden, und nicht qualifizierte Lilliputianer und Brobdingnagian eine Chance von 80 %, abgelehnt zu werden.

Egalisierte Chancen sind in der „Gleichheit Opportunity in Supervised Learning“ zu verwenden: „Prädiktor Ŷ erfüllt die gleichen Chancen in Bezug auf und das Ergebnis Y, wenn Ŷ und A unabhängig voneinander sind, von Y bedingt ist.“

Estimator

#TensorFlow

Eine verworfene TensorFlow API. Verwenden Sie stattdessen tf.keras. von Schätzern.

Evals

#language
#generativeAI

Wird hauptsächlich als Abkürzung für LLM-Bewertungen verwendet. Im Allgemeinen ist evals eine Abkürzung für jede Form von Bewertung:

Evaluierung

#language
#generativeAI

Prozess zum Messen der Qualität eines Modells oder zum Vergleichen verschiedener Modelle miteinander zu vergleichen.

So bewerten Sie ein überwachtes maschinelles Lernen: wird es in der Regel anhand eines Validierungs-Datasets und ein Test-Dataset. LLM bewerten umfasst in der Regel umfassendere Qualitäts- und Sicherheitsbewertungen.

Beispiel

#fundamentals

Die Werte einer Zeile mit features und möglicherweise ein Label. Beispiele in beaufsichtigtes Lernen lässt sich in zwei Kategorien unterteilen: allgemeine Kategorien:

  • Ein Beispiel mit einem Label besteht aus einem oder mehreren Merkmalen. und einem Label. Beispiele mit Label werden während des Trainings verwendet.
  • Ein Beispiel ohne Label besteht aus einem oder mehr Funktionen, aber ohne Label. Beispiele ohne Label werden bei der Inferenz verwendet.

Angenommen, Sie trainieren ein Modell, um den Einfluss der Prüfungsergebnisse der Schüler:innen. Hier sind drei Beispiele mit Labels:

Funktionen Label
Temperatur Luftfeuchtigkeit Luftdruck Prüfungspunktzahl
15 47 998 Gut
19 34 1020 Sehr gut
18 92 1012 Schlecht

Hier sind drei Beispiele ohne Label:

Temperatur Luftfeuchtigkeit Luftdruck  
12 62 1014  
21 47 1017  
19 41 1021  

Die Zeile eines Datasets ist normalerweise die Rohquelle für ein Beispiel. Das heißt, ein Beispiel besteht normalerweise aus einer Teilmenge der Spalten des Datasets. Darüber hinaus können die Funktionen in einem Beispiel auch synthetische Funktionen wie Funktionsverknüpfungen:

Siehe Überwachtes Lernen in erhalten Sie im Kurs „Einführung in maschinelles Lernen“.

Wiederholung

#rl

Beim Reinforcement Learning wird eine DQN-Technik verwendet, zeitliche Korrelationen in Trainingsdaten reduzieren. Der Agent speichert Statusübergänge in einem Replay-Zwischenspeicher Stichproben werden vom Replay-Zwischenspeicher ausgenommen, um Trainingsdaten zu erstellen.

Verzerrungen des Experimentators

#fairness

Siehe Bestätigungsverzerrung.

Problem mit explodierendem Farbverlauf

#seq

Die Tendenz zu Verläufen in neuronalen Deep-Learning-Netzwerke (insbesondere recurrent neuronales Netzwerk) verwendet, überraschend steil (hoch). Starke Farbverläufe führen oft zu sehr großen Aktualisierungen. mit den Gewichtungen jedes Knotens in einem neuronalen Deep-Learning-Netzwerk.

Modelle, die unter dem Problem des explodierenden Gradienten leiden, werden schwierig zu trainieren. Farbverlauf-Clipping können Sie dieses Problem lösen.

Vergleiche das Problem mit dem Problem mit dem Farbverlaufsverschwinden.

F

F1

Eine Zusammenfassung binären Klassifizierungsmesswerts, ist sowohl auf Genauigkeit als auch auf Trefferquote angewiesen. Die Formel lautet:

$$F{_1} = \frac{\text{2 * precision * recall}} {\text{precision + recall}}$$

Hier ein Beispiel:

  • Precision = 0,6
  • Recall = 0,4
$$F{_1} = \frac{\text{2 * 0.6 * 0.4}} {\text{0.6 + 0.4}} = 0.48$$

Wenn Precision und Recall ziemlich ähnlich sind (wie im vorherigen Beispiel), F1 liegt nahe am Mittelwert. Wenn sich Precision und Recall unterscheiden deutlicher, liegt F1 näher am niedrigeren Wert. Beispiel:

  • Precision = 0,9
  • Recall = 0,1
$$F{_1} = \frac{\text{2 * 0.9 * 0.1}} {\text{0.9 + 0.1}} = 0.18$$

Fairness-Beschränkung

#fairness
Einschränkung auf einen Algorithmus anwenden, um eine oder mehrere Definitionen sicherzustellen der Fairness zufrieden sind. Beispiele für Fairness-Einschränkungen:

Fairness-Messwert

#fairness

Eine mathematische Definition von „Fairness“ das messbar ist. Zu den häufig verwendeten Fairness-Messwerten gehören:

Viele Fairness-Messwerte schließen sich gegenseitig aus: Siehe Inkompatibilität von Fairness-Messwerten.

Falsch-negativ (FN)

#fundamentals

Beispiel, bei dem das Modell den negative class (auszuschließende Klasse) hinzu. Zum Beispiel hat das Modell sagt, dass es sich bei einer bestimmten E-Mail-Nachricht um kein Spam handelt (die negative Klasse), aber diese E-Mail ist tatsächlich Spam.

Rate falsch negativer Ergebnisse

Der Anteil der tatsächlich positiven Beispiele, für die das Modell fälschlicherweise die negative Klasse vorhergesagt. Mit der folgenden Formel wird die „false“ berechnet, negative Rate:

$$\text{false negative rate} = \frac{\text{false negatives}}{\text{false negatives} + \text{true positives}}$$

Siehe Grenzwerte und die Verwirrung Matrix im Crashkurs „Machine Learning“.

Falsch positives Ergebnis (FP)

#fundamentals

Beispiel, bei dem das Modell den positive Klasse. Das Modell sagt beispielsweise dass es sich bei einer bestimmten E-Mail-Nachricht um Spam handelt (die positive Klasse), aber dass E-Mail-Nachricht ist tatsächlich kein Spam.

Siehe Grenzwerte und die Verwirrung Matrix im Crashkurs „Machine Learning“.

Rate falsch positiver Ergebnisse (FPR)

#fundamentals

Der Anteil der tatsächlichen negativen Beispiele, für die das Modell versehentlich die positive Klasse vorhergesagt. Mit der folgenden Formel wird die „false“ berechnet, positive Rate:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

Die Falsch-Positiv-Rate ist die x-Achse in einer ROC-Kurve.

Siehe Klassifizierung: ROC und AUC im Crashkurs „Machine Learning“.

Feature

#fundamentals

Eine Eingabevariable für ein ML-Modell. Beispiel besteht aus einem oder mehreren Merkmalen. Angenommen, Sie trainieren ein Modell, um den Einfluss der Wetterbedingungen auf die Prüfungsergebnisse der Schüler zu bestimmen. Die folgende Tabelle enthält drei Beispiele, die jeweils Folgendes enthalten: drei Funktionen und ein Label:

Funktionen Label
Temperatur Luftfeuchtigkeit Luftdruck Prüfungspunktzahl
15 47 998 92
19 34 1020 84
18 92 1012 87

Stellen Sie einen Kontrast mit label her.

Siehe Überwachtes Lernen finden Sie weitere Informationen dazu.

Featureverknüpfung

#fundamentals

Ein synthetisches Element, das durch „Kreuzung“ gebildet wird kategoriale oder Bucket-bezogene Features.

Stellen Sie sich z. B. eine „Stimmungsprognose“ ein Modell, das die in einen der folgenden vier Kategorien eingeben:

  • freezing
  • chilly
  • temperate
  • warm

Und stellt die Windgeschwindigkeit in einer der folgenden drei Kategorien dar:

  • still
  • light
  • windy

Ohne Featureverknüpfungen wird das lineare Modell unabhängig von den sieben verschiedenen Gruppen vorangehen. Das Modell trainiert also zum Beispiel freezing unabhängig vom Training an, z. B. windy.

Alternativ können Sie eine Funktionsverknüpfung für Temperatur und Windgeschwindigkeit. Dieses synthetische Feature hätte die folgenden 12 möglichen Werte:

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

Dank der Funktionsverknüpfungen kann das Modell Stimmungsunterschiede lernen. zwischen einem freezing-windy und einem freezing-still Tag.

Wenn Sie eine synthetische Funktion aus zwei Funktionen erstellen, Buckets haben, wird die daraus resultierende Merkmalsverknüpfung eine große Anzahl der möglichen Kombinationen. Wenn ein Feature z. B. 1.000 Buckets hat und hat das andere Feature 2.000 Buckets, die daraus resultierende Featureverknüpfung 2.000.000 Buckets.

Formal ist ein Kreuz ein Kartesisches Produkt:

Featureverknüpfungen werden hauptsächlich mit linearen Modellen verwendet und selten verwendet mit neuronalen Netzen.

Siehe Kategoriale Daten: Feature Kreuze im Crashkurs „Machine Learning“.

Feature Engineering

#fundamentals
#TensorFlow

Ein Prozess, der die folgenden Schritte umfasst:

  1. Geeignete Funktionen ermitteln beim Trainieren eines Modells.
  2. Das Konvertieren von Rohdaten aus dem Dataset in effiziente Versionen von für diese Funktionen.

Sie könnten z. B. feststellen, dass temperature für Sie nützlich sein könnte. . Anschließend können Sie mit Bucketing experimentieren. um zu optimieren, was das Modell aus verschiedenen temperature-Bereichen lernen kann.

Feature Engineering wird manchmal Feature-Extraktion oder Funktionen:

Siehe Numerische Daten: So nimmt ein Modell Daten mithilfe von Features auf Vektoren im Crashkurs „Machine Learning“.

Featureextraktion

Überladener Begriff mit einer der folgenden Definitionen:

Featurewichtigkeiten

#df

Synonym für variable Wichtigkeiten.

Feature-Set

#fundamentals

Die Gruppe der Funktionen Ihres maschinellen Lernens model wird weiter trainiert. Beispiele: Postleitzahl, Immobiliengröße und Immobilienzustand einen einfachen Satz von Merkmalen für ein Modell, das Immobilienpreise vorhersagt.

Featurespezifikation

#TensorFlow

Beschreibt die Informationen, die zum Extrahieren von Merkmalsdaten erforderlich sind aus dem tf.Example-Protokollpuffer. Da die tf.Example-Protokollzwischenspeicher ist nur ein Container für Daten. Sie müssen daher angeben, Folgendes:

  • Die zu extrahierenden Daten (d. h. die Schlüssel für die Funktionen)
  • Der Datentyp (z. B. float oder int)
  • Länge (fest oder variabel)

Featurevektor

#fundamentals

Das Array der feature-Werte, das ein Beispiel: Der Featurevektor wird während Training und während der Inferenz. Der Featurevektor für ein Modell mit zwei diskreten Merkmalen kann so lauten:

[0.92, 0.56]

Vier Schichten: eine Eingabeschicht, zwei versteckte Schichten und eine Ausgabeschicht.
          Die Eingabeebene enthält zwei Knoten, einer mit dem Wert
          0.92 und die andere mit dem Wert 0.56.

Jedes Beispiel stellt unterschiedliche Werte für den Featurevektor bereit, sodass das für das nächste Beispiel könnte etwa so aussehen:

[0.73, 0.49]

Feature Engineering bestimmt, wie die Elemente im Featurevektor enthalten. Ein binäres kategoriales Feature mit könnten fünf mögliche Werte durch One-Hot-Codierung. In diesem Fall entspricht der Teil der Merkmalsvektor für ein bestimmtes Beispiel aus vier Nullen und eine einzelne 1, 0 an der dritten Position:

[0.0, 0.0, 1.0, 0.0, 0.0]

Nehmen wir als weiteres Beispiel an, Ihr Modell besteht aus drei Merkmalen:

  • ein binäres kategoriales Merkmal mit fünf möglichen Werten, dargestellt durch One-Hot-Codierung; Beispiel: [0.0, 1.0, 0.0, 0.0, 0.0]
  • ein weiteres binäres kategoriales Merkmal mit drei möglichen Werten mit One-Hot-Codierung; Beispiel: [0.0, 0.0, 1.0]
  • eine Gleitkommafunktion; Beispiel: 8.3.

In diesem Fall würde der Featurevektor für jedes Beispiel um neun Werte. Bei den Beispielwerten in der vorherigen Liste Merkmalsvektor wäre:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

Siehe Numerische Daten: So nimmt ein Modell Daten mithilfe von Features auf Vektoren im Crashkurs „Machine Learning“.

Featurisierung

Das Extrahieren von Merkmalen aus einer Eingabequelle wie einem Dokument oder Video, und ordnen diese Elemente Featurevektor:

Einige ML-Experten verwenden die Featurisierung als Synonym für Feature Engineering oder Feature-Extraktion:

föderiertes Lernen

Ein verteilter ML-Ansatz, der trainiert Modelle für maschinelles Lernen mit dezentralisierten Beispiele auf Geräten wie Smartphones. Beim föderierten Lernen lädt ein Teil der Geräte das aktuelle Modell herunter. von einem zentralen koordinierenden Server aus. Die Geräte verwenden die gespeicherten Beispiele auf den Geräten, um das Modell zu verbessern. Die Geräte laden dann das Modell (aber nicht die Trainingsbeispiele) an der auf dem Google-Server, auf dem sie mit anderen Updates zusammengefasst werden, um eine verbesserte globales Modell zu erstellen. Nach der Aggregation wird das Modell, die von Geräten berechnet wurden, aktualisiert werden nicht mehr benötigt und können verworfen werden.

Da die Trainingsbeispiele nie hochgeladen werden, folgt föderiertes Lernen der fokussierten Datenerhebung und Datenminimierung.

Weitere Informationen zu föderiertem Lernen in dieser Anleitung.

Feedback Loop

#fundamentals

Beim maschinellen Lernen beeinflussen die Vorhersagen eines Modells den Trainingsdaten für dasselbe oder ein anderes Modell zu erhalten. Ein Modell, das Filmempfehlungen beeinflussen, welche Filme Nutzer sich ansehen. weitere Filmempfehlungsmodelle beeinflussen.

Siehe Produktions-ML-Systeme: Fragen an fragen im Crashkurs „Machine Learning“.

Neuronales Feed-Forward-Netzwerk (FFN)

Ein neuronales Netzwerk ohne zyklische oder rekursive Verbindungen. Beispiel: Herkömmliche neuronale Deep-Learning-Netzwerke neuronalen Feed-Forward-Netzwerken. Kontrast mit recurrent Neural Netzwerke, die zyklisch sind.

Lernen mit wenigen Schritten

Ein Ansatz des maschinellen Lernens, der häufig für die Objektklassifizierung verwendet wird, das effektive Klassifikatoren mit nur einer kleinen Anzahl von Trainingsbeispiele.

Siehe auch One-Shot Learning und Zero-Shot-Lernen:

Wenige-Shot-Prompts

#language
#generativeAI

Eine Aufforderung, die mehrere Beispiele enthält dem Large Language Model sollte antworten. Die folgende lange Aufforderung enthält beispielsweise zwei Beispiele für die Beantwortung einer Abfrage in einem Large Language Model.

Bestandteile eines Prompts Hinweise
Was ist die offizielle Währung des angegebenen Landes? Die Frage, die das LLM beantworten soll.
Frankreich: EUR Ein Beispiel.
Vereinigtes Königreich: GBP Ein weiteres Beispiel.
Indien: Die eigentliche Abfrage.

Prompts mit wenigen Aufnahmen führen in der Regel zu besseren Ergebnissen als Zero-Shot-Prompting und One-Shot-Prompts: Prompts mit wenigen Aktionen können jedoch erfordert einen längeren Prompt.

Prompts mit wenigen Aufnahmen sind eine Form des Lernens mit wenigen Schritten. auf Prompt-basiertes Lernen angewendet.

Siehe Prompt Engineering im Crashkurs „Machine Learning“.

Geige

#language

Eine Konfigurationsbibliothek vor Python, die den Parameter Werte von Funktionen und Klassen ohne invasiven Code oder eine invasive Infrastruktur. Im Fall von Pax – und anderen ML-Codebasen – werden diese Funktionen und Klassen stellen Modelle und Training dar. Hyperparameter.

Geige wird angenommen, dass Codebasen für maschinelles Lernen in der Regel in folgende Kategorien unterteilt sind:

  • Bibliothekscode, der die Layer und Optimierungstools definiert.
  • Dataset „Glue“ mit dem die Bibliotheken aufgerufen und alles zusammen verkabelt wird.

Fiddle erfasst die Aufrufstruktur des Glue-Codes in einem nicht bewerteten änderbare Form.

Feinabstimmung

#language
#image
#generativeAI

Ein zweiter, aufgabenspezifischer Trainingspass, vortrainiertes Modell, um seine Parameter für eine bestimmten Anwendungsfall. Die vollständige Trainingssequenz für einige Large Language Models ist so aufgebaut:

  1. Vor dem Training:Trainieren Sie ein Large Language Model mit einem umfangreichen allgemeinen Dataset zum Beispiel alle englischsprachigen Wikipedia-Seiten.
  2. Feinabstimmung: Trainieren Sie das vortrainierte Modell, um eine bestimmte Aufgabe auszuführen. z. B. auf medizinische Anfragen. Die Feinabstimmung umfasst in der Regel Hunderte oder Tausende von Beispielen für die jeweilige Aufgabe.

Ein weiteres Beispiel: Die vollständige Trainingssequenz für ein großes Bildmodell ist folgt:

  1. Vor dem Training:Modell mit großem Bild anhand eines allgemeinen allgemeinen Bilds trainieren Datasets, wie z. B. alle Bilder in Wikimedia Commons.
  2. Feinabstimmung: Trainieren Sie das vortrainierte Modell, um eine bestimmte Aufgabe auszuführen. z. B. Bilder von Orcas generieren.

Die Optimierung kann eine beliebige Kombination der folgenden Strategien umfassen:

  • Alle vorhandenen des vortrainierten Modells ändern parameters fest. Dies wird auch als vollständige Feinabstimmung bezeichnet.
  • Nur einige der vorhandenen Parameter des vortrainierten Modells ändern (in der Regel die Schichten, die der Ausgabeschicht am nächsten sind) während andere vorhandene Parameter unverändert bleiben (normalerweise werden die Layers der der Eingabeebene am nächsten liegt. Weitere Informationen finden Sie unter parametereffiziente Abstimmung.
  • Es werden weitere Ebenen hinzugefügt, in der Regel über den vorhandenen Ebenen, die dem Ausgabeebene.

Die Feinabstimmung ist eine Form des Lerntransfers. Daher kann für die Abstimmung eine andere Verlustfunktion oder ein anderes Modell verwendet werden -Typ als diejenigen, die zum Trainieren des vortrainierten Modells verwendet wurden. Zum Beispiel könnten Sie ein vortrainiertes großes Bildmodell feinabstimmen, um ein Regressionsmodell zu erstellen, gibt die Anzahl der Vögel in einem Eingabebild zurück.

Vergleichen Sie die Feinabstimmung mit den folgenden Begriffen:

Weitere Informationen finden Sie unter Feinabstimmung. im Crashkurs „Machine Learning“.

Kristallgrau

#language

Eine leistungsstarke Open-Source-Lösung Bibliothek für Deep Learning, das auf JAX basiert. Flachs bietet Funktionen für Schulungen in neuronalen Netzwerken sowie für als Methode zur Bewertung ihrer Leistung.

Flaxformer

#language

Ein Open-Source-Transformer Bibliothek Basiert auf Flax und wurde in erster Linie für Natural Language Processing entwickelt und multimodaler Forschung.

Vergiss Gate

#seq

Der Teil eines Langzeitspeichers Zelle, die den Informationsfluss durch die Zelle reguliert. Vergessen, dass Gatter den Kontext erhalten, indem sie entscheiden, welche Informationen verworfen werden sollen aus dem Zellenstatus.

Full Softmax

Synonym für Softmax.

Im Gegensatz dazu können Sie mit der Stichprobenerhebung kontrastieren.

vollständig verbundene Ebene

Eine verborgene Ebene, in der sich jeder Knoten befindet mit jedem Knoten in der nachfolgenden versteckten Schicht verbunden.

Eine vollständig verbundene Ebene wird auch als dichte Ebene bezeichnet.

Funktionstransformation

Eine Funktion, die eine Funktion als Eingabe verwendet und eine transformierte Funktion zurückgibt als Ausgabe. JAX verwendet Funktionstransformationen.

G

GAN

Abkürzung für generative adversarial

Generalisierung

#fundamentals

Die Fähigkeit eines Modells, korrekte Vorhersagen für neue, bisher unbekannten Daten. Ein Modell, das generalisieren kann, ist das Gegenteil eines Modells, das überanpassung ist.

Gemini

#language
#image
#generativeAI

Die Plattform mit den innovativsten KI-Funktionen von Google Elemente dieses Ökosystems umfassen:

  • Verschiedene Gemini-Modelle.
  • Die interaktive dialogorientierte Schnittstelle zu einem Gemini-Modell. Nutzer geben Prompts ein und Gemini antwortet auf diese Prompts.
  • Verschiedene Gemini APIs
  • Verschiedene Geschäftsprodukte, die auf Gemini-Modellen basieren zum Beispiel Gemini für Google Cloud

Gemini-Modelle

#language
#image
#generativeAI

Hochmoderne Transformer-basierte Funktionen von Google Multimodale Modelle: Gemini-Modelle sind speziell zur Einbindung in Agents.

Nutzer können auf verschiedene Weise mit Gemini-Modellen interagieren, z. B. über interaktive Dialogoberfläche und über SDKs zu nutzen.

Generalisierungskurve

#fundamentals

Eine Darstellung des Trainingsverlusts Der Validierungsverlust ist eine Funktion der Anzahl Iterationen.

Mithilfe einer Generalisierungskurve können Sie Überanpassung. Beispiel: Generalisierungskurve deutet auf eine Überanpassung hin, da der Validierungsverlust deutlich höher als der Trainingsverlust.

Ein kartesischer Graph, in dem die y-Achse mit Verlust und die x-Achse beschriftet sind.
          mit Iterationen beschriftet. Es werden zwei Diagramme angezeigt. Ein Diagramm zeigt die
          und der zweite den Validierungsverlust.
          Die beiden Diagramme fangen ähnlich an, aber der Trainingsverlust
          deutlich geringer ausfällt
als der Validierungsverlust.

allgemeines lineares Modell

Generalisierung der Regression der kleinsten Quadrate Modelle, die auf Gaußsch Rauschen zu anderen die auf anderen Arten von Rauschen basieren, z. B. Poisson-Rauschen oder kategoriales Rauschen. Beispiele für generalisierte lineare Modelle:

Die Parameter eines generalisierten linearen Modells finden Sie Konvexoptimierung:

Generalisierte lineare Modelle haben die folgenden Eigenschaften:

  • Die durchschnittliche Vorhersage des optimalen Regressionsmodells der kleinsten Quadrate ist gleich dem Label (Durchschnitt) der Trainingsdaten.
  • Die durchschnittliche Wahrscheinlichkeit, die durch die optimale logistische Regression vorhergesagt wird Modell dem Durchschnittslabel der Trainingsdaten entspricht.

Die Leistungsfähigkeit eines generalisierten linearen Modells wird durch seine Merkmale begrenzt. „Mag ich“-Bewertung entfernen ein tiefes Modell hat, kann ein generalisiertes lineares Modell nicht „neue Features lernen“.

Generative Adversarial Network (GAN)

Ein System zum Erstellen neuer Daten, in dem ein Generator erstellt und ein Diskriminator bestimmt, Die erstellten Daten sind gültig oder ungültig.

generative KI

#language
#image
#generativeAI

Ein aufstrebendes transformatives Feld ohne formale Definition. Dennoch sind sich die meisten Experten einig, dass Generative-AI-Modelle Inhalte erstellen („generieren“), die die folgenden Kriterien erfüllen:

  • komplex
  • kohärent
  • ursprünglich

Ein generatives KI-Modell kann zum Beispiel komplexe Essays oder Bilder.

Einige frühere Technologien, darunter LSTMs und RNNs können auch eigene kohärenten Content. Einige Experten betrachten diese früheren Technologien generative KI, während andere der Meinung sind, dass generative KI komplexer ist als diese früheren Technologien erzeugen können.

Im Gegensatz zu prädiktivem ML.

generatives Modell

Praktisch gesprochen, ein Modell, das einen der folgenden Schritte ausführt:

  • Erstellt (generiert) neue Beispiele aus dem Trainings-Dataset. Ein generatives Modell könnte beispielsweise nach dem Training Gedichte schaffen. aus Gedichten. Der generator-Teil eines Generatives kontradiktorisches Netzwerk gehört zu dieser Kategorie.
  • Bestimmt die Wahrscheinlichkeit, dass ein neues Beispiel aus dem oder mit demselben Mechanismus erstellt wurde wie der des Trainings-Datasets. Nach dem Training auf aus englischen Sätzen besteht, könnte ein generatives Modell ermittelt, mit welcher Wahrscheinlichkeit die neue Eingabe ein gültiger englischer Satz ist.

Ein generatives Modell kann theoretisch die Verteilung von Beispielen erkennen oder bestimmte Merkmale in einem Dataset. Das bedeutet:

p(examples)

Unüberwachtes Lernen ist generativ.

Im Kontrast zu diskriminativen Modellen stehen.

Generator

Das Subsystem innerhalb eines generativen Gegners Netzwerk zum Erstellen neuer Beispiele.

Im Kontrast zum diskriminativen Modell stehen.

Gini-Verunreinigung

#df

Einen Messwert, der Entropie ähnelt. Splitter Verwenden Sie Werte, die entweder von der Gini-Verunreinigung oder von der Entropie abgeleitet wurden, Bedingungen für die Klassifizierung Entscheidungsbäume. Der Informationsgewinn wird aus der Entropie abgeleitet. Es gibt keinen allgemein akzeptierten äquivalenten Begriff für den abgeleiteten Messwert von Gini-Verunreinigung; Dieser unbenannte Messwert ist jedoch genauso wichtig wie gewinnen.

Die Gini-Verunreinigung wird auch als Gini-Index oder einfach Gini bezeichnet.

Goldenes Dataset

Eine Reihe manuell ausgewählter Daten, die Ground Truth erfassen. Teams können ein oder mehrere goldene Datasets verwenden, um die Qualität eines Modells zu bewerten.

Einige goldene Datasets erfassen verschiedene Subdomains der Grundwahrheit. Beispiel: Ein goldenes Dataset für die Bildklassifizierung kann Lichtverhältnisse erfassen. und Bildauflösung.

GPT (Generativer vortrainierter Transformer)

#language

Eine Familie von Transformer-basierten Large Language Models entwickelt von OpenAI

GPT-Varianten können für mehrere Modalitäten angewendet werden, darunter:

  • Bildgenerierung (z. B. ImageGPT)
  • Text-zu-Bild-Generierung (z. B. DALL-E) zurück.

Farbverlauf

Der Vektor einer partiellen Ableitung nach Bezug auf alle unabhängigen Variablen enthalten. Beim maschinellen Lernen ist der Farbverlauf Vektor partieller Ableitungen der Modellfunktion. Die Farbverlaufspunkte Richtung des steilsten Aufstiegs.

Gradientenakkumulation

Eine Backpropagation-Technik, mit der die parameters nur einmal pro Epoche statt einmal pro Epoche Iterationen vor. Nach der Verarbeitung jedes Mini-Batch wird der Gradient aktualisiert die Akkumulation einfach eine laufende Summe von Gradienten. Danach, nach beim Verarbeiten des letzten Mini-Batches der Epoche, wird das System schließlich basierend auf der Summe aller Farbverlaufsänderungen.

Die Gradientenakkumulation ist nützlich, wenn die Batchgröße im Vergleich zum verfügbaren Arbeitsspeicher für das Training sehr groß. Wenn Arbeitsspeicher ein Problem ist, besteht die natürliche Tendenz darin, die Batchgröße zu reduzieren. Das Reduzieren der Batchgröße bei der normalen Rückpropagierung erhöht sich jedoch. die Anzahl der Parameteraktualisierungen. Die Gradientenakkumulation ermöglicht das Modell, um Speicherprobleme zu vermeiden, aber weiterhin effizient zu trainieren.

Gradient Boosted (Entscheidungsbaum) (GBT)

#df

Eine Art von Entscheidungsstruktur, in dem:

Gradientenverstärkung

#df

Einen Trainingsalgorithmus, mit dem schwache Modelle iterativ trainiert werden die Qualität (Verlust) eines leistungsfähigen Modells zu verbessern. Beispiel: könnte ein schwaches Modell ein lineares oder ein kleines Entscheidungsbaummodell sein. Ein starkes Modell ergibt sich aus der Summe aller zuvor trainierten schwachen Modelle.

Bei der einfachsten Form des Gradienten-Boostings wird bei jeder Iteration ein schwaches Modell wird trainiert, den Verlustgrad des starken Modells vorherzusagen. Das Feld wird die Ausgabe des starken Modells aktualisiert, indem der vorhergesagte Gradient subtrahiert wird, ähnlich wie das Gradientenverfahren.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

Dabei gilt:

  • $F_{0}$ ist das erste starke Modell.
  • $F_{i+1}$ ist das nächste starke Modell.
  • $F_{i}$ ist das aktuelle starke Modell.
  • $\xi$ ist ein Wert zwischen 0,0 und 1,0, der als Schrumpfung bezeichnet wird. Das ist analog zum Lernrate in Gradientenverfahren.
  • $f_{i}$ ist das schwache Modell, das dafür trainiert wurde, $F_{i}$.

Zu modernen Varianten des Gradienten-Boostings gehört auch die zweite Ableitung (hessisch) des Verlusts in ihrer Berechnung.

Entscheidungsbäume werden häufig als schwache Modelle in Gradientenverstärkung. Weitere Informationen finden Sie unter Gradienten-Boosted-Bäume (Entscheidungsbäume).

Farbverlauf-Clipping

#seq

Ein häufig verwendeter Mechanismus zur Minderung Problem mit dem Farbverlauf explodieren, den Maximalwert von Gradienten bei der Verwendung von Gradientenabstieg, um ein Modell zu trainieren.

Gradientenabstieg

#fundamentals

Eine mathematische Methode zur Minimierung von Verlust. Der Gradientenabstieg wird iterativ angepasst Gewichtungen und Verzerrungen, und schrittweise die beste Kombination finden, um den Verlust zu minimieren.

Das Gradientenverfahren ist älter – viel, viel älter – als das maschinelle Lernen.

Graph

#TensorFlow

Eine Berechnungsspezifikation in TensorFlow. Knoten im Diagramm Vorgänge repräsentieren. Kanten sind gerichtet und stellen das Übergeben des Ergebnisses dar eines Vorgangs (Tensor) als Operation in eine andere Operation ein. Verwenden Sie TensorBoard zum Visualisieren eines Diagramms

Graph Execution

#TensorFlow

Eine TensorFlow-Programmierumgebung, in der das Programm zuerst erstellt eine Grafik und führt dann die gesamte Grafik oder einen Teil davon aus. Grafik Ausführung ist der Standardausführungsmodus in TensorFlow 1.x.

Im Kontrast zu gezielter Ausführung stehen.

Gierige Richtlinien

#rl

Beim bestärkenden Lernen eine Richtlinie, die immer die Aktion mit der höchsten erwarteten Rendite.

Ground Truth

#fundamentals

Realität.

Die Sache, die tatsächlich passiert ist.

Angenommen, Sie verwenden eine binäre Klassifizierung. Modell, das vorhersagt, ob ein Student im ersten Studienjahr wird innerhalb von sechs Jahren abgeschlossen. Die Grundwahrheit für dieses Modell ist, und zwar nicht, dass dieser Student innerhalb von sechs Jahren den Abschluss gemacht hat.

Gruppenattributionsverzerrung

#fairness

Unter der Annahme, dass das, was für eine Person wahr ist, auch für alle wahr ist in dieser Gruppe. Die Auswirkungen einer Gruppenattributionsverzerrung können sich verschlimmern wenn eine willkürliche Stichprobennahme wird zur Datenerfassung verwendet. In einer nicht repräsentativen Stichprobe sind Attributionen die nicht der Realität entsprechen.

Siehe auch Out-Group-Homogenitätsverzerrung und In-Group-Verzerrung.

H

KI-Halluzination

#language

Die Produktion einer plausibel scheinen, aber faktisch falschen Ausgabe durch eine generatives KI-Modell, das eine Aussage über die reale Welt. Beispiel: Ein generatives KI-Modell, das behauptet, Barack Obama sei 1865 gestorben. halluziniert.

Hash-Technologie

Ein Bucketing-Mechanismus beim maschinellen Lernen kategorische Daten verwendet werden, insbesondere wenn die Anzahl der Kategorien ist groß, aber die Anzahl der Kategorien, im Dataset vergleichsweise klein ist.

Auf der Erde gibt es beispielsweise etwa 73.000 Baumarten. Sie könnten jede der 73.000 Baumarten in 73.000 separaten kategorialen Buckets. Wenn dagegen nur 200 dieser Baumarten tatsächlich in einem Dataset können Sie Baumarten mithilfe von Hashing in vielleicht 500 Buckets.

Ein einzelner Bucket könnte mehrere Baumarten enthalten. Zum Beispiel die Hash-Technologie Affenbrotbäume und rotes Ahorn – zwei genetisch ungleiche species – in denselben Bucket. Unabhängig davon ist die Hash-Technologie eine gute Möglichkeit, ordnen große kategoriale Sets der ausgewählten Anzahl von Buckets zu. Hashing macht kategoriales Merkmal mit einer großen Anzahl möglicher Werte durch Gruppieren von Werten in einer auf deterministische Weise.

Heuristik

Eine einfache und schnell implementierte Lösung für ein Problem. Beispiel: „Mit einer Heuristik erreichten wir eine Genauigkeit von 86 %. Als wir zu einer stieg die Genauigkeit auf 98%.“

versteckte Ebene

#fundamentals

Eine Schicht in einem neuronalen Netzwerk zwischen der Eingabeebene (die Funktionen) und die Ausgabeschicht (die Vorhersage). Jede versteckte Schicht besteht aus einem oder mehreren Neuronen. Das folgende neuronale Netzwerk enthält beispielsweise zwei verborgene Schichten, das erste mit drei Neuronen und das zweite mit zwei Neuronen:

Vier Ebenen. Die erste Ebene ist eine Eingabeebene, die zwei
          Funktionen. Die zweite Ebene ist eine verborgene Ebene, die drei
          Neuronen. Die dritte Ebene ist eine versteckte Schicht,
          Neuronen. Die vierte Schicht ist eine Ausgabeschicht. Alle Funktionen
          enthält drei Kanten, von denen jede auf ein anderes Neuron zeigt.
          im zweiten Layer. Jedes Neuron der zweiten Schicht
          enthält zwei Kanten, von denen jede auf ein anderes Neuron zeigt.
          im dritten Layer. Jedes Neuron der dritten Schicht enthält
          eine Kante, die jeweils auf die Ausgabeebene verweist.

Ein neuronales Deep-Learning-Netzwerk enthält mehr als ein ausgeblendete Ebene. Die vorherige Abbildung zeigt beispielsweise ein neuronales Deep-Learning- da das Modell zwei verborgene Schichten enthält.

hierarchisches Clustering

#clustering

Eine Kategorie von Clustering-Algorithmen, die einen Baum erstellen von Clustern. Das hierarchische Clustering eignet sich gut für hierarchische Daten, wie botanische Taxonomien. Es gibt zwei Arten von hierarchischen Clustering-Algorithmen:

  • Beim agglomerativen Clustering wird jedes Beispiel zuerst einem eigenen Cluster zugewiesen. und führt iterativ die nächstgelegenen Cluster zusammen, um eine hierarchische Baum.
  • Divisives Clustering gruppiert zuerst alle Beispiele in einem Cluster und dann den Cluster iterativ in eine hierarchische Struktur aufteilt.

Im Gegensatz zu zentroidbasiertem Clustering.

Scharnierverlust

Eine Gruppe von Verlustfunktionen für Klassifizierung dient dazu, Entscheidungsgrenze so weit wie möglich entfernt aus jedem Trainingsbeispiel, Dadurch wird der Abstand zwischen den Beispielen und der Grenze maximiert. KSVMs nutzen Scharnierverlust (oder eine ähnliche Funktion wie Scharnierverlust im Quadrat). Für die binäre Klassifizierung wird die Scharnierverlustfunktion wie folgt definiert:

$$\text{loss} = \text{max}(0, 1 - (y * y'))$$

Dabei ist y das wahre Label, entweder -1 oder +1, und y' die Rohausgabe. des Klassifikatormodells:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Folglich sieht ein Diagramm des Scharniersverlusts im Vergleich zu (y * y') so aus:

Ein kartesisches Diagramm, das aus zwei verbundenen Liniensegmenten besteht. Die erste
          Das Liniensegment beginnt bei (-3, 4) und endet bei (1, 0). Die zweite Zeile
          Segment beginnt bei (1, 0) und endet auf unbestimmte Zeit mit einer Steigung
          von 0.

historische Voreingenommenheit

#fairness

Eine Art von Voreingenommenheit, die bereits auf der Welt existiert und in ein Dataset eingespeist wurden. Diese Voreingenommenheiten spiegeln die kulturelle Stereotype, demografische Ungleichheiten und Vorurteile gegenüber bestimmten sozialen Gruppen.

Nehmen wir als Beispiel ein Klassifizierungsmodell, prognostiziert, ob ein Darlehensbewerber in Verzug gerät, die von lokalen Banken aus den 1980er-Jahren in zwei Communitys. Wenn frühere Bewerber aus Community A sechsmal mehr als Bewerber aus Community B eher im Verzug. kann eine historische Verzerrung lernen, was dazu führt, dass das Modell weniger wahrscheinlich genehmigt Kredite in Community A, auch wenn die historischen Bedingungen, waren die höheren Standardraten in dieser Community nicht mehr relevant.

Holdout-Daten

Beispiele werden während des Trainings absichtlich nicht verwendet („hervorgehoben“). Das Validierungs-Dataset und Test-Datasets sind Beispiele für Holdout-Daten. Holdout-Daten können Sie die Fähigkeit Ihres Modells bewerten, auf andere Daten als die Daten, mit denen es trainiert wurde. Die Niederlage beim Holdout-Set sorgt für eine bessere Schätzung des Verlusts bei einem nicht gesehenen Dataset als der Verlust Trainings-Dataset.

Host

#TensorFlow
#GoogleCloud

Beim Trainieren eines ML-Modells auf Beschleunigerchips (GPUs oder TPUs) sind der Teil des Systems über die Folgendes gesteuert wird:

  • Der gesamte Ablauf des Codes.
  • Die Extraktion und Transformation der Eingabepipeline.

Der Host wird normalerweise auf einer CPU und nicht auf einem Beschleunigerchip ausgeführt. die device manipuliert Tensoren auf dem Accelerator-Chips.

Hyperparameter

#fundamentals

Die Variablen, die Sie oder ein Hyperparameter-Abstimmungsdienst . aufeinanderfolgenden Trainingsläufen eines Modells anpassen. Beispiel: Lernrate ist ein Hyperparameter. Sie könnten Lernrate vor einer Schulung auf 0,01 einstellen. Wenn Sie feststellen, dass 0,01 zu hoch ist, könnten Sie vielleicht die Lernphase für die nächste Schulung auf 0,003.

Im Gegensatz dazu stehen parameters für die verschiedenen Gewichtungen und Verzerrungen, die das Modell lernt während des Trainings.

Hyperplane

Begrenzung, die einen Bereich in zwei untergeordnete Bereiche trennt. Eine Linie ist beispielsweise und eine Hyperebene in zwei Dimensionen. Beim maschinellen Lernen ist in der Regel eine Hyperebene die Grenze, die eine hochdimensionalen Raum. Von Kernel-Supportvektormaschinen Hyperebenen zur Trennung von positiven von negativen Klassen, oft in sehr hochdimensionalen Raum.

I

i.i.d.

Abkürzung für unabhängig und identisch verteilt.

Bilderkennung

#image

Prozess, der Objekte, Muster oder Konzepte in einem Bild klassifiziert. Die Bilderkennung wird auch als Bildklassifizierung bezeichnet.

Weitere Informationen finden Sie unter ML Practicum: Bildklassifizierung

unausgeglichenes Dataset

Synonym für class-unbalanced dataset.

impliziter Bias

#fairness

Automatisch eine Assoziation oder Vermutung auf der Grundlage der eigenen Gedanken herstellen Modelle und Erinnerungen. Implizite Voreingenommenheit kann folgende Auswirkungen haben:

  • Wie Daten erhoben und klassifiziert werden.
  • Design und Entwicklung von ML-Systemen

Wenn Sie beispielsweise einen Klassifikator für Hochzeitsfotos erstellen, Ingenieure können das Vorhandensein eines weißen Kleides auf einem Foto als Element nutzen. Weiße Kleider waren jedoch nur zu bestimmten Zeiten und in bestimmten Kulturen gibt.

Siehe auch Bestätigungsverzerrung.

Imputation

Kurzform der Wertberechnung.

Inkompatibilität von Fairness-Messwerten

#fairness

Der Gedanke, dass einige Vorstellungen von Fairness sich gegenseitig nicht vereinen und nicht gleichzeitig erfüllt werden können. Daher gibt es keine einzelne universeller Messwert zur Quantifizierung von Fairness die auf alle ML-Probleme angewendet werden kann.

Das mag entmutigend erscheinen, aber die Messwerte zur Fairness sind nicht kompatibel. bedeutet nicht, dass Fairness-Bemühungen ergebnislos sind. Stattdessen wird vorgeschlagen, dass Fairness für ein bestimmtes ML-Problem kontextbezogen definiert werden muss, wobei das Ziel der Verhinderung von Schäden, die für die jeweiligen Anwendungsfälle relevant sind.

Weitere Informationen finden Sie unter "Auf der (Im)Möglichkeit der Fairness“ finden Sie weitere Informationen zu diesem Thema.

kontextbezogenes Lernen

#language
#generativeAI

Synonym für wenige-shot-Prompting.

unabhängig und identisch verteilt (i.i.d)

#fundamentals

Daten aus einer Verteilung, die sich nicht ändert, und bei denen jeder Wert hängt nicht von Werten ab, die zuvor gezeichnet wurden. Ein i.d. ist das ideale Gas der Maschine ein nützliches mathematisches Konstrukt, das jedoch fast nie in der realen Welt an. Zum Beispiel die Verteilung der Besucher einer Webseite z. B. i.i.d. innerhalb eines kurzen Zeitfensters Das heißt, die Verteilung ändert sich in diesem kurzen Zeitfenster und der Besuch einer Person ist in der Regel unabhängig von den Besuchen anderer Nutzer. Wenn Sie dieses Zeitfenster jedoch verlängern, können saisonale Unterschiede bei den Besuchern der Webseite auftreten.

Siehe auch Instationarität.

individuelle Fairness

#fairness

Fairness-Messwert, mit dem geprüft wird, ob ähnliche Personen klassifiziert werden auf ähnliche Weise. Die Brobdingnagian Academy könnte beispielsweise Fairness individuell anpassen, indem sichergestellt wird, dass zwei Schüler mit identischen Noten und standardisierte Prüfungsergebnisse werden mit gleicher Wahrscheinlichkeit zugelassen.

Beachte, dass Fairness beim Einzelnen ausschließlich davon abhängt, wie du „Ähnlichkeit“ definierst. (in diesem Fall Noten und Prüfungsergebnisse), und Sie laufen Gefahr, neue Fairness-Probleme verursachen, wenn Ihr Ähnlichkeitsmesswert wichtige Informationen (z. B. die Gründlichkeit des Lehrplans eines Schülers oder Studenten).

Weitere Informationen finden Sie unter "Fairness Bewusstsein“ für eine detailliertere Diskussion über individuelle Fairness.

Inferenz

#fundamentals

Beim maschinellen Lernen wird der Prozess der Vorhersage Anwenden eines trainierten Modells auf Beispiele ohne Labels

Inferenz hat in der Statistik eine etwas andere Bedeutung. Weitere Informationen finden Sie in der <ph type="x-smartling-placeholder"></ph> Wikipedia-Artikel zu statistischen Inferenzen

Inferenzpfad

#df

In einem Entscheidungsbaum werden während der Inferenz die Route, die ein bestimmtes Beispiel aus dem root auf andere Bedingungen, endet mit ein Blatt. In dem folgenden Entscheidungsbaum ist beispielsweise dickere Pfeile zeigen den Inferenzpfad für ein Beispiel mit folgendem Text an: Featurewerte:

  • x = 7
  • y = 12
  • z = -3

Der Inferenzpfad in der folgenden Abbildung verläuft durch drei Bedingungen vor Erreichen des Blattes (Zeta).

Ein Entscheidungsbaum, der aus vier Bedingungen und fünf Blättern besteht.
          Die Stammbedingung ist (x > 0). Da die Antwort „Ja“ lautet,
          Der Inferenzpfad führt vom Stamm zur nächsten Bedingung (y > 0).
          Da die Antwort „Ja“ lautet, verläuft der Inferenzpfad
          für die nächste Bedingung (z > 0). Da die Antwort „Nein“ lautet, muss der Inferenzpfad
          fließt zu seinem Endknoten, dem Blatt (Zeta).

Die drei dicken Pfeile zeigen den Inferenzpfad.

Informationsgewinn

#df

In Entscheidungsstrukturen wird der Unterschied zwischen die Entropie eines Knotens und die Gewichtung (nach Anzahl der Beispiele) Summe der Entropie seiner untergeordneten Knoten. Die Entropie eines Knotens ist die Entropie der Beispiele in diesem Knoten.

Betrachten Sie beispielsweise die folgenden Entropiewerte:

  • Entropie des übergeordneten Knotens = 0,6
  • Entropie eines untergeordneten Knotens mit 16 relevanten Beispielen = 0,2
  • Entropie eines anderen untergeordneten Knotens mit 24 relevanten Beispielen = 0,1

40% der Beispiele befinden sich in einem untergeordneten Knoten und 60% in dem anderen untergeordneten Knoten. Beispiele:

  • Gewichtete Entropiesumme der untergeordneten Knoten = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Die gewonnenen Informationen sind also:

  • Informationsgewinn = Entropie des übergeordneten Knotens - gewichtete Entropie-Summe der untergeordneten Knoten
  • Informationsgewinn = 0,6 - 0,14 = 0,46

Die meisten Splitter versuchen, Bedingungen zu erstellen. die den Informationsgewinn maximieren.

In-Group-Verzerrung

#fairness

Zeigt eine Parteilichkeit gegenüber der eigenen Gruppe oder eigenen Merkmalen. Wenn Tester oder Prüfer aus Freunden des maschinellen Lernens bestehen, Familienmitgliedern oder Kollegen, können Produkttests durch In-Group-Verzerrungen oder das Dataset.

Die In-Group-Bias-Funktion ist eine Form der Gruppenattributionsverzerrung. Siehe auch Out-Group-Homogenitätsverzerrung.

Eingabegenerator

Ein Mechanismus, mit dem Daten in ein neuronales Netzwerk.

Ein Eingabegenerator kann man sich als eine Komponente vorstellen, die für die Verarbeitung verantwortlich ist, Rohdaten in Tensoren umgewandelt, die iteriert werden, um Batches für Training, Bewertung und Inferenz.

Eingabeebene

#fundamentals

Die Schicht eines neuronalen Netzwerks, die enthält den Featurevektor. Das heißt, die Eingabeschicht Beispiele für das Training oder Inferenz. Die Eingabeschicht in der eines neuronalen Netzwerks besteht aus zwei Funktionen:

Vier Schichten: eine Eingabeschicht, zwei versteckte Schichten und eine Ausgabeschicht.

Eingefügte Bedingung

#df

In einem Entscheidungsbaum wird eine Bedingung das das Vorhandensein eines Elements in einer Gruppe von Elementen überprüft. Das folgende Beispiel zeigt eine festgelegte Bedingung:

  house-style in [tudor, colonial, cape]

während der Inferenz, wenn der Wert des feature im Hausstil tudor, colonial oder cape ist, wird diese Bedingung mit „Ja“ ausgewertet. Wenn ist der Wert des Elements im Hausstil etwas anderes (z. B. ranch), wird diese Bedingung mit „Nein“ gewertet.

Voreingestellte Bedingungen führen in der Regel zu effizienteren Entscheidungsbäumen als Bedingungen zum Testen von One-Hot-codierten Features.

Instanz

Synonym für example.

Anweisung Feinabstimmung

#generativeAI

Eine Form der Feinabstimmung, mit der ein die Fähigkeit eines generativen KI-Modells, Anleitung. Bei der Feinabstimmung von Anweisungen wird ein Modell für eine Serie trainiert Anleitungsaufforderungen, die in der Regel ein breites Spektrum an für eine Vielzahl von Aufgaben. Das resultierende, auf Anweisungen abgestimmte Modell Nützliche Antworten auf Zero-Shot-Prompts generieren für eine Vielzahl von Aufgaben.

Vergleichen mit:

Interpretierbarkeit

#fundamentals

Die Fähigkeit, die Begründungen eines ML-Modells in Begriffe verständlich sind.

Die meisten linearen Regressionsmodelle beispielsweise sind hoch interpretierbar sind. (Sie müssen sich nur die trainierten Gewichtungen feature.) Auch Entscheidungsforen sind gut interpretierbar. Einige Modelle hingegen eine ausgefeilte Visualisierung erfordern, um interpretierbar zu werden.

Sie können die Learning Interpretability Tool (LIT) Interpretation von ML-Modellen.

Vereinbarung zwischen Ratern

Ein Maß dafür, wie oft sich die Prüfer bei der Erledigung einer Aufgabe einig sind. Wenn die Bewerter sich nicht einig sind, müssen die Aufgabenanleitung möglicherweise verbessert werden. Manchmal auch als Vereinbarung zwischen den Kommentierenden oder Inter-Rater-Zuverlässigkeit. Siehe auch Cohens kappa Dies ist eine der beliebtesten Messungen zwischen Datenratenübereinkünften.

Interpunktion über Union (IoU)

#image

Schnittmenge zweier Mengen, geteilt durch ihre Vereinigung. Beim maschinellen Lernen Bilderkennungsaufgaben verwendet, wird mit IoU die Accuracy des Modells vorhergesagter Begrenzungsrahmen in Bezug auf den Ground-Truth-Begrenzungsrahmen. In diesem Fall wird die IoU für die Zwei Rechtecke ist das Verhältnis zwischen der sich überschneidenden Fläche und der Gesamtfläche und Der Wert liegt im Bereich von 0 (keine Überschneidung von vorhergesagtem Begrenzungsrahmen und Ground-Truth-Wert). Markierungsrahmen) bis 1 (prognostizierter Markierungsrahmen und Ground-Truth-Begrenzungsrahmen haben dieselben Koordinaten).

In der folgenden Abbildung ist beispielsweise Folgendes zu sehen:

  • Der vorhergesagte Begrenzungsrahmen (die Koordinaten, die den Ort begrenzen, an dem das Modell beginnt) sagt voraus, dass sich der Nachttisch im Gemälde befindet) ist lila umrandet.
  • Der Ground-Truth-Begrenzungsrahmen (die Koordinaten, die den Bereich Tabelle auf dem Gemälde sich tatsächlich befindet) ist grün umrandet.

Das Gemälde von Vincent Vincents Schlafzimmer in Arles mit zwei verschiedenen
          Begrenzungsrahmen um den Nachttisch neben dem Bett. Die Grundwahrheit
          Begrenzungsrahmen (in grün) umrandet die Nachttabelle perfekt. Die
          Der vorhergesagte Begrenzungsrahmen (in lila) ist um 50% nach unten und nach rechts verschoben.
          Ground-Truth-Begrenzungsrahmen; Das untere rechte Quartal umfasst
          des Nachttischs beschäftigt, aber den Rest des Tisches verfehlt.

Hier ist die Schnittmenge der Begrenzungsrahmen für Vorhersage und Grundwahrheit. (unten links) 1 ist, und die Kombination der Begrenzungsrahmen für die Vorhersage und Die Grundwahrheit (unten rechts) ist 7, daher ist der IoU \(\frac{1}{7}\).

Dasselbe Bild wie oben, aber jeder Begrenzungsrahmen ist in vier Bereiche unterteilt.
          Quadranten. Insgesamt gibt es sieben Quadranten,
          Quadrant des Ground-Truth-Begrenzungsrahmens und der oberen linken
          Quadrant des vorhergesagten Begrenzungsrahmens sich überschneidet. Dieses
          sich überschneidender Abschnitt (grün hervorgehoben) stellt den
          Kreuzung und hat eine Fläche von 1. Dasselbe Bild wie oben, aber jeder Begrenzungsrahmen ist in vier Bereiche unterteilt.
          Quadranten. Insgesamt gibt es sieben Quadranten,
          Quadrant des Ground-Truth-Begrenzungsrahmens und der oberen linken
          Quadrant des vorhergesagten Begrenzungsrahmens sich überschneidet.
          Das gesamte Innere, das von beiden Begrenzungsrahmen eingeschlossen ist
          (grün hervorgehoben) steht für die Vereinigung und hat
          Fläche von 7.

IoU

Abkürzung für Intersection over Union.

Elementmatrix

#recsystems

In Empfehlungssystemen wird ein Matrix der Einbettungsvektoren, generiert von Matrixfaktorisierung das latente Signale zu jedem Artikel enthält. Jede Zeile der Elementmatrix enthält den Wert einer einzelnen latenten für alle Artikel. Sehen wir uns als Beispiel ein Filmempfehlungssystem an. Jede Spalte in der Elementmatrix steht für einen einzelnen Film. Latente Signale sie stehen möglicherweise für Genres oder sind schwerer zu interpretieren Signale, die komplexe Interaktionen zwischen Genre, Stars, das Alter des Films oder andere Faktoren.

Die Elementmatrix hat dieselbe Anzahl von Spalten wie das Ziel Matrix, die faktorisiert wird. Wenn beispielsweise ein Film ein Empfehlungssystem zur Bewertung von 10.000 Filmtiteln, 10.000 Spalten hat.

Elemente

#recsystems

In einem Empfehlungssystem werden die Entitäten, die ein System empfiehlt. Videos sind z. B. die Artikel, die in einem Video gespeichert werden. und Bücher die Artikel, die eine Buchhandlung empfiehlt.

Iteration

#fundamentals

Eine einzelne Aktualisierung der Parameter eines Modells – der des Modells Gewichtungen und Verzerrungen – während training Die Batchgröße bestimmt, wie viele Beispiele das Modell in einer einzelnen Iteration verarbeitet. Beispiel: Bei einer Batchgröße von 20 verarbeitet das Modell 20 Beispiele vor Anpassen der Parameter.

Beim Trainieren eines neuronalen Netzwerks wird eine einzelne Iteration umfasst die folgenden beiden Durchgänge:

  1. Ein Vorwärtsdurchlauf zum Auswerten des Verlusts eines einzelnen Batches.
  2. Eine Rückwärtsterminierung (Backpropagation) zum Anpassen der Modellparameter auf Basis des Verlusts und der Lernrate.

J

JAX

Eine Array-Computing-Bibliothek, die XLA (Accelerated Linear Algebra) und automatische Differenzierung für numerisches Hochleistungs-Computing. JAX bietet eine einfache und leistungsstarke API zum Schreiben von beschleunigtem numerischen Code mit zusammensetzbaren Transformationen. JAX bietet unter anderem folgende Funktionen:

  • grad (automatische Differenzierung)
  • jit (Just-in-Time-Kompilierung)
  • vmap (automatische Vektorisierung oder Batchverarbeitung)
  • pmap (Parallelisierung)

JAX ist eine Sprache zum Ausdrucken und Zusammensetzen von Transformationen numerischer ähnlich wie NumPy von Python, aber im Umfang viel größer. Bibliothek. (Die Funktion der .numpy-Bibliothek unter JAX entspricht in Wirklichkeit aber vollständig umgeschriebene Version der Python-Bibliothek NumPy.)

JAX eignet sich besonders, um viele Aufgaben im Bereich des maschinellen Lernens zu beschleunigen. indem er die Modelle und Daten in eine für Parallelität geeignete Form umwandelt auf GPU- und TPU-Beschleunigerchips.

Flax, Optax, Pax und viele weitere Bibliotheken auf der JAX-Infrastruktur aufbauen.

K

Keras

Eine beliebte Python-API für maschinelles Lernen. Keras Läuft am mehrere Deep-Learning-Frameworks nutzen, z. B. TensorFlow, wo sie entwickelt werden, verfügbar als tf.keras:

Kernel Support Vector Machines (KSVMs)

Klassifizierungsalgorithmus, der darauf abzielt, die Differenz zwischen positiv und negative Klassen durch Zuordnen von Eingabedatenvektoren in einen höherdimensionalen Raum. Stellen Sie sich z. B. eine Klassifizierung Problem, bei dem das Eingabe-Dataset hat hundert Funktionen. Um den Rand zwischen positiven und negativen Klassen, könnte eine KSVM diese Merkmale intern mit Millionen Dimensionen. KSVMs verwendet eine Verlustfunktion namens Hinge-Verlust.

Keypoints

#image

Die Koordinaten bestimmter Merkmale in einem Bild. Beispiel: Für eine Bilderkennungsmodell, das zwischen die Mittelpunkte der einzelnen Blütenblätter, die Stiele, und so weiter.

k-Fold-Kreuzvalidierung

Ein Algorithmus zur Vorhersage der Fähigkeit eines Modells, auf neue Daten verallgemeinern. Das k in k-fold steht für Anzahl gleicher Gruppen, in die Sie die Beispiele eines Datasets aufteilen; Das heißt, Sie trainieren und testen Sie Ihr Modell k-mal. Für jede Trainings- und Testrunde wird ein eine andere Gruppe ist das Test-Dataset und alle anderen Gruppen bilden die Trainings- festgelegt. Nach k Trainings- und Testdurchläufen berechnen Sie den Mittelwert und Standardabweichung der ausgewählten Testmesswerte.

Angenommen, Ihr Dataset besteht aus 120 Beispielen. Nehmen wir weiter an, setzen Sie k auf 4. Nachdem Sie die Beispiele in zufälliger Reihenfolge angeordnet haben, teilen Sie das Dataset in vier gleiche Gruppen mit 30 Beispielen auf Trainings- und Testrunden:

Ein Dataset, das in vier gleiche Gruppen von Beispielen unterteilt ist. In Runde 1
          Die ersten drei Gruppen werden für das Training verwendet,
          wird zum Testen verwendet. In Runde 2 haben die ersten beiden Gruppen
          Gruppe für das Training, die dritte Gruppe für
          Tests durchführen. In Runde 3 sind die erste und die letzten beiden Gruppen
          die für das Training und die zweite Gruppe
für Tests genutzt wird.
          In Runde 4 wird die erste Gruppe für Tests verwendet, während die letzte Gruppe
          drei Gruppen für das Training verwendet.

So könnte z. B. Mean Squared Error (MSE) dargestellt werden. der aussagekräftigste Messwert für ein lineares Regressionsmodell sein. Dementsprechend haben Sie den Mittelwert und die Standardabweichung der MSE für alle vier Runden ermitteln.

k-Means

#clustering

Ein beliebter Clustering-Algorithmus zum Gruppieren von Beispielen unüberwachtes Lernen. Der k-Means-Algorithmus führt im Wesentlichen folgende Schritte aus:

  • Bestimmt die besten k-Mittelpunkte iterativ (bekannte als Schwerpunkte).
  • Weist jedes Beispiel dem nächstgelegenen Schwerpunkt zu. Die am nächsten Schwerpunkt auf demselben Schwerpunkt gehört zur selben Gruppe.

Der k-Means-Algorithmus wählt den Schwerpunkt aus, um die Quadrat der Entfernungen von jedem Beispiel bis zum nächstgelegenen Schwerpunkt.

Betrachten Sie zum Beispiel das folgende Diagramm der Hundehöhe zur Hundebreite:

Ein kartesisches Diagramm mit mehreren Dutzend Datenpunkten.

Bei k=3 bestimmt der k-Means-Algorithmus drei Schwerpunkte. Jedes Beispiel wird dem nächstgelegenen Schwerpunkt zugeordnet, wodurch drei Gruppen entstehen:

Das gleiche kartesische Diagramm wie in der vorherigen Abbildung, mit Ausnahme von
          mit drei hinzugefügten Schwerpunkten.
          Die vorherigen Datenpunkte sind
in drei verschiedenen Gruppen zusammengefasst:
          wobei jede Gruppe die Datenpunkte darstellt, die einem bestimmten
          Schwerpunkt liegt.

Stellen Sie sich vor, ein Hersteller möchte die idealen Größen für kleine, mittelgroße und große Pullover für Hunde. Die drei Schwerpunkte geben den Mittelwert an. die Höhe und die mittlere Breite der einzelnen Hunde in diesem Cluster. Der Hersteller die Pullovergrößen wahrscheinlich auf diesen drei Schwerpunkten basieren. Beachten Sie, dass Der Schwerpunkt eines Clusters ist normalerweise kein Beispiel im Cluster.

Die obigen Abbildungen zeigen k-Means nur für Beispiele mit zwei Merkmale (Höhe und Breite). Mit k-Means können Beispiele gruppiert werden, für viele Funktionen.

k-Medianwert

#clustering

Clustering-Algorithmus, der eng mit k-Means verwandt ist. Die Der praktische Unterschied zwischen den beiden ist folgender:

  • In k-Means werden Schwerpunkte durch Minimieren der Summe der Quadrate der Entfernung zwischen einem Schwerpunktkandidaten und jedem der ihre Beispiele.
  • Im k-Median werden Schwerpunkte durch Minimieren der Summe der Abstand zwischen einem Schwerpunktkandidaten und jedem seiner Beispiele.

Beachten Sie, dass sich auch die Definitionen von Entfernung unterscheiden:

  • k-Means basiert auf dem euklidischer Abstand von Schwerpunkt auf ein Beispiel. (In zwei Dimensionen ist die euklidische Entfernung bedeutet, dass der Satz des Pythagoras zur Berechnung verwendet wird der Hypotenuse.) Zum Beispiel ist die k-Means-Distanz zwischen (2, 2) und (5,-2) wäre:
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • Der k-Medianwert basiert auf der Entfernung von Manhattan. vom Schwerpunkt auf ein Beispiel. Diese Entfernung ist die Summe der absolute Deltas in jeder Dimension. Der k-Medianwert beispielsweise zwischen (2,2) und (5,-2) wäre:
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

L

L0-Regularisierung

#fundamentals

Eine Art der Regularisierung, die bestraft die Gesamtzahl der Gewichtungen ungleich null in einem Modell an. Beispiel: Ein Modell mit 11 Gewichtungen ungleich null stärker benachteiligt werden als ein ähnliches Modell mit 10 Gewichtungen ungleich null.

Die L0-Regularisierung wird manchmal als L0-Norm-Regularisierung bezeichnet.

L1-Verlust

#fundamentals

Eine Verlustfunktion, die den absoluten Wert berechnet der Differenz zwischen den tatsächlichen label-Werten und Werte, die ein Modell vorhersagt. Hier ist zum Beispiel die Berechnung des L1-Verlusts für einen Batch von 5 Beispiele:

Tatsächlicher Wert des Beispiels Vorhergesagter Wert des Modells Absolutwert von Delta
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = L1-Verlust

Der L1-Verlust ist weniger empfindlich auf Ausreißer. als bei L2-Verlust.

Der mittlere absolute Fehler ist der Durchschnitt L1-Verlust pro Beispiel.

L1-Regularisierung

#fundamentals

Eine Art der Regularisierung, die bestraft, Gewichtungen proportional zur Summe des absoluten Werts von die Gewichte. Die L1-Regularisierung hilft, die Gewichtung irrelevanter oder kaum relevante Funktionen auf genau 0. Eine Funktion mit wird eine Gewichtung von 0 effektiv aus dem Modell entfernt.

Kontrast zur L2-Regularisierung.

L2-Verlust

#fundamentals

Eine Verlustfunktion, die das Quadrat berechnet der Differenz zwischen den tatsächlichen label-Werten und Werte, die ein Modell vorhersagt. Hier ist zum Beispiel die Berechnung des L2-Verlusts für einen Batch von 5 Beispiele:

Tatsächlicher Wert des Beispiels Vorhergesagter Wert des Modells Quadrat des Deltas
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = L2-Verlust

Aufgrund der Quadrate verstärkt der L2-Verlust den Einfluss von Ausreißer: Das heißt, der L2-Verlust reagiert stärker auf schlechte Vorhersagen als L1-Verlust: Zum Beispiel der L1-Verlust für den vorherigen Batch wäre 8 statt 16. Beachten Sie, dass ein einzelner 9 von 16 aus.

Regressionsmodelle nutzen in der Regel den L2-Verlust als Verlustfunktion.

Der mittlere quadratische Fehler ist der durchschnittliche L2-Verlust pro Beispiel. Quadratischer Verlust ist eine andere Bezeichnung für L2-Verlust.

L2-Regularisierung

#fundamentals

Eine Art der Regularisierung, die bestraft, Gewichtungen im Verhältnis zur Summe der Quadrate der Gewichtungen Die L2-Regularisierung trägt dazu bei, die Gewichtung von Ausreißer zu erhöhen (diejenigen mit hohen positiven oder niedrigen negativen Werten), die näher bei 0, aber nicht ganz bei 0 liegen. Features mit Werten, die sehr nahe bei 0 liegen, verbleiben im Modell aber keinen großen Einfluss auf die Vorhersage des Modells.

Die L2-Regularisierung verbessert immer die Generalisierung in linearen Modellen:

Kontrast zur L1-Regularisierung.

Label

#fundamentals

Beim überwachten maschinellen Lernen „antworten“ oder „Ergebnis“ aus einem Beispiel.

Jedes Beispiel mit einem Label besteht aus einem oder mehreren features und ein Label. Zum Beispiel in einer Spam- erkannt wurde, wäre das Label wahrscheinlich „Spam“ oder „Kein Spam“. In einem Niederschlags-Dataset könnte das Label die Menge der Regen, der während eines bestimmten Zeitraums fiel.

Beispiel mit Label

#fundamentals

Ein Beispiel, das eine oder mehrere Features und einen label Die folgende Tabelle zeigt beispielsweise drei beschriftete Beispiele aus einem Hausbewertungsmodell mit jeweils drei Merkmalen und ein Label:

Anzahl der Schlafzimmer Anzahl der Badezimmer Haushalt Hauspreis (Label)
3 2 15 345.000 $
2 1 72 179.000 $
4 2 34 392.000 $

Beim überwachten maschinellen Lernen Modelle werden anhand von Beispielen mit Labels trainiert und treffen Vorhersagen Beispiele ohne Label.

Beispiel mit Labels gegenüber Beispielen ohne Label gegenüberstellen.

Labelleck

Ein Modelldesignfehler, bei dem ein Feature ein Stellvertreter für das Objekt ist label Stellen Sie sich zum Beispiel eine binäres Klassifizierungsmodell, ob ein potenzieller Kunde ein bestimmtes Produkt kaufen wird. Angenommen, eines der Merkmale für das Modell ist ein boolescher SpokeToCustomerAgent Nehmen wir weiter an, dass ein Kundenservicemitarbeiter zugewiesen werden, nachdem der potenzielle Kunde das Produkt Produkt. Während des Trainings lernt das Modell schnell die Verknüpfung zwischen SpokeToCustomerAgent und dem Label.

Lambda

#fundamentals

Synonym für Regularisierungsrate.

Lambda ist ein Begriff mit Überlastung. Hier konzentrieren wir uns auf die -Definition innerhalb der Regularisierung.

LaMDA (Language Model for Dialogue Applications)

#language

Einen Transformer-basierten Large Language Model von Google, trainiert mit ein großes Dialog-Dataset zur Generierung realistischer dialogorientierter Antworten.

LaMDA: Unsere bahnbrechende Unterhaltung Technologie bietet einen Überblick.

landmarks

#image

Synonym für keypoints.

Language Model

#language

Ein Modell, das die Wahrscheinlichkeit eines Tokens schätzt. oder Abfolge von Tokens, die in einer längeren Tokensequenz auftreten.

Large Language Model

#language

Mindestens ein Sprachmodell mit einer sehr hohen Anzahl mit Parametern. Informeller sind die Transformer-basiertes Sprachmodell wie Gemini oder GPT

latenter Bereich

#language

Synonym für embeddingspace.

Layer

#fundamentals

Eine Reihe von Neuronen in einer neuronales Netzwerk. Drei gängige Ebenentypen sind:

Die folgende Abbildung zeigt beispielsweise ein neuronales Netzwerk mit eine Eingabeschicht, zwei versteckte Schichten und eine Ausgabeschicht:

Ein neuronales Netzwerk mit einer Eingabeschicht, zwei verborgenen Schichten und einer
          Ausgabeebene. Die Eingabeebene besteht aus zwei Merkmalen. Die erste
          Die versteckte Schicht besteht aus drei Neuronen und der zweiten versteckten Schicht
          besteht aus zwei Neuronen. Die Ausgabeebene besteht aus einem einzelnen Knoten.

In TensorFlow sind Layers auch Python-Funktionen, die Tensoren und Konfigurationsoptionen als Eingabe- und andere Tensoren als Ausgabe erzeugen.

Layers API (tf.layers)

#TensorFlow

Eine TensorFlow API zum Erstellen eines neuronalen Deep-Netzwerks als Zusammensetzung von Ebenen. Mit der Layers API können Sie verschiedene Arten von Ebenen, zum Beispiel:

Die Layers API folgt den API-Konventionen für Ebenen von Keras. Das heißt, abgesehen von einem anderen Präfix können alle Funktionen der Layers API haben dieselben Namen und Signaturen wie ihre Kollegen in der Keras Layers API.

Blatt

#df

Jeder Endpunkt in einem Entscheidungsbaum. Gefällt mir nicht condition ist, führt ein Blatt keinen Test durch. Vielmehr ist ein Blatt eine mögliche Vorhersage. Ein Blatt ist auch das Terminal. Knoten eines Inferenzpfads.

Der folgende Entscheidungsbaum enthält beispielsweise drei Blätter:

Ein Entscheidungsbaum mit zwei Bedingungen, die zu drei Blättern führen.

Learning Interpretability Tool (LIT)

Ein visuelles, interaktives Modellverständnis- und Datenvisualisierungstool.

Mithilfe der Open-Source-Version LIT können Sie Modelle interpretieren oder Texte, Bilder und Tabellarische Daten.

Lernrate

#fundamentals

Eine Gleitkommazahl, die das Gradientenverfahren angibt Algorithmus, wie stark die Gewichtungen und Verzerrungen bei jedem Iteration. Eine Lernrate von 0, 3 würde beispielsweise Gewichtungen und Verzerrungen dreimal so wirksamer anpassen als eine Lernrate, von 0,1.

Die Lernrate ist ein wichtiger Hyperparameter. Wenn Sie die Lernrate zu niedrig ist, dauert das Training zu lange. Wenn ist die Lernrate zu hoch, hat das Gradientenverfahren oft Probleme, Konvergenz erreichen.

Regression der kleinsten Quadrate

Lineares Regressionsmodell, das durch Minimieren L2-Verlust:

Linear

#fundamentals

Beziehung zwischen zwei oder mehr Variablen, die ausschließlich dargestellt werden kann durch Addition und Multiplikation.

Das Diagramm einer linearen Beziehung ist eine Linie.

Kontrast mit nonlinear

lineares Modell

#fundamentals

Ein Modell, bei dem pro Gewichtung jeweils ein Wert zugewiesen wird Funktion verwenden, um Vorhersagen zu treffen. Lineare Modelle enthalten auch eine Verzerrung. Im Gegensatz dazu die Beziehung von Merkmalen zu Vorhersagen in tiefen Modellen ist im Allgemeinen nonlinear.

Lineare Modelle sind in der Regel einfacher zu trainieren interpretierbar als tiefgehende Modelle. Sie können jedoch tiefgehende Modelle können komplexe Beziehungen zwischen Merkmalen lernen.

Lineare Regression und logistische Regressionen sind zwei Arten von linearen Modellen.

lineare Regression

#fundamentals

Modell für maschinelles Lernen, bei dem die beiden folgenden Bedingungen zutreffen:

  • Das Modell ist ein lineares Modell.
  • Die Vorhersage ist ein Gleitkommawert. (Dies ist die Regression der linearen Regression)

Lineare Regression mit logistischer Regression gegenüberstellen Vergleichen Sie die Regression außerdem der Klassifizierung.

LIT

Abkürzung für das Learning Interpretability Tool (LIT) das vorher als Language Interpretability Tool bezeichnet wurde.

LLM

#language
#generativeAI

Abkürzung für Large Language Model.

LLM-Bewertungen (Auswertungen)

#language
#generativeAI

Eine Reihe von Messwerten und Benchmarks zur Bewertung der Leistung Large Language Models (LLMs). Grundsätzlich LLM-Bewertungen:

  • Forschende dabei unterstützen, Bereiche zu identifizieren, in denen LLMs verbessert werden müssen.
  • sind nützlich, um verschiedene LLMs zu vergleichen und das beste LLM für ein für eine bestimmte Aufgabe.
  • Sorgen Sie dafür, dass LLMs sicher und ethisch einwandfrei sind.

logistische Regression

#fundamentals

Eine Art von Regressionsmodell, das eine Wahrscheinlichkeit vorhersagt. Logistische Regressionsmodelle haben die folgenden Eigenschaften:

  • Das Label ist kategorial. Der Begriff „logistisch“ Regression bezieht sich in der Regel auf eine binär logistische Regression, d. h. zu einem Modell hinzu, das Wahrscheinlichkeiten für Labels mit zwei möglichen Werten berechnet. Eine weniger gebräuchliche Variante, die multinomiale logistische Regression, berechnet Wahrscheinlichkeiten für Labels mit mehr als zwei möglichen Werten.
  • Die Verlustfunktion während des Trainings ist Logverlust. (Für Labels können mehrere Logverlusteinheiten parallel platziert werden. mit mehr als zwei möglichen Werten.)
  • Das Modell hat eine lineare Architektur, kein neuronales Deep-Learning-Netzwerk. Der Rest dieser Definition gilt jedoch auch für tiefe Modelle, die Wahrscheinlichkeiten vorhersagen für kategoriale Labels.

Nehmen wir zum Beispiel ein logistisches Regressionsmodell, das die Wahrscheinlichkeit, dass eine eingegebene E-Mail Spam ist. Angenommen, das Modell sagt bei der Inferenz 0,72 vorher. Dementsprechend wird der schätzt Folgendes:

  • Eine Wahrscheinlichkeit von 72 %, dass es sich bei der E-Mail um Spam handelt.
  • Eine Wahrscheinlichkeit von 28 %, dass es sich bei der E-Mail nicht um Spam handelt.

Ein logistisches Regressionsmodell verwendet die folgende zweistufige Architektur:

  1. Das Modell generiert eine Rohvorhersage (y') durch Anwendung einer linearen Funktion. von Eingabefeatures.
  2. Das Modell nutzt diese Rohvorhersage dann als Eingabe für Sigmoidfunktion, die die Rohdaten umwandelt auf einen Wert zwischen 0 und 1 (ausschließlich) setzen.

Wie jedes Regressionsmodell sagt auch ein logistisches Regressionsmodell eine Zahl vorher. Diese Zahl wird jedoch normalerweise Teil einer binären Klassifizierung. wie folgt aussehen:

  • Wenn die vorhergesagte Zahl größer ist als die Klassifizierungsschwellenwert, der das binäre Klassifikationsmodell die positive Klasse vorhersagt.
  • Wenn die vorhergesagte Zahl kleiner als der Klassifizierungsschwellenwert ist, sagt das binäre Klassifizierungsmodell die negative Klasse vorher.

Logits

Der Vektor von Rohvorhersagen (nicht normalisiert), die eine Klassifizierung das normalerweise dann an eine Normalisierungsfunktion übergeben wird. Wenn das Modell eine Klassifizierung mit mehreren Klassen löst werden Logits üblicherweise als Eingabe für softmax-Funktion. Die Softmax-Funktion generiert dann einen Vektor von (normalisiert) Wahrscheinlichkeiten mit einem Wert für jede mögliche Klasse.

Logverlust

#fundamentals

Die im Binärprogramm verwendete Verlustfunktion logistische Regression:

Logwahrscheinlichkeiten

#fundamentals

Logarithmus der Wahrscheinlichkeit eines Ereignisses

Langzeitspeicher (LSTM)

#seq

Zelltyp in einem recurrent Neural Network, das zur Verarbeitung in Anwendungen wie Handschrifterkennung, maschinelle Übersetzung und Bilduntertitelung. LSTMs adressieren Farbverlaufsproblems, RNNs aufgrund langer Datensequenzen trainieren, indem sie Verlauf in einem Status des internen Speichers basierend auf neuer Eingabe und neuem Kontext aus vorherigen Zellen in RNN.

LoRA

#language
#generativeAI

Abkürzung für Anpassungsfähigkeit bei niedrigem Rang.

Niederlage

#fundamentals

Während des Trainings eines Modell mit Elternaufsicht ein, mit dem gemessen wird, wie weit Die Vorhersage des Modells stammt von seinem Label.

Eine Verlustfunktion berechnet den Verlust.

Verlust-Aggregator

Eine Art von Algorithmus für maschinelles Lernen, verbessert die Leistung eines Modells indem die Vorhersagen mehrerer Modelle kombiniert und mithilfe dieser Vorhersagen eine einzige Vorhersage treffen zu können. Daher Verlust Aggregatoren kann die Varianz der Vorhersagen reduzieren und um die Genauigkeit der Vorhersagen zu verbessern.

Verlustkurve

#fundamentals

Ein Diagramm des Verlusts in Abhängigkeit von der Anzahl der Trainings Iterationen. Das folgende Diagramm zeigt einen typischen Verlust Kurve:

Ein kartesisches Diagramm von Verlusten im Vergleich zu Trainingsdurchläufen, das eine
          rascher Rückgang des Verlusts bei den ersten Iterationen, gefolgt von
          und in den letzten Iterationen eine flache Steigung.

Verlustkurven helfen Ihnen zu bestimmen, wann Ihr Modell Konvergenz oder Überanpassung.

Verlustkurven können alle der folgenden Verlusttypen darstellen:

Siehe auch Generalisierungskurve.

Verlustfunktion

#fundamentals

Während eines Trainings oder Tests wird eine mathematische Funktion zur Berechnung der in einer Reihe von Beispielen. Eine Verlustfunktion gibt einen geringeren Verlust zurück. für Modelle, die gute Vorhersagen treffen, als für Modelle, die schlechte Vorhersagen machen.

Das Ziel des Trainings besteht in der Regel darin, den Verlust zu minimieren, Rücksendungen.

Es gibt viele verschiedene Arten von Verlustfunktionen. Den richtigen Verlust auswählen für die Art des Modells, das Sie erstellen. Beispiel:

Verlustoberfläche

Ein Diagramm mit Gewichtung(en) im Vergleich zu Verlust. Ziele des Gradientenabstiegs um das Gewicht bzw. die Gewichte zu ermitteln, für die die Verlustfläche bei einem lokalen Minimum liegt.

Anpassungsfähigkeit auf niedrigem Rang (LoRA)

#language
#generativeAI

Ein Algorithmus zur Durchführung Parameterbasierte Feinabstimmung, Es wird nur eine Teilmenge einer bestimmten Feinabstimmung Large Language model-Parameter. LoRA bietet die folgenden Vorteile:

  • Feinabstimmungen schneller als Techniken, die eine Feinabstimmung aller Parameter.
  • Reduziert die Rechenkosten von Inferenzen in der und ein abgestimmtes Modell.

Ein auf LoRA abgestimmtes Modell erhält oder verbessert die Qualität seiner Vorhersagen.

LoRA ermöglicht mehrere spezialisierte Versionen eines Modells.

LSTM

#seq

Abkürzung für Long Short-Term Memory.

M

Machine Learning

#fundamentals

Ein Programm oder System zum Trainieren eines model aus Eingabedaten. Das trainierte Modell kann Nutzen Sie neue (noch nie gesehene) Daten aus Ihren Daten, die zum Trainieren des Modells verwendet wurde.

Maschinelles Lernen bezieht sich auch auf ein Studienfach, mit diesen Programmen oder Systemen.

Mehrheitsklasse

#fundamentals

Die gebräuchlichere Bezeichnung in einer Klassen-unausgeglichenes Dataset. Beispiel: Bei einem Dataset mit 99% negativen und 1% positiven Labels sind negative Labels die Mehrheitsklasse.

Im Kontrast zur Minderheitsklasse stehen.

Markov-Entscheidungsprozess (MDP)

#rl

Grafik, die das Entscheidungsmodell darstellt, in dem Entscheidungen (oder Aktionen) durchgeführt werden, um durch eine Reihe von besagt, dass das Markov-Property-Holds. In bestärkendes Lernen, diese Übergänge zwischen Status wird eine numerische Prämie zurückgegeben.

Markov-Eigenschaft

#rl

Eine Eigenschaft bestimmter Umgebungen, in denen der Bundesstaat werden ausschließlich durch Informationen bestimmt, Aktueller Status und die Aktion des Agents.

maskiertes Sprachmodell

#language

Ein Sprachmodell, das die Wahrscheinlichkeit von Kandidatentokens zum Ausfüllen von Lücken in einer Sequenz. Beispiel: Maskiertes Language Model kann Wahrscheinlichkeiten für Kandidatenwort(e) berechnen. um die Unterstreichung im folgenden Satz zu ersetzen:

Der ____ im Hut kam zurück.

In der Literatur wird normalerweise die Zeichenfolge "MASK" verwendet. statt unterstrichen sind. Beispiel:

Die „MASK“ kam zurück.

Die meisten modernen maskierten Sprachmodelle sind bidirektional.

matplotlib

Eine Open-Source-Python-2D-Plot-Bibliothek. matplotlib erleichtert Ihnen die Visualisierung. verschiedene Aspekte des maschinellen Lernens.

Matrixfaktorisierung

#recsystems

In der Mathematik: ein Mechanismus zum Ermitteln der Matrizen, deren Punktprodukt einem Zielmatrix.

In Empfehlungssystemen: Die Zielmatrix enthält häufig die Bewertungen zu Artikeln. Zum Beispiel könnte das Ziel für ein Filmempfehlungssystem, könnte die Matrix in etwa wie die , wobei die positiven Ganzzahlen die Nutzerbewertungen und 0 bedeutet, dass der Nutzer den Film nicht bewertet hat:

  Casablanca Die Philadelphia Story Black Panther Wonder Woman Pulp Fiction
Nutzer 1 5 3 0,0 2 0,0
Nutzer 2 4.0 0,0 0,0 1.0 5
Nutzer 3 3 1.0 4.0 5,0 0,0

Das Filmempfehlungssystem soll Nutzerbewertungen für Filme ohne Altersfreigabe. Beispiel: Mag Nutzer 1 Black Panther?

Ein Ansatz für Empfehlungssysteme ist die Verwendung der Matrix Faktorisierung zur Generierung der folgenden beiden Matrizen verwendet:

  • Eine Nutzermatrix, die sich durch die Anzahl der Nutzer × die Anzahl der Einbettungsdimensionen.
  • Eine Elementmatrix in Form der Anzahl der Einbettungen Dimensionen x Anzahl der Elemente.

Wenn wir z. B. die Matrixfaktorisierung auf drei Nutzende und fünf Elemente anwenden, könnte die folgende Nutzer- und Artikelmatrix ergeben:

User Matrix                 Item Matrix

1.1   2.3           0.9   0.2   1.4    2.0   1.2
0.6   2.0           1.7   1.2   1.2   -0.1   2.1
2.5   0.5

Das Skalarprodukt der Nutzer- und Artikelmatrix liefert eine Empfehlung. Matrix, die nicht nur die ursprünglichen Nutzerbewertungen, sondern auch die Vorhersagen enthält die die einzelnen Nutzer noch nicht gesehen haben. Nehmen wir zum Beispiel die Bewertung von Nutzer 1 von Casablanca, also 5, 0. Der Punkt Produkt, das dieser Zelle in der Empfehlungsmatrix entspricht, hoffentlich etwa bei 5,0 liegen, und es ist:

(1.1 * 0.9) + (2.3 * 1.7) = 4.9

Und was noch wichtiger ist: Wird Nutzer 1 Black Panther mögen? Punktprodukt nehmen die der ersten Zeile entspricht und die dritte Spalte eine vorhergesagte Bewertung von 4,3:

(1.1 * 1.4) + (2.3 * 1.2) = 4.3

Die Matrixfaktorisierung liefert in der Regel eine Nutzer- und Elementmatrix, die zusammen, deutlich kompakter als die Zielmatrix.

Mittlerer absoluter Fehler (MAE)

Der durchschnittliche Verlust pro Beispiel, wenn der L1-Verlust = verwendet. Berechnen Sie den mittleren absoluten Fehler wie folgt:

  1. Berechnen Sie den L1-Verlust für einen Batch.
  2. Teilen Sie den L1-Verlust durch die Anzahl der Beispiele im Batch.

Nehmen wir als Beispiel die Berechnung des L1-Verlusts für die folgenden Batch von fünf Beispielen:

Tatsächlicher Wert des Beispiels Vorhergesagter Wert des Modells Verlust (Differenz zwischen tatsächlichem und vorhergesagtem)
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = L1-Verlust

Der L1-Verlust ist also 8 und die Anzahl der Beispiele ist 5. Daher lautet der mittlere absolute Fehler:

Mean Absolute Error = L1 loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

„Contrast Mean Absolute Error“ mit Mean Squared Error und Wurzel der mittleren quadratischen Abweichung:

Mittlerer quadratischer Fehler (MSE)

Der durchschnittliche Verlust pro Beispiel, wenn der L2-Verlust verwendet. Den mittleren quadratischen Fehler berechnen:

  1. Berechnen Sie den L2-Verlust für einen Batch.
  2. Teilen Sie den L2-Verlust durch die Anzahl der Beispiele im Batch.

Betrachten wir zum Beispiel den Verlust bei dem folgenden Batch mit fünf Beispielen:

Tatsächlicher Wert Vorhersage des Modells Verlust Quadratischer Verlust
7 6 1 1
5 4 1 1
8 11 3 9
4 6 2 4
9 8 1 1
16 = L2-Verlust

Dementsprechend ist der mittlere quadratische Fehler:

Mean Squared Error = L2 loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

Der mittlere quadratische Fehler ist ein beliebtes Trainingsoptimierungstool. insbesondere bei der linearen Regression.

Kontrast mittlerer quadratischer Fehler mit Mean Absolute Error und Wurzel der mittleren quadratischen Abweichung:

TensorFlow Playground verwendet den mittleren quadratischen Fehler um Verlustwerte zu berechnen.

Mesh-Netzwerk

#TensorFlow
#GoogleCloud

Bei der parallelen Programmierung von ML bezieht sich der Begriff Modell zu TPU-Chips und legt fest, wie diese Werte fragmentiert oder repliziert werden.

„Mesh“ ist ein Begriff mit Überlastung, der Folgendes bedeuten kann:

  • Physisches Layout von TPU-Chips
  • Ein abstraktes logisches Konstrukt zum Zuordnen der Daten und des Modells zur TPU Chips.

In beiden Fällen wird ein Mesh-Netzwerk als Form angegeben.

Meta-Learning

#language

Teilmenge des maschinellen Lernens, die einen Lernalgorithmus erkennt oder verbessert. Ein Meta-Lernsystem kann ein Modell auch so trainieren, dass es schnell etwas Neues lernt. einer Aufgabe anhand einer kleinen Datenmenge oder anhand von Erfahrungen aus vorherigen Aufgaben. Meta-Lernalgorithmen zielen in der Regel auf Folgendes ab:

  • Von Hand entwickelte Funktionen (wie Initialisierer oder Optimierer).
  • Daten- und recheneffizienter arbeiten
  • Generalisierung verbessern

Meta-Lernen bezieht sich auf wenige Schritte.

Messwert

#TensorFlow

Eine Statistik, die für Sie von Interesse ist.

Ein Ziel ist ein Messwert, zu optimieren.

Metrics API (tf.metrics)

Eine TensorFlow API zum Bewerten von Modellen. Beispiel: tf.metrics.accuracy bestimmt, wie oft die Vorhersagen eines Modells mit Labels übereinstimmen.

Mini-Batch

#fundamentals

Eine kleine, zufällig ausgewählte Teilmenge eines in einem verarbeiteten Batch Iteration. Die Batchgröße eines Minibatches beträgt in der Regel 10 bis 1.000 Beispiele.

Angenommen, das gesamte Trainings-Dataset (der vollständige Batch) aus 1.000 Beispielen besteht. Angenommen, Sie legen den Parameter Batchgröße jedes Mini-Batches auf 20 festlegen. Daher entspricht jede Iterationen den Verlust bei 20 zufälligen 1.000 Beispielen die Gewichtungen und Verzerrungen entsprechend angepasst.

Es ist viel effizienter, den Verlust bei einem Mini-Batch zu berechnen als bei einem bei allen Beispielen im vollständigen Batch.

stochastischer Mini-Batch-Gradientenabstieg

Einen Gradientenabstiegsalgorithmus, der Mini-Batches. Mit anderen Worten: Stochastische Mini-Batches beim Gradientenverfahren wird der Farbverlauf auf Basis einer kleinen Teilmenge davon geschätzt, Trainingsdaten. Beim regulären stochastischen Gradientenabstieg wird ein Mini-Batch der Größe 1.

Minimax-Verlust

Eine Verlustfunktion für generative adversarial Networks basierend auf der Kreuzentropie zwischen der Verteilung von generierten und echten Daten.

Der Minimale Verlust wird in den ersten Artikel, um zu beschreiben, generativen kontradiktorischen Netzwerken.

Minderheitenklasse

#fundamentals

Das seltener verwendete Label in einer Klassen-unausgeglichenes Dataset. Beispiel: Bei einem Dataset mit 99% negativen und 1% positiven Labels sind positive Labels die Minderheitenklasse.

Im Kontrast zur Hauptklasse stehen.

Mischung aus Experten

#language
#generativeAI

Pläne zur Steigerung der Effizienz neuronaler Netzwerke um Sie verwenden nur eine Teilmenge der Parameter, sogenannte Experten, ein bestimmtes Eingabetoken oder Beispiel A gating network leitet jedes Eingabetoken oder Beispiel an die entsprechenden Experten weiter.

Ausführliche Informationen hierzu finden Sie in den folgenden Artikeln:

ML

Abkürzung für Machine Learning.

MMIT

#language
#image
#generativeAI

Abkürzung für multimodale Anweisung optimiert.

MNIST

#image

Ein von LeCun, Cortes und Burges kompiliertes öffentlich zugängliches Dataset, das 60.000 Bilder,wobei jedes Bild zeigt, wie ein Mensch manuell ein bestimmtes Ziffern von 0 bis 9 eingeben. Jedes Bild wird als 28x28-Array aus Ganzzahlen gespeichert, wobei Jede Ganzzahl ist ein Graustufenwert zwischen 0 und 255 (einschließlich).

MNIST ist ein kanonisches Dataset für maschinelles Lernen, das häufig zum Testen neuer des maschinellen Lernens. Weitere Informationen finden Sie unter <ph type="x-smartling-placeholder"></ph> MNIST-Datenbank für handschriftliche Ziffern

Modalität

#language

Eine allgemeine Datenkategorie. Zum Beispiel Zahlen, Text, Bilder, Videos und Audio fünf verschiedene Modalitäten.

Modell

#fundamentals

Im Allgemeinen gilt: Jedes mathematische Konstrukt, das Eingabedaten verarbeitet und Ergebnisse zurückgibt . Anders ausgedrückt: Ein Modell ist ein Satz von Parametern und Struktur damit ein System Vorhersagen treffen kann. Beim überwachten maschinellen Lernen ein Modell verwendet ein Beispiel als Eingabe Vorhersage als Ausgabe. Beim überwachten maschinellen Lernen Modelle etwas unterscheiden. Beispiel:

  • Ein lineares Regressionsmodell besteht aus einer Reihe von Gewichtungen. und Voreingenommenheit.
  • Ein neuronales Netzwerkmodell besteht aus: <ph type="x-smartling-placeholder">
      </ph>
    • Eine Reihe ausgeblendeter Ebenen, die jeweils eine oder mehrere Ebenen enthalten. weitere Neuronen.
    • Die mit jedem Neuron verbundenen Gewichtungen und Verzerrungen.
  • Ein Entscheidungsbaummodell besteht aus: <ph type="x-smartling-placeholder">
      </ph>
    • Die Form des Baums also das Muster, in dem die Bedingungen und Blätter sind verbunden.
    • Die Bedingungen und Blätter.

Sie können ein Modell speichern, wiederherstellen oder Kopien davon erstellen.

auch unüberwachtes maschinelles Lernen generiert Modelle, in der Regel eine Funktion, die ein Eingabebeispiel einer den am besten geeigneten Cluster aus.

Modellkapazität

Komplexität der Probleme, die ein Modell erkennen kann. Je komplexer die die ein Modell erlernen kann, desto höher ist seine Kapazität. Die steigt die Kapazität in der Regel mit der Anzahl der Modellparameter. Für eine die formale Definition der Klassifiziererkapazität, siehe Dimension „Video-Conversion“:

Modellkaskadierung

#generativeAI

Ein System, das das ideale Modell für eine bestimmte Inferenz auswählt Abfrage.

Stellen Sie sich eine Gruppe von Modellen vor, die von sehr großen (viele parameters) erheblich kleiner (weit weniger Parameter). Sehr große Modelle verbrauchen mehr Rechenressourcen, Inferenz-Zeit als kleinere Modelle. Sehr große Modelle können in der Regel komplexere Anfragen ableiten als kleinere Modelle. Die Modellkaskadierung bestimmt die Komplexität der Inferenzabfrage wählt das geeignete Modell für die Inferenz aus. Die Hauptmotivation für Modellkaskaden besteht darin, die Inferenzkosten um im Allgemeinen kleinere Modelle und nur ein größeres Modell, und komplexe Abfragen erstellen.

Stellen Sie sich vor, dass ein kleines Modell auf einem Smartphone ausgeführt wird und eine größere Version dieses Modells. auf einem Remote-Server ausgeführt wird. Eine gute Modellkaskadierung reduziert Kosten und Latenz, So kann das kleinere Modell einfache Anfragen verarbeiten und nur die Funktion um komplexe Anfragen zu verarbeiten.

Siehe auch Routermodell.

Modellparallelität

#language

Eine Methode zur Skalierung von Training oder Inferenz, bei der verschiedene Teile eines Modell auf verschiedenen Geräten verwenden. Modellparallelität ermöglicht Modelle, die zu groß für ein einziges Gerät sind.

Zur Implementierung der Modellparallelität führt ein System in der Regel folgende Schritte aus:

  1. Teilt das Modell in kleinere Teile auf.
  2. Verteilt das Training dieser kleineren Teile auf mehrere Prozessoren. Jeder Prozessor trainiert seinen eigenen Teil des Modells.
  3. Kombiniert die Ergebnisse, um ein einzelnes Modell zu erstellen.

Die Modellparallelität verlangsamt das Training.

Siehe auch Datenparallelität.

Modellrouter

#generativeAI

Der Algorithmus, der das ideale Modell für Inferenz bei Modellkaskadierung. Ein Modellrouter ist in der Regel ein ML-Modell, lernt schrittweise, das beste Modell für eine bestimmte Eingabe auszuwählen. Ein Modellrouter kann jedoch manchmal ein einfacheres, nicht auf maschinellem Lernen basieren.

Modelltraining

Prozess zur Bestimmung des besten Modells.

Erfolge

Ein ausgefeilter Algorithmus für den Gradientenabstieg, bei dem ein Lernschritt davon abhängt, nicht nur auf die Ableitung im aktuellen Schritt, sondern auch auf die Ableitungen der unmittelbar vorhergehenden Schritte. Dynamik umfasst die Berechnung einer exponentiell gewichtetem gleitenden Durchschnitt der Gradienten im Zeitverlauf, analog auf den Impuls in der Physik. Dynamik hindert manchmal daran, in der lokalen Minima fest.

MOE

#language
#image
#generativeAI

Abkürzung für Kombination aus Experten.

Klassifizierung mit mehreren Klassen

#fundamentals

Beim überwachten Lernen ist ein Klassifizierungsproblem bei denen das Dataset mehr als zwei Klassen von Labels enthält. Die Labels im Iris-Dataset müssen beispielsweise eines der folgenden sein: drei Klassen:

  • Iris Setosa
  • Iris virginica
  • Iris Vericolor

Ein mit dem Iris-Dataset trainiertes Modell, das den Iris-Typ für neue Beispiele vorhersagt eine Klassifizierung mit mehreren Klassen durchführt.

Im Gegensatz dazu gibt es Klassifizierungsprobleme, Klassen sind binäre Klassifizierungsmodelle. Beispiel: ein E-Mail-Modell, das entweder Spam oder kein Spam vorhersagt ist ein binäres Klassifizierungsmodell.

Bei Clustering-Problemen bezieht sich die mehrklassige Klassifizierung auf mehr als zwei Cluster.

logistische Regression mit mehreren Klassen

Verwendung der logistischen Regression in Klassifizierungsprobleme mit mehreren Klassen.

mehrköpfige Selbstaufmerksamkeit

#language

Eine Erweiterung der Selbstaufmerksamkeit, bei der die für jede Position in der Eingabesequenz wiederholt.

Transformers führte die mehrköpfige Selbstaufmerksamkeit ein.

multimodales Modell

#language

Ein Modell, dessen Eingaben und/oder Ausgaben mehr als eins enthalten Modalität. Nehmen wir z. B. ein Modell, bei dem sowohl ein ein Bild und eine Bildunterschrift (zwei Modalitäten) als Funktionen und gibt eine Punktzahl aus, die angibt, wie angemessen die Textuntertitelung für das Bild ist. Die Eingaben dieses Modells sind multimodal und die Ausgabe unimodal.

multimodale Anweisungen optimiert

#language

Ein instruktionsgesteuertes Modell, das Eingaben verarbeiten kann neben Text, wie z. B. Bilder, Video und Audio.

multinomische Klassifizierung

Synonym für mehrklassige Klassifizierung.

multinomiale Regression

Synonym für logistische Regression mit mehreren Klassen.

Multitasking

Verfahren des maschinellen Lernens, bei dem ein einzelnes Modell mehrere Aufgaben ausführen können.

Multitasking-Modelle werden durch das Training mit Daten erstellt, die für für jede der verschiedenen Aufgaben. So kann das Modell lernen, Informationen über die Aufgaben hinweg, sodass das Modell effektiver lernen kann.

Ein für mehrere Aufgaben trainiertes Modell hat häufig verbesserte Generalisierungsfähigkeiten und kann bei der Verarbeitung verschiedener Datentypen robuster sein.

N

NaN-Trap

Wenn eine Zahl in Ihrem Modell zu einer NaN wird Das führt dazu, dass sich viele oder alle anderen Zahlen zu einer NaN werden.

NaN ist eine Abkürzung für Not a Namber.

Natural Language Understanding

#language

Ermittlung der Absichten eines Nutzers anhand dessen, was er eingegeben oder gesagt hat. Eine Suchmaschine nutzt Natural Language Understanding, um Er kann anhand dessen, was er eingegeben oder gesagt hat, ermitteln, wonach er sucht.

negative Klasse

#fundamentals

Bei der binären Klassifizierung ist eine Klasse als positiv und als negativ bezeichnet. Die positive Klasse ist die Sache oder das Ereignis, das bzw. das das Modell testet. Die negative Klasse ist die eine andere Möglichkeit haben. Beispiel:

  • Die negative Klasse bei einem medizinischen Test könnte „kein Tumor“ sein.
  • Die negative Klasse in einem E-Mail-Klassifikator ist möglicherweise „Kein Spam“.

Im Kontrast zur positiven Klasse stehen.

negative Stichprobenerhebung

Synonym für Stichprobenerhebung.

Neural Architecture Search (NAS)

Verfahren zum automatischen Entwerfen der Architektur eines neuronalen Netzwerks zu testen. NAS-Algorithmen können die Menge der zum Trainieren eines neuronalen Netzwerks erforderlichen Zeit- und Ressourcenaufwands.

NAS verwendet in der Regel:

  • Ein Suchbereich, d. h. eine Reihe möglicher Architekturen.
  • Eine Fitnessfunktion, mit der gemessen wird, wie gut eine bestimmte die Architektur bei einer bestimmten Aufgabe ausführt.

NAS-Algorithmen beginnen oft mit einer kleinen Anzahl möglicher Architekturen und den Suchbereich allmählich erweitern, während der Algorithmus lernt, Architekturen effektiv sind. Die Fitnessfunktion basiert in der Regel auf dem die Leistung der Architektur in einem Trainings-Dataset und der Algorithmus ist in der Regel mit einem bestärkendes Lernen verwenden.

NAS-Algorithmen haben sich bei der Suche nach Architekturen für eine Vielzahl von Aufgaben, einschließlich Klassifizierung, Textklassifizierung, und maschinelle Übersetzung.

neuronales Netzwerk

#fundamentals

Ein Modell, das mindestens eins enthält verborgene Ebene: Ein neuronales Deep-Learning-Netzwerk ist eine Art neuronales Netz die mehr als eine verborgene Ebene enthält. Das folgende Diagramm zeigt ein neuronales Deep-Learning-Netzwerk mit zwei verborgenen Schichten.

Ein neuronales Netzwerk mit einer Eingabeschicht, zwei verborgenen Schichten und einer
          Ausgabeebene.

Jedes Neuron in einem neuronalen Netzwerk ist mit allen Knoten der nächsten Schicht verbunden. Beachten Sie beispielsweise im obigen Diagramm, dass jedes der drei Neuronen die in der ersten verborgenen Schicht separat mit den beiden Neuronen im zweiten verborgenen Layer.

Auf Computern implementierte neuronale Netzwerke werden manchmal als künstliche neuronale Netze, um sie von neuronalen Netzen, die im Gehirn und in anderen Nervensystemen zu finden sind.

Einige neuronale Netzwerke können extrem komplexe nicht lineare Beziehungen nachahmen Funktionen und Beschriftung.

Siehe auch Convolutional Neural Network und recurrent Neural network.

Neuron

#fundamentals

Beim maschinellen Lernen eine eindeutige Einheit innerhalb einer verborgenen Schicht eines neuronalen Netzwerks. Jedes Neuron führt Folgendes aus: 2-Faktor-Authentifizierung:

  1. Berechnet die gewichtete Summe von Eingabewerten multipliziert mit und zwar durch ihre jeweiligen Gewichtungen.
  2. Übergibt die gewichtete Summe als Eingabe an einen Aktivierungsfunktion:

Ein Neuron in der ersten verborgenen Ebene akzeptiert Eingaben von den Featurewerten in der Eingabeebene. Ein Neuron in einer verborgenen Schicht die erste akzeptiert Eingaben von den Neuronen der vorherigen verborgenen Schicht. Ein Neuron in der zweiten verborgenen Schicht akzeptiert z. B. Eingaben vom Neuronen in der ersten verborgenen Schicht.

In der folgenden Abbildung sind zwei Neuronen und ihre Eingaben.

Ein neuronales Netzwerk mit einer Eingabeschicht, zwei verborgenen Schichten und einer
          Ausgabeebene. Zwei Neuronen sind hervorgehoben: eines im ersten
          und eins im zweiten ausgeblendeten Layer. Die hervorgehobene
          Das Neuron in der ersten verborgenen Schicht erhält Eingaben von beiden Features
          in die Eingabeebene ein. Das hervorgehobene Neuron in der zweiten verborgenen Schicht
          erhält Eingaben von jedem der drei Neuronen im ersten
          Ebene.

Ein Neuron in einem neuronalen Netzwerk ahmt das Verhalten von Neuronen in Gehirnen nach anderer Teile des Nervensystems.

N-Gramm

#seq
#language

Eine geordnete Folge von N-Wörtern. Zum Beispiel ist wirklich madly ein Gewicht von 2 Gramm. Weil Reihenfolge ist relevant, wörtlich wirklich ist ein anderes 2-Gramm als wirklich verrückt.

N Name(n) für diese Art von N-Gramm Beispiele
2 Bigram oder 2-Gramm umgehen, gehen, zu Mittag essen, Abendessen essen
3 Trigramm oder 3-Gramm zu viel gegessen, drei blinde Mäuse, die Glocke läuten
4 4 Gramm im Park spazieren gehen, Staub im Wind, der Junge aß Linsen

Viel Natural Language Understanding Modelle nutzen N-Gramme, um das nächste Wort vorherzusagen, das die Nutzenden eingeben werden oder sagen. Beispiel: Ein Nutzer hat drei Blinde eingegeben. Ein auf Trigrammen basierendes NLU-Modell würde wahrscheinlich voraussagen, dass das Der Nutzer gibt als Nächstes Mäuse ein.

N-Gramme mit Bag of Words gegenüberstellen, die ungeordneten Satzes von Wörtern.

NLU

#language

Abkürzung für natürliche Sprache zu verstehen.

Knoten (Entscheidungsbaum)

#df

In einem Entscheidungsbaum werden alle condition oder Blatt.

Ein Entscheidungsbaum mit zwei Bedingungen und drei Blättern.

Knoten (neuronales Netzwerk)

#fundamentals

Ein Neuron in einer verborgenen Schicht.

Knoten (TensorFlow-Grafik)

#TensorFlow

Einen Vorgang in einem TensorFlow-Graphen.

Rauschen

Im Großen und Ganzen ist das alles, was das Signal in einem Dataset verdeckt. Rauschen kann auf verschiedene Weise in Daten eingebracht werden. Beispiel:

  • Manuelle Bewerter machen bei der Beschriftung Fehler.
  • Menschen und Instrumente nehmen Featurewerte falsch auf oder lassen sie aus.

nicht binäre Bedingung

#df

Eine Bedingung, die mehr als zwei mögliche Ergebnisse enthält. Die folgende nicht binäre Bedingung enthält beispielsweise drei mögliche Ergebnisse:

Eine Bedingung (number_of_legs = ?), die zu drei möglichen
          Ergebnisse. Ein Ergebnis (number_of_legs = 8) führt zu einem Blatt
          namens Spider. Ein zweites Ergebnis (number_of_legs = 4) führt zu
          ein Blatt namens Hund. Ein drittes Ergebnis (number_of_legs = 2) führt zu
          ein Blatt namens Pinguin.

nonlinear

#fundamentals

Beziehung zwischen zwei oder mehr Variablen, die nicht ausschließlich dargestellt werden kann durch Addition und Multiplikation. Eine lineare Beziehung als Linie dargestellt werden; kann eine nonlinear Beziehung nicht als Linie dargestellt. Betrachten Sie beispielsweise zwei Modelle, die jeweils einem einzelnen Label zu. Das Modell links ist linear Das Modell auf der rechten Seite ist nicht linear:

Zwei Diagramme. Ein Diagramm ist eine Linie, also eine lineare Beziehung.
          Das andere Diagramm ist eine Kurve, die Beziehung ist also nicht linear.

Schweigeverzerrung

#fairness

Siehe Auswahlverzerrung.

Nichtstationarität

#fundamentals

Eine Funktion, deren Werte sich in einer oder mehreren Dimensionen ändern, in der Regel zeitlich. Betrachten Sie beispielsweise die folgenden Beispiele für Nichtstationarität:

  • Die Anzahl der in einem bestimmten Geschäft verkauften Badeanzüge variiert je nach Saison.
  • Die Menge einer bestimmten Frucht, die in einer bestimmten Region geerntet wird für den Großteil des Jahres null, aber nur für kurze Zeit groß.
  • Aufgrund des Klimawandels ändern sich die jährlichen Durchschnittstemperaturen.

Kontrast mit Stationarität.

Normalisierung

#fundamentals

Im Großen und Ganzen der Prozess der Umwandlung des tatsächlichen Bereichs einer Variablen von Werten in einen Standardwertbereich verschieben. Beispiel:

  • -1 bis +1
  • 0 bis 1
  • Z-Werte (ungefähr, -3 bis +3)

Angenommen, der tatsächliche Wertebereich eines bestimmten Merkmals ist 800 bis 2.400. Im Rahmen des Feature Engineering könnten Sie die tatsächlichen Werte auf einen Standardbereich normalisieren, z. B. als -1 bis +1.

Normalisierung ist eine gängige Aufgabe in Feature Engineering. Modelle werden in der Regel schneller trainiert (und bessere Vorhersagen zu erhalten), wenn jedes numerische Merkmal im Featurevektor hat ungefähr denselben Bereich.

Neuheitserkennung

Der Prozess, bei dem festgestellt wird, ob ein neues (neues) Beispiel aus derselben Verteilung als Trainings-Dataset. Mit anderen Worten: Training am Trainings-Dataset, bestimmt die Neuheitserkennung, ob eine neue (während der Inferenz oder während eines zusätzlichen Trainings) Ausreißer:

Kontrast zur Ausreißererkennung

numerische Daten

#fundamentals

Elemente, die als Ganzzahlen oder reellwertige Zahlen dargestellt werden Ein Hausbewertungsmodell würde beispielsweise wahrscheinlich die Größe eines Hauses (in Quadratfuß oder Quadratmetern) als numerische Daten anzeigen. Darstellung Ein Element als numerische Daten zeigt an, dass die Werte des Elements eine mathematische Beziehung zum Label haben. Das heißt, die Quadratmeterzahl in einem Haus hat wahrscheinlich mathematische Beziehung zum Wert des Hauses.

Nicht alle Ganzzahldaten sollten als numerische Daten dargestellt werden. Beispiel: Postleitzahlen in einigen Teilen der Welt sind Ganzzahlen. aber Ganzzahl "post" Codes sollten in Modellen nicht als numerische Daten dargestellt werden. Das liegt daran, Die Postleitzahl von 20000 ist nicht doppelt (oder halb so stark) wie die Postleitzahl von 10.000. Auch wenn verschiedene Postleitzahlen zu unterschiedlichen können wir nicht davon ausgehen, dass Immobilienwerte in der Postleitzahl 20.000 sind doppelt so wertvoll wie Immobilienwerte an der Postleitzahl 10000. Postleitzahlen sollten als kategorische Daten dargestellt werden. .

Numerische Merkmale werden manchmal als kontinuierliche Funktionen:

NumPy

Ein Open-Source-Bibliothek für Mathematik die effiziente Array-Vorgänge in Python ermöglicht. pandas basiert auf NumPy.

O

Ziel

Ein Messwert, den der Algorithmus zu optimieren versucht.

Zielfunktion

Die mathematische Formel oder der Messwert, den ein Modell optimieren soll. Die Zielfunktion für lineare Regression ist in der Regel Mean Squared Loss. Daher ist es beim Trainieren eines linearen Regressionsmodells trainiert, soll der mittlere quadratische Verlust minimiert werden.

In einigen Fällen besteht das Ziel darin, die Zielfunktion zu maximieren. Lautet die Zielfunktion beispielsweise Genauigkeit, ist das Ziel um möglichst genaue Daten zu erhalten.

Siehe auch Verlust.

schräge Bedingung

#df

In einem Entscheidungsbaum wird ein Bedingung, die mehr als eine Bedingung umfasst feature. Wenn z. B. Höhe und Breite beide Elemente sind, ist dies eine schräge Bedingung:

  height > width

Kontrast zur Bedingung Achsenausrichtung.

offline

#fundamentals

Synonym für static.

Offline-Inferenz

#fundamentals

Der Prozess eines Modells, das einen Batch von Vorhersagen generiert und diese Vorhersagen dann im Cache zu speichern. Apps können dann auf die abgeleiteten aus dem Cache, anstatt das Modell noch einmal auszuführen.

Stellen Sie sich zum Beispiel ein Modell vor, das lokale Wettervorhersagen generiert. (Vorhersagen) einmal alle vier Stunden. Nach jeder Modellausführung werden alle lokalen Wettervorhersagen im Cache gespeichert. Wetter-Apps rufen Vorhersagen ab aus dem Cache.

Offline-Inferenz wird auch als statische Inferenz bezeichnet.

Im Kontrast zu Online-Inferenz stehen.

One-Hot-Codierung

#fundamentals

Darstellung kategorialer Daten als Vektor mit:

  • Ein Element ist auf „1“ festgelegt.
  • Alle anderen Elemente sind auf 0 gesetzt.

Die One-Hot-Codierung wird in der Regel zur Darstellung von Strings oder Kennungen verwendet, eine endliche Menge möglicher Werte haben. Angenommen, ein bestimmtes kategoriales Merkmal namens Scandinavia hat fünf mögliche Werte:

  • „Dänemark“
  • „Schweden“
  • „Norwegen“
  • „Finnland“
  • „Island“

Die One-Hot-Codierung könnte jeden der fünf Werte wie folgt darstellen:

country Vektor
„Dänemark“ 1 0 0 0 0
„Schweden“ 0 1 0 0 0
„Norwegen“ 0 0 1 0 0
„Finnland“ 0 0 0 1 0
„Island“ 0 0 0 0 1

Dank der One-Hot-Codierung kann ein Modell verschiedene Verbindungen basierend auf den fünf Ländern.

Die Darstellung eines Elements als numerische Daten ist ein zur One-Hot-Codierung ein. Leider ist die Vertretung der Skandinavische Länder sind keine gute Wahl. Beispiel: Betrachten Sie die folgende numerische Darstellung:

  • „Dänemark“ ist 0
  • „Schweden“ ist 1
  • „Norwegen“ ist 2
  • „Finnland“ ist 3
  • „Island“ ist 4

Bei numerischer Codierung würde ein Modell die Rohzahlen interpretieren mathematisch angewandt und versucht, mit diesen Zahlen zu trainieren. Allerdings ist Island nicht doppelt so viel (oder halb so viel) etwas wie Norwegen, daher würde das Modell seltsame Schlussfolgerungen ziehen.

One-Shot Learning

Ein Ansatz des maschinellen Lernens, der häufig für die Objektklassifizierung verwendet wird, wurde entwickelt, um anhand eines einzigen Trainingsbeispiels effektive Klassifikatoren zu erlernen.

Siehe auch wenige Erkenntnisse und Zero-Shot-Lernen:

One-Shot-Prompting

#language
#generativeAI

Eine Aufforderung, die ein Beispiel enthält, das zeigt, wie die Large Language Model sollte antworten. Beispiel: Der folgende Prompt enthält ein Beispiel für ein Large Language Model, sollte sie eine Frage beantworten.

Bestandteile eines Prompts Hinweise
Was ist die offizielle Währung des angegebenen Landes? Die Frage, die das LLM beantworten soll.
Frankreich: EUR Ein Beispiel.
Indien: Die eigentliche Abfrage.

Vergleichen Sie One-Shot-Prompts mit den folgenden Begriffen:

Eins gegen alle

#fundamentals

Bei einem Klassifizierungsproblem mit n Klassen aus n separaten binäre Klassifikatoren – ein binärer Klassifikator für zu jedem möglichen Ergebnis. Bei einem Modell, das Beispiele klassifiziert, tierisch, pflanzlich oder negativ bewertet, wäre eine Ein-gegen-alle-Lösung folgenden drei separaten binären Klassifikatoren:

  • Tier oder kein Tier
  • Gemüse gegen Gemüse
  • Mineral im Vergleich zu nicht Mineral

online

#fundamentals

Synonym für dynamic.

Online-Inferenz

#fundamentals

Vorhersagen bei Bedarf generieren. Beispiel: Angenommen, eine App übergibt eine Eingabe an ein Modell und gibt eine Anfrage für eine Vorhersage treffen. Ein System, das Online-Inferenz verwendet, reagiert auf die Anfrage mit folgendem Befehl: (und die Vorhersage an die App zurückgeben).

Im Kontrast zu Offline-Inferenz.

Vorgang (Vorgang)

#TensorFlow

In TensorFlow kann jede Prozedur, die Tensor manipuliert oder zerstört. Für Beispiel: Eine Matrixmultiplikation ist eine Operation, bei der zwei Tensoren und generiert einen Tensor als Ausgabe.

Optax

Eine Bibliothek zur Gradientenverarbeitung und Optimierung für JAX. Optax erleichtert die Forschung durch die Bereitstellung von Bausteinen, die auf kundenspezifische Weise neu kombiniert, um parametrische Modelle wie neuronalen Deep-Learning-Netzwerke. Weitere Ziele:

  • Eine lesbare, gut getestete und effiziente Implementierung von Kernkomponenten.
  • Steigerung der Produktivität durch Kombination von Zutaten mit geringer Menge in benutzerdefinierte Optimierer (oder andere Komponenten für die Gradientenverarbeitung) umwandeln.
  • Schnellere Akzeptanz neuer Ideen durch einfache Barrierefreiheit für alle einen Beitrag leisten zu können.

Optimierungstool

Eine spezifische Implementierung des Gradientenabstiegs Algorithmus. Gängige Optimierer sind:

  • AdaGrad steht für „ADAptive GRADient Abstammung“.
  • Adam, was für ADAptive with Momentum steht.

Out-Group-Homogenitätsverzerrung

#fairness

Die Tendenz, dass sich Mitglieder außerhalb der Gruppe stärker ähneln als In-Group-Mitglieder. beim Vergleich von Einstellungen, Werten, Persönlichkeitsmerkmalen und anderen Eigenschaften. In-Group bezieht sich auf Personen, mit denen Sie regelmäßig interagieren. out-group bezieht sich auf Personen, mit denen Sie nicht regelmäßig interagieren. Wenn Sie ein Dataset erstellen, indem Sie die Menschen bitten, außerhalb der Gruppen auseinandersetzen, sind diese Attribute möglicherweise weniger differenziert und stereotypisiert. als Attribute, die die Teilnehmenden für Personen in ihrer Gruppe auflisten.

Die Lilliputianer würden zum Beispiel die Häuser anderer Lilliputianer beschreiben. ins Detail gehen und dabei kleine Unterschiede bei Architekturstilen, Fenstern Türen und Größen. Die Lilliputianer könnten jedoch einfach erklären, Alle Brobdingnagier leben in identischen Häusern.

Die Out-Group-Homogenitätsverzerrung ist eine Form Gruppenattributionsverzerrung.

Siehe auch In-Group-Verzerrung.

Ausreißererkennung

Die Identifizierung von Ausreißern in einem Trainings-Dataset

Im Kontrast zur Neuheitserkennung stehen.

erkennen

Werte, die von den meisten anderen Werten abweichen. Beim maschinellen Lernen sind Ausreißer:

  • Eingabedaten, deren Werte mehr als ungefähr 3 Standardabweichungen betragen vom Mittelwert entfernt werden.
  • Gewichtungen mit hohen absoluten Werten
  • Vorhergesagte Werte, die relativ weit von den tatsächlichen Werten entfernt sind.

Beispiel: widget-price ist ein Merkmal eines bestimmten Modells. Angenommen, der mittlere widget-price beträgt 7 € mit einer Standardabweichung 1 Euro. Beispiele für widget-price mit 12 € oder 2 € würden daher als Ausreißer betrachtet, da jeder dieser Preise fünf Standardabweichungen vom Mittelwert ab.

Ausreißer werden oft durch Tipp- oder andere Eingabefehler verursacht. In anderen Fällen Ausreißer sind keine Fehler, werden schließlich 5 Standardabweichungen selten, aber kaum unmöglich sind.

Ausreißer verursachen häufig Probleme beim Modelltraining. Clips ist eine Möglichkeit, Ausreißer zu verwalten.

Out-of-Bag-Bewertung (OOB-Bewertung)

#df

Ein Mechanismus zur Bewertung der Qualität einer Entscheidungsstruktur, indem Sie jeweils Entscheidungsbaum gegen die Beispiele nicht verwendet im Zeitraum Training dieses Entscheidungsbaums. Im Feld Beachten Sie, dass das System jeden Entscheidungsbaum trainiert. auf etwa zwei Drittel der Beispiele an und wertet sie dann anhand ein Drittel der Beispiele.

Ein Entscheidungswald aus drei Entscheidungsbäumen.
          Ein Entscheidungsbaum wird anhand von zwei Dritteln der Beispiele trainiert.
          und verwendet das verbleibende Drittel
für die Bewertung von OOB.
          Ein zweiter Entscheidungsbaum trainiert
          als der vorherige Entscheidungsbaum.
          für die Bewertung von OOB ein anderes Drittel
          vorherigen Entscheidungsbaum.

Die Out-of-Bag-Bewertung ist eine recheneffiziente und konservative Näherungswert des Kreuzvalidierungsmechanismus. Bei der Kreuzvalidierung wird für jede Kreuzvalidierungsrunde ein Modell trainiert (Beispiel: 10 Modelle werden in einer 10-fachen Kreuzvalidierung trainiert). Bei der OOB-Bewertung wird ein einzelnes Modell trainiert. Weil Bagging während des Trainings einige Daten aus jedem Baum zurückhält, kann die OOB-Bewertung um eine ungefähre Kreuzvalidierung zu erreichen.

Ausgabeebene

#fundamentals

Das „finale“ eines neuronalen Netzwerks. Die Ausgabeebene enthält die Vorhersage.

Die folgende Abbildung zeigt ein kleines neuronales Deep-Learning-Netzwerk mit einer Eingabe -Ebene, zwei verborgenen Layern und einer Ausgabeebene:

Ein neuronales Netzwerk mit einer Eingabeschicht, zwei verborgenen Schichten und einer
          Ausgabeebene. Die Eingabeebene besteht aus zwei Merkmalen. Die erste
          Die versteckte Schicht besteht aus drei Neuronen und der zweiten versteckten Schicht
          besteht aus zwei Neuronen. Die Ausgabeebene besteht aus einem einzelnen Knoten.

Überanpassung

#fundamentals

Erstellen eines Modells, das den Trainingsdaten so genau, dass das Modell korrekte Vorhersagen für neue Daten zu treffen.

Die Regularisierung kann eine Überanpassung reduzieren. Wenn du mit einem großen und vielfältigen Trainings-Dataset trainierst, kannst du eine Überanpassung ebenfalls reduzieren.

Oversampling

Beispiele einer Minderheitenklasse wiederverwenden in einem von einer Klasse unausgeglichenen Dataset, und ein ausgewogenes Trainings-Dataset zu erstellen.

Angenommen, Sie verwenden eine binäre Klassifizierung. Problem, bei dem das Verhältnis der Mehrheitsklasse zur Minderheitenklasse 5.000:1 ist. Wenn das Dataset eine Million Beispiele enthält, enthält das Dataset nur etwa 200 Beispiele der Minderheitenklasse, zu wenige Beispiele für effektives Training. Um diesen Mangel zu überwinden, diese 200 Beispiele mehrmals zu erfassen (wiederverwenden), was möglicherweise zu ausreichend Beispiele für nützliches Training.

Sie sollten auf eine Überanpassung achten, Oversampling.

einen Kontrast mit Untersampling bilden.

P

Gepackte Daten

Ein Ansatz zum effizienteren Speichern von Daten.

Gepackte Daten speichern Daten entweder in einem komprimierten Format oder in um einen effizienteren Zugriff zu ermöglichen. Verpackte Daten minimieren den Arbeitsspeicher- und Berechnungsaufwand, der für für ein schnelleres Training und eine effizientere Modellinferenz.

Gepackte Daten werden häufig mit anderen Techniken verwendet, z. B. Datenerweiterung und Regularisierung zur weiteren Verbesserung der Leistung Modelle.

pandas

#fundamentals

Eine spaltenorientierte Datenanalyse API, die auf numpy basiert. Viele Frameworks für maschinelles Lernen, wie TensorFlow, unterstützen Pandas-Datenstrukturen als Eingaben. Weitere Informationen finden Sie in der pandas-Dokumentation .

Parameter

#fundamentals

Die Gewichtungen und Verzerrungen, die ein Modell lernt Training. Beispiel: In einer linearen Regressionsmodell basiert, bestehen die Parameter aus den Bias (b) und alle Gewichtungen (w1, w2, und so weiter) in die folgende Formel ein:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Im Gegensatz dazu sind Hyperparameter die Werte, Sie (oder einen Hyperparameter-Abstimmungsdienst) dem Modell bereitstellen. Beispielsweise ist die Lernrate ein Hyperparameter.

Parameter-effiziente Abstimmung

#language
#generativeAI

Verfahren zur Feinabstimmung vortrainiertes Language Model (PLM) effizienter als eine vollständige Abstimmung. Parametereffizient Durch die Feinabstimmung werden in der Regel weit weniger Parameter optimiert als bei vollem eine Feinabstimmung, führt aber in der Regel zu einer Large Language Model mit hoher Leistung sowie ein Large Language Model, das aus vollständigen die Feinabstimmung.

Parametereffiziente Abstimmung vergleichen und gegenüberstellen mit:

Parametereffiziente Abstimmung wird auch als parametereffiziente Feinabstimmung bezeichnet.

Parameterserver (PS)

#TensorFlow

Ein Job, der die Parameter eines Modells in einem verteilte Einstellung.

Parameteraktualisierung

Die Anpassung der Parameter eines Modells während in der Regel innerhalb einer einzigen Iteration Gradientenverfahren:

partielle Ableitung

Ableitung, bei der alle Variablen bis auf eine als Konstante angesehen werden. Beispielsweise ist die partielle Ableitung von f(x, y) nach x der Wert Ableitung von f, die nur als Funktion von x betrachtet wird (d. h., y wird beibehalten Konstante). Die partielle Ableitung von f nach x konzentriert sich nur auf wie sich x ändert, und ignoriert alle anderen Variablen in der Gleichung.

Beteiligungsverzerrung

#fairness

Synonym für Nichtantwortverzerrung. Siehe Auswahlverzerrung.

Partitionierungsstrategie

Der Algorithmus, nach dem die Variablen aufgeteilt werden Parameterserver

Pax

Ein Programmier-Framework für das Training von umfangreichem neuronalen Netzwerkmodelle so groß wie die dass sie sich über mehrere TPU erstrecken Beschleuniger-Chip Segmente oder Pods.

Pax basiert auf Flax, das auf JAX basiert.

Diagramm, das die Position von Pax im Software-Stack zeigt.
          Pax baut auf JAX auf. Pax selbst besteht aus drei
          Ebenen. Die unterste Ebene enthält TensorStore und Flax.
          Die mittlere Ebene enthält Optax und Flaxformer. Oben
          Ebene enthält die Praxis-Modellierungsbibliothek. Fiddle ist gebaut
          auf Pax.

Perceptron

Ein System (entweder Hardware oder Software), das einen oder mehrere Eingabewerte, führt eine Funktion mit der gewichteten Summe der Eingaben aus und berechnet Ausgabewert. Beim maschinellen Lernen ist die Funktion in der Regel nicht linear, wie z. B. ReLU, Sigmoid oder tanh. Zum Beispiel verlässt sich das folgende Perceptron auf die Sigmoidfunktion, um drei Eingabewerte:

$$f(x_1, x_2, x_3) = \text{sigmoid}(w_1 x_1 + w_2 x_2 + w_3 x_3)$$

In der folgenden Abbildung nimmt das Perceptron drei Eingaben vor, von denen jede wird vor dem Eintritt in das Perceptron durch eine Gewichtung modifiziert:

Ein Perceptron, das drei Eingaben annimmt, die jeweils mit separaten
          Gewichte. Das Perceptron gibt einen einzelnen Wert aus.

Perceptronen sind die Neuronen in neuronale Netzwerke.

Leistung

Überladener Begriff mit folgenden Bedeutungen:

  • Standardbedeutung in der Softwareentwicklung. Wie schnell (oder effizient) wird diese Software ausgeführt?
  • Die Bedeutung des maschinellen Lernens Hier liefert die Leistung Frage: Wie korrekt ist dieses Modell? Das heißt: Wie gut sind die Vorhersagen des Modells?

Wichtigkeit von Permutationsvariablen

#df

Eine Art von variabler Wichtigkeit, die bewertet den Anstieg des Vorhersagefehlers eines Modells, nachdem der Wert die Werte der Funktion angeben. Die Wichtigkeit der Permutationsvariablen ist modellunabhängig Messwert.

Verwirrung

Ein Maß dafür, wie gut ein Modell seine Aufgabe erfüllt. Angenommen, Ihre Aufgabe besteht darin, die ersten Buchstaben eines Wortes zu lesen. über eine Smartphone-Tastatur eingeben, um eine Liste möglicher Ergänzungswörter. Die Perplexität P ist für diese Aufgabe ungefähr die Zahl die Sie aufführen müssen, damit Ihre Liste die tatsächlichen Wort, das die Nutzenden eingeben möchten.

Die Perplexität hängt mit der Kreuzentropie zusammen:

$$P= 2^{-\text{cross entropy}}$$

Pipeline

Die Infrastruktur eines Algorithmus für maschinelles Lernen. Eine Pipeline umfasst das Sammeln der Daten, das Einfügen der Daten in Dateien mit Trainingsdaten, Trainieren eines oder mehrerer Modelle und Exportieren der Modelle in die Produktion

Pipelines

#language

Eine Form der Modellparallelität, bei der die Leistung eines Modells Die Verarbeitung ist in aufeinanderfolgende Phasen unterteilt und jede Phase wird ausgeführt. auf einem anderen Gerät. Während in einer Phase ein Batch verarbeitet wird, mit dem nächsten Batch arbeiten kann.

Weitere Informationen finden Sie unter Gestaffelte Schulung.

Pjit

Eine JAX-Funktion, die Code zur Ausführung auf mehrere Beschleuniger-Chips: Der Nutzer übergibt eine Funktion an pjit, gibt eine Funktion mit der entsprechenden Semantik zurück, ist aber kompiliert. in eine XLA umgewandelt, die auf mehreren Geräten ausgeführt wird. (z. B. GPUs oder TPU-Kerne).

Mit pjit können Nutzer Berechnungen fragmentieren, ohne sie umzuschreiben: den SPMD-Partitioner

Im März 2023 wurde pjit mit jit zusammengeführt. Weitere Informationen finden Sie unter Verteilte Arrays und automatische Parallelisierung .

PLM

#language
#generativeAI

Abkürzung für vortrainiertes Sprachmodell.

PMap

Eine JAX-Funktion, die Kopien einer Eingabefunktion ausführt auf mehreren zugrunde liegenden Hardwaregeräten (CPUs, GPUs oder TPUs) mit unterschiedlichen Eingabewerten. pmap basiert auf SPMD.

policy

#rl

Beim Reinforcement Learning wird die probabilistische Zuordnung eines Agents von Bundesländern in Aktionen.

Pooling

#image

Reduktion einer oder mehrerer Matrizen, die von einer früheren Convolutional Layer zu einer kleineren Matrix hinzu. Beim Pooling wird in der Regel entweder der Höchst- oder der Durchschnittswert im Poolbereich bewegen. Angenommen, wir haben die folgende 3x3-Matrix:

Die 3x3-Matrix [[5,3,1], [8,2,5], [9,4,3]].

Ein Pooling-Vorgang teilt genau wie eine Faltung Matrix in Segmente und gleitet die Faltung Schritte. Angenommen, der Pooling-Vorgang teilt die Faltungsmatrix in 2x2-Segmente mit einem 1x1-Schritt. Wie das folgende Diagramm zeigt, finden vier Pooling-Vorgänge statt. Stellen Sie sich vor, dass bei jedem Pooling-Vorgang der Maximalwert in dieser Scheibe vier:

Die Eingabematrix ist 3x3 mit den Werten [[5,3,1], [8,2,5], [9,4,3]].
          Die 2x2-Submatrix oben links der Eingabematrix ist [[5,3], [8,2]], also
          liefert der Pooling-Vorgang oben links den Wert 8 (der Wert
          maximal 5, 3, 8 und 2). Die 2x2-Submatrix oben rechts der Eingabe
          Matrix ist [[3,1], [2,5]], sodass die Pooling-Operation oben rechts
          Wert 5. Die 2x2-Submatrix unten links der Eingabematrix ist
          [[8,2], [9,4]], sodass der Pooling-Vorgang unten links den Wert liefert
          9. Die 2x2-Submatrix unten rechts der Eingabematrix ist
          [[2,5], [4,3]], sodass der Pooling-Vorgang unten rechts den Wert liefert
          5. Zusammenfassend lässt sich sagen, dass der Pooling-Vorgang die 2x2-Matrix liefert.
          [[8,5], [9,5]].

Pooling hilft, Translational Invarianz in der Eingabematrix

Das Pooling für Vision-Anwendungen wird förmlicher als räumliches Pooling bezeichnet. Bei Zeitachsenanwendungen wird Pooling in der Regel als zeitliches Pooling bezeichnet. Weniger offiziell wird das Pooling oft als Subsampling oder Downsampling bezeichnet.

Positionscodierung

#language

Verfahren zum Hinzufügen von Informationen zur Position eines Tokens in einer Sequenz die Einbettung des Tokens. Transformer-Modelle verwenden positionale um die Beziehung zwischen verschiedenen Teilen des Sequenz hinzufügen.

Eine gängige Implementierung der Positionscodierung verwendet eine Sinusoidfunktion. Genauer gesagt, die Frequenz und Amplitude der sinusoidalen Funktion durch die Position des Tokens in der Sequenz bestimmt.) Diese Technik kann ein Transformer-Modell lernen, sich mit verschiedenen Teilen des Position basierend auf ihrer Position.

positive Klasse

#fundamentals

Die Klasse, für die Sie den Test durchführen.

Die positive Klasse in einem Krebsmodell könnte beispielsweise „Tumor“ sein. Die positive Klasse in einem E-Mail-Klassifikator kann beispielsweise „Spam“ sein.

Kontrast mit negativer Klasse.

Nachbearbeitung

#fairness
#fundamentals

Ausgabe eines Modells anpassen, nachdem das Modell ausgeführt wurde. Mit der Nachbearbeitung lassen sich Fairness-Einschränkungen erzwingen, Modelle selbst zu modifizieren.

Beispielsweise kann die Nachverarbeitung auf einen binären Klassifikator angewendet werden, indem Sie einen Klassifizierungsschwellenwert festlegen, Chancengleichheit gewahrt bleibt für ein bestimmtes Attribut, indem geprüft wird, ob der Wert für richtig positive Ergebnisse ist für alle Werte dieses Attributs gleich.

PR AUC (Bereich unter der PR-Kurve)

Fläche unter der interpolierten Precision-/Recall-Kurve, die sich durch grafische Darstellung (Recall, Precision) für verschiedene Werte der Klassifizierungsschwellenwert. Je nachdem, wie berechnet wurde, entspricht die PR AUC durchschnittliche Genauigkeit des Modells.

Praxis

Eine leistungsstarke ML-Hauptbibliothek von Pax Praxis oft namens „Layer Library“.

Die Praxis enthält nicht nur die Definitionen für die Layer-Klasse, sondern seine unterstützenden Komponenten, wie z. B.:

Praxis enthält die Definitionen für die Modellklasse.

Precision

Einen Messwert für Klassifizierungsmodelle, der die Antworten folgende Frage:

Als das Modell die positive Klasse vorhergesagt hat, Wie viel Prozent der Vorhersagen waren richtig?

Die Formel lautet:

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

Dabei gilt:

  • Richtig positiv bedeutet, dass das Modell die positive Klasse richtig vorhergesagt hat.
  • Falsch positiv bedeutet, dass das Modell die positive Klasse fälschlicherweise vorhergesagt hat.

Angenommen, ein Modell hat 200 positive Vorhersagen getroffen. Von diesen 200 positiven Vorhersagen:

  • 150 echt positive Ergebnisse.
  • 50 waren falsch positive Ergebnisse.

In diesem Fall gilt:

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

Im Kontrast zu Genauigkeit und Trefferquote stehen.

Siehe Klassifizierung: Genauigkeit, Trefferquote, Genauigkeit und verwandte Messwerte .

Precision-/Recall-Kurve

Eine Kurve mit Precision und Recall Klassifizierungsschwellenwerte.

prognostizierter Wert

#fundamentals

Die Ausgabe eines Modells. Beispiel:

  • Die Vorhersage eines binären Klassifizierungsmodells ist entweder die positive oder die negative Klasse.
  • Die Vorhersage eines mehrklassigen Klassifizierungsmodells ist eine Klasse.
  • Die Vorhersage eines linearen Regressionsmodells ist eine Zahl.

Vorhersageverzerrung

Wert, der angibt, wie weit der Durchschnitt von Vorhersagen stammen aus dem Durchschnitt von Labels im Dataset.

Nicht zu verwechseln mit dem Begriff „Voreingenommenheit“ in Modellen für maschinelles Lernen oder voreingenommen in Bezug auf Ethik und Fairness.

prädiktives ML

Jedes standardmäßige („klassische“) System für maschinelles Lernen.

Für den Begriff prognostisches ML gibt es keine formale Definition. Vielmehr wird mit dem Begriff eine Kategorie von ML-Systemen unterschieden, die nicht auf generative KI:

Vorhersageparität

#fairness

Fairness-Messwert, mit dem geprüft wird, für einen bestimmten Klassifikator sind gleichbedeutend mit den berücksichtigten Untergruppen.

Beispiel: Ein Modell, das vorhersagt, prädiktive Parität der Nationalität, wenn die Genauigkeitsrate gleich ist. für Lilliputianer und Brobdingnagier.

Die prädiktive Parität wird manchmal auch als prognostische Ratenparität bezeichnet.

Siehe „Fairness-Definitionen“ Explained“ (Abschnitt 3.2.1) .

Vorhersageratenparität

#fairness

Eine andere Bezeichnung für prognostische Parität.

Vorverarbeitung

#fairness
Daten werden verarbeitet, bevor sie zum Trainieren eines Modells verwendet werden. Die Vorverarbeitung könnte einfach Wörter aus einem englischen Textkorpus zu entfernen, im englischen Wörterbuch enthalten sein oder so komplex sein könnten, wie die Datenpunkte, so dass so viele korrelierte Attribute eliminiert werden. möglichst mit sensiblen Attributen zu versehen. Die Vorverarbeitung kann dazu beitragen, Fairness-Einschränkungen zu erfüllen.

vortrainiertes Modell

#language
#image
#generativeAI

Modelle oder Modellkomponenten (z. B. Einbettungsvektor) hochgeladen, die bereits trainiert wurden. Manchmal speisen Sie vortrainierte Einbettungsvektoren in ein neuronalen Netzwerks zu testen. In anderen Fällen trainiert Ihr Modell die Einbettungsvektoren selbst nutzen, anstatt sich auf die vortrainierten Einbettungen zu verlassen.

Der Begriff vortrainiertes Sprachmodell bezieht sich auf ein Large Language Model, das bereits vor dem Training.

Vorabtraining

#language
#image
#generativeAI

Das erste Training eines Modells mit einem großen Dataset. Einige vortrainierte Modelle sind tollpatschige Giganten und müssen in der Regel durch zusätzliche Trainings optimiert werden. Beispielsweise können ML-Fachleute ein Large Language Model für ein umfangreiches Text-Dataset verwenden, zum Beispiel alle englischsprachigen Seiten in Wikipedia. Im Anschluss an die Vorschulung Das resultierende Modell kann mit einer der folgenden Methoden weiter verfeinert werden: Techniken:

vorherige Überzeugung

Was Sie von den Daten glauben, bevor Sie mit dem Training beginnen. Die L2-Regularisierung basiert beispielsweise auf der Ansicht, dass Gewichte klein und normal sein sollten die um Null herum verteilt sind.

probabilistisches Regressionsmodell

Ein Regressionsmodell, das nicht nur die Gewichtungen für jede Funktion, aber auch die Unsicherheit dieser Gewichtungen. Ein probabilistisches Regressionsmodell generiert und die Unsicherheit dieser Vorhersage kennen. Beispiel: probabilistisches Regressionsmodell eine Vorhersage von 325 mit einer Standardabweichung von 12. Weitere Informationen zur probabilistischen Regression finden Sie Colab auf tensorflow.org.

Wahrscheinlichkeitsdichtefunktion

Eine Funktion, die die Häufigkeit von Stichproben mit einem genau einen bestimmten Wert haben. Wenn die Werte eines Datasets kontinuierliche Gleitkommazahl sind gibt es nur selten genaue Übereinstimmungen. Das Integrieren einer Wahrscheinlichkeit Dichtefunktion vom Wert x bis zum Wert y ergibt die erwartete Häufigkeit von Stichproben zwischen x und y.

Nehmen wir zum Beispiel eine Normalverteilung mit einem Mittelwert von 200 und einer Standardabweichung von 30. Um die erwartete Häufigkeit von Stichproben zu bestimmen im Bereich von 211,4 bis 218,7 liegt, können Sie die Wahrscheinlichkeit Dichtefunktion für eine Normalverteilung von 211,4 bis 218,7.

prompt

#language
#generativeAI

Beliebiger Text, der als Eingabe für ein Large Language Model eingegeben wurde um das Modell so zu konditionieren, dass es sich auf eine bestimmte Weise verhält. Prompts können so kurz sein wie Wortgruppe oder beliebig lang sein (z. B. der gesamte Text eines Romans). Aufforderungen in mehrere Kategorien fallen, einschließlich der in der folgenden Tabelle aufgeführten:

Prompt-Kategorie Beispiel Hinweise
Frage Wie schnell kann eine Taube fliegen?
Anleitung Schreib ein lustiges Gedicht über Arbitrage. Einen Prompt, der das Large Language Model zu einer Aktion auffordert.
Beispiel Markieren Sie den Markdown-Code in HTML. Hier einige Beispiele:
Markdown: * Listeneintrag
HTML: <ul> <li>Listeneintrag</li> &lt;/ul&gt;
Der erste Satz in diesem Beispiel-Prompt ist eine Anweisung. Der Rest des Prompts ist das Beispiel.
Rolle Erläutern Sie, warum das Gradientenverfahren beim Training von Machine Learning verwendet wird, in Physik. Der erste Teil des Satzes ist eine Anweisung. die Wortgruppe „Doktortitel in Physik“ ist der Rollenteil.
Teileingabe für das Modell Der Premierminister des Vereinigten Königreichs lebt in Eine Teileingabesaufforderung kann entweder abrupt enden (wie in diesem Beispiel). oder enden mit einem Unterstrich.

Ein Generative-AI-Modell kann auf einen Prompt mit Text, Code, Bilder, Einbettungen, Videos... und fast alles.

Prompt-basiertes Lernen

#language
#generativeAI

Fähigkeit bestimmter Modelle, sich anzupassen. ihr Verhalten als Reaktion auf beliebige Texteingaben (Aufforderungen) reagieren. Bei einem typischen Prompt-basierten Lernparadigma Large Language Model reagiert auf eine Aufforderung durch Text generiert wird. Angenommen, ein Nutzer gibt den folgenden Prompt ein:

Fasse das dritte Newtonsche Gesetz der Bewegung zusammen.

Ein Modell, das Prompt-basiertes Lernen ermöglicht, ist nicht speziell dafür trainiert, zum vorherigen Prompt. Vielmehr „weiß“ das Modell, viele Fakten über Physik, viel über allgemeine Sprachregeln und darüber, was im Allgemeinen hilfreiche Antworten zu liefern. Dieses Wissen reicht aus, um einen (hoffentlich) nützlichen Antwort. Zusätzliches menschliches Feedback („Diese Antwort war zu kompliziert.“ oder „Was ist eine Reaktion?“. ermöglicht einigen Prompt-basierten Lernsystemen, um die Nützlichkeit ihrer Antworten zu verbessern.

Prompt-Entwurf

#language
#generativeAI

Synonym für prompt Engineering.

Prompt Engineering

#language
#generativeAI

Aufforderungen erstellen, die die gewünschten Antworten auslösen Large Language Model erstellen. Prompt wird von Menschen ausgeführt Engineering. Gut strukturierte Prompts sind wichtig, in einem Large Language Model nützliche Antworten zu liefern. Das Prompt-Engineering viele Faktoren, darunter:

  • Das Dataset, das zum Vortrainieren und möglicherweise Large Language Model optimieren
  • Die temperature und andere Decodierungsparameter, die der das Modell zum Generieren von Antworten verwendet.

Weitere Informationen finden Sie unter Einführung in den Prompt-Entwurf finden Sie weitere Informationen zum Schreiben hilfreicher Prompts.

Prompt-Design ist ein Synonym für Prompt Engineering.

Prompt-Feinabstimmung

#language
#generativeAI

Ein Parameterbasierter Abstimmungsmechanismus ein „Präfix“ oder die das System dem tatsächlichen Prompt.

Eine Variante der Feinabstimmung von Aufforderungen, die auch als Präfixabstimmung bezeichnet wird, besteht darin, Stellen Sie das Präfix jeder Ebene voran. Bei den meisten Prompt-Feinabstimmungen fügt der Eingabeebene ein Präfix hinzu.

Proxy-Labels

#fundamentals

Daten zur Schätzung von Labels, die nicht direkt in einem Dataset verfügbar sind.

Angenommen, Sie müssen ein Modell trainieren, um die Anzahl der Stresslevel zu reduzieren. Ihr Dataset enthält viele Vorhersagefunktionen, enthält kein Label namens Stresslevel. Unermutigt wählen Sie „Arbeitsunfälle“ als Proxy-Label für Stresslevel zu reduzieren. Schließlich haben Mitarbeitende unter hohem Stress mehr Zeit, als beruhigende Mitarbeitende. Oder? Vielleicht Arbeitsunfälle die aus verschiedenen Gründen steigen und fallen.

Angenommen, Sie möchten Ist es regnet? ein boolesches Label sein? für Ihr Dataset, enthält aber keine Regendaten. Wenn Fotos verfügbar sind, können Sie Bilder von Personen erstellen, Regenschirme als Ersatzlabel für regnet es? Ist das ein gutes Proxy-Label? Vielleicht, aber Menschen in einigen Kulturen tragen eher Sonnenschirme bei als Regen.

Proxy-Labels sind oft nicht perfekt. Wählen Sie nach Möglichkeit tatsächliche Labels gegenüber Proxy-Labels. Wenn jedoch kein tatsächliches Label vorhanden ist, wählen Sie den Proxy aus. sehr sorgfältig und wählt den am wenigsten schrecklichen Proxy-Label-Kandidaten aus.

Proxy (vertrauliche Attribute)

#fairness
Ein Attribut, das als eigenständiges sensibles Attribut: Beispiel: kann die Postleitzahl der Person als Anhaltspunkt für ihr Einkommen verwendet werden, ethnische Herkunft.

reine Funktion

Funktion, deren Ausgaben nur auf ihren Eingaben basieren und die keine Seite haben Effekte. Eine reine Funktion verwendet oder ändert keinen globalen Status, wie zum Beispiel den Inhalt einer Datei oder den Wert einer Variablen außerhalb der Funktion.

Reine Funktionen können zum Erstellen von threadsicherem Code verwendet werden, was vorteilhaft ist, beim Fragmentieren von model-Code in mehrere Beschleuniger-Chips:

Die Transformationsmethoden von JAX-Funktionen erfordern dass die Eingabefunktionen reine Funktionen sind.

Q

Q-Funktion

#rl

Bei bestärkendem Lernen wird die Funktion, prognostiziert die zu erwartende Rendite Aktion in einem state und folge dann einer bestimmten Richtlinie.

Die Q-Funktion wird auch als Wertfunktion für Statusaktionen bezeichnet.

Q-learning

#rl

Bei bestärkendem Lernen handelt es sich um einen Algorithmus, lässt einen Kundenservicemitarbeiter zu um die optimale Q-Funktion einer Markow-Entscheidungsprozess mithilfe der Bellman-Gleichung. Markov-Entscheidungsprozessmodelle eine Umgebung.

Quantil

Jeder Bucket im Quantil-Bucketing.

Quantil-Bucketing

Verteilen der Werte eines Features auf Buckets, sodass jede Bucket enthält die gleiche (oder nahezu gleiche) Anzahl von Beispielen. Beispiel: In der folgenden Abbildung sind 44 Punkte in 4 Kategorien unterteilt, von denen jede enthält 11 Punkte. Damit jede Gruppe in der Abbildung den Parameter die gleiche Anzahl von Punkten haben, bieten einige Buckets eine unterschiedliche Breite von x-Werten.

44 Datenpunkte, aufgeteilt in 4 Kategorien mit je 11 Punkten.
          Obwohl jeder Bucket die gleiche Anzahl
von Datenpunkten enthält,
          Einige Buckets enthalten eine größere Auswahl an Featurewerten als andere
          Buckets.

Quantisierung

Überladener Begriff, der wie folgt verwendet werden kann:

  • Quantil-Bucketing implementieren für eine bestimmte Funktion.
  • Umwandlung von Daten in Nullen und Einsen zum schnelleren Speichern, Trainieren und Ableitungen. Boolesche Daten sind widerstandsfähiger gegenüber Rauschen und Fehlern als andere Formate verwenden, kann die Quantisierung die Korrektheit des Modells verbessern. Quantisierungstechniken umfassen Rundung, Abschneiden und Binning:
  • Die Anzahl der Bits zum Speichern der Modelldaten reduzieren parameters Angenommen, die Parameter eines Modells sind als 32-Bit-Gleitkommazahlen gespeichert. Durch Quantisierung werden diese von 32 Bit bis 4, 8 oder 16 Bit. Quantisieren Sie Folgendes:

    • Computing-, Arbeitsspeicher-, Laufwerks- und Netzwerknutzung
    • Zeit zum Ableiten einer Prädikation
    • Stromstärke

    Die Quantisierung verringert jedoch manchmal die Richtigkeit der Vorhersagen zu treffen.

Warteschlange

#TensorFlow

Einen TensorFlow-Vorgang, der Warteschlangendaten implementiert Struktur. Wird normalerweise für die E/A verwendet.

R

RAG

#fundamentals

Abkürzung für Retrieval Augmented Generation

Random Forest

#df

Ein Ensemble von Entscheidungsbäumen in die jeder Entscheidungsbaum mit einem bestimmten zufälligen Rauschen trainiert wird, wie Bagging.

Random Forests sind eine Art von Entscheidungsstruktur.

Zufällige Richtlinie

#rl

Der Begriff bestärkendes Lernen Richtlinie, in der ein Aktion nach dem Zufallsprinzip.

Ranking

Eine Art von überwachtem Lernen, deren ist es, eine Liste von Elementen anzuordnen.

Rang (Ordinalität)

Die ordinale Position einer Klasse bei einem ML-Problem, bei dem Klassen von der höchsten zur niedrigsten Priorität. Ein Beispiel: Eine Verhaltensrangfolge die Prämien eines Hundes vom höchsten (Steak) bis niedrigster (verwelkter Grünkohl).

Rang (Tensor)

#TensorFlow

Die Anzahl der Dimensionen in einem Tensor. Beispiel: Ein Skalar hat Rang 0, ein Vektor den Rang 1 und eine Matrix den Rang 2.

Nicht zu verwechseln mit Rang (Ordinalität).

Bewerter

#fundamentals

Ein Nutzer, der Labels für Beispiele bereitstellt. „Kommentator“ ist ein anderer Name für Evaluator.

Rückruf

Einen Messwert für Klassifizierungsmodelle, der die Antworten folgende Frage:

Als Ground Truth positive Klasse, wie viel Prozent der Vorhersagen haben dass das Modell korrekt als positive Klasse identifiziert wird?

Die Formel lautet:

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

Dabei gilt:

  • Richtig positiv bedeutet, dass das Modell die positive Klasse richtig vorhergesagt hat.
  • Falsch-negativ bedeutet, dass das Modell das Ergebnis fälschlicherweise vorhergesagt hat ausschließende Klasse.

Angenommen, Ihr Modell hat 200 Vorhersagen für Beispiele getroffen, für welche die positive Klasse. Von diesen 200 Vorhersagen:

  • 180 echt positive Ergebnisse.
  • 20 waren falsch negative Ergebnisse.

In diesem Fall gilt:

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

Siehe Klassifizierung: Genauigkeit, Trefferquote, Genauigkeit und verwandte Messwerte .

Empfehlungssystem

#recsystems

Ein System, das für jeden Nutzer eine relativ kleine Gruppe von gewünschten Elemente aus einem großen Korpus auswählen. Ein Videoempfehlungssystem kann beispielsweise zwei Videos empfehlen, aus einem Korpus von 100.000 Videos auswählen, indem ich Casablanca und The Philadelphia Story für einen Nutzer und Wonder Woman und Black Panther. Ein Videoempfehlungssystem seine Empfehlungen auf Faktoren wie den folgenden basieren:

  • Filme, die von ähnlichen Nutzern bewertet oder angesehen wurden.
  • Genre, Regisseure, Schauspieler, demografische Zielgruppe...

Rektifizierte Lineareinheit (ReLU)

#fundamentals

Eine Aktivierungsfunktion mit folgendem Verhalten:

  • Wenn die Eingabe negativ oder null ist, ist die Ausgabe 0.
  • Wenn die Eingabe positiv ist, ist die Ausgabe gleich der Eingabe.

Beispiel:

  • Wenn die Eingabe -3 ist, ist die Ausgabe 0.
  • Wenn die Eingabe +3 ist, ist die Ausgabe 3,0.

Hier ist ein ReLU-Diagramm:

Ein kartesisches Diagramm mit zwei Linien. Die erste Linie hat eine Konstante,
          y-Wert von 0, der entlang der x-Achse von -unendlich,0 bis 0,-0 verläuft.
          Die zweite Zeile beginnt bei 0,0. Diese Linie hat eine Steigung von +1,
          von 0,0 bis +unendlich,+unendlich.

ReLU ist eine sehr beliebte Aktivierungsfunktion. Trotz des einfachen Verhaltens Mit ReLU kann ein neuronales Netzwerk weiterhin nonlinear lernen Beziehungen zwischen Merkmalen und dem Label.

Recurrent Neural Network

#seq

Ein neuronales Netzwerk, das absichtlich mehrere wobei Teile jedes Laufs in den nächsten Durchlauf übertragen werden. Insbesondere Aus der vorherigen Ausführung ausgeblendete Layers stellen einen Teil des in denselben verborgenen Layer mehr. Wiederkehrende neuronale Netzwerke sind besonders nützlich bei der Auswertung von Sequenzen, sodass die verborgenen Layer aus früheren Durchläufen des neuronalen Netzwerks in früheren Teilen der Sequenz zu verstehen.

Die folgende Abbildung zeigt beispielsweise ein wiederkehrendes neuronales Netzwerk, viermal ausgeführt wird. Beachten Sie, dass die Werte, die in den ausgeblendeten Layern aus der wird die erste Ausführung Teil der Eingabe in dieselben verborgenen Layers in beim zweiten Durchlauf. Die Werte, die in der verborgenen Ebene auf der Teil der Eingabe für denselben verborgenen Layer in der beim dritten Durchlauf. Auf diese Weise wird das Recurrent neuronale Netzwerk nach und nach trainiert und sagt die Bedeutung der gesamten Sequenz und nicht nur die Bedeutung voraus aus einzelnen Wörtern.

Ein RNN, der viermal ausgeführt wird, um vier Eingabewörter zu verarbeiten.

Regressionsmodell

#fundamentals

Informell ein Modell, das eine numerische Vorhersage generiert. (Im Gegensatz dazu Ein Klassifizierungsmodell generiert eine Klasse. prediction.) Im Folgenden sehen Sie beispielsweise alle Regressionsmodelle:

  • Ein Modell, das den Wert eines bestimmten Hauses vorhersagt,z. B. 423.000 €.
  • Modell, das die Lebenserwartung eines bestimmten Baums vorhersagt, z. B. 23,2 Jahre.
  • Modell, das die Regenmenge vorhersagt, die in einer bestimmten Stadt fallen wird innerhalb der nächsten sechs Stunden, z. B. 0,18 Zoll.

Zwei gängige Arten von Regressionsmodellen sind:

  • Lineare Regression, mit der die Gerade ermittelt wird, passt Labelwerte zu Features.
  • Logistische Regression, die eine Wahrscheinlichkeit zwischen 0,0 und 1,0, dass ein System typischerweise einer Klasse zuordnet eine Vorhersage treffen.

Nicht jedes Modell, das numerische Vorhersagen ausgibt, ist ein Regressionsmodell. Manchmal ist eine numerische Vorhersage eigentlich nur ein Klassifizierungsmodell. numerische Klassennamen. Beispiel: Ein Modell, das ist eine numerische Postleitzahl ein Klassifizierungsmodell, kein Regressionsmodell.

Regularisierung

#fundamentals

Jeder Mechanismus, der eine Überanpassung reduziert. Zu den beliebten Regularisierungstypen gehören:

Regularisierung kann auch als Strafe für die Komplexität eines Modells definiert werden.

Regularisierungsrate

#fundamentals

Zahl, die die relative Bedeutung von Regularisierung während des Trainings. Anheben der Regularisierungsrate reduziert die Überanpassung, kann aber die Vorhersageleistung des Modells reduzieren. Umgekehrt kann das Reduzieren oder Auslassen erhöht die Regularisierungsrate die Überanpassung.

Reinforcement Learning (RL)

#rl

Eine Familie von Algorithmen, die eine optimale Richtlinie lernen, deren Ziel den Return on Investment bei der Interaktion mit eine Umgebung. Die ultimative Belohnung für die meisten Spiele ist beispielsweise der Sieg. Bestärkende Lernsysteme können zu Experten für komplexe Prozesse werden Sequenzen früherer Spielzüge bewertet, die letztendlich zu Siegen und Sequenzen, die schließlich zu Niederlagen führten.

Bestärkendes Lernen durch menschliches Feedback (RLHF)

#generativeAI
#rl

Feedback von Prüfern nutzen, um die Qualität der Antworten eines Modells zu verbessern. Ein RLHF-Mechanismus kann Nutzende beispielsweise bitten, die Qualität eines Modells Antwort mit einem 👍- oder 👎-Emoji. Das System kann dann die zukünftigen Antworten basierend auf diesem Feedback.

ReLU

#fundamentals

Kürzel für Rektifizierte lineare Einheit.

Replay-Zwischenspeicher

#rl

In DQN-ähnlichen Algorithmen ist der vom Agent verwendete Arbeitsspeicher Statusübergänge zur Verwendung in Wiederholung der Erfahrung:

Replikat

Eine Kopie des Trainings-Datasets oder Modells normalerweise auf einem anderen Computer. Ein System könnte beispielsweise Folgendes verwenden: Strategie zur Implementierung der Datenparallelität:

  1. Platzieren Sie Replikate eines vorhandenen Modells auf mehreren Rechnern.
  2. Senden Sie unterschiedliche Teilmengen des Trainings-Datasets an jedes Replikat.
  3. Aggregieren Sie die Aktualisierungen des Parameters.

Berichtsverzerrung

#fairness

Die Tatsache, dass die Häufigkeit, mit der Menschen über Handlungen schreiben, Ergebnisse oder Eigenschaften nicht ihre reale Umgebung Häufigkeiten oder der Grad, in dem eine Eigenschaft charakteristisch ist für eine Klasse von Individuen. Berichtsverzerrung kann Einfluss auf die Zusammensetzung haben von Daten, aus denen ML-Systeme lernen.

In Büchern ist beispielsweise das Wort gelacht weit verbreiteter als atmet. Ein ML-Modell, das die relative Häufigkeit von durch Lachen und Atmen in einem Buchkorpus dass Lachen häufiger als Atmen ist.

Darstellung

Die Zuordnung von Daten zu nützlichen Funktionen.

Re-Ranking

#recsystems

Die letzte Phase eines Empfehlungssystems, in denen bewertete Elemente möglicherweise gemäß anderen (in der Regel kein ML-Algorithmus). Beim Re-Ranking wird die Liste der Elemente bewertet. die in der Bewertungsphase generiert werden. Dazu gehören:

  • Artikel, die der Nutzer bereits gekauft hat, werden entfernt.
  • Neuere Artikel gewinnen

Retrieval-Augmented Generation (RAG)

#fundamentals

Eine Technik zur Verbesserung der Qualität Large Language Model (LLM)-Ausgabe durch Wissensquellen, die nach dem Trainieren des Modells abgerufen wurden. RAG verbessert die Genauigkeit von LLM-Antworten, indem das trainierte LLM mit Zugriff auf Informationen aus vertrauenswürdigen Wissensdatenbanken oder Dokumenten

Häufige Beweggründe für die Nutzung von „Retrieval Augmented Generation“ sind:

  • Die faktische Genauigkeit der generierten Antworten eines Modells erhöhen.
  • Gewährt dem Modell Zugriff auf Informationen, mit denen es nicht trainiert wurde.
  • Ändern des Wissens, das das Modell verwendet.
  • Das Modell zum Zitieren von Quellen aktivieren

Angenommen, eine Chemie-App verwendet das PaLM API zum Generieren von Zusammenfassungen die sich auf Nutzeranfragen beziehen. Wenn das Back-End der Anwendung eine Abfrage empfängt, geschieht Folgendes:

  1. Sucht nach Daten, die für die Suchanfrage des Nutzers relevant sind („abruft“)
  2. Hängt die relevanten Chemiedaten an die Suchanfrage des Nutzers an.
  3. Weist das LLM an, anhand der angehängten Daten eine Zusammenfassung zu erstellen.

Zeilenumbruch

#rl

Beim Reinforcement Learning, bei einer bestimmten Richtlinie und einem bestimmten Status, Return ist die Summe aller Prämien, die der Agent erhalten hat. erwartet, wenn sie den Richtlinien aus dem State am Ende der Folge hinzugefügt. Der Agent berücksichtigt die verzögerte Art erwarteter Prämien durch Rabatte gemäß den für den Erhalt der Prämie erforderlichen Statusübergängen.

Wenn der Rabattfaktor also \(\gamma\)und \(r_0, \ldots, r_{N}\)ist bis zum Ende der Folge die Belohnungen kennzeichnen, lautet:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

Prämie

#rl

Beim Reinforcement Learning ist das numerische Ergebnis einer action in einem Status gemäß der Definition der Umgebung.

Ridge-Regularisierung

Synonym für L2-Regularisierung. Der Begriff Die Rand-Regularisierung wird häufiger in reinen Statistiken verwendet. Kontexte, während die L2-Regularisierung häufiger verwendet wird beim maschinellen Lernen.

RNN

#seq

Abkürzung für recurrent Neural Networks.

ROC-Kurve (Receiver Operating Curve, Receiver Operating Curve)

#fundamentals

Ein Diagramm mit der Rate wirklich positiver Ergebnisse im Vergleich zu Rate falsch positiver Ergebnisse für verschiedene Klassifizierungsschwellenwerte in Binärcode Klassifizierung.

Die Form einer ROC-Kurve deutet auf die Fähigkeit eines binären Klassifizierungsmodells hin. um positive von negativen Klassen zu trennen. Nehmen wir zum Beispiel an, dass ein binäres Klassifizierungsmodell alle negativen Klassen aus allen positiven Klassen:

Eine Zahlenreihe mit acht positiven Beispielen auf der rechten Seite und
          Sieben negative Beispiele links.

Die ROC-Kurve für das vorherige Modell sieht so aus:

Eine ROC-Kurve. Die x-Achse steht für die Rate falsch positiver Ergebnisse und die y-Achse
          ist die Richtig-Positiv-Rate. Die Kurve hat eine umgekehrte L-Form. Die Kurve
          beginnt bei (0.0,0.0) und geht direkt bis (0.0,1.0). Dann ist die Kurve
          ändert sich von (0.0,1.0) nach (1.0,1.0).

Im Gegensatz dazu wird in der folgenden Abbildung die rohe logistische Regression grafisch dargestellt. für ein schreckliches Modell, das negative Klassen nicht von keine positiven Klassen haben:

Eine Zahlenlinie mit positiven Beispielen und negativen Klassen
          vollständig vermischt sind.

Die ROC-Kurve für dieses Modell sieht so aus:

Eine ROC-Kurve, die eigentlich eine gerade Linie von (0,0,0,0) ist
          bis (1.0;1.0).

In der realen Welt sind die meisten binären Klassifizierungsmodelle bis zu einem gewissen Grad an positiven und negativen Klassen, aber normalerweise nicht perfekt. Also: liegt eine typische ROC-Kurve irgendwo zwischen den beiden Extremen:

Eine ROC-Kurve. Die x-Achse steht für die Rate falsch positiver Ergebnisse und die y-Achse
          ist die Richtig-Positiv-Rate. Die ROC-Kurve entspricht einem wackeligen Bogen.
          die Kompasspunkte von Westen nach Norden durchlaufen.

Der Punkt auf einer ROC-Kurve, der (0.0,1.0) am nächsten liegt, identifiziert theoretisch den idealen Klassifizierungsschwellenwert. Es gibt jedoch auch andere Probleme, die Auswahl des idealen Klassifizierungsschwellenwerts beeinflussen. Beispiel: haben vielleicht falsch negative Ergebnisse weitaus mehr Schmerz als falsch positive Ergebnisse.

Der numerische Messwert AUC fasst die ROC-Kurve in einen einzelnen Gleitkommawert.

Rollen-Prompting

#language
#generativeAI

Optionaler Teil einer Aufforderung zur Angabe einer Zielgruppe für die Antwort eines Generative-AI-Modells. Ohne Rolle bietet ein Large Language Model eine Antwort, die nützlich oder unbrauchbar ist für die Person, die die Fragen stellt. Mit einer Rollenaufforderung, einer großen Sprache Modell antworten kann, die für eine bestimmte Person passender und hilfreicher sind. für eine bestimmte Zielgruppe. Beispiel: Der Rollen-Prompt-Teil von Prompts sind fett formatiert:

  • Fasse diesen Artikel für einen Doktortitel in Wirtschaft zusammen.
  • Beschreiben Sie, wie die Gezeiten bei einem Zehnjährigen funktionieren.
  • Erklären Sie die Finanzkrise von 2008. Sprechen Sie wie Sie mit einem kleinen Kind, oder Golden Retriever.

Stamm

#df

Den Startknoten (der erste Knoten) Bedingung) in einem Entscheidungsbaum an. Konventionsgemäß wird in Diagrammen die Wurzel oben im Entscheidungsbaum platziert. Beispiel:

Ein Entscheidungsbaum mit zwei Bedingungen und drei Blättern. Die
          Ausgangsbedingung (x > 2) ist die Wurzel.

Stammverzeichnis

#TensorFlow

Das Verzeichnis, das Sie zum Hosten von Unterverzeichnissen von TensorFlow angeben Prüfpunkt- und Ereignisdateien mehrerer Modelle.

Wurzel der mittleren Fehlerquadratsumme (Root Mean Squared Error, RMSE)

#fundamentals

Die Quadratwurzel des mittleren quadratischen Fehlers.

Rotationsinvarianz

#image

Bei einem Bildklassifizierungsproblem kann die Fähigkeit eines Algorithmus, Bilder klassifizieren, auch wenn sich ihre Ausrichtung ändert. Beispiel: erkennt der Algorithmus einen Tennisschläger immer, ob er nach oben zeigt, seitwärts oder nach unten. Beachten Sie, dass eine Rotationsinvarianz nicht immer erwünscht ist. Eine umgedrehte 9 sollte beispielsweise nicht als 9 klassifiziert werden.

Siehe auch Translational Invarianz und Größeninvarianz:

R-Quadrat

einen Regressionsmesswert, der angibt, wie groß die Abweichung eines label bezieht sich auf ein einzelnes Element oder einen Elementsatz. Das R-Quadrat ist ein Wert zwischen 0 und 1, den Sie so interpretieren können:

  • Ein R-Quadrat von 0 bedeutet, dass keine Variante eines Labels auf das Funktionen.
  • Ein R-Quadrat von 1 bedeutet, dass die gesamte Abweichung einer Beschriftung auf das Funktionen.
  • Ein R-Quadrat zwischen 0 und 1 gibt an, wie stark die Beschriftung Variation von einer bestimmten Funktion oder dem Merkmalssatz vorhergesagt werden kann. Beispiel: Ein R-Quadrat von 0,10 bedeutet, dass 10 Prozent der Varianz im Label ist auf den Merkmalssatz zurückzuführen.Ein R-Quadrat von 0,20 bedeutet, dass 20 Prozent ist auf den Funktionssatz zurückzuführen usw.

R-Quadrat ist das Quadrat von Pearson-Korrelation Koeffizient zwischen den von einem Modell vorhergesagten Werten und Ground Truth.

S

Stichprobenverzerrung

#fairness

Siehe Auswahlverzerrung.

Stichprobennahme mit Ersatz

#df

Eine Methode zur Auswahl von Elementen aus einer Reihe von Kandidaten, bei denen dieselben kann mehrfach ausgewählt werden. Die Wortgruppe "mit Ersatz" bedeutet Nach jeder Auswahl wird das ausgewählte Element an den Pool zurückgegeben möglicher Elemente. Bei der Umkehrmethode, Stichproben ohne Ersetzung, bedeutet, dass ein Kandidatenelement nur einmal ausgewählt werden kann.

Betrachten Sie zum Beispiel die folgende Obstmenge:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Angenommen, das System wählt fig nach dem Zufallsprinzip als erstes Element aus. Wenn Sie die Stichprobenerhebung als Ersatz verwenden, wählt das System die das zweite Element aus dem folgenden Satz:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Ja, das sind die gleichen Einstellungen wie zuvor. Das System könnte also und wählen Sie noch einmal fig aus.

Wenn Sie die Stichprobenerhebung ohne Ersatz verwenden, kann eine Stichprobe nach der Auswahl nicht mehr ausgewählt haben. Wenn das System z. B. fig nach dem Zufallsprinzip als erste Stichprobe, dann kann fig nicht noch einmal ausgewählt werden. Daher wird das System wählt die zweite Stichprobe aus dem folgenden (reduzierten) Satz aus:

fruit = {kiwi, apple, pear, cherry, lime, mango}

SavedModel

#TensorFlow

Das empfohlene Format zum Speichern und Wiederherstellen von TensorFlow-Modellen. SavedModel ist ein sprachneutrales, wiederherstellbares Serialisierungsformat, mit dem übergeordnete Systeme und Tools zur Erstellung, Nutzung und Transformation von TensorFlow. Modelle.

Weitere Informationen finden Sie im Kapitel Speichern und wiederherstellen. finden Sie im TensorFlow-Programmierhandbuch.

Kostengünstig

#TensorFlow

Ein TensorFlow-Objekt für das Speichern der Modellprüfpunkte verantwortlich.

Skalar

Eine einzelne Zahl oder ein einzelner String, der als tensor von Rang 0. Beispiel: Codezeilen erstellen jeweils einen Skalar in TensorFlow:

breed = tf.Variable("poodle", tf.string)
temperature = tf.Variable(27, tf.int16)
precision = tf.Variable(0.982375101275, tf.float64)

Skalierung

Jede mathematische Transformation oder Technik, die den Bereich einer Beschriftung verschiebt und/oder den Wert des Features. Einige Arten der Skalierung sind für Transformationen sehr nützlich wie die Normalisierung.

Zu den gängigen Formen der Skalierung, die beim maschinellen Lernen nützlich sind, gehören:

  • lineare Skalierung, die in der Regel eine Kombination aus Subtraktion und Dividieren, um den ursprünglichen Wert durch eine Zahl zwischen -1 und +1 zu ersetzen, oder zwischen 0 und 1 liegen.
  • logarithmische Skalierung, bei der der ursprüngliche Wert durch seine Logarithmus.
  • Normalisierung für den Z-Wert: ersetzt die mit einem Gleitkommawert, der die Anzahl der Standardabweichungen vom Mittelwert dieser Funktion.

scikit-learn

Eine beliebte Open-Source-Plattform für maschinelles Lernen. Weitere Informationen finden Sie unter scikit-learn.org

Bewertung

#recsystems

Der Teil eines Empfehlungssystems, einen Wert oder eine Rangfolge für jeden vom Kandidatenerstellung.

Auswahlverzerrung

#fairness

Fehler in Schlussfolgerungen aus Stichprobendaten aufgrund eines Auswahlprozesses die systematische Unterschiede zwischen Stichproben erzeugt, die in den Daten beobachtet werden. und solche, die nicht beobachtet wurden. Es gibt die folgenden Formen der Auswahlverzerrung:

  • Abdeckungsverzerrung: Die im Dataset dargestellte Population weist der Population entsprechen, die das ML-Modell erstellt, zu denen Sie Vorhersagen treffen können.
  • Stichprobenverzerrung: Die Daten der Zielgruppe werden nicht nach dem Zufallsprinzip erfasst.
  • Non-Response-Verzerrungen (auch Teilnahmeverzerrung genannt): Nutzer aus bestimmte Gruppen die Teilnahme an Umfragen unterschiedlich oft aus als Nutzer, an denen anderen Gruppen.

Angenommen, Sie erstellen ein ML-Modell, wie Menschen einen Film genießen. Um Trainingsdaten zu erfassen, Sie verteilen eine Umfrage an alle in der ersten Reihe eines Theaters in dem der Film gezeigt wird. Das klingt vielleicht ganz vernünftig, um ein Dataset zu sammeln. Diese Form der Datenerhebung kann jedoch die folgenden Formen der Auswahlverzerrung einzuführen:

  • Abdeckungsverzerrung: Stichproben werden von einer Population herangezogen, die sich die Vorhersagen des Modells nicht auf Personen verallgemeinern, die dieses Interesse an dem Film noch nicht bekundet haben.
  • Stichprobenverzerrung: Statt einer zufälligen Stichprobe aus dem der beabsichtigten Bevölkerung (alle Personen aus dem Film), die Sie nur stichprobenartig ausgewählt haben die Menschen in der ersten Reihe. Es ist möglich, dass die sitzenden Personen in der ersten Reihe interessierten sich mehr für den Film als für diejenigen in der anderen Zeilen.
  • Nichtreaktionsverzerrung: Im Allgemeinen neigen Menschen mit starken Meinungen dazu, häufiger an optionalen Umfragen teilnehmen als Personen mit Meinungen. Da die Filmumfrage optional ist, bilden mit höherer Wahrscheinlichkeit bimodale Verteilung als die normale (glockenförmige) Verteilung.

Selbstaufmerksamkeit (auch Selbstaufmerksamkeitsschicht genannt)

#language

Eine neuronale Netzwerkschicht, die eine Folge von Einbettungen (z. B. Token-Einbettungen) in eine andere Einbettungssequenz umwandeln. Jede Einbettung in der Ausgabesequenz ist durch Integration von Informationen aus den Elementen der Eingabesequenz konstruiert. durch einen Aufmerksamkeitsmechanismus.

Der Teil Selbst der Selbstaufmerksamkeit bezieht sich auf die Reihenfolge, und nicht in einen anderen Kontext. Selbstaufmerksamkeit ist eine der wichtigsten für Transformers und verwendet die Wörterbuchsuche Begriffe wie „Abfrage“, „Schlüssel“ und „Wert“.

Eine Selbstaufmerksamkeitsschicht beginnt mit einer Reihe von Eingabedarstellungen. für jedes Wort ein. Die Eingabedarstellung für ein Wort kann ein einfaches und Einbettungen. Für jedes Wort in einer Eingabesequenz weist das Netzwerk bewertet die Relevanz des Wortes für jedes Element in der gesamten Wörter. Die Relevanzwerte bestimmen, wie stark die endgültige Darstellung des Wortes die Darstellungen anderer Wörter enthält.

Betrachten Sie zum Beispiel den folgenden Satz:

Das Tier ist nicht über die Straße gegangen, weil es so müde war.

Die folgende Abbildung (aus Transformer: Eine neuartige neuronale Netzwerkarchitektur für Sprachen Verständnis) zeigt das Aufmerksamkeitsmuster der Selbstaufmerksamkeitsschicht für das Pronomen it, wobei die Dunkelheit jeder Zeile, die angibt, wie viel jedes Wort zum Darstellung:

Der folgende Satz kommt zweimal vor: Das Tier hat das
          weil sie zu müde war. Das Pronomen, in dem es enthalten ist, werden durch Linien verbunden.
          ein Satz bis fünf Münzen (das, das Tier, die Straße, das
          Punkt) im anderen Satz.  Die Linie zwischen dem Pronomen
          und das Wort Tier am stärksten.

Die Ebene der Selbstaufmerksamkeit hebt Wörter hervor, die für „sie“ relevant sind. In dieser hat die Aufmerksamkeitsschicht gelernt, Wörter hervorzuheben, die möglicherweise Tier das höchste Gewicht zuweisen.

Für eine Sequenz von n Tokens transformiert Selbstaufmerksamkeit eine Sequenz von Einbettungen n Mal getrennt, einmal an jeder Position der Sequenz.

Weitere Informationen finden Sie unter Aufmerksamkeit und mehrköpfige Selbstaufmerksamkeit.

selbstüberwachtes Lernen

Eine Reihe von Techniken zum Umwandeln eines Problem mit unüberwachtem maschinellem Lernen in ein Problem mit überwachtem maschinellem Lernen verwandelt indem Sie Ersatz-Labels aus Beispiele ohne Label.

Einige Transformer-basierte Modelle wie BERT verwenden selbstüberwachtes Lernen.

Selbstüberwachtes Training ist halbüberwachten Ansatz.

Selbsttraining

Eine Variante des selbstüberwachten Lernens, bei der besonders nützlich, wenn alle der folgenden Bedingungen erfüllt sind:

Beim Selbsttraining werden die folgenden zwei Schritte iteriert, bis das Modell stoppt die Verbesserung:

  1. Mit überwachtem maschinellem Lernen können Sie Folgendes tun: ein Modell anhand der beschrifteten Beispiele trainieren.
  2. Verwenden Sie das in Schritt 1 erstellte Modell, um Vorhersagen (Labels) für die Beispiele ohne Label und verschieben Sie Beispiele mit hoher Konfidenz in die mit dem vorhergesagten Label gekennzeichneten Beispiele.

In jeder Iteration von Schritt 2 werden weitere beschriftete Beispiele für Schritt 1 hinzugefügt, weiter trainieren.

halbüberwachtes Lernen

Modell mit Daten trainieren, bei denen einige der Trainingsbeispiele Labels haben, aber andere nicht. Eine Technik für das semiüberwachte Lernen besteht darin, Beschriftungen den Beispielen ohne Label und trainieren Sie dann mit den abgeleiteten Labels, um ein neues Modell. Halbüberwachtes Lernen kann nützlich sein, wenn die Beschaffung von Labels kostspielig ist aber es gibt zahlreiche Beispiele ohne Label.

Selbsttraining ist eine Technik bei halbüberwachten zu lernen.

sensibles Attribut

#fairness
Ein menschliches Attribut, das bei rechtlichen, ethischen, sozialen oder persönlichen Gründen.

Sentimentanalyse

#language

Den Erfolg einer Gruppe mithilfe statistischer Algorithmen oder Algorithmen des maschinellen Lernens zu bestimmen. eine positive oder negative Einstellung zu einer Dienstleistung, Organisation oder Thema. Wenn Sie beispielsweise Natural Language Understanding könnte ein Algorithmus eine Sentimentanalyse des Textfeedbacks durchführen, eines Universitätskurses, um den Abschluss zu bestimmen, den Kurs insgesamt gefallen oder nicht.

Sequenzmodell

#seq

Ein Modell, dessen Eingaben eine sequenzielle Abhängigkeit haben. Zum Beispiel kann die Vorhersage das nächste angesehene Video aus einer Reihe zuvor angesehener Videos.

Sequenz-zu-Sequenz-Task

#language

Eine Aufgabe, die eine Eingabesequenz von Tokens in eine Ausgabe umwandelt Sequenz von Tokens. Zwei beliebte Arten von Sequenz-zu-Sequenz-Tags, Aufgaben:

  • Übersetzer: <ph type="x-smartling-placeholder">
      </ph>
    • Beispiel-Eingabesequenz: „Ich liebe dich.“
    • Beispielausgabesequenz: „Je t'aime“
  • Question Answering: <ph type="x-smartling-placeholder">
      </ph>
    • Beispiel für eine Eingabesequenz: „Brauche ich mein Auto in New York City?“
    • Beispielausgabesequenz: „Nein. Bitte lass dein Auto zu Hause.“

Portion

Der Prozess, bei dem ein trainiertes Modell für Vorhersagen über Online-Inferenz oder Offline-Inferenz:

Form (Tensor)

Die Anzahl der Elemente in jeder Dimension eines Tensor. Die Form wird als Liste von Ganzzahlen dargestellt. Beispiel: hat der folgende zweidimensionale Tensor die Form [3,4]:

[[5, 7, 6, 4],
 [2, 9, 4, 8],
 [3, 6, 5, 1]]

TensorFlow verwendet das C-Style-Format (Row-Major), um die Reihenfolge Dimensionen. Deshalb lautet die Form in TensorFlow [3,4] und nicht [4,3]. Mit anderen Worten: Bei einem zweidimensionalen TensorFlow-Tensor ist die Form ist [Anzahl der Zeilen, Anzahl der Spalten].

Eine statische Form ist eine Tensorform, die zum Zeitpunkt der Kompilierung bekannt ist.

Eine dynamische Form ist bei der Kompilierung unbekannt und wird daher von Laufzeitdaten abhängig. Dieser Tensor könnte mit einem Platzhalterdimension in TensorFlow, wie in [3, ?].

Shard

#TensorFlow
#GoogleCloud

Eine logische Unterteilung des Trainings-Datasets oder des model. In der Regel erstellt ein Prozess Shards, indem er die Beispiele oder Parameter in (normalerweise) gleich groß sind. Jeder Shard wird dann einer anderen Maschine zugewiesen.

Die Fragmentierung eines Modells wird als Modellparallelität bezeichnet. Das Fragmentieren von Daten wird als Datenparallelität bezeichnet.

Schrumpfung

#df

Einen Hyperparameter in Gradientenverstärkung zur Steuerung Überanpassung. Verkleinerung beim Gradienten-Boosting ist analog zur Lernrate in Gradientenverfahren: Die Schrumpfung wird als Dezimalzahl angegeben. zwischen 0,0 und 1,0 liegt. Ein niedrigerer Verkleinerungswert reduziert die Überanpassung. größer als ein größerer Verkleinerungswert ist.

Sigmoidfunktion

#fundamentals

Eine mathematische Funktion, die „zerquetscht“ einen Eingabewert in einen beschränkten Bereich normalerweise 0 bis 1 oder -1 bis +1. Das heißt, Sie können jede Zahl (zwei, eine Million, negative Milliarden oder irgendetwas) in ein Sigmoid wandeln und das Ergebnis immer noch in der eingeschränkten Bereich an. Ein Diagramm der Sigmoid-Aktivierungsfunktion sieht so aus:

Ein zweidimensionales, gebogenes Diagramm mit x-Werten, die die Domain umfassen
          -endlos zu +positiv, während y-Werte einen Bereich von fast 0 bis
          Fast 1. Wenn x 0 ist, ist y 0,5. Die Steigung der Kurve ist immer gleich
          positiv, wobei die höchste Steigung bei 0,0,5 liegt und allmählich abnimmt.
          wenn der Absolutwert von x ansteigt.

Die Sigmoidfunktion kann im maschinellen Lernen zu verschiedenen Zwecken eingesetzt werden:

Ähnlichkeitsmesswert

#clustering

In Clustering-Algorithmen wird der Messwert zur Bestimmung wie ähnlich (wie ähnlich) die beiden Beispiele sind.

Ein Programm / mehrere Daten (SPMD)

Parallelitätstechnik, bei der dieselbe Berechnung für verschiedene Eingaben ausgeführt wird Daten parallel auf verschiedenen Geräten senden. Ziel von SPMD ist es, schneller zu wechseln. Dies ist der gängigste Stil der parallelen Programmierung.

Größeninvarianz

#image

Bei einem Bildklassifizierungsproblem kann die Fähigkeit eines Algorithmus, Bilder klassifizieren, auch wenn sich ihre Größe ändert. Beispiel: kann der Algorithmus trotzdem ob 2 Mio. oder 200.000 Pixel verbraucht werden. Beachten Sie, dass selbst die besten Bildklassifizierungsalgorithmen haben immer noch praktische Beschränkungen in Bezug auf Größenabweichungen. Es ist beispielsweise unwahrscheinlich, dass ein Algorithmus (oder ein Mensch) ein Element korrekt klassifiziert. Katzenbild, das nur 20 Pixel verbraucht.

Siehe auch Translational Invarianz und Rotationsinvarianz:

Skizzieren

#clustering

Bei unüberwachtem maschinellem Lernen Kategorie von Algorithmen, die eine vorläufige Ähnlichkeitsanalyse durchführen zu Beispielen. Beim Skizzieren von Algorithmen <ph type="x-smartling-placeholder"></ph> ortsbezogene Hash-Funktion Punkte identifizieren, die wahrscheinlich ähnlich sind, und in Gruppen unterteilen.

Durch das Skizzieren fallen weniger Berechnungen für Ähnlichkeitsberechnungen an. großen Datasets arbeiten. Anstatt die Ähnlichkeit für jedes einzelne Element zu berechnen, Beispielpaar im Dataset, berechnen wir die Ähnlichkeit nur für jedes Paar von Punkten in jedem Bucket.

skip-gram

#language

Ein N-Gramm, das Wörter im Original weglassen (oder „überspringen“) kann Kontext, d. h., die N Wörter standen möglicherweise nicht aneinander. Mehr genau ein „k-skip-n-gram“ ist ein N-Gramm, für das bis zu k Wörter wurden übersprungen.

Beispiel: „der schnelle braune Fuchs“ hat folgende mögliche 2-Gramme:

  • „The Quick“
  • "Quick Braun"
  • „Braun Fuchs“

„1-skip-2-gram“ ist ein Paar aus Wörtern, zwischen denen höchstens ein Wort besteht. Deshalb ist „der schnelle braune Fuchs“ enthält die folgenden 1-Überspringen-2-Gramme:

  • "the braun"
  • "Quick Fox"

Außerdem sind alle 2 Gramme auch 1-überspringen-2-Gramm, da weniger als ein Wort übersprungen werden.

Überspringungsgramme sind nützlich, um den Kontext eines Wortes besser zu verstehen. Im Beispiel ist „fox“ direkt mit „schnell“ in Verbindung gebracht werden, in der Gruppe von 1-überspringen-2-Gramm, aber nicht in der Menge von 2-Grammen.

Skip-Gramme helfen beim Training Worteinbettungsmodelle.

Softmax-Funktion

#fundamentals

Eine Funktion, die Wahrscheinlichkeiten für jede mögliche Klasse in einer Klassifizierungsmodell mit mehreren Klassen. Die Wahrscheinlichkeiten addieren sich auf genau 1,0. Die folgende Tabelle zeigt beispielsweise, wie Softmax-Werte verschiedene Wahrscheinlichkeiten:

Bild ist... Probability
Hund 0,85
Katze ,13
Pferd ,02

Softmax wird auch Full Softmax genannt.

Im Gegensatz dazu können Sie mit der Stichprobenerhebung kontrastieren.

Feinabstimmung mit weichen Aufforderungen

#language
#generativeAI

Verfahren zur Abstimmung eines Large Language Models für eine bestimmte Aufgabe ohne ressourcenintensive Feinabstimmung: Anstatt alle weights im Modell, weiche Prompt-Feinabstimmung passt einen Prompt automatisch an, um dasselbe Ziel zu erreichen.

Bei Eingabe eines Prompts in Textform, Feinabstimmung weicher Prompts hängt in der Regel zusätzliche Tokeneinbettungen an den Prompt an und verwendet Rückpropagierung, um die Eingabe zu optimieren.

Eine „schwierige“ Prompt enthält echte Tokens anstelle von Tokeneinbettungen.

dünnbesetztes Feature

#language
#fundamentals

Ein feature, dessen Werte überwiegend null oder leer sind. Ein Feature mit einem einzelnen 1-Wert und einer Million 0-Werten dünnbesetzt sind. Ein dichtes Feature hingegen hat Werte, meistens nicht null oder leer sind.

Beim maschinellen Lernen handelt es sich bei einer überraschenden Anzahl von Features um dünnbesetzte Features. Kategoriale Merkmale sind in der Regel dünnbesetzte Merkmale. Von den 300 möglichen Baumarten in einem Wald könnte ein einziges lediglich einen Ahornbaum erkennen. Oder von den Millionen in einer Videobibliothek gibt, könnte ein Beispiel nur „Casablanca“.

In einem Modell stellen Sie dünnbesetzte Features normalerweise mit One-Hot-Codierung. Wenn die One-Hot-Codierung groß ist, können Sie eine Einbettungsebene über das Bild One-Hot-Codierung für mehr Effizienz.

Dünnbesetzte Darstellung

#language
#fundamentals

Nur die Position(en) von Elementen ungleich null in einem dünnbesetzten Feature speichern.

Angenommen, ein kategoriales Feature namens species identifiziert die 36 in einem bestimmten Wald zu finden. Nehmen wir weiter an, dass jedes Beispiel für nur eine einzelne Spezies.

Sie können einen One-Hot-Vektor verwenden, um die Baumarten in jedem Beispiel darzustellen. Ein One-Hot-Vektor würde einen einzelnen 1 enthalten (um die jeweilige Baumart in diesem Beispiel) und 35 0s (zur Darstellung der 35 Baumarten nicht in diesem Beispiel). Die One-Hot-Darstellung von maple könnte etwa so aussehen:

Ein Vektor, in dem die Positionen 0 bis 23 den Wert 0 enthalten,
          24 enthält den Wert 1 und die Positionen 25 bis 35 den Wert 0.

Alternativ würde bei der dünnbesetzten Darstellung einfach die Position des bestimmte Spezies. Wenn sich maple auf Position 24 befindet, ist die dünnbesetzte Darstellung von maple wäre einfach:

24

Beachten Sie, dass die dünnbesetzte Darstellung viel kompakter ist als die One-Hot-Darstellung. Darstellung.

Dünnbesetzter Vektor

#fundamentals

Ein Vektor, dessen Werte hauptsächlich Nullen sind. Siehe auch Sparse und spars zu nutzen.

dünne Besetzung

Die Anzahl der Elemente, die in einem Vektor oder einer Matrix auf null (oder null) gesetzt sind, geteilt durch die Gesamtzahl der Einträge in diesem Vektor oder dieser Matrix. Beispiel: betrachten wir eine Matrix mit 100 Elementen, in der 98 Zellen eine Null enthalten. Die Berechnung von wie folgt:

$$ {\text{sparsity}} = \frac{\text{98}} {\text{100}} = {\text{0.98}} $$

Die Merkmalsdichte bezieht sich auf die Dichte eines Featurevektors. Modellsparheit bezieht sich auf die Dichte der Modellgewichtung.

Spatial Pooling

#image

Siehe Pooling.

split

#df

In einem Entscheidungsbaum kann ein anderer Name condition [Zustand].

Splitter

#df

Beim Trainieren eines Entscheidungsbaums besteht die Routine (und den Algorithmus) für die Suche nach den besten Bedingung an jedem Knoten.

SPMD

Abkürzung für einzelnes Programm / mehrere Daten.

Scharnierverlust im Quadrat

Das Quadrat des Scharnierverlusts. Quadrat mit Scharnierverlust bestraft deutlicher als der normale Scharnierverlust.

Verlust im Quadrat

#fundamentals

Synonym für L2-Verlust.

Gestaffeltes Training

#language

Taktik zum Trainieren eines Modells in einer Abfolge diskreter Phasen. Das Ziel kann um das Training zu beschleunigen oder die Modellqualität zu verbessern.

Hier sehen Sie eine Abbildung des Progressive-Stacking-Ansatzes:

  • Phase 1 enthält drei versteckte Ebenen, Phase 2 sechs ausgeblendete Ebenen und Phase 3 enthält 12 versteckte Layer.
  • In Phase 2 beginnt das Training mit den erlernten Gewichten in den drei verborgenen Ebenen. Phase 1. In Phase 3 beginnt das Training mit den in der 6. mit verborgenen Ebenen in Phase 2.

Drei Phasen, die mit Phase 1, Phase 2 und Phase 3 beschriftet sind.
          Jede Phase enthält eine andere Anzahl von Ebenen: Phase 1 enthält
          Es gibt drei Ebenen, in Phase 2 gibt es sechs und in Phase 3 zwölf.
          Die drei Ebenen aus Phase 1 werden zu den ersten drei Ebenen von Phase 2.
          Genauso werden die sechs Schichten aus Phase 2 die ersten sechs Schichten des
          Phase 3:

Weitere Informationen finden Sie unter Pipelining.

Bundesstaat

#rl

Beim Reinforcement Learning sind die Parameterwerte, die den aktuellen Konfiguration der Umgebung, mit der der Agent und wählen Sie eine Aktion aus.

Zustandsaktionswert

#rl

Synonym für Q-Funktion.

statisch

#fundamentals

Etwas, das einmal und nicht kontinuierlich ausgeführt wird. Die Begriffe statisch und offline sind Synonyme. Im Folgenden werden häufige Verwendungen von statisch und offline auf Computern aufgeführt. Lernen:

  • Statisches Modell (oder Offline-Modell) ist ein Modell, das einmal trainiert wird. verwendet werden.
  • Statisches Training (oder Offline-Training) ist der Trainingsprozess eines statisches Modell.
  • Statische Inferenz (oder Offline-Inferenz) ist eine Prozess, bei dem ein Modell einen Batch von Vorhersagen gleichzeitig generiert.

Stellen Sie einen Kontrast mit Dynamisch her.

statische Inferenz

#fundamentals

Synonym für offline-inferenz.

Stationarität

#fundamentals

Eine Funktion, deren Werte sich in einer oder mehreren Dimensionen nicht ändern, in der Regel zeitlich. Eine Funktion, deren Werte 2021 ungefähr gleich aussehen, 2023 zeigt „Stationarität“.

In der Praxis weisen nur sehr wenige Merkmale eine stationäre Form auf. Funktionen mit gleichmäßiger Ausrichtung gleichbedeutend mit Veränderungen der Stabilität (wie dem Meeresspiegel) im Laufe der Zeit.

Im Kontrast zu Instationarität stehen.

Schritt

Eine Vor- und Rückwärtsterminierung eines Batch.

Weitere Informationen finden Sie unter Backpropagation. Vorwärts- und Rückwärtsterminierung.

Schrittgröße

Synonym für Lernrate.

Stochastic Gradient Decent (SGD)

#fundamentals

Ein Gradientenabstiegsalgorithmus, bei dem das Batchgröße ist eins. Mit anderen Worten: SGD ein einzelnes Beispiel, das einheitlich Zufallsauswahl aus einem Trainings-Dataset.

Stride

#image

Bei einem Faltungsvorgang oder einem Pooling ist das Delta in jeder Dimension des zur nächsten Reihe von Eingabesegmenten. Die folgende Animation zeigt beispielsweise zeigt einen (1,1) Schritt während einer Faltungsvorgang. Dementsprechend wird beginnt das nächste Eingabe-Slice eine Position rechts von der vorherigen Eingabe Segment. Wenn der Vorgang den rechten Rand erreicht, ist das nächste Segment nur eine Position nach unten verschoben.

Eine 5x5-Eingabematrix und ein 3x3-Faltungsfilter. Da die
     Schritt ist (1,1), wird ein Convolutional-Filter 9 Mal angewendet. Die erste
     Faltungssegment wertet die 3x3-Submatrix oben links der Eingabe aus
     Matrixstruktur. Das zweite Slice bewertet die obere Mitte 3x3.
     Submatrix. Das dritte Faltungssegment wertet oben rechts 3x3
     Submatrix.  Das vierte Segment wertet die 3x3-Submatrix Mitte links aus.
     Das fünfte Segment wertet die mittlere 3x3-Submatrix aus. Das sechste Segment
     wertet die 3x3-Submatrix Mitte rechts aus. Das siebte Segment wertet
     die 3x3-Submatrix unten links.  Das achte Segment wertet
     3x3-Submatrix unten mittig. Das neunte Slice wertet unten rechts 3x3 aus.
     Submatrix.

Das vorherige Beispiel zeigt einen zweidimensionalen Schritt. Wenn die Eingabe dreidimensional ist, ist auch der Schritt dreidimensional.

Strukturelle Risikominimierung (SRM)

Ein Algorithmus, mit dem zwei Ziele in Einklang gebracht werden können:

  • Die Notwendigkeit, ein möglichst Vorhersagemodell zu erstellen (z. B. der geringste Verlust).
  • Die Notwendigkeit, das Modell so einfach wie möglich zu halten (z. B. ein aussagekräftiges Regularisierung).

Eine Funktion, die den Verlust + Regularisierung auf der Trainings-Dataset ist ein Algorithmus zur Risikominimierung struktureller Natur.

Im Gegensatz zu empirischen Risikominimierung.

Subsampling

#image

Siehe Pooling.

Unterworttoken

#language

In Sprachmodellen ist ein Token, das ein Teilzeichenfolge eines Worts, bei der es sich um das ganze Wort handeln kann.

Zum Beispiel kann ein Wort wie „itemize“ in die Teile „item“ (ein Stammwort) und "ize" (ein Suffix), von denen jedes durch ein eigenes Token. Das Aufteilen ungewöhnlicher Wörter in solche Stücke, sogenannte Subwörter, ermöglicht Language Models, die mit den häufiger verwendeten Bestandteilen des Wortes arbeiten, wie Präfixe und Suffixe.

Übliche Wörter wie „auf dem Weg“ ist möglicherweise nicht aufgeteilt durch ein einzelnes Token dargestellt wird.

Zusammenfassung

#TensorFlow

In TensorFlow ist ein Wert oder eine Gruppe von Werten step: Wird normalerweise zum Verfolgen von Modellmesswerten während des Trainings verwendet.

überwachtes maschinelles Lernen

#fundamentals

Trainieren eines Modells anhand von Features und deren entsprechende Labels. Beim überwachten maschinellen Lernen indem sie eine Reihe von Fragen und ihre die entsprechenden Antworten. Nachdem Sie die Zuordnung zwischen Fragen und kann ein Schüler oder Student neue, noch nie gesehene zum selben Thema.

Vergleichen mit unüberwachtes maschinelles Lernen:

synthetisches Feature

#fundamentals

Eine Funktion, die nicht unter den Eingabefeatures vorhanden ist, jedoch die aus einem oder mehreren dieser Komponenten zusammengestellt wurden. Methoden zum Erstellen synthetischer Features umfassen Folgendes:

  • Bucketing eines fortlaufenden Features in Bereichsklassen.
  • Feature-Cross erstellen
  • Multiplizieren (oder Teilen) eines Featurewerts mit anderen Featurewerten oder für sich allein. Wenn beispielsweise a und b Eingabefeatures sind, dann Beispiele für synthetische Merkmale: <ph type="x-smartling-placeholder">
      </ph>
    • Ab
    • a2
  • Anwenden einer transzendentalen Funktion auf einen Featurewert. Beispiel: c ist ein Eingabefeature, dann sind folgende Beispiele für synthetische Merkmale: <ph type="x-smartling-placeholder">
      </ph>
    • sin(c)
    • ln(c)

Durch Normalisieren oder Skalieren erstellte Features werden nicht als synthetische Merkmale betrachtet.

T

T5

#language

Ein Modell für Lerntransfer von Text zu Text eingeführt von Google AI im Jahr 2020 T5 ist ein Encoder-Decoder-Modell, das auf dem Transformer-Architektur, trainiert mit einem extrem großen Dataset. Sie kann bei einer Vielzahl an Aufgaben im Bereich Natural Language Processing, z. B. Text generieren, Sprachen übersetzen und Fragen in dialogorientiert.

T5 ist nach den fünf Ts in „Text-to-Text Transfer Transformer“ benannt.

Logo: T5X

#language

Ein Open-Source-Framework für maschinelles Lernen, das entwickelt wurde, zum Erstellen und Trainieren von Natural Language Processing in großem Umfang (NLP-Modelle). T5 ist auf der T5X-Codebasis implementiert (die basierend auf JAX und Flax).

Tabellarisches Q-Learning

#rl

Beim bestärkenden Lernen Q-learning mithilfe einer Tabelle zum Speichern der Q-Funktionen für jede Kombination von state und action.

Ziel

Synonym für label.

Zielnetzwerk

#rl

In Deep Q-Learning, einem neuronalen Netzwerk, das eine stabile Approximation des neuronalen Hauptnetzwerks, wobei das neuronale Hauptnetzwerk Implementiert entweder eine Q-Funktion oder eine Richtlinie. Anschließend können Sie das Hauptnetzwerk mit den Q-Werten trainieren, die von der Ziel- Netzwerk. So vermeiden Sie eine Rückkopplung, die entsteht, wenn das Netzwerk mit Q-Werten trainiert, die von sich selbst vorhergesagt werden. Wenn Sie dieses Feedback vermeiden, die Trainingsstabilität erhöht.

Task (in computational context, see definition)

Ein Problem, das sich mit Techniken des maschinellen Lernens lösen lässt, wie zum Beispiel:

Temperatur

#language
#image
#generativeAI

Ein Hyperparameter, der den Grad der Zufälligkeit steuert eines Modells aus. Höhere Temperaturen führen zu mehr zufälligen Ergebnissen, während niedrigere Temperaturen zu einer weniger zufälligen Ausgabe führen.

Die Auswahl der besten Temperatur hängt von der jeweiligen Anwendung und die bevorzugten Attribute der Modellausgabe. Zum Beispiel würden Sie erhöhen wahrscheinlich die Temperatur, wenn Sie eine Anwendung erstellen, die Creative-Ausgabe generiert. Umgekehrt würden Sie wahrscheinlich auch die Temperatur wenn Sie ein Modell erstellen, das Bilder oder Text klassifiziert, um Genauigkeit und Konsistenz des Modells verbessern.

Die Temperatur wird oft mit Softmax verwendet.

Zeitliche Daten

Zu verschiedenen Zeitpunkten aufgezeichnete Daten. Beispiel: Wintermantelverkäufe die für jeden Tag des Jahres aufgezeichnet werden, sind zeitliche Daten.

Tensor

#TensorFlow

Die primäre Datenstruktur in TensorFlow-Programmen. Tensoren sind n-dimensional (wobei N sehr groß sein könnte) Datenstrukturen, in der Regel Skalare, Vektoren, oder Matrizen. Die Elemente eines Tensors können Ganzzahlen, Gleitkomma-, oder Zeichenfolgenwerten.

TensorBoard

#TensorFlow

Das Dashboard, das die Zusammenfassungen anzeigt, die während der Ausführung einer oder weitere TensorFlow-Programme.

TensorFlow

#TensorFlow

Eine groß angelegte, verteilte Plattform für maschinelles Lernen. Der Begriff bezieht sich auch auf der Basis-API-Ebene im TensorFlow-Stack, die allgemeine Berechnungen unterstützt zu Dataflow-Grafiken.

Obwohl TensorFlow in erster Linie für maschinelles Lernen verwendet wird, können Sie auch TensorFlow für Nicht-ML-Aufgaben, die numerische Berechnung mit Dataflow-Grafiken.

TensorFlow Playground

#TensorFlow

Ein Programm, das visualisiert, Hyperparameter beeinflussen das Modell (hauptsächlich neuronales Netzwerk) trainieren. Gehe zu <ph type="x-smartling-placeholder"></ph> http://playground.tensorflow.org um mit TensorFlow Playground zu experimentieren.

TensorFlow bereitstellen

#TensorFlow

Plattform zum Bereitstellen trainierter Modelle in der Produktion

Tensor Processing Unit (TPU)

#TensorFlow
#GoogleCloud

Ein anwendungsspezifischer integrierter Schaltkreis (ASIC), der den die Leistung von ML-Arbeitslasten. Diese ASICs werden als Mehrere TPU-Chips auf einem TPU-Gerät

Tensor-Rang

#TensorFlow

Siehe Rang (Tensor).

Tensor-Form

#TensorFlow

Die Anzahl der Elemente, die ein Tensor in verschiedenen Dimensionen enthält. Ein [5, 10]-Tensor hat beispielsweise eine Form von 5 in einer Dimension und eine Form von 10 in einem anderen.

Tensorgröße

#TensorFlow

Die Gesamtzahl der Skalare, die Tensor enthält. Beispiel: [5, 10] Tensor hat eine Größe von 50.

TensorStore

Eine Bibliothek für effizientes Lesen und große mehrdimensionale Arrays schreibt.

Kündigungsbedingung

#rl

Beim bestärkenden Lernen um zu bestimmen, wann eine Folge endet, z. B. wenn der Agent einen bestimmten Zustand erreicht oder eine bestimmte Anzahl von Statusübergängen überschreitet. Zum Beispiel wird in Tic-Tac-Toe (auch (auch als „Noughts and Crosses“ bezeichnet), endet eine Folge, wenn ein Spieler oder wenn alle Leerzeichen markiert sind.

Test

#df

In einem Entscheidungsbaum kann ein anderer Name condition [Zustand].

Testverlust

#fundamentals

Ein Messwert, der den Verlust eines Modells in Bezug auf das Test-Dataset. Beim Erstellen eines Modells den Testverlust zu minimieren. Das liegt daran, dass ein geringer Testverlust ein stärkeres Signal als bei einem geringen Trainingsverlust oder geringer Validierungsverlust.

Manchmal gibt es eine große Lücke zwischen Test- und Trainings- oder Validierungsverlust. deutet darauf hin, dass Sie den Wert Regularisierungsrate.

Test-Dataset

Eine Teilmenge des für Tests reservierten Datasets ein trainiertes Modell.

Traditionell unterteilen Sie Beispiele im Dataset in die folgenden drei für unterschiedliche Teilmengen:

Jedes Beispiel in einem Dataset sollte nur zu einer der vorhergehenden Teilmengen gehören. Beispielsweise sollte ein einzelnes Beispiel nicht sowohl zum Trainings-Dataset mit dem Test-Dataset.

Das Trainings- und das Validierungs-Dataset sind eng mit dem Training eines Modells verbunden. Da das Test-Dataset nur indirekt mit dem Training verknüpft ist, Der Testverlust ist weniger verzerrt und qualitativ höher als Trainingsverlust oder Validierungsverlust:

Textspanne

#language

Die Array-Indexspanne, die einem bestimmten Unterabschnitt einer Textzeichenfolge zugeordnet ist. So belegt beispielsweise das Wort good im Python-String s="Be good now" von 3 bis 6.

tf.Example

#TensorFlow

Ein Standard <ph type="x-smartling-placeholder"></ph> Protokollzwischenspeicher zum Beschreiben von Eingabedaten für das Training oder die Inferenz von ML-Modellen.

tf.keras

#TensorFlow

Eine Implementierung von Keras, die in TensorFlow

Grenzwert (für Entscheidungsbäume)

#df

In einer achsenorientierten Bedingung ist der Wert, der für feature wird verglichen. Zum Beispiel ist 75 die Grenzwert in der folgenden Bedingung:

grade >= 75
<ph type="x-smartling-placeholder">

Zeitreihenanalyse

#clustering

Ein Teilgebiet des maschinellen Lernens und der Statistik, das Zeitliche Daten. Viele Arten von maschinellem Lernen erfordern eine Zeitreihenanalyse, einschließlich Klassifizierung, Clustering, Prognosen und Anomalieerkennung. Beispielsweise könnten Sie Zeitreihenanalyse, um den zukünftigen Verkauf von Wintermänteln nach Monat zu prognostizieren basierend auf historischen Verkaufsdaten.

Timestep

#seq

1 „nicht gerollt“ Zelle in einem recurrent Neural network. Die folgende Abbildung zeigt beispielsweise drei Zeitschritte (bezeichnet mit die Subskripte t-1, t und t+1):

Drei Zeitschritte in einem Recurrent neuronalen Netzwerk. Die Ausgabe des
          ersten Zeitschritt wird
als Eingabe für den zweiten Zeitschritt verwendet. Die Ausgabe
          des zweiten Zeitschritts zur Eingabe
in den dritten Zeitschritt wird.

Token

#language

In einem Sprachmodell die atomare Einheit, in der sich das Modell befindet zu trainieren und Vorhersagen zu treffen. Ein Token ist normalerweise eines der Folgendes:

  • ein Wort, zum Beispiel die Wortgruppe „Hunde wie Katzen“ besteht aus drei Wörtern Tokens: "Hunde", "Gefällt mir" und "Katzen".
  • ein Zeichen, z. B. der Satz "Fahrradfisch" besteht aus neun Zeichen-Tokens. Das Leerzeichen zählt als eines der Tokens.
  • Unterwörter, bei denen ein einzelnes Wort ein einzelnes Token oder mehrere Tokens sein kann. Ein Unterwort besteht aus einem Stammwort, einem Präfix oder einem Suffix. Beispiel: Ein Sprachmodell, das Unterwörter als Token verwendet, könnte das Wort „Hunde“ sehen. als zwei Tokens (das Stammwort „dog“ und das Pluralsuffix „s“). Das Gleiche Language Model das einzelne Wort „höher“ erkennt, als zwei Unterwörter (die Stammwort „hoch“ und das Suffix „er“).

In Domains außerhalb von Language Models können Tokens andere Arten von atomare Einheiten. Beim maschinellen Sehen kann ein Token beispielsweise eine Teilmenge sein eines Bildes.

Tower

Komponente eines neuronalen Deep-Learning-Netzwerks, die ein neuronales Deep-Learning-Netzwerk. In einigen Fällen liest jeder Turm aus einem und diese Türme bleiben so lange unabhängig, bis ihre in einer letzten Schicht kombiniert. In anderen Fällen, z. B. den Encoder- und Decoder-Turm des viele Transformatoren) haben Masten Querverbindungen. miteinander kommunizieren.

TPU

#TensorFlow
#GoogleCloud

Abkürzung für Tensor Processing Unit.

TPU-Chip

#TensorFlow
#GoogleCloud

Programmierbarer linearer Algebrabeschleuniger mit On-Chip-Speicher mit hoher Bandbreite die für ML-Arbeitslasten optimiert ist. Auf einem TPU-Gerät werden mehrere TPU-Chips bereitgestellt.

TPU-Gerät

#TensorFlow
#GoogleCloud

eine Leiterplatte (PCB) mit mehreren TPU-Chips, Netzwerkschnittstellen mit hoher Bandbreite und Hardware für die Systemkühlung.

TPU-Master

#TensorFlow
#GoogleCloud

Der zentrale Koordinationsprozess, der auf einem Hostcomputer ausgeführt wird, der Daten sendet und erhält Daten, Ergebnisse, Programme, Leistung und Informationen zum Systemzustand zu den TPU-Workern. Der TPU-Master verwaltet auch die Einrichtung. und Herunterfahren von TPU-Geräten.

TPU-Knoten

#TensorFlow
#GoogleCloud

Eine TPU-Ressource in Google Cloud mit einem bestimmten TPU-Typ: Der TPU-Knoten stellt eine Verbindung zu Ihrem VPC-Netzwerk von einem Peer-VPC-Netzwerk. TPU-Knoten sind Ressourcen, die im Cloud TPU API

TPU-Pod

#TensorFlow
#GoogleCloud

Eine spezifische Konfiguration von TPU-Geräten in einem Google Rechenzentrum. Alle Geräte in einem TPU-Pod sind miteinander verbunden über ein dediziertes Hochgeschwindigkeitsnetzwerk. Ein TPU-Pod ist die größte Konfiguration TPU-Geräte, die für eine bestimmte TPU-Version verfügbar sind.

TPU-Ressource

#TensorFlow
#GoogleCloud

Eine TPU-Entität in Google Cloud, die Sie erstellen, verwalten oder nutzen. Für TPU-Knoten und TPU-Typen sind beispielsweise TPU-Ressourcen

TPU-Slice

#TensorFlow
#GoogleCloud

Ein TPU-Slice ist ein Bruchteil der TPU-Geräte in einen TPU-Pod. Alle Geräte in einem TPU-Slice sind verbunden über ein Hochgeschwindigkeitsnetzwerk miteinander kommunizieren.

TPU-Typ

#TensorFlow
#GoogleCloud

Eine Konfiguration mit einem oder mehreren TPU-Geräten mit einer bestimmten TPU-Hardwareversion. Sie wählen beim Erstellen einen TPU-Typ aus. einen TPU-Knoten in Google Cloud. Beispiel: v2-8 Der TPU-Typ ist ein einzelnes TPU v2-Gerät mit 8 Kernen. Ein v3-2048-TPU-Typ hat 256 miteinander verbundenen TPU v3-Geräten und insgesamt 2.048 Kernen. TPU-Typen sind Ressourcen definiert in den Cloud TPU API

TPU-Worker

#TensorFlow
#GoogleCloud

Prozess, der auf einem Hostcomputer ausgeführt wird und Programme für maschinelles Lernen ausführt auf TPU-Geräten.

Training

#fundamentals

Der Prozess zur Bestimmung der idealen Parameter (Gewichtung und Verzerrungen) besteht aus einem Modell. Während des Trainings liest ein System Beispiele und passt die Parameter nach und nach an. Beim Training werden ein paar bis milliardenfachen Beispiel.

Trainingsverlust

#fundamentals

Ein Messwert, der den Verlust eines Modells während eines bestimmte Trainingsdurchlaufe. Angenommen, die Verlustfunktion ist Mean Squared Error. Vielleicht der Trainingsverlust (der Mittelwert Quadratischer Fehler) für den 10.Durchlauf 2, 2 und der Trainingsverlust für der 100. Durchlauf ist 1.9.

In einer Verlustkurve werden die Trainingsverluste im Vergleich zur Anzahl der Iterationen vor. Eine Verlustkurve bietet die folgenden Hinweise zum Training:

  • Ein Abfall deutet darauf hin, dass sich das Modell verbessert.
  • Ein Anstieg nach oben deutet darauf hin, dass sich das Modell verschlechtert.
  • Eine flache Steigung deutet darauf hin, dass das Modell bereits Konvergenz.

Beispielsweise die folgende, eher idealisierte Verlustkurve: Shows:

  • Ein steiler Abfall während der ersten Iterationen, was impliziert für eine schnelle Modellverbesserung.
  • Ein allmählich abflachender, aber immer noch nach unten liegender Anstieg, bis zum Ende hin was eine kontinuierliche Verbesserung des Modells langsameres Tempo als bei den ersten Durchläufen.
  • Ein flaches Gefälle gegen Ende des Trainings, was auf Konvergenz hindeutet.

Diagramm des Trainingsverlusts im Vergleich zu den Iterationen Diese Verlustkurve beginnt
     mit steilem Abfall. Die Steigung verringert sich allmählich, bis die
     die Steigung auf null wird.

Auch wenn der Trainingsverlust wichtig ist, Generalisierung.

Abweichungen zwischen Training und Bereitstellung

#fundamentals

Der Unterschied zwischen der Leistung eines Modells während Training und die Leistung dieses Modells während Auslieferung.

Trainings-Dataset

#fundamentals

Die Teilmenge des Datasets, die zum Trainieren eines Modells verwendet wird.

Traditionell werden Beispiele im Dataset in die folgenden drei Bereiche unterteilt: für unterschiedliche Teilmengen:

Idealerweise sollte jedes Beispiel im Dataset nur zu einem der Teilmengen vorangehen. Ein einzelnes Beispiel sollte z. B. nicht zu Trainings- und Validierungs-Dataset.

Flugbahn

#rl

Beim bestärkenden Lernen Tupel, die für eine Folge von Zustandsübergängen des Agents wobei jedes Tupel dem Status action entspricht, Prämie und den nächsten Status für einen bestimmten Statusübergang.

Lerntransfer

Die Übertragung von Informationen von einer ML-Aufgabe an eine andere Beim Multitask-Learning löst ein einziges Modell beispielsweise mehrere Aufgaben, z. B. ein tiefes Modell mit unterschiedlichen Ausgabeknoten für verschiedene Aufgaben zu erledigen. Lerntransfer kann auch die Übertragung von Wissen beinhalten. von der Lösung einer einfacheren bis zu einer komplexeren Aufgabe zu lösen. Wissen von einer Aufgabe mit mehr Daten in eine zu übertragen, in der gibt es weniger Daten.

Die meisten Systeme des maschinellen Lernens lösen eine einzelne Aufgabe. Lerntransfer ist ein Schritt auf dem Weg zu künstlicher Intelligenz, die mit einem einzigen Programm mehreren Aufgaben.

Transformer

#language

Eine bei Google entwickelte neuronale Netzwerkarchitektur, die nutzt Selbstaufmerksamkeit, Sequenz von Eingabeeinbettungen in eine Ausgabesequenz Einbettungen ohne Faltungen oder recurrent Neural Networks. Ein Transformator kann als ein Stapel aus Selbstaufmerksamkeitsschichten betrachtet.

Ein Transformator kann Folgendes enthalten:

Ein Encoder wandelt eine Sequenz von Einbettungen in eine neue Sequenz der gleich lang sind. Ein Encoder besteht aus n identischen Schichten, die jeweils zwei Schichten untergeordneten Ebenen. Diese beiden Unterebenen werden an jeder Position der Eingabe Einbettungssequenz, wobei jedes Element der Sequenz in eine neue und Einbettungen. Die erste Encoder-Teilebene fasst Informationen aus der . Die zweite Encoder-Teilschicht transformiert in eine Ausgabeeinbettung.

Ein Decoder wandelt eine Folge von Eingabeeinbettungen in eine Folge von Ausgabeeinbettungen, möglicherweise mit einer anderen Länge. Ein Decoder umfasst außerdem N identische Schichten mit drei Unterebenen, von denen zwei dem werden die Unterebenen des Encoders verwendet. Die dritte Decoder-Unterschicht übernimmt die Ausgabe der Encoder und wendet den Selbstaufmerksamkeitsmechanismus auf Informationen zu sammeln.

Im Blogpost Transformer: A Novel Neural Network Architecture for Language Verständnis bietet eine gute Einführung in Transformers.

Translationalinvarianz

#image

Bei einem Bildklassifizierungsproblem kann die Fähigkeit eines Algorithmus, Bilder auch dann klassifizieren, wenn sich die Position von Objekten innerhalb des Bildes ändert. Der Algorithmus kann beispielsweise einen Hund identifizieren, unabhängig davon, ob er im am linken Rand oder in der Mitte des Frames.

Siehe auch Größeninvarianz und Rotationsinvarianz:

Trigramm

#seq
#language

Ein N-Gramm mit N=3.

Richtig negatives Ergebnis (TN)

#fundamentals

Ein Beispiel, bei dem das Modell das Ereignis richtig vorhersagt: ausschließende Klasse. Das Modell leitet beispielsweise ab, eine bestimmte E-Mail-Nachricht kein Spam ist und diese Nachricht in Wirklichkeit kein Spam.

Richtig positives Ergebnis (TP)

#fundamentals

Ein Beispiel, bei dem das Modell das Ereignis richtig vorhersagt: positive Klasse. Das Modell leitet beispielsweise ab, eine bestimmte E-Mail-Nachricht Spam ist und diese E-Mail-Nachricht tatsächlich Spam ist.

Rate richtig positiver Ergebnisse (TPR)

#fundamentals

Synonym für recall. Das bedeutet:

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

Die Rate richtig positiver Ergebnisse ist die Y-Achse in einer ROC-Kurve.

U

Unbewusstsein (an ein sensibles Attribut)

#fairness

Eine Situation, in der sensible Attribute vorhanden sind, aber nicht in den Trainingsdaten enthalten sind. Da sensible Attribute häufig mit anderen Datenattributen korreliert, wird ein trainiertes Modell wenn ein sensibles Attribut nicht bekannt ist, unterschiedliche Auswirkungen in Bezug auf dieses Attribut haben, oder andere Fairness-Einschränkungen verletzen.

Unteranpassung

#fundamentals

Erstellen eines Modells mit schlechter Vorhersagefähigkeit, weil das Modell die Komplexität der Trainingsdaten nicht vollständig erfasst. Viele Probleme kann zu einer Unteranpassung führen, einschließlich:

Unterstichproben

Beispiele werden aus der Mehrheitsklasse in einer Klassen-unausgeglichenes Dataset, und ein ausgewogenes Trainings-Dataset zu erstellen.

Stellen Sie sich beispielsweise ein Dataset vor, in dem das Verhältnis der Mehrheitsklasse zu Die Minderheitsklasse ist 20:1. Um diesen Kurs zu meistern Ungleichgewicht haben, könnten Sie ein Trainings-Dataset erstellen, das aus allen Minderheiten besteht. nur ein Zehntel der Mehrheitsklassenbeispiele. und erstellen ein Klassenverhältnis von 2:1. Dank der Unterstichprobe ein ausgewogenes Trainings-Dataset zu einem besseren Modell führen kann. Alternativ kann diese ausgewogeneren Trainingssatz möglicherweise nicht genügend Beispiele zum Trainieren eines effektives Modell.

einen Kontrast mit Übersampling bilden.

einseitig

#language

Ein System, das nur den Text bewertet, der einem Zieltext vorher ist. Im Gegensatz dazu wertet ein bidirektionales System sowohl Text, der vorangestellt ist und auf einen Textabschnitt folgt. Weitere Informationen finden Sie unter Bidirektional.

Unidirektionales Sprachmodell

#language

Ein Sprachmodell, das seine Wahrscheinlichkeiten nur auf der Tokens, die vor und nicht nach den Zieltokens angezeigt werden. Sie stellt einen Kontrast mit dem bidirektionalen Sprachmodell her.

Beispiel ohne Label

#fundamentals

Ein Beispiel, das Features, aber kein Label enthält. Die folgende Tabelle zeigt drei Beispiele ohne Label aus einem Haus Bewertungsmodell mit jeweils drei Merkmalen, aber ohne Immobilienwert:

Anzahl der Schlafzimmer Anzahl der Badezimmer Haushalt
3 2 15
2 1 72
4 2 34

Beim überwachten maschinellen Lernen Modelle werden anhand von Beispielen mit Labels trainiert und treffen Vorhersagen Beispiele ohne Label.

In Konten mit Elternaufsicht und unüberwachtes Lernen, Beispiele ohne Label werden während des Trainings verwendet.

Vergleichen Sie Beispiel ohne Label mit Beispiel mit Label.

unbeaufsichtigtes maschinelles Lernen

#clustering
#fundamentals

Trainieren eines Modells zum Auffinden von Mustern in einem Dataset, in der Regel ein Dataset ohne Label.

Unüberwachtes maschinelles Lernen wird am häufigsten genutzt, Cluster-Daten in Gruppen ähnlicher Beispiele. Beispiel: ein nicht überwachter Computer kann der Lernalgorithmus Songs anhand verschiedener Eigenschaften gruppieren der Musik. Die resultierenden Cluster können als Eingabe für andere Maschinen dienen Lernalgorithmen (z. B. an einen Musikempfehlungsdienst). Clustering kann hilfreich sein, wenn nützliche Beschriftungen knapp oder gar nicht vorhanden sind. In Bereichen wie Missbrauchsbekämpfung und Betrug können Cluster beispielsweise dass Menschen die Daten besser verstehen können.

Im Gegensatz zu überwachtem maschinellem Lernen.

Steigerung

Eine häufig im Marketing verwendete Modellierungstechnik, mit der die „kausale Wirkung“ (auch als „inkrementelle Auswirkung“ bezeichnet) "Behandlung" für eine „Person“. Hier sind zwei Beispiele:

  • Ärzte können Steigerungsmodell nutzen, um den Rückgang der Sterblichkeitszahlen vorherzusagen. (kausale Wirkung) eines medizinischen Eingriffs (Behandlung) abhängig vom Alter und Krankengeschichte eines Patienten.
  • Mithilfe der Steigerungsmodellierung können Werbetreibende den Anstieg Wahrscheinlichkeit eines Kaufs (kausale Wirkung) aufgrund einer Werbeanzeige (Behandlung) einer Person (Person).

Die Steigerungsmodellierung unterscheidet sich von der Klassifizierung oder Regression in Bezug darauf, dass einige Labels (z. B. der Labels bei binären Verarbeitungen) fehlen bei der Steigerungsmodellierung immer. Beispielsweise kann ein Patient entweder eine Behandlung erhalten oder nicht. sodass wir nur beobachten können, ob der Patient heilt oder nicht nur in einer dieser beiden Situationen heilen (aber nie in beiden). Der Hauptvorteil eines Steigerungsmodells besteht darin, dass es Vorhersagen generieren kann für die unbeobachtete Situation (das kontrafaktische) Ergebnis den kausalen Effekt.

Gewichtung

Die Anwendung einer Gewichtung auf die Klasse downsampled entspricht mit dem Faktor, um den Sie die Stichprobe berechnet haben.

Nutzermatrix

#recsystems

In Empfehlungssystemen wird ein Einbettungsvektor generiert von Matrixfaktorisierung die latente Signale zu Nutzereinstellungen enthält. Jede Zeile der User-Matrix enthält Informationen über die relative der Stärke verschiedener latenter Signale für einen einzelnen Nutzer. Sehen wir uns als Beispiel ein Filmempfehlungssystem an. In diesem System Die latenten Signale in der Nutzermatrix könnten das Interesse der einzelnen Nutzenden darstellen. oder schwerer zu interpretierende Signale sein, komplexe Interaktionen über mehrere Faktoren hinweg.

Die Nutzermatrix verfügt über eine Spalte für jedes latente Merkmal und eine Zeile für jeden Nutzer. Das heißt, die Nutzermatrix hat dieselbe Anzahl von Zeilen wie die Zielmatrix Matrix, die faktorisiert wird. Wenn beispielsweise ein Film Empfehlungssystem für 1.000.000 Nutzer User-Matrix 1.000.000 Zeilen haben.

V

Validierung

#fundamentals

Die erste Bewertung der Qualität eines Modells. Bei der Validierung wird die Qualität der Vorhersagen eines Modells mit dem Validierungsset:

Da sich das Validierungs-Dataset vom Trainings-Dataset unterscheidet, Validierung trägt zum Schutz vor Überanpassung bei.

Die Bewertung des Modells anhand des Validierungs-Datasets erste Testrunde und Bewertung des Modells anhand der Test-Dataset als zweite Testrunde

Validierungsverlust

#fundamentals

Ein Messwert, der den Verlust eines Modells in das Validierungs-Dataset während eines bestimmten Durchlauf des Trainings.

Siehe auch Generalisierungskurve.

Validierungs-Dataset

#fundamentals

Die Teilmenge des Datasets, die die anfänglichen Auswertung anhand eines trainierten Modells. In der Regel bewerten Sie das trainierte Modell anhand des Validierungs-Datasets bevor Sie das Modell mit dem Test-Dataset vergleichen.

Traditionell unterteilen Sie die Beispiele im Dataset in die folgenden drei für unterschiedliche Teilmengen:

Idealerweise sollte jedes Beispiel im Dataset nur zu einem der Teilmengen vorangehen. Ein einzelnes Beispiel sollte z. B. nicht zu Trainings- und Validierungs-Dataset.

Wertzuordnung

Der Prozess, bei dem ein fehlender Wert durch einen akzeptablen Ersatz ersetzt wird. Fehlt ein Wert, können Sie entweder das gesamte Beispiel verwerfen oder können Sie das Beispiel über die Wertimputation retten.

Stellen Sie sich beispielsweise ein Dataset mit einer temperature-Funktion vor, die das stündlich aufgezeichnet werden soll. Die Temperatur betrug jedoch für eine bestimmte Stunde nicht verfügbar sind. Hier ist ein Abschnitt des Datasets:

Zeitstempel Temperatur
1680561000 10
1680564600 12
1680568200 fehlt
1680571800 20
1680575400 21
1680579000 21

Ein System könnte das fehlende Beispiel entweder löschen oder das fehlende Beispiel einfügen je nach Imputationsalgorithmus 12, 16, 18 oder 20.

Problem des verschwindenden Farbverlaufs

#seq

Die Tendenz der Verläufe von frühen verborgenen Ebenen neuronalen Deep-Learning-Netzwerke erstaunlich niedrig (niedrig). Immer geringere Farbverläufe führen zu kleinere Änderungen an den Gewichtungen der Knoten in einem neuronalen Deep-Learning-Netzwerk, wenig oder gar nicht dazulernen. Modelle, die unter dem Problem des verschwindenden Gradienten leiden schwierig oder unmöglich werden. Long Short-Term Memory-Zellen beheben dieses Problem.

Vergleiche das Problem mit dem explodierenden Farbverlauf.

variable Wichtigkeiten

#df

Eine Reihe von Bewertungen, die die relative Bedeutung der einzelnen Werte angeben feature zum Modell hinzu.

Nehmen wir zum Beispiel einen Entscheidungsbaum, Schätzungen der Immobilienpreise. Angenommen, dieser Entscheidungsbaum Funktionen: Größe, Alter und Stil. Wenn eine Reihe von variablen Wichtigkeitswerten für die drei Funktionen berechnet, {size=5.8, age=2.5, style=4.7}, dann ist die Größe für die als Alter oder Stil.

Es gibt verschiedene Messwerte für die variable wichtige Bedeutung, die die ML-Experten über verschiedene Aspekte von Modellen

Variations-Autoencoder (VAE)

#language

Eine Art von Autoencoder, der die Diskrepanz ausnutzt zwischen Ein- und Ausgaben, um modifizierte Versionen der Eingaben zu generieren. Variations-Autoencoder sind nützlich für generative KI.

VAEs basieren auf Variationsinferenz: einer Technik zur Schätzung Parameter eines Wahrscheinlichkeitsmodells.

Vektor

Sehr überladener Begriff, dessen Bedeutung in verschiedenen mathematischen und wissenschaftlichen Bereichen. Beim maschinellen Lernen hat ein Vektor zwei Eigenschaften:

  • Datentyp: Vektoren im maschinellen Lernen enthalten normalerweise Gleitkommazahlen.
  • Anzahl der Elemente: Dies ist die Länge oder Dimension des Vektors.

Betrachten Sie beispielsweise einen Featurevektor mit acht Gleitkommazahlen sind. Dieser Featurevektor hat eine Länge oder Dimension von acht. Beachten Sie, dass Vektoren für maschinelles Lernen oft eine große Anzahl von Dimensionen haben.

Sie können viele verschiedene Arten von Informationen als Vektor darstellen. Beispiel:

  • Jede Position auf der Erdoberfläche kann als zweidimensionales Vektoren, wobei eine Dimension der Breitengrad und die andere der Längengrad ist.
  • Die aktuellen Kurse der 500 Aktien können als 500-dimensionaler Vektor
  • Eine Wahrscheinlichkeitsverteilung über eine endliche Anzahl von Klassen kann dargestellt werden als Vektor festlegen. Beispiel: Klassifizierungssystem mit mehreren Klassen, sagt voraus, dass eine von drei Ausgabefarben (Rot, Grün oder Gelb) die Ausgabe Vektor (0.3, 0.2, 0.5) auf P[red]=0.3, P[green]=0.2, P[yellow]=0.5.

Vektoren können verkettet werden. Daher kann eine Vielzahl verschiedener Medien als einzelnen Vektor dargestellt werden. Einige Modelle arbeiten direkt auf der Verkettung vieler One-Hot-Codierungen.

Spezialisierte Prozessoren wie TPUs sind für die Leistung optimiert mathematische Operationen auf Vektoren anwenden.

Ein Vektor ist ein Tensor mit Rang 1.

W

Verlust durch Wasserstein

Eine der Verlustfunktionen, die häufig in generative adversarial Networks basierend auf der Entfernung des Nutzers zwischen die Verteilung von generierten und realen Daten.

Gewicht

#fundamentals

Wert, den ein Modell mit einem anderen Wert multipliziert. Training ist der Prozess zur Bestimmung des Idealgewichts eines Modells. Inferenz ist der Prozess, bei dem diese erlernten Gewichtungen Vorhersagen zu treffen.

Gewichtete abwechselnde kleinste Quadrate (WALS)

#recsystems

Algorithmus zur Minimierung der Zielfunktion während Matrixfaktorisierung in Empfehlungssysteme, die eine eine Herabstufung der fehlenden Beispiele. WALS minimiert die Gewichtung quadrierten Fehler zwischen der ursprünglichen Matrix und der Rekonstruktion durch zwischen der Korrektur der Zeilenfaktorisierung und der Spaltenfaktorisierung. Jede dieser Optimierungen kann durch die kleinsten Quadrate behoben werden. Konvexoptimierung: Weitere Informationen finden Sie in der Kurs zu Recommendation Systems

gewichtete Summe

#fundamentals

Die Summe aller relevanten Eingabewerte multipliziert mit den entsprechenden Gewichte. Angenommen, die relevanten Eingaben setzen sich so zusammen:

Eingabewert Eingabegewichtung
2 -1,3
-1 0,6
3 0,4

Die gewichtete Summe lautet daher:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Eine gewichtete Summe ist das Eingabeargument für eine Aktivierungsfunktion:

breites Modell

Ein lineares Modell, das in der Regel viele dünnbesetzte Eingabefeatures Wir bezeichnen es als „breit“ seit Ein solches Modell ist eine spezielle Art von neuronalem Netzwerk mit einem eine große Anzahl von Eingaben, die direkt mit dem Ausgabeknoten verbunden sind. Breite Modelle sind häufig einfacher zu debuggen und zu prüfen als bei tiefen Modellen. Obwohl breite Modelle können Nichtlinearitäten durch verborgene Ebenen ausdrücken, breite Modelle können Transformationen wie Feature Crossing und Bucketization zur Modellierung von Nichtlinearitäten auf unterschiedliche Weise.

Im Kontrast zum tiefen Modell stehen.

Breite

Die Anzahl der Neuronen in einer bestimmten Schicht eines neuronalen Netzwerks.

Weisheit der Masse

#df

Die Idee, dass die Durchschnittsermittlung aus den Meinungen oder Schätzungen einer großen Gruppe der Menschen („die Masse“) führen oft überraschend gute Ergebnisse. Stellen Sie sich zum Beispiel ein Spiel vor, in dem die Leute die Anzahl der Gummibärchen in einem großen Glas. Obwohl die meisten Einzelpersonen ist ungenau, der Durchschnitt aller Schätzungen empirisch erstaunlich nahe an der tatsächlichen Anzahl Gummibärchen im Glas.

Ensembles ist ein Software-Analog zur Weisheit der Massen. Auch wenn einzelne Modelle extrem ungenaue Vorhersagen treffen, Die Durchschnittsbildung der Vorhersagen vieler Modelle erzeugt oft überraschend gute Vorhersagen machen. Obwohl beispielsweise ein einzelner Nutzer Entscheidungsbaum kann schlechte Vorhersagen machen, ein Entscheidungswald trifft oft sehr gute Vorhersagen.

Worteinbettung

#language

Darstellung jedes Wortes in einer Wortgruppe in einem Einbettungsvektor d. h. jedes Wort als einen Vektor von Gleitkommawerten zwischen 0,0 und 1,0. Wörter mit Ähnlichem Bedeutungen haben eine ähnlichere Darstellung als Wörter mit unterschiedlichen Bedeutungen. So wären beispielsweise Karotten, Seller und Gurken relativ wahrscheinlich ähnliche Darstellungen, die sich stark von den Darstellungen unterscheiden, Flugzeug, Sonnenbrille und Zahnpasta.

X

XLA (beschleunigte lineare Algebra)

Ein Open-Source-Compiler für maschinelles Lernen für GPUs, CPUs und ML-Beschleuniger.

Der XLA-Compiler übernimmt Modelle aus gängigen ML-Frameworks wie PyTorch TensorFlow und JAX und optimiert sie für eine leistungsstarke Ausführung auf verschiedenen Hardwareplattformen, GPUs, CPUs und ML-Beschleuniger.

Z

Zero-Shot-Lernen

Eine Art von Training für maschinelles Lernen, bei dem die model leitet eine Vorhersage für eine Aufgabe ab mit dem es noch nicht trainiert wurde. Mit anderen Worten, das Modell erhält keine aufgabenspezifischen Beispiele, wird aber gefragt, um für diese Aufgabe Inferenz zu erstellen.

Zero-Shot-Prompting

#language
#generativeAI

Eine Aufforderung, die kein Beispiel dafür enthält, Large Language Model verwenden. Beispiel:

Bestandteile eines Prompts Hinweise
Was ist die offizielle Währung des angegebenen Landes? Die Frage, die das LLM beantworten soll.
Indien: Die eigentliche Abfrage.

Das Large Language Model könnte so antworten:

  • Rupie
  • INR
  • Indische Rupie
  • Die Rupie
  • Indische Rupie

Alle Antworten sind richtig, auch wenn Sie möglicherweise ein bestimmtes Format bevorzugen.

Vergleichen Sie Zero-Shot-Prompts mit den folgenden Begriffen:

Normalisierung des Z-Werts

#fundamentals

Skalierungstechnik, die eine unbearbeitete feature-Wert mit einem Gleitkommawert, der für die Anzahl der Standardabweichungen vom Mittelwert der Funktion. Nehmen wir zum Beispiel eine Funktion an, deren Mittelwert 800 ist und deren Abweichung 100 beträgt. Die folgende Tabelle zeigt, wie die Normalisierung des Z-Werts würde den Rohwert seinem Z-Wert zuordnen:

Unverarbeiteter Wert Z-Wert
800 0
950 +1,5
575 -2,25

Das Modell für maschinelles Lernen wird dann anhand der Z-Werte trainiert. statt auf die Rohwerte.