Glossar zum maschinellen Lernen: ML-Grundlagen

Diese Seite enthält Glossarbegriffe für ML-Grundlagen. Für alle Glossarbegriffe klicken Sie hier.

A

Genauigkeit

#fundamentals

Die Anzahl der Vorhersagen für die richtige Klassifizierung geteilt durch durch die Gesamtzahl der Vorhersagen. Das bedeutet:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Beispiel: Ein Modell, das 40 richtige und 10 falsche Vorhersagen gemacht hat, Vorhersagen eine Genauigkeit von:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

Die Binärklassifizierung stellt bestimmte Namen bereit. für die verschiedenen Kategorien richtiger Vorhersagen und falsche Vorhersagen. Die Genauigkeitsformel für die binäre Klassifizierung lautet:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

Dabei gilt:

Vergleichen Sie die Genauigkeit mit Precision und Recall.

Aktivierungsfunktion

#fundamentals

Eine Funktion, mit der neuronale Netzwerke lernen können nonlinear (komplexe) Beziehungen zwischen Elementen und das Label.

Beliebte Aktivierungsfunktionen sind:

Die Diagramme von Aktivierungsfunktionen sind niemals gerade Linien. Das Diagramm der ReLU-Aktivierungsfunktion besteht beispielsweise aus zwei gerade Linien:

Ein kartesisches Diagramm mit zwei Linien. Die erste Linie hat eine Konstante,
          y-Wert von 0, der entlang der x-Achse von -unendlich,0 bis 0,-0 verläuft.
          Die zweite Zeile beginnt bei 0,0. Diese Linie hat eine Steigung von +1,
          von 0,0 bis +unendlich,+unendlich.

Ein Diagramm der Sigmoid-Aktivierungsfunktion sieht so aus:

Ein zweidimensionales, gebogenes Diagramm mit x-Werten, die die Domain umfassen
          -endlos zu +positiv, während y-Werte einen Bereich von fast 0 bis
          Fast 1. Wenn x 0 ist, ist y 0,5. Die Steigung der Kurve ist immer gleich
          positiv, wobei die höchste Steigung bei 0,0,5 liegt und allmählich abnimmt.
          wenn der Absolutwert von x ansteigt.

künstliche Intelligenz

#fundamentals

Ein nicht-menschliches Programm oder Modell, das komplexe Aufgaben lösen kann. Beispielsweise ein Programm oder Modell, das Text übersetzt, oder ein Programm oder Modell, identifiziert Krankheiten in radiologischen Bildern, die beide künstliche Intelligenz zeigen.

Formal ist maschinelles Lernen ein Teilbereich des künstlichen Bedrohungsdaten. In den letzten Jahren haben einige Unternehmen jedoch damit begonnen, Begriffe künstliche Intelligenz und Maschinelles Lernen synonym.

AUC (Bereich unter der ROC-Kurve)

#fundamentals

Eine Zahl zwischen 0,0 und 1,0, die ein binäre Klassifizierung des Modells positive Klassen von negative Klassen. Je näher die AUC an 1,0 liegt, desto besser kann das Modell Klassen voneinander zu lernen.

Die folgende Abbildung zeigt beispielsweise ein Klassifikatormodell zur Trennung von positiven Klassen (grüne Ovale) von negativen Klassen. (lila Rechtecke) perfekt. Dieses unrealistisch perfekte Modell eine AUC von 1,0:

Eine Zahlenreihe mit acht positiven Beispielen auf einer Seite und
          9 Negativbeispiele auf der anderen Seite.

Umgekehrt sind in der folgenden Abbildung die Ergebnisse für einen Klassifikator das zufällige Ergebnisse generiert hat. Dieses Modell hat eine AUC von 0,5:

Eine Zahlenreihe mit 6 positiven und 6 negativen Beispielen.
          Die Reihenfolge der Beispiele ist positiv, negativ,
          positiv, negativ, positiv, negativ, positiv, negativ, positiv
          negativ, positiv, negativ.

Ja, das vorherige Modell hat eine AUC von 0,5, nicht 0,0.

Die meisten Modelle befinden sich irgendwo zwischen zwei Extremen. Zum Beispiel folgendes Modell trennt Positive von Negativen in gewisser Weise. liegt eine AUC zwischen 0,5 und 1,0:

Eine Zahlenreihe mit 6 positiven und 6 negativen Beispielen.
          Die Reihenfolge der Beispiele ist negativ, negativ, negativ, negativ,
          positiv, negativ, positiv, positiv, negativ, positiv, positiv,
          positiv zu bewerten.

AUC ignoriert alle Werte, die Sie für Klassifizierungsschwellenwert. Stattdessen wird AUC berücksichtigt alle möglichen Klassifizierungsschwellenwerte.

B

Rückpropagierung

#fundamentals

Der Algorithmus, der die Gradientenverfahren in neuronale Netzwerke.

Das Training eines neuronalen Netzwerks beinhaltet viele Iterationen des folgenden Zyklus mit zwei Durchläufen:

  1. Während der Vorwärtsterminierung verarbeitet das System einen Batch von Beispiele für Vorhersagen. Das System vergleicht alle Vorhersage für jeden label-Wert. Der Unterschied zwischen der Vorhersage und der Labelwert ist der Verlust für dieses Beispiel. Das System aggregiert die Verluste für alle Beispiele, um die Gesamtsumme zu berechnen. für den aktuellen Batch.
  2. Während der Rückwärtspropagierung (Rückpropagierung) reduziert das System den Verlust um die Gewichtung aller Neuronen in allen ausgeblendete Ebene(n):

Neuronale Netzwerke umfassen oft viele Neuronen auf vielen verborgenen Schichten. Jedes dieser Neuronen trägt auf unterschiedliche Weise zum Gesamtverlust bei. Die Rückpropagierung bestimmt, ob die Gewichtungen erhöht oder verringert werden sollen auf bestimmte Neuronen angewendet.

Die Lernrate ist ein Multiplikator, der die Grad, um den die Gewichtung bei jedem Rückwärtsgang zu- oder abnimmt. Eine große Lernrate erhöht oder verringert jede Gewichtung um mehr als ein eine geringe Lernrate.

Rechnerisch betrachtet wird bei der Rückpropagierung die Methode Kettenregel. aus Differenzial- und Integralrechnungen. Das heißt, die Rückpropagierung berechnet partielle Ableitung des Fehlers mit in Bezug auf den jeweiligen Parameter.

Vor Jahren mussten ML-Anwender Code schreiben, um die Rückpropagierung zu implementieren. Moderne ML-APIs wie TensorFlow implementieren jetzt die Rückpropagierung für Sie. Geschafft!

Batch

#fundamentals

Die in einem Training verwendeten Beispiele Iteration. Die Batchgröße bestimmt die Anzahl der Beispiele in einer zu erstellen.

Unter Epoche finden Sie eine Erläuterung, wie sich ein Batch auf eine Epoche.

Batchgröße

#fundamentals

Die Anzahl der Beispiele in einem Batch. Wenn die Batchgröße beispielsweise 100 beträgt, verarbeitet das Modell 100 Beispiele pro Version

Die folgenden Strategien sind beliebte Batchgrößen-Strategien:

  • Stochastic Gradient Descent (SGD) mit einer Batchgröße von 1.
  • Vollständiger Batch, bei dem die Batchgröße die Anzahl der Beispiele im gesamten Trainings-Dataset Wenn z. B. das Trainings-Dataset eine Million Beispiele enthält, wäre die Batchgröße eine Million Beispiele. Ein vollständiger Batch ist normalerweise eine ineffiziente Strategie.
  • Mini-Batch, bei dem die Batchgröße normalerweise zwischen 10 und 1.000. Mini-Batches sind normalerweise die effizienteste Strategie.

Voreingenommenheit (Ethik/Fairness)

#fairness
#fundamentals

1. Vorurteile, Vorurteile gegenüber bestimmten Dingen, Menschen, oder Gruppen vor anderen. Diese Voreingenommenheiten können sich auf die Erfassung und Interpretation von Daten, das Design eines Systems und die Art und Weise, wie Nutzende interagieren mit einem System. Zu diesen Formen von Verzerrungen gehören:

2. Systematischer Fehler, der durch ein Stichproben- oder Meldeverfahren verursacht wird. Zu diesen Formen von Verzerrungen gehören:

Nicht zu verwechseln mit dem Begriff „Voreingenommenheit“ in Modellen für maschinelles Lernen oder Vorhersageverzerrung.

Verzerrung (Mathematik) oder Bias-Begriff

#fundamentals

Ein Achsenabschnitt oder Versatz von einem Ursprung. Verzerrung ist ein Parameter in die durch eine der beiden Methoden Folgendes:

  • M
  • W0

Verzerrungen sind beispielsweise das b in der folgenden Formel:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Bei einer einfachen zweidimensionalen Linie bedeutet Verzerrung einfach "y-Achsenabschnitt". Die Verzerrung der Linie in der folgenden Abbildung beträgt beispielsweise 2.

Diagramm einer Geraden mit einer Steigung von 0,5 und einer Verzerrung (y-Achsenabschnitt) von 2.

Verzerrung liegt vor, weil nicht alle Modelle am Ursprung (0,0) beginnen. Beispiel: Ein Vergnügungspark kostet 2 € und eine weitere 0,50 € pro Stunde, die ein Kunde übernachtet. Daher kann ein Modell, das die Die Gesamtkosten weisen eine Verzerrung von 2 auf, da die niedrigsten Kosten 2 Euro betragen.

Voreingenommenheit ist nicht zu verwechseln mit Voreingenommenheit in Bezug auf Ethik und Fairness. oder Vorhersageverzerrung.

Binäre Klassifizierung

#fundamentals

Eine Art der Klassifizierung, die sagt eine von zwei sich gegenseitig ausschließlichen Klassen vorher:

Die folgenden beiden ML-Modelle erzielen beispielsweise Binäre Klassifizierung:

  • Ein Modell, das bestimmt, ob E-Mails spam (die positive Klasse) oder not spam (die negative Klasse).
  • Modell, das medizinische Symptome bewertet, um festzustellen, ob eine Person hat eine bestimmte Krankheit (die positive Klasse) oder nicht Krankheit (die negative Klasse).

Im Kontrast zur Klassifizierung mit mehreren Klassen stehen.

Siehe auch logistische Regression und Klassifizierungsschwellenwert.

Bucketing

#fundamentals

Ein einzelnes feature in mehrere binäre Features umwandeln als buckets oder bins, in der Regel auf einem Wertebereich basieren. Die geschnittene Funktion ist in der Regel ein fortlaufende Funktion:

Anstatt beispielsweise die Temperatur als einzelnes Gleitpunktelement definiert ist, können Sie Temperaturbereiche in separate Gruppen unterteilen, z. B.:

  • <= 10 Grad Celsius wäre die „kalte“ Temperatur Bucket.
  • 11 bis 24 Grad Celsius wären das gemäßigte Temperatur Bucket.
  • >= 25 Grad Celsius wären Bucket.

Das Modell behandelt jeden Wert im selben Bucket gleich. Für Beispiel: Die Werte 13 und 22 befinden sich beide im gemäßigten Bucket, sodass der Wert werden beide Werte gleich behandelt.

C

Kategorische Daten

#fundamentals

Elemente mit einem bestimmten Satz möglicher Werte. Beispiel: betrachten wir ein kategoriales Merkmal namens traffic-light-state, das nur haben einen der folgenden drei möglichen Werte:

  • red
  • yellow
  • green

Wenn traffic-light-state als kategoriales Merkmal dargestellt wird, kann ein Modell lernen, unterschiedliche Auswirkungen von red, green und yellow auf das Fahrverhalten.

Kategoriale Merkmale werden manchmal als diskrete Funktionen:

Einen Kontrast zu numerischen Daten

Klasse

#fundamentals

Eine Kategorie, zu der ein Label gehören kann. Beispiel:

Ein Klassifizierungsmodell sagt eine Klasse vorher. Im Gegensatz dazu sagt ein Regressionsmodell eine Zahl und nicht auf einen Kurs.

Klassifizierungsmodell

#fundamentals

Ein Modell, dessen Vorhersage eine Klasse ist. Im Folgenden finden Sie alle Klassifizierungsmodelle:

  • Ein Modell, das die Sprache eines Eingabesatzes vorhersagt (Französisch? Spanisch? Italienisch?).
  • Ein Modell, das Baumarten vorhersagt (Maple? Eiche? Affenbrot?).
  • Modell, das die positive oder negative Klasse für eine bestimmte Erkrankungen.

Im Gegensatz dazu sagen Regressionsmodelle Zahlen voraus. und nicht für Kurse.

Zwei gängige Arten von Klassifizierungsmodellen sind:

Klassifizierungsschwellenwert

#fundamentals

Bei einer binären Klassifizierung ist ein Zahl zwischen 0 und 1, die die Rohausgabe eines logistisches Regressionsmodell in eine Vorhersage entweder der positiven Klasse oder die negative Klasse. Der Klassifizierungsschwellenwert wird vom Nutzer ausgewählt. kein Wert, der vom Modelltraining ausgewählt wurde.

Ein logistisches Regressionsmodell gibt einen Rohwert zwischen 0 und 1 aus. Dann:

  • Wenn dieser Rohwert größer als der Klassifizierungsschwellenwert ist, dann: wird die positive Klasse vorhergesagt.
  • Wenn dieser Rohwert kleiner als Klassifizierungsschwellenwert ist, gilt: wird die negative Klasse vorhergesagt.

Angenommen, der Klassifizierungsschwellenwert beträgt 0,8. Wenn der Rohwert 0,9 ist, sagt das Modell die positive Klasse vorher. Wenn der Rohwert gleich 0,7 ist, sagt das Modell die negative Klasse vorher.

Die Wahl des Klassifizierungsschwellenwerts wirkt sich stark auf die Anzahl der falsch positive Ergebnisse und falsch negative Ergebnisse.

Dataset mit klassenunausgeglichenem Dataset

#fundamentals

Ein Dataset für ein Klassifizierungsproblem, bei dem die Gesamtzahl der Labels jeder Klasse unterscheiden sich erheblich. Nehmen wir als Beispiel ein binäres Klassifizierungs-Dataset, dessen zwei Labels wie folgt aufgeteilt:

  • 1.000.000 auszuschließende Labels
  • 10 positive Labels

Das Verhältnis von negativen zu positiven Labels beträgt 100.000:1. ist ein klassenunausgeglichenes Dataset.

Im Gegensatz dazu ist das folgende Dataset nicht klassenunausgewogen, da die Verhältnis von negativen Labels zu positiven Labels liegt relativ nahe bei 1:

  • 517 ausschließende Labels
  • 483 positive Labels

Datasets mit mehreren Klassen können auch klassenunausgewogen sein. Beispiel: Das mehrklassige Klassifizierungs-Dataset ist ebenfalls unausgewogen, da ein Label enthält weit mehr Beispiele als die anderen beiden:

  • 1.000.000 Labels mit der Klasse „green“
  • 200 Labels mit der Klasse „lila“
  • 350 Labels mit der Klasse „orange“

Siehe auch Entropie, Mehrheitsklasse, und Minderheitenklasse.

Clipping

#fundamentals

Verfahren zum Umgang mit Ausreißern durch Entweder oder beide:

  • Reduzieren von feature-Werten, die größer als ein Maximum sind Grenzwert unter diesen Höchstwert reduzieren.
  • Die Erhöhung von Featurewerten unter einem Mindestgrenzwert bis zu diesem Wert Untergrenze.

Angenommen, < 0,5% der Werte für ein bestimmtes Feature fallen außerhalb des Bereichs von 40 bis 60 liegt. In diesem Fall könnten Sie so vorgehen:

  • Alle Werte über 60 (der maximale Schwellenwert) werden auf genau 60 reduziert.
  • Alle Werte unter 40 (die Mindestgrenze) werden auf genau 40 gekürzt.

Ausreißer können Modelle beschädigen und manchmal Gewichtungen verursachen. während des Trainings überlaufen. Einige Ausreißer können auch dramatisch verderben Messwerte wie Genauigkeit. Das Abschneiden ist eine gängige Methode, für den Schaden.

Kräfte zum Abschneiden des Farbverlaufs Gradienten-Werten innerhalb eines festgelegten Bereichs während des Trainings.

Wahrheitsmatrix

#fundamentals

Eine NxN-Tabelle, die die Anzahl der richtigen und falschen Vorhersagen zusammenfasst die ein Klassifizierungsmodell erstellt hat. Betrachten Sie beispielsweise die folgende Wahrheitsmatrix für ein binäres Klassifizierungsmodell:

Tumor (prognostiziert) Kein Tumor (prognostiziert)
Tumor (Ground Truth) 18 (TP) 1 (FN)
Nicht Tumor (Ground Truth) 6 (FP) 452 (TN)

Die obige Wahrheitsmatrix zeigt Folgendes:

  • Von den 19 Vorhersagen, bei denen Ground Truth Tumor war, dass das Modell 18 richtig und falsch 1 klassifiziert hat.
  • Von den 458 Vorhersagen, bei denen die Grundwahrheit „Nicht-Tumor“ war, wurde das Modell richtig klassifiziert 452 und falsch klassifiziert 6.

Die Wahrheitsmatrix für eine Klassifizierung mit mehreren Klassen kann Ihnen helfen, Fehlermuster zu erkennen. Betrachten Sie beispielsweise die folgende Wahrheitsmatrix für eine 3-Klassen-Klasse. Klassifizierungsmodell mit mehreren Klassen, das drei verschiedene Iristypen kategorisiert (Virginica, Versicolor und Setosa). Als die Grundwahrheit Virginica war, Die Wahrheitsmatrix zeigt, dass das Modell viel häufiger Versicolor als Setosa vorhersagen:

  Setosa (prognostiziert) Versicolor (vorhergesagt) Virginica (prognostiziert)
Setosa (Ground Truth) 88 12 0
Versicolor (Ground Truth) 6 141 7
Virginica (Ground Truth) 2 27 109

Ein weiteres Beispiel: Eine Wahrheitsmatrix könnte zeigen, dass ein trainiertes Modell handschriftliche Ziffern zu erkennen, bestimmt fälschlicherweise 9 statt 4 vorher, oder versehentlich 1 statt 7 vorhersagen.

Wahrheitsmatrizes enthalten genügend Informationen, um eine verschiedene Leistungsmesswerte, einschließlich Genauigkeit und Recall.

stetiges Feature

#fundamentals

Ein Gleitkomma-Element mit einem unendlichen Bereich möglicher wie Temperatur oder Gewicht.

Stellen Sie einen Kontrast mit der diskreten Funktion her.

Konvergenz

#fundamentals

Ein Status, bei dem sich der Verlust nur sehr gering oder überhaupt nicht bei jeder Iteration. Beispiel: Die Verlustkurve suggeriert eine Konvergenz bei etwa 700 Iterationen:

kartesisches Diagramm. Die X-Achse steht für Verlust. Die Y-Achse steht für die Anzahl der Trainings,
          Iterationen vor. Die Verluste sind in den ersten Iterationen sehr hoch,
          stark ab. Nach etwa 100 Iterationen ist der Verlust immer noch
          absteigend, aber viel allmählicher. Nach etwa 700 Iterationen
          bleiben die Verluste stabil.

Ein Modell konvergiert, wenn zusätzliches Training nicht um das Modell zu verbessern.

Beim Deep Learning bleiben Verlustwerte bei vielen Iterationen annähernd vor dem Absteigen. Über einen längeren Zeitraum konstanter Verlustwerte zu sehen, kann es sein, dass Sie temporär ein falsches Konvergenzgefühl haben.

Siehe auch Vorzeitiges Beenden.

D

DataFrame

#fundamentals

Ein beliebter pandas-Datentyp zur Darstellung Datasets im Arbeitsspeicher.

Ein DataFrame ist analog zu einer Tabelle oder einer Tabellenkalkulation. Jede Spalte von ein DataFrame einen Namen (eine Kopfzeile) hat und jede Zeile durch ein eindeutige Nummer.

Jede Spalte in einem DataFrame ist wie ein 2D-Array strukturiert, außer dass kann jeder Spalte ein eigener Datentyp zugewiesen werden.

Siehe auch die offizielle pandas.DataFrame-Referenz .

Dataset oder Dataset

#fundamentals

Eine Sammlung von Rohdaten, die üblicherweise (aber nicht ausschließlich) in einem der folgenden Formate verwenden:

  • Tabelle
  • Eine Datei im CSV-Format (Comma-Separated Values, durch Kommas getrennte Werte)

Deep-Modell

#fundamentals

Ein neuronales Netzwerk mit mehr als einem verborgene Ebene:

Ein tiefes Modell wird auch als neuronales Deep-Learning-Netzwerk bezeichnet.

Kontrast zum breiten Modell

vollbesetztes Feature

#fundamentals

Eine Funktion, bei der die meisten oder alle Werte ungleich null sind, typischerweise Ein Tensor mit Gleitkommawerten Beispiel: Tensor mit 10 Elementen ist dicht, weil 9 seiner Werte ungleich null sind:

8 3 7 5 2 4 0 4 9 6

Kontrast zur dünnbesetzten Funktion

Tiefe

#fundamentals

Die Summe der folgenden Messwerte in einem neuronalen Netzwerk:

Beispiel: ein neuronales Netzwerk mit fünf verborgenen Schichten und einer Ausgabeschicht hat eine Tiefe von 6.

Beachten Sie, dass die Eingabeebene die Einflusstiefe.

diskretes Feature

#fundamentals

Ein Feature mit einer endlichen Reihe möglicher Werte. Beispiel: Ein Element, dessen Werte nur Tier, Gemüse oder Mineral sein dürfen, ist ein diskretes (oder kategoriales) Merkmal.

Kontrast zur kontinuierlichen Funktion

dynamic

#fundamentals

Etwas, das häufig oder kontinuierlich ausgeführt wird. Die Begriffe dynamisch und online sind Synonyme im maschinellen Lernen. Im Folgenden werden gängige Anwendungen von dynamisch und online in Maschinen genannt. Lernen:

  • Ein dynamisches Modell (oder Onlinemodell) ist ein Modell das häufig oder kontinuierlich neu trainiert wird.
  • Dynamisches Training (oder Online-Training) ist der Trainingsprozess. häufig oder fortlaufend sein.
  • Dynamische Inferenz (oder Online-Inferenz) ist der Prozess, Vorhersagen bei Bedarf zu erstellen.

dynamisches Modell

#fundamentals

Ein Modell, das häufig, vielleicht sogar kontinuierlich, erneut trainiert. Ein dynamisches Modell ist ein „lebenslang Lernender“. das passt sich ständig an neue Daten an. Ein dynamisches Modell wird auch als Onlinemodell.

Im Kontrast zum statischen Modell stehen.

E

vorzeitiges Beenden

#fundamentals

Eine Methode zur Regularisierung, bei der das Ende Training vor Ende der Trainingsverluste nimmt ab. Beim vorzeitigen Beenden stoppen Sie das Training des Modells absichtlich. Der Verlust eines Validierungs-Datasets beginnt, increase; Das heißt, wenn Die Leistung der Generalisierung verschlechtert sich.

Einbettungsebene

#language
#fundamentals

Eine spezielle verborgene Ebene, die auf einem ein hochdimensionales kategoriales Feature einen Einbettungsvektor niedrigerer Dimension lernen. Eine kann ein neuronales Netzwerk weitaus mehr als nur das hochdimensionale kategoriale Merkmal trainieren.

So unterstützt Google Earth derzeit etwa 73.000 Baumarten. Angenommen, Die Baumart ist ein Merkmal in Ihrem Modell. Eingabeebene enthält einen One-Hot-Vektor 73.000 Elemente lang sein. Beispielsweise würde baobab in etwa so dargestellt:

Ein Array mit 73.000 Elementen. Die ersten 6.232 Elemente enthalten den Wert
     0. Das nächste Element enthält den Wert 1. Die letzten 66.767 Elemente
     den Wert Null.

Ein Array mit 73.000 Elementen ist sehr lang. Wenn Sie keine Einbettungsebene hinzufügen ist das Training sehr zeitaufwändig, multipliziert mit 72.999 Nullen. Vielleicht wählen Sie die Einbettungsebene aus, von 12 Dimensionen. Daher lernt die Einbettungsebene allmählich für jede Baumart einen neuen Einbettungsvektor erstellen.

In bestimmten Situationen ist Hashing eine sinnvolle Alternative. zu einer Einbettungsebene hinzufügen.

Epoche

#fundamentals

Einen vollständigen Trainingsdurchlauf für das gesamte Trainings-Dataset Dadurch wurde jedes Beispiel einmal verarbeitet.

Eine Epoche stellt N/Batchgröße dar. Trainingsiterationen, wobei N der Wert für Gesamtzahl der Beispiele.

Beispiel:

  • Das Dataset besteht aus 1.000 Beispielen.
  • Die Batchgröße beträgt 50 Beispiele.

Daher erfordert eine einzelne Epoche 20 Iterationen:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

Beispiel

#fundamentals

Die Werte einer Zeile mit features und möglicherweise ein Label. Beispiele in überwachtes Lernen lässt sich allgemeine Kategorien:

  • Ein Beispiel mit einem Label besteht aus einem oder mehreren Merkmalen. und einem Label. Beispiele mit Label werden während des Trainings verwendet.
  • Ein Beispiel ohne Label besteht aus einem oder mehr Funktionen, aber ohne Label. Beispiele ohne Label werden bei der Inferenz verwendet.

Angenommen, Sie trainieren ein Modell, um den Einfluss der Prüfungsergebnisse der Schüler:innen. Hier sind drei Beispiele mit Labels:

Funktionen Label
Temperatur Luftfeuchtigkeit Luftdruck Prüfungspunktzahl
15 47 998 Gut
19 34 1020 Sehr gut
18 92 1012 Schlecht

Hier sind drei Beispiele ohne Label:

Temperatur Luftfeuchtigkeit Luftdruck  
12 62 1014  
21 47 1017  
19 41 1021  

Die Zeile eines Datasets ist normalerweise die Rohquelle für ein Beispiel. Das heißt, ein Beispiel besteht normalerweise aus einer Teilmenge der Spalten des Datasets. Darüber hinaus können die Funktionen in einem Beispiel auch synthetische Funktionen wie Funktionsverknüpfungen:

F

Falsch-negativ (FN)

#fundamentals

Beispiel, bei dem das Modell den negative class (auszuschließende Klasse) hinzu. Zum Beispiel hat das Modell sagt, dass es sich bei einer bestimmten E-Mail-Nachricht um kein Spam handelt (die negative Klasse), aber diese E-Mail ist tatsächlich Spam.

Falsch positives Ergebnis (FP)

#fundamentals

Beispiel, bei dem das Modell den positive Klasse. Das Modell sagt beispielsweise dass es sich bei einer bestimmten E-Mail-Nachricht um Spam handelt (die positive Klasse), aber dass E-Mail-Nachricht ist tatsächlich kein Spam.

Rate falsch positiver Ergebnisse (FPR)

#fundamentals

Der Anteil der tatsächlichen negativen Beispiele, für die das Modell versehentlich die positive Klasse vorhergesagt. Mit der folgenden Formel wird die „false“ berechnet, positive Rate:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

Die Falsch-Positiv-Rate ist die x-Achse in einer ROC-Kurve.

Feature

#fundamentals

Eine Eingabevariable für ein ML-Modell. Beispiel besteht aus einem oder mehreren Merkmalen. Angenommen, Sie trainieren ein Modell, um den Einfluss der Wetterbedingungen auf die Prüfungsergebnisse der Schüler zu bestimmen. Die folgende Tabelle enthält drei Beispiele, die jeweils Folgendes enthalten: drei Funktionen und ein Label:

Funktionen Label
Temperatur Luftfeuchtigkeit Luftdruck Prüfungspunktzahl
15 47 998 92
19 34 1020 84
18 92 1012 87

Stellen Sie einen Kontrast mit label her.

Featureverknüpfung

#fundamentals

Ein synthetisches Element, das durch „Kreuzung“ gebildet wird kategoriale oder Bucket-bezogene Features.

Stellen Sie sich z. B. eine „Stimmungsprognose“ ein Modell, das die in einen der folgenden vier Kategorien eingeben:

  • freezing
  • chilly
  • temperate
  • warm

Und stellt die Windgeschwindigkeit in einer der folgenden drei Kategorien dar:

  • still
  • light
  • windy

Ohne Featureverknüpfungen wird das lineare Modell unabhängig von den sieben verschiedenen Gruppen vorangehen. Das Modell trainiert also zum Beispiel freezing unabhängig vom Training, z. B. windy.

Alternativ können Sie eine Funktionsverknüpfung für Temperatur und Windgeschwindigkeit. Dieses synthetische Feature hätte die folgenden 12 möglichen Werte:

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

Dank der Funktionsverknüpfungen kann das Modell Stimmungsunterschiede lernen. zwischen einem freezing-windy und einem freezing-still Tag.

Wenn Sie eine synthetische Funktion aus zwei Funktionen erstellen, Buckets haben, wird die daraus resultierende Merkmalsverknüpfung eine große Anzahl der möglichen Kombinationen. Wenn ein Feature z. B. 1.000 Buckets hat und hat das andere Feature 2.000 Buckets, die daraus resultierende Featureverknüpfung 2.000.000 Buckets.

Formal ist ein Kreuz ein Kartesisches Produkt:

Featureverknüpfungen werden hauptsächlich mit linearen Modellen verwendet und selten verwendet mit neuronalen Netzen.

Feature Engineering

#fundamentals
#TensorFlow

Ein Prozess, der die folgenden Schritte umfasst:

  1. Geeignete Funktionen ermitteln beim Trainieren eines Modells.
  2. Das Konvertieren von Rohdaten aus dem Dataset in effiziente Versionen von für diese Funktionen.

Sie könnten z. B. feststellen, dass temperature für Sie nützlich sein könnte. . Anschließend können Sie mit Bucketing experimentieren. um zu optimieren, was das Modell aus verschiedenen temperature-Bereichen lernen kann.

Feature Engineering wird manchmal Feature-Extraktion oder Funktionen:

Feature-Set

#fundamentals

Die Gruppe der Funktionen Ihres maschinellen Lernens model wird weiter trainiert. Beispiele: Postleitzahl, Immobiliengröße und Immobilienzustand einen einfachen Satz von Merkmalen für ein Modell, das Immobilienpreise vorhersagt.

Featurevektor

#fundamentals

Das Array der feature-Werte, das ein Beispiel: Der Featurevektor wird während Training und während der Inferenz. Der Featurevektor für ein Modell mit zwei diskreten Merkmalen kann so lauten:

[0.92, 0.56]

Vier Schichten: eine Eingabeschicht, zwei versteckte Schichten und eine Ausgabeschicht.
          Die Eingabeebene enthält zwei Knoten, einer mit dem Wert
          0.92 und die andere mit dem Wert 0.56.

Jedes Beispiel stellt unterschiedliche Werte für den Featurevektor bereit, sodass das für das nächste Beispiel könnte etwa so aussehen:

[0.73, 0.49]

Feature Engineering bestimmt, wie die Elemente im Featurevektor enthalten. Ein binäres kategoriales Feature mit könnten fünf mögliche Werte durch One-Hot-Codierung. In diesem Fall entspricht der Teil der Merkmalsvektor für ein bestimmtes Beispiel aus vier Nullen und eine einzelne 1, 0 an der dritten Position:

[0.0, 0.0, 1.0, 0.0, 0.0]

Nehmen wir als weiteres Beispiel an, Ihr Modell besteht aus drei Merkmalen:

  • ein binäres kategoriales Merkmal mit fünf möglichen Werten, dargestellt durch One-Hot-Codierung; Beispiel: [0.0, 1.0, 0.0, 0.0, 0.0]
  • ein weiteres binäres kategoriales Merkmal mit drei möglichen Werten mit One-Hot-Codierung; Beispiel: [0.0, 0.0, 1.0]
  • eine Gleitkommafunktion; Beispiel: 8.3.

In diesem Fall würde der Featurevektor für jedes Beispiel um neun Werte. Bei den Beispielwerten in der vorherigen Liste Merkmalsvektor wäre:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

Feedback Loop

#fundamentals

Beim maschinellen Lernen beeinflussen die Vorhersagen eines Modells den Trainingsdaten für dasselbe oder ein anderes Modell zu erhalten. Ein Modell, das Filmempfehlungen beeinflussen, welche Filme Nutzer sich ansehen. weitere Filmempfehlungsmodelle beeinflussen.

G

Generalisierung

#fundamentals

Die Fähigkeit eines Modells, korrekte Vorhersagen für neue, bisher unbekannten Daten. Ein Modell, das generalisieren kann, ist das Gegenteil eines Modells, das überanpassung ist.

Generalisierungskurve

#fundamentals

Eine Darstellung des Trainingsverlusts Der Validierungsverlust ist eine Funktion der Anzahl Iterationen.

Mithilfe einer Generalisierungskurve können Sie Überanpassung. Beispiel: Generalisierungskurve deutet auf eine Überanpassung hin, da der Validierungsverlust deutlich höher als der Trainingsverlust.

Ein kartesischer Graph, in dem die y-Achse mit Verlust und die x-Achse beschriftet sind.
          mit Iterationen beschriftet. Es werden zwei Diagramme angezeigt. Ein Diagramm zeigt die
          und der zweite den Validierungsverlust.
          Die beiden Diagramme fangen ähnlich an, aber der Trainingsverlust
          deutlich geringer ausfällt
als der Validierungsverlust.

Gradientenabstieg

#fundamentals

Eine mathematische Methode zur Minimierung von Verlust. Der Gradientenabstieg wird iterativ angepasst Gewichtungen und Verzerrungen, und schrittweise die beste Kombination finden, um den Verlust zu minimieren.

Das Gradientenverfahren ist älter – viel, viel älter – als das maschinelle Lernen.

Ground Truth

#fundamentals

Realität.

Die Sache, die tatsächlich passiert ist.

Angenommen, Sie verwenden eine binäre Klassifizierung. Modell, das vorhersagt, ob ein Student im ersten Studienjahr wird innerhalb von sechs Jahren abgeschlossen. Die Grundwahrheit für dieses Modell ist, und zwar nicht, dass dieser Student innerhalb von sechs Jahren den Abschluss gemacht hat.

H

versteckte Ebene

#fundamentals

Eine Schicht in einem neuronalen Netzwerk zwischen der Eingabeebene (die Funktionen) und die Ausgabeschicht (die Vorhersage). Jede versteckte Schicht besteht aus einem oder mehreren Neuronen. Das folgende neuronale Netzwerk enthält beispielsweise zwei verborgene Schichten, das erste mit drei Neuronen und das zweite mit zwei Neuronen:

Vier Ebenen. Die erste Ebene ist eine Eingabeebene, die zwei
          Funktionen. Die zweite Ebene ist eine verborgene Ebene, die drei
          Neuronen. Die dritte Ebene ist eine versteckte Schicht,
          Neuronen. Die vierte Schicht ist eine Ausgabeschicht. Alle Funktionen
          enthält drei Kanten, von denen jede auf ein anderes Neuron zeigt.
          im zweiten Layer. Jedes Neuron der zweiten Schicht
          enthält zwei Kanten, von denen jede auf ein anderes Neuron zeigt.
          im dritten Layer. Jedes Neuron der dritten Schicht enthält
          eine Kante, die jeweils auf die Ausgabeebene verweist.

Ein neuronales Deep-Learning-Netzwerk enthält mehr als ein ausgeblendete Ebene. Die vorherige Abbildung zeigt beispielsweise ein neuronales Deep-Learning- da das Modell zwei verborgene Schichten enthält.

Hyperparameter

#fundamentals

Die Variablen, die Sie oder ein Hyperparameter-Abstimmungsdienst . aufeinanderfolgenden Trainingsläufen eines Modells anpassen. Beispiel: Lernrate ist ein Hyperparameter. Sie könnten Lernrate vor einer Schulung auf 0,01 einstellen. Wenn Sie feststellen, dass 0,01 zu hoch ist, könnten Sie vielleicht die Lernphase für die nächste Schulung auf 0,003.

Im Gegensatz dazu stehen parameters für die verschiedenen Gewichtungen und Verzerrungen, die das Modell lernt während des Trainings.

I

unabhängig und identisch verteilt (i.i.d)

#fundamentals

Daten aus einer Verteilung, die sich nicht ändert, und bei denen jeder Wert hängt nicht von Werten ab, die zuvor gezeichnet wurden. Ein i.d. ist das ideale Gas der Maschine ein nützliches mathematisches Konstrukt, das jedoch fast nie in der realen Welt an. Zum Beispiel die Verteilung der Besucher einer Webseite z. B. i.i.d. innerhalb eines kurzen Zeitfensters Das heißt, die Verteilung ändert sich in diesem kurzen Zeitfenster und der Besuch einer Person ist in der Regel unabhängig von den Besuchen anderer Nutzer. Wenn Sie dieses Zeitfenster jedoch verlängern, können saisonale Unterschiede bei den Besuchern der Webseite auftreten.

Siehe auch Instationarität.

Inferenz

#fundamentals

Beim maschinellen Lernen wird der Prozess der Vorhersage Anwenden eines trainierten Modells auf Beispiele ohne Labels

Inferenz hat in der Statistik eine etwas andere Bedeutung. Weitere Informationen finden Sie in der <ph type="x-smartling-placeholder"></ph> Wikipedia-Artikel zu statistischen Inferenzen

Eingabeebene

#fundamentals

Die Schicht eines neuronalen Netzwerks, die enthält den Featurevektor. Das heißt, die Eingabeschicht Beispiele für das Training oder Inferenz. Die Eingabeschicht in der eines neuronalen Netzwerks besteht aus zwei Funktionen:

Vier Schichten: eine Eingabeschicht, zwei versteckte Schichten und eine Ausgabeschicht.

Interpretierbarkeit

#fundamentals

Die Fähigkeit, die Begründungen eines ML-Modells in Begriffe verständlich sind.

Die meisten linearen Regressionsmodelle beispielsweise sind hoch interpretierbar sind. (Sie müssen sich nur die trainierten Gewichtungen feature.) Auch Entscheidungsforen sind gut interpretierbar. Einige Modelle hingegen eine ausgefeilte Visualisierung erfordern, um interpretierbar zu werden.

Sie können die Learning Interpretability Tool (LIT) Interpretation von ML-Modellen.

Iteration

#fundamentals

Eine einzelne Aktualisierung der Parameter eines Modells – der des Modells Gewichtungen und Verzerrungen – während training Die Batchgröße bestimmt, wie viele Beispiele das Modell in einer einzelnen Iteration verarbeitet. Beispiel: Bei einer Batchgröße von 20 verarbeitet das Modell 20 Beispiele vor Anpassen der Parameter.

Beim Trainieren eines neuronalen Netzwerks wird eine einzelne Iteration umfasst die folgenden beiden Durchgänge:

  1. Ein Vorwärtsdurchlauf zum Auswerten des Verlusts eines einzelnen Batches.
  2. Eine Rückwärtsterminierung (Backpropagation) zum Anpassen der Modellparameter auf Basis des Verlusts und der Lernrate.

L

L0-Regularisierung

#fundamentals

Eine Art der Regularisierung, die bestraft die Gesamtzahl der Gewichtungen ungleich null in einem Modell an. Beispiel: Ein Modell mit 11 Gewichtungen ungleich null stärker benachteiligt werden als ein ähnliches Modell mit 10 Gewichtungen ungleich null.

Die L0-Regularisierung wird manchmal als L0-Norm-Regularisierung bezeichnet.

L1-Verlust

#fundamentals

Eine Verlustfunktion, die den absoluten Wert berechnet der Differenz zwischen den tatsächlichen label-Werten und Werte, die ein Modell vorhersagt. Hier ist zum Beispiel die Berechnung des L1-Verlusts für einen Batch von 5 Beispiele:

Tatsächlicher Wert des Beispiels Vorhergesagter Wert des Modells Absolutwert von Delta
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = L1-Verlust

Der L1-Verlust ist weniger empfindlich auf Ausreißer. als bei L2-Verlust.

Der mittlere absolute Fehler ist der Durchschnitt L1-Verlust pro Beispiel.

L1-Regularisierung

#fundamentals

Eine Art der Regularisierung, die bestraft, Gewichtungen proportional zur Summe des absoluten Werts von die Gewichte. Die L1-Regularisierung hilft, die Gewichtung irrelevanter oder kaum relevante Funktionen auf genau 0. Eine Funktion mit wird eine Gewichtung von 0 effektiv aus dem Modell entfernt.

Kontrast zur L2-Regularisierung.

L2-Verlust

#fundamentals

Eine Verlustfunktion, die das Quadrat berechnet der Differenz zwischen den tatsächlichen label-Werten und Werte, die ein Modell vorhersagt. Hier ist zum Beispiel die Berechnung des L2-Verlusts für einen Batch von 5 Beispiele:

Tatsächlicher Wert des Beispiels Vorhergesagter Wert des Modells Quadrat des Deltas
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = L2-Verlust

Aufgrund der Quadrate verstärkt der L2-Verlust den Einfluss von Ausreißer: Das heißt, der L2-Verlust reagiert stärker auf schlechte Vorhersagen als L1-Verlust: Zum Beispiel der L1-Verlust für den vorherigen Batch wäre 8 statt 16. Beachten Sie, dass ein einzelner 9 von 16 aus.

Regressionsmodelle nutzen in der Regel den L2-Verlust als Verlustfunktion.

Der mittlere quadratische Fehler ist der durchschnittliche L2-Verlust pro Beispiel. Quadratischer Verlust ist eine andere Bezeichnung für L2-Verlust.

L2-Regularisierung

#fundamentals

Eine Art der Regularisierung, die bestraft, Gewichtungen im Verhältnis zur Summe der Quadrate der Gewichtungen Die L2-Regularisierung trägt dazu bei, die Gewichtung von Ausreißer zu erhöhen (diejenigen mit hohen positiven oder niedrigen negativen Werten), die näher bei 0, aber nicht ganz bei 0 liegen. Features mit Werten, die sehr nahe bei 0 liegen, verbleiben im Modell aber keinen großen Einfluss auf die Vorhersage des Modells.

Die L2-Regularisierung verbessert immer die Generalisierung in linearen Modellen:

Kontrast zur L1-Regularisierung.

Label

#fundamentals

Beim überwachten maschinellen Lernen „antworten“ oder „Ergebnis“ aus einem Beispiel.

Jedes Beispiel mit einem Label besteht aus einem oder mehreren features und ein Label. Zum Beispiel in einem Spam- erkannt wurde, wäre das Label wahrscheinlich „Spam“ oder „Kein Spam“. In einem Niederschlags-Dataset könnte das Label die Menge der Regen, der während eines bestimmten Zeitraums fiel.

Beispiel mit Label

#fundamentals

Ein Beispiel, das eine oder mehrere Features und einen label Die folgende Tabelle zeigt beispielsweise drei beschriftete Beispiele aus einem Hausbewertungsmodell mit jeweils drei Merkmalen und ein Label:

Anzahl der Schlafzimmer Anzahl der Badezimmer Haushalt Hauspreis (Label)
3 2 15 345.000 $
2 1 72 179.000 $
4 2 34 392.000 $

Beim überwachten maschinellen Lernen Modelle werden anhand von Beispielen mit Labels trainiert und treffen Vorhersagen Beispiele ohne Label.

Beispiel mit Beispielen gegenüber Beispielen ohne Label gegenüberstellen.

Lambda

#fundamentals

Synonym für Regularisierungsrate.

Lambda ist ein Begriff mit Überlastung. Hier konzentrieren wir uns auf die -Definition innerhalb der Regularisierung.

Layer

#fundamentals

Eine Reihe von Neuronen in einer neuronales Netzwerk. Drei gängige Ebenentypen sind:

Die folgende Abbildung zeigt beispielsweise ein neuronales Netzwerk mit eine Eingabeschicht, zwei versteckte Schichten und eine Ausgabeschicht:

Ein neuronales Netzwerk mit einer Eingabeschicht, zwei verborgenen Schichten und einer
          Ausgabeebene. Die Eingabeebene besteht aus zwei Merkmalen. Das erste
          Die verborgene Schicht besteht aus drei Neuronen und der zweiten verborgenen Schicht.
          besteht aus zwei Neuronen. Die Ausgabeebene besteht aus einem einzelnen Knoten.

In TensorFlow sind Layers auch Python-Funktionen, die Tensoren und Konfigurationsoptionen als Eingabe- und andere Tensoren als Ausgabe erzeugen.

Lernrate

#fundamentals

Eine Gleitkommazahl, die das Gradientenverfahren angibt Algorithmus, wie stark die Gewichtungen und Verzerrungen bei jedem Iteration. Eine Lernrate von 0, 3 würde beispielsweise Gewichtungen und Verzerrungen dreimal so wirksamer anpassen als eine Lernrate, von 0,1.

Die Lernrate ist ein wichtiger Hyperparameter. Wenn Sie die Lernrate zu niedrig ist, dauert das Training zu lange. Wenn ist die Lernrate zu hoch, hat das Gradientenverfahren oft Probleme, Konvergenz erreichen.

Linear

#fundamentals

Beziehung zwischen zwei oder mehr Variablen, die ausschließlich dargestellt werden kann durch Addition und Multiplikation.

Das Diagramm einer linearen Beziehung ist eine Linie.

Kontrast mit nonlinear

lineares Modell

#fundamentals

Ein Modell, bei dem pro Gewichtung jeweils ein Wert zugewiesen wird Funktion verwenden, um Vorhersagen zu treffen. Lineare Modelle enthalten auch eine Verzerrung. Im Gegensatz dazu die Beziehung von Merkmalen zu Vorhersagen in tiefen Modellen ist im Allgemeinen nonlinear.

Lineare Modelle sind in der Regel einfacher zu trainieren interpretierbar als tiefgehende Modelle. Sie können jedoch tiefgehende Modelle können komplexe Beziehungen zwischen Merkmalen lernen.

Lineare Regression und logistische Regressionen sind zwei Arten von linearen Modellen.

lineare Regression

#fundamentals

Modell für maschinelles Lernen, bei dem die beiden folgenden Bedingungen zutreffen:

  • Das Modell ist ein lineares Modell.
  • Die Vorhersage ist ein Gleitkommawert. (Dies ist die Regression der linearen Regression)

Lineare Regression mit logistischer Regression gegenüberstellen Vergleichen Sie die Regression außerdem der Klassifizierung.

logistische Regression

#fundamentals

Eine Art von Regressionsmodell, das eine Wahrscheinlichkeit vorhersagt. Logistische Regressionsmodelle haben die folgenden Eigenschaften:

  • Das Label ist kategorial. Der Begriff „logistisch“ Regression bezieht sich in der Regel auf eine binär logistische Regression, d. h. zu einem Modell hinzu, das Wahrscheinlichkeiten für Labels mit zwei möglichen Werten berechnet. Eine weniger gebräuchliche Variante, die multinomiale logistische Regression, berechnet Wahrscheinlichkeiten für Labels mit mehr als zwei möglichen Werten.
  • Die Verlustfunktion während des Trainings ist Logverlust. (Für Labels können mehrere Logverlusteinheiten parallel platziert werden. mit mehr als zwei möglichen Werten.)
  • Das Modell hat eine lineare Architektur, kein neuronales Deep-Learning-Netzwerk. Der Rest dieser Definition gilt jedoch auch für tiefe Modelle, die Wahrscheinlichkeiten vorhersagen für kategoriale Labels.

Nehmen wir zum Beispiel ein logistisches Regressionsmodell, das die Wahrscheinlichkeit, dass eine eingegebene E-Mail Spam ist. Angenommen, das Modell sagt bei der Inferenz 0,72 vorher. Daher entspricht der Parameter schätzt Folgendes:

  • Eine Wahrscheinlichkeit von 72 %, dass es sich bei der E-Mail um Spam handelt.
  • Eine Wahrscheinlichkeit von 28 %, dass es sich bei der E-Mail nicht um Spam handelt.

Ein logistisches Regressionsmodell verwendet die folgende zweistufige Architektur:

  1. Das Modell generiert eine Rohvorhersage (y') durch Anwendung einer linearen Funktion. von Eingabefeatures.
  2. Das Modell nutzt diese Rohvorhersage dann als Eingabe für Sigmoidfunktion, die die Rohdaten umwandelt auf einen Wert zwischen 0 und 1 (ausschließlich) setzen.

Wie jedes Regressionsmodell sagt auch ein logistisches Regressionsmodell eine Zahl vorher. Diese Zahl wird jedoch normalerweise Teil einer binären Klassifizierung. wie folgt aussehen:

  • Wenn die vorhergesagte Zahl größer ist als die Klassifizierungsschwellenwert, der das binäre Klassifikationsmodell die positive Klasse vorhersagt.
  • Wenn die vorhergesagte Zahl kleiner als der Klassifizierungsschwellenwert ist, sagt das binäre Klassifizierungsmodell die negative Klasse vorher.

Logverlust

#fundamentals

Die im Binärprogramm verwendete Verlustfunktion logistische Regression:

Logwahrscheinlichkeiten

#fundamentals

Logarithmus der Wahrscheinlichkeit eines Ereignisses

Niederlage

#fundamentals

Während des Trainings eines Modell mit Elternaufsicht ein, mit dem gemessen wird, wie weit Die Vorhersage des Modells stammt von seinem Label.

Eine Verlustfunktion berechnet den Verlust.

Verlustkurve

#fundamentals

Ein Diagramm des Verlusts in Abhängigkeit von der Anzahl der Trainings Iterationen. Das folgende Diagramm zeigt einen typischen Verlust Kurve:

Ein kartesisches Diagramm von Verlusten im Vergleich zu Trainingsdurchläufen, das eine
          rascher Rückgang des Verlusts bei den ersten Iterationen, gefolgt von
          und in den letzten Iterationen eine flache Steigung.

Verlustkurven helfen Ihnen zu bestimmen, wann Ihr Modell Konvergenz oder Überanpassung.

Verlustkurven können alle der folgenden Verlusttypen darstellen:

Siehe auch Generalisierungskurve.

Verlustfunktion

#fundamentals

Während eines Trainings oder Tests wird eine mathematische Funktion zur Berechnung der in einer Reihe von Beispielen. Eine Verlustfunktion gibt einen geringeren Verlust zurück. für Modelle, die gute Vorhersagen treffen, als für Modelle, die schlechte Vorhersagen machen.

Das Ziel des Trainings besteht in der Regel darin, den Verlust zu minimieren, Rücksendungen.

Es gibt viele verschiedene Arten von Verlustfunktionen. Den richtigen Verlust auswählen für die Art des Modells, das Sie erstellen. Beispiel:

M

Machine Learning

#fundamentals

Ein Programm oder System zum Trainieren eines model aus Eingabedaten. Das trainierte Modell kann Nutzen Sie neue (noch nie gesehene) Daten aus Ihren Daten, die zum Trainieren des Modells verwendet wurde.

Maschinelles Lernen bezieht sich auch auf ein Studienfach, mit diesen Programmen oder Systemen.

Mehrheitsklasse

#fundamentals

Die gebräuchlichere Bezeichnung in einer Klassen-unausgeglichenes Dataset. Beispiel: Bei einem Dataset mit 99% negativen und 1% positiven Labels sind negative Labels die Mehrheitsklasse.

Im Kontrast zur Minderheitsklasse stehen.

Mini-Batch

#fundamentals

Eine kleine, zufällig ausgewählte Teilmenge eines in einem verarbeiteten Batch Iteration. Die Batchgröße eines Minibatches beträgt in der Regel 10 bis 1.000 Beispiele.

Angenommen, das gesamte Trainings-Dataset (der vollständige Batch) besteht aus 1.000 Beispielen. Angenommen, Sie legen den Parameter Batchgröße jedes Mini-Batches auf 20 festlegen. Daher entspricht jede Iterationen den Verlust bei 20 zufälligen 1.000 Beispielen die Gewichtungen und Verzerrungen entsprechend angepasst.

Es ist viel effizienter, den Verlust bei einem Mini-Batch zu berechnen als bei einem bei allen Beispielen im vollständigen Batch.

Minderheitenklasse

#fundamentals

Das seltener verwendete Label in einer Klassen-unausgeglichenes Dataset. Beispiel: Bei einem Dataset mit 99% negativen und 1% positiven Labels sind positive Labels die Minderheitenklasse.

Im Kontrast zur Hauptklasse stehen.

Modell

#fundamentals

Im Allgemeinen gilt: Jedes mathematische Konstrukt, das Eingabedaten verarbeitet und Ergebnisse zurückgibt . Anders ausgedrückt: Ein Modell ist ein Satz von Parametern und Struktur damit ein System Vorhersagen treffen kann. Beim überwachten maschinellen Lernen ein Modell verwendet ein Beispiel als Eingabe Vorhersage als Ausgabe. Beim überwachten maschinellen Lernen Modelle etwas unterscheiden. Beispiel:

  • Ein lineares Regressionsmodell besteht aus einer Reihe von Gewichtungen. und Voreingenommenheit.
  • Ein neuronales Netzwerkmodell besteht aus: <ph type="x-smartling-placeholder">
      </ph>
    • Eine Reihe ausgeblendeter Ebenen, die jeweils eine oder mehrere Ebenen enthalten. weitere Neuronen.
    • Die mit jedem Neuron verbundenen Gewichtungen und Verzerrungen.
  • Ein Entscheidungsbaummodell besteht aus: <ph type="x-smartling-placeholder">
      </ph>
    • Die Form des Baums also das Muster, in dem die Bedingungen und Blätter sind verbunden.
    • Die Bedingungen und Blätter.

Sie können ein Modell speichern, wiederherstellen oder Kopien davon erstellen.

auch unüberwachtes maschinelles Lernen generiert Modelle, in der Regel eine Funktion, die ein Eingabebeispiel einer den am besten geeigneten Cluster aus.

Klassifizierung mit mehreren Klassen

#fundamentals

Beim überwachten Lernen ist ein Klassifizierungsproblem bei denen das Dataset mehr als zwei Klassen von Labels enthält. Die Labels im Iris-Dataset müssen beispielsweise eines der folgenden sein: drei Klassen:

  • Iris Setosa
  • Iris virginica
  • Iris Vericolor

Ein mit dem Iris-Dataset trainiertes Modell, das den Iris-Typ für neue Beispiele vorhersagt eine Klassifizierung mit mehreren Klassen durchführt.

Im Gegensatz dazu gibt es Klassifizierungsprobleme, Klassen sind binäre Klassifizierungsmodelle. Beispiel: ein E-Mail-Modell, das entweder Spam oder kein Spam vorhersagt ist ein binäres Klassifizierungsmodell.

Bei Clustering-Problemen bezieht sich die mehrklassige Klassifizierung auf mehr als zwei Cluster.

N

negative Klasse

#fundamentals

Bei der binären Klassifizierung ist eine Klasse als positiv und als negativ bezeichnet. Die positive Klasse ist die Sache oder das Ereignis, das bzw. das das Modell testet. Die negative Klasse ist die eine andere Möglichkeit haben. Beispiel:

  • Die negative Klasse bei einem medizinischen Test könnte „kein Tumor“ sein.
  • Die negative Klasse in einem E-Mail-Klassifikator ist möglicherweise „Kein Spam“.

Im Kontrast zur positiven Klasse stehen.

neuronales Netzwerk

#fundamentals

Ein Modell, das mindestens eins enthält verborgene Ebene: Ein neuronales Deep-Learning-Netzwerk ist eine Art neuronales Netz die mehr als eine verborgene Ebene enthält. Das folgende Diagramm zeigt ein neuronales Deep-Learning-Netzwerk mit zwei verborgenen Schichten.

Ein neuronales Netzwerk mit einer Eingabeschicht, zwei verborgenen Schichten und einer
          Ausgabeebene.

Jedes Neuron in einem neuronalen Netzwerk ist mit allen Knoten der nächsten Schicht verbunden. Beachten Sie beispielsweise im obigen Diagramm, dass jedes der drei Neuronen die in der ersten verborgenen Schicht separat mit den beiden Neuronen im zweiten verborgenen Layer.

Auf Computern implementierte neuronale Netzwerke werden manchmal als künstliche neuronale Netze, um sie von neuronalen Netzen, die im Gehirn und in anderen Nervensystemen zu finden sind.

Einige neuronale Netzwerke können extrem komplexe nicht lineare Beziehungen nachahmen Funktionen und Beschriftung.

Siehe auch Convolutional Neural Network und recurrent Neural network.

Neuron

#fundamentals

Beim maschinellen Lernen eine eindeutige Einheit innerhalb einer verborgenen Schicht eines neuronalen Netzwerks. Jedes Neuron führt Folgendes aus: 2-Faktor-Authentifizierung:

  1. Berechnet die gewichtete Summe von Eingabewerten multipliziert mit und zwar durch ihre jeweiligen Gewichtungen.
  2. Übergibt die gewichtete Summe als Eingabe an einen Aktivierungsfunktion:

Ein Neuron in der ersten verborgenen Ebene akzeptiert Eingaben von den Featurewerten in der Eingabeebene. Ein Neuron in einer verborgenen Schicht die erste akzeptiert Eingaben von den Neuronen der vorherigen verborgenen Schicht. Ein Neuron in der zweiten verborgenen Schicht akzeptiert z. B. Eingaben vom Neuronen in der ersten verborgenen Schicht.

In der folgenden Abbildung sind zwei Neuronen und ihre Eingaben.

Ein neuronales Netzwerk mit einer Eingabeschicht, zwei verborgenen Schichten und einer
          Ausgabeebene. Zwei Neuronen sind hervorgehoben: eines im ersten
          und eins im zweiten ausgeblendeten Layer. Die hervorgehobene
          Das Neuron in der ersten verborgenen Schicht erhält Eingaben von beiden Features
          in die Eingabeebene ein. Das hervorgehobene Neuron in der zweiten verborgenen Schicht
          erhält Eingaben von jedem der drei Neuronen im ersten
          Ebene.

Ein Neuron in einem neuronalen Netzwerk ahmt das Verhalten von Neuronen in Gehirnen nach anderer Teile des Nervensystems.

Knoten (neuronales Netzwerk)

#fundamentals

Ein Neuron in einer verborgenen Schicht.

nonlinear

#fundamentals

Beziehung zwischen zwei oder mehr Variablen, die nicht ausschließlich dargestellt werden kann durch Addition und Multiplikation. Eine lineare Beziehung als Linie dargestellt werden; kann eine nonlinear Beziehung nicht als Linie dargestellt. Betrachten Sie beispielsweise zwei Modelle, die jeweils einem einzelnen Label zu. Das Modell links ist linear Das Modell auf der rechten Seite ist nicht linear:

Zwei Diagramme. Ein Diagramm ist eine Linie, also eine lineare Beziehung.
          Das andere Diagramm ist eine Kurve, die Beziehung ist also nicht linear.

Nichtstationarität

#fundamentals

Eine Funktion, deren Werte sich in einer oder mehreren Dimensionen ändern, in der Regel zeitlich. Betrachten Sie beispielsweise die folgenden Beispiele für Nichtstationarität:

  • Die Anzahl der in einem bestimmten Geschäft verkauften Badeanzüge variiert je nach Saison.
  • Die Menge einer bestimmten Frucht, die in einer bestimmten Region geerntet wird für den Großteil des Jahres null, aber nur für kurze Zeit groß.
  • Aufgrund des Klimawandels ändern sich die jährlichen Durchschnittstemperaturen.

Kontrast mit Stationarität.

Normalisierung

#fundamentals

Im Großen und Ganzen der Prozess der Umwandlung des tatsächlichen Bereichs einer Variablen von Werten in einen Standardwertbereich verschieben. Beispiel:

  • -1 bis +1
  • 0 bis 1
  • Normalverteilung

Angenommen, der tatsächliche Wertebereich eines bestimmten Merkmals ist 800 bis 2.400. Im Rahmen des Feature Engineering könnten Sie die tatsächlichen Werte auf einen Standardbereich normalisieren, z. B. als -1 bis +1.

Normalisierung ist eine gängige Aufgabe in Feature Engineering. Modelle werden in der Regel schneller trainiert (und bessere Vorhersagen zu erhalten), wenn jedes numerische Merkmal im Featurevektor hat ungefähr denselben Bereich.

numerische Daten

#fundamentals

Elemente, die als Ganzzahlen oder reellwertige Zahlen dargestellt werden Ein Hausbewertungsmodell würde beispielsweise wahrscheinlich die Größe eines Hauses (in Quadratfuß oder Quadratmetern) als numerische Daten darstellen. Darstellung Ein Element als numerische Daten zeigt an, dass die Werte des Elements eine mathematische Beziehung zum Label haben. Das heißt, die Quadratmeterzahl in einem Haus hat wahrscheinlich mathematische Beziehung zum Wert des Hauses.

Nicht alle Ganzzahldaten sollten als numerische Daten dargestellt werden. Beispiel: Postleitzahlen in einigen Teilen der Welt sind Ganzzahlen. aber Ganzzahl "post" Codes sollten in Modellen nicht als numerische Daten dargestellt werden. Das liegt daran, Die Postleitzahl von 20000 ist nicht doppelt (oder halb so stark) wie die Postleitzahl von 10.000. Auch wenn verschiedene Postleitzahlen zu unterschiedlichen können wir nicht davon ausgehen, dass Immobilienwerte in der Postleitzahl 20.000 sind doppelt so wertvoll wie Immobilienwerte an der Postleitzahl 10000. Postleitzahlen sollten als kategorische Daten dargestellt werden. .

Numerische Merkmale werden manchmal als kontinuierliche Funktionen:

O

offline

#fundamentals

Synonym für static.

Offline-Inferenz

#fundamentals

Der Prozess eines Modells, das einen Batch von Vorhersagen generiert und diese Vorhersagen dann im Cache zu speichern. Apps können dann auf die abgeleiteten aus dem Cache, anstatt das Modell noch einmal auszuführen.

Stellen Sie sich zum Beispiel ein Modell vor, das lokale Wettervorhersagen generiert. (Vorhersagen) einmal alle vier Stunden. Nach jeder Modellausführung werden alle lokalen Wettervorhersagen im Cache gespeichert. Wetter-Apps rufen Vorhersagen ab aus dem Cache.

Offline-Inferenz wird auch als statische Inferenz bezeichnet.

Im Kontrast zu Online-Inferenz stehen.

One-Hot-Codierung

#fundamentals

Darstellung kategorialer Daten als Vektor mit:

  • Ein Element ist auf „1“ festgelegt.
  • Alle anderen Elemente sind auf 0 gesetzt.

One-Hot-Codierung wird in der Regel zur Darstellung von Strings oder Kennungen verwendet, eine endliche Menge möglicher Werte haben. Angenommen, ein bestimmtes kategoriales Merkmal namens Scandinavia hat fünf mögliche Werte:

  • „Dänemark“
  • „Schweden“
  • „Norwegen“
  • „Finnland“
  • „Island“

Die One-Hot-Codierung könnte jeden der fünf Werte wie folgt darstellen:

country Vektor
„Dänemark“ 1 0 0 0 0
„Schweden“ 0 1 0 0 0
„Norwegen“ 0 0 1 0 0
„Finnland“ 0 0 0 1 0
„Island“ 0 0 0 0 1

Dank der One-Hot-Codierung kann ein Modell verschiedene Verbindungen basierend auf den fünf Ländern.

Die Darstellung eines Elements als numerische Daten ist ein zur One-Hot-Codierung ein. Leider ist die Vertretung der Skandinavische Länder sind keine gute Wahl. Beispiel: Betrachten Sie die folgende numerische Darstellung:

  • „Dänemark“ ist 0
  • „Schweden“ ist 1
  • „Norwegen“ ist 2
  • „Finnland“ ist 3
  • „Island“ ist 4

Bei numerischer Codierung würde ein Modell die Rohzahlen interpretieren mathematisch angewandt und versucht, mit diesen Zahlen zu trainieren. Allerdings ist Island nicht doppelt so viel (oder halb so viel) etwas wie Norwegen, daher würde das Modell seltsame Schlussfolgerungen ziehen.

Eins gegen alle

#fundamentals

Bei einem Klassifizierungsproblem mit n Klassen aus n separaten binäre Klassifikatoren – ein binärer Klassifikator für zu jedem möglichen Ergebnis. Bei einem Modell, das Beispiele klassifiziert, tierisch, pflanzlich oder negativ bewertet, wäre eine Ein-gegen-alle-Lösung folgenden drei separaten binären Klassifikatoren:

  • Tier oder kein Tier
  • Gemüse gegen Gemüse
  • Mineral im Vergleich zu nicht Mineral

online

#fundamentals

Synonym für dynamic.

Online-Inferenz

#fundamentals

Vorhersagen bei Bedarf generieren. Beispiel: Angenommen, eine App übergibt eine Eingabe an ein Modell und gibt eine Anfrage für eine Vorhersage treffen. Ein System, das Online-Inferenz verwendet, reagiert auf die Anfrage mit folgendem Befehl: (und die Vorhersage an die App zurückgeben).

Im Kontrast zu Offline-Inferenz.

Ausgabeebene

#fundamentals

Das „finale“ eines neuronalen Netzwerks. Die Ausgabeebene enthält die Vorhersage.

Die folgende Abbildung zeigt ein kleines neuronales Deep-Learning-Netzwerk mit einer Eingabe -Ebene, zwei verborgenen Layern und einer Ausgabeebene:

Ein neuronales Netzwerk mit einer Eingabeschicht, zwei verborgenen Schichten und einer
          Ausgabeebene. Die Eingabeebene besteht aus zwei Merkmalen. Das erste
          Die versteckte Schicht besteht aus drei Neuronen und der zweiten versteckten Schicht
          besteht aus zwei Neuronen. Die Ausgabeebene besteht aus einem einzelnen Knoten.

Überanpassung

#fundamentals

Erstellen eines Modells, das den Trainingsdaten so genau, dass das Modell korrekte Vorhersagen für neue Daten zu treffen.

Die Regularisierung kann eine Überanpassung reduzieren. Wenn du mit einem großen und vielfältigen Trainings-Dataset trainierst, kannst du eine Überanpassung ebenfalls reduzieren.

P

pandas

#fundamentals

Eine spaltenorientierte Datenanalyse API, die auf numpy basiert. Viele Frameworks für maschinelles Lernen, wie TensorFlow, unterstützen Pandas-Datenstrukturen als Eingaben. Weitere Informationen finden Sie in der pandas-Dokumentation .

Parameter

#fundamentals

Die Gewichtungen und Verzerrungen, die ein Modell lernt Training. Beispiel: In einer linearen Regressionsmodell basiert, bestehen die Parameter aus den Bias (b) und alle Gewichtungen (w1, w2, und so weiter) in die folgende Formel ein:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Im Gegensatz dazu sind Hyperparameter die Werte, Sie (oder einen Hyperparameter-Turn-Service) bereitstellen. Beispielsweise ist die Lernrate ein Hyperparameter.

positive Klasse

#fundamentals

Die Klasse, für die Sie den Test durchführen.

Die positive Klasse in einem Krebsmodell könnte beispielsweise „Tumor“ sein. Die positive Klasse in einem E-Mail-Klassifikator kann beispielsweise „Spam“ sein.

Kontrast mit negativer Klasse.

Nachbearbeitung

#fairness
#fundamentals

Ausgabe eines Modells anpassen, nachdem das Modell ausgeführt wurde. Mit der Nachbearbeitung lassen sich Fairness-Einschränkungen erzwingen, Modelle selbst zu modifizieren.

Beispielsweise kann die Nachverarbeitung auf einen binären Klassifikator angewendet werden, indem Sie einen Klassifizierungsschwellenwert festlegen, Chancengleichheit gewahrt bleibt für ein bestimmtes Attribut, indem geprüft wird, ob der Wert für richtig positive Ergebnisse ist für alle Werte dieses Attributs gleich.

prognostizierter Wert

#fundamentals

Die Ausgabe eines Modells. Beispiel:

  • Die Vorhersage eines binären Klassifizierungsmodells ist entweder die positive oder die negative Klasse.
  • Die Vorhersage eines mehrklassigen Klassifizierungsmodells ist eine Klasse.
  • Die Vorhersage eines linearen Regressionsmodells ist eine Zahl.

Proxy-Labels

#fundamentals

Daten zur Schätzung von Labels, die nicht direkt in einem Dataset verfügbar sind.

Angenommen, Sie müssen ein Modell trainieren, um die Anzahl der Stresslevel zu reduzieren. Ihr Dataset enthält viele Vorhersagefunktionen, enthält kein Label namens Stresslevel. Unermutigt wählen Sie „Arbeitsunfälle“ als Proxy-Label für Stresslevel zu reduzieren. Schließlich haben Mitarbeitende unter hohem Stress mehr Zeit, als beruhigende Mitarbeitende. Oder? Vielleicht Arbeitsunfälle die aus verschiedenen Gründen steigen und fallen.

Angenommen, Sie möchten Ist es regnet? ein boolesches Label sein? für Ihr Dataset, enthält aber keine Regendaten. Wenn Fotos verfügbar sind, können Sie Bilder von Personen erstellen, Regenschirme als Ersatzlabel für regnet es? Ist das ein gutes Proxy-Label? Vielleicht, aber Menschen in einigen Kulturen tragen eher Sonnenschirme bei als Regen.

Proxy-Labels sind oft nicht perfekt. Wählen Sie nach Möglichkeit tatsächliche Labels gegenüber Proxy-Labels. Wenn jedoch kein tatsächliches Label vorhanden ist, wählen Sie den Proxy aus. sehr sorgfältig und wählt den am wenigsten schrecklichen Proxy-Label-Kandidaten aus.

R

RAG

#fundamentals

Abkürzung für Retrieval Augmented Generation

Bewerter

#fundamentals

Ein Nutzer, der Labels für Beispiele bereitstellt. „Kommentator“ ist ein anderer Name für Evaluator.

Rektifizierte Lineareinheit (ReLU)

#fundamentals

Eine Aktivierungsfunktion mit folgendem Verhalten:

  • Wenn die Eingabe negativ oder null ist, ist die Ausgabe 0.
  • Wenn die Eingabe positiv ist, ist die Ausgabe gleich der Eingabe.

Beispiel:

  • Wenn die Eingabe -3 ist, ist die Ausgabe 0.
  • Wenn die Eingabe +3 ist, ist die Ausgabe 3,0.

Hier ist ein ReLU-Diagramm:

Ein kartesisches Diagramm mit zwei Linien. Die erste Linie hat eine Konstante,
          y-Wert von 0, der entlang der x-Achse von -unendlich,0 bis 0,-0 verläuft.
          Die zweite Zeile beginnt bei 0,0. Diese Linie hat eine Steigung von +1,
          von 0,0 bis +unendlich,+unendlich.

ReLU ist eine sehr beliebte Aktivierungsfunktion. Trotz des einfachen Verhaltens Mit ReLU kann ein neuronales Netzwerk weiterhin nonlinear lernen Beziehungen zwischen Merkmalen und dem Label.

Regressionsmodell

#fundamentals

Informell ein Modell, das eine numerische Vorhersage generiert. (Im Gegensatz dazu Ein Klassifizierungsmodell generiert eine Klasse. prediction.) Im Folgenden sehen Sie beispielsweise alle Regressionsmodelle:

  • Ein Modell, das den Wert eines bestimmten Hauses vorhersagt,z. B. 423.000 €.
  • Modell, das die Lebenserwartung eines bestimmten Baums vorhersagt, z. B. 23,2 Jahre.
  • Modell, das die Regenmenge vorhersagt, die in einer bestimmten Stadt fallen wird innerhalb der nächsten sechs Stunden, z. B. 0,18 Zoll.

Zwei gängige Arten von Regressionsmodellen sind:

  • Lineare Regression, mit der die Gerade ermittelt wird, passt Labelwerte zu Features.
  • Logistische Regression, die eine Wahrscheinlichkeit zwischen 0,0 und 1,0, dass ein System typischerweise einer Klasse zuordnet eine Vorhersage treffen.

Nicht jedes Modell, das numerische Vorhersagen ausgibt, ist ein Regressionsmodell. Manchmal ist eine numerische Vorhersage eigentlich nur ein Klassifizierungsmodell. numerische Klassennamen. Beispiel: Ein Modell, das ist eine numerische Postleitzahl ein Klassifizierungsmodell, kein Regressionsmodell.

Regularisierung

#fundamentals

Jeder Mechanismus, der eine Überanpassung reduziert. Zu den beliebten Regularisierungstypen gehören:

Regularisierung kann auch als Strafe für die Komplexität eines Modells definiert werden.

Regularisierungsrate

#fundamentals

Zahl, die die relative Bedeutung von Regularisierung während des Trainings. Anheben der Regularisierungsrate reduziert die Überanpassung, kann aber die Vorhersageleistung des Modells reduzieren. Umgekehrt kann das Reduzieren oder Auslassen erhöht die Regularisierungsrate die Überanpassung.

ReLU

#fundamentals

Kürzel für Rektifizierte lineare Einheit.

Retrieval-Augmented Generation (RAG)

#fundamentals

Eine Technik zur Verbesserung der Qualität Large Language Model (LLM)-Ausgabe durch Wissensquellen, die nach dem Trainieren des Modells abgerufen wurden. RAG verbessert die Genauigkeit von LLM-Antworten, indem das trainierte LLM mit Zugriff auf Informationen aus vertrauenswürdigen Wissensdatenbanken oder Dokumenten

Häufige Beweggründe für die Nutzung von „Retrieval Augmented Generation“ sind:

  • Die faktische Genauigkeit der generierten Antworten eines Modells erhöhen.
  • Gewährt dem Modell Zugriff auf Informationen, mit denen es nicht trainiert wurde.
  • Ändern des Wissens, das das Modell verwendet.
  • Das Modell zum Zitieren von Quellen aktivieren

Angenommen, eine Chemie-App verwendet das PaLM API zum Generieren von Zusammenfassungen die sich auf Nutzeranfragen beziehen. Wenn das Back-End der Anwendung eine Abfrage empfängt, geschieht Folgendes:

  1. Sucht nach Daten, die für die Suchanfrage des Nutzers relevant sind („abruft“)
  2. Hängt die relevanten Chemiedaten an die Suchanfrage des Nutzers an.
  3. Weist das LLM an, anhand der angehängten Daten eine Zusammenfassung zu erstellen.

ROC-Kurve (Receiver Operating Curve, Receiver Operating Curve)

#fundamentals

Ein Diagramm mit der Rate wirklich positiver Ergebnisse im Vergleich zu Rate falsch positiver Ergebnisse für verschiedene Klassifizierungsschwellenwerte in Binärcode Klassifizierung.

Die Form einer ROC-Kurve deutet auf die Fähigkeit eines binären Klassifizierungsmodells hin. um positive von negativen Klassen zu trennen. Nehmen wir zum Beispiel an, dass ein binäres Klassifizierungsmodell alle negativen Klassen aus allen positiven Klassen:

Eine Zahlenreihe mit acht positiven Beispielen auf der rechten Seite und
          Sieben negative Beispiele links.

Die ROC-Kurve für das vorherige Modell sieht so aus:

Eine ROC-Kurve. Die x-Achse steht für die Rate falsch positiver Ergebnisse und die y-Achse
          ist die Richtig-Positiv-Rate. Die Kurve hat eine umgekehrte L-Form. Die Kurve
          beginnt bei (0.0,0.0) und geht direkt bis (0.0,1.0). Dann ist die Kurve
          ändert sich von (0.0,1.0) nach (1.0,1.0).

Im Gegensatz dazu wird in der folgenden Abbildung die rohe logistische Regression grafisch dargestellt. für ein schreckliches Modell, das negative Klassen nicht von keine positiven Klassen haben:

Eine Zahlenlinie mit positiven Beispielen und negativen Klassen
          vollständig vermischt sind.

Die ROC-Kurve für dieses Modell sieht so aus:

Eine ROC-Kurve, die eigentlich eine gerade Linie von (0,0,0,0) ist
          bis (1.0;1.0).

In der realen Welt sind die meisten binären Klassifizierungsmodelle bis zu einem gewissen Grad an positiven und negativen Klassen, aber normalerweise nicht perfekt. Also: liegt eine typische ROC-Kurve irgendwo zwischen den beiden Extremen:

Eine ROC-Kurve. Die x-Achse steht für die Rate falsch positiver Ergebnisse und die y-Achse
          ist die Richtig-Positiv-Rate. Die ROC-Kurve entspricht einem wackeligen Bogen.
          die Kompasspunkte von Westen nach Norden durchlaufen.

Der Punkt auf einer ROC-Kurve, der (0.0,1.0) am nächsten liegt, identifiziert theoretisch den idealen Klassifizierungsschwellenwert. Es gibt jedoch auch andere Probleme, die Auswahl des idealen Klassifizierungsschwellenwerts beeinflussen. Beispiel: haben vielleicht falsch negative Ergebnisse weitaus mehr Schmerz als falsch positive Ergebnisse.

Der numerische Messwert AUC fasst die ROC-Kurve in einen einzelnen Gleitkommawert.

Wurzel der mittleren Fehlerquadratsumme (Root Mean Squared Error, RMSE)

#fundamentals

Die Quadratwurzel des mittleren quadratischen Fehlers.

S

Sigmoidfunktion

#fundamentals

Eine mathematische Funktion, die „zerquetscht“ einen Eingabewert in einen beschränkten Bereich normalerweise 0 bis 1 oder -1 bis +1. Das heißt, Sie können jede Zahl (zwei, eine Million, negative Milliarden oder irgendetwas) in ein Sigmoid wandeln und das Ergebnis immer noch in der eingeschränkten Bereich an. Ein Diagramm der Sigmoid-Aktivierungsfunktion sieht so aus:

Ein zweidimensionales, gebogenes Diagramm mit x-Werten, die die Domain umfassen
          -endlos zu +positiv, während y-Werte einen Bereich von fast 0 bis
          Fast 1. Wenn x 0 ist, ist y 0,5. Die Steigung der Kurve ist immer gleich
          positiv, wobei die höchste Steigung bei 0,0,5 liegt und allmählich abnimmt.
          wenn der Absolutwert von x ansteigt.

Die Sigmoidfunktion kann im maschinellen Lernen zu verschiedenen Zwecken eingesetzt werden:

Softmax-Funktion

#fundamentals

Eine Funktion, die Wahrscheinlichkeiten für jede mögliche Klasse in einer Klassifizierungsmodell mit mehreren Klassen. Die Wahrscheinlichkeiten addieren sich auf genau 1,0. Die folgende Tabelle zeigt beispielsweise, wie Softmax-Werte verschiedene Wahrscheinlichkeiten:

Bild ist... Probability
Hund 0,85
Katze ,13
Pferd ,02

Softmax wird auch Full Softmax genannt.

Im Gegensatz dazu können Sie mit der Stichprobenerhebung kontrastieren.

dünnbesetztes Feature

#language
#fundamentals

Ein feature, dessen Werte überwiegend null oder leer sind. Ein Feature mit einem einzelnen 1-Wert und einer Million 0-Werten dünnbesetzt sind. Ein dichtes Feature hingegen hat Werte, meistens nicht null oder leer sind.

Beim maschinellen Lernen handelt es sich bei einer überraschenden Anzahl von Features um dünnbesetzte Features. Kategoriale Merkmale sind in der Regel dünnbesetzte Merkmale. Von den 300 möglichen Baumarten in einem Wald könnte ein einziges lediglich einen Ahornbaum erkennen. Oder von den Millionen in einer Videobibliothek gibt, könnte ein Beispiel nur „Casablanca“.

In einem Modell stellen Sie dünnbesetzte Features normalerweise mit One-Hot-Codierung. Wenn die One-Hot-Codierung groß ist, können Sie eine Einbettungsebene über das Bild One-Hot-Codierung für mehr Effizienz.

Dünnbesetzte Darstellung

#language
#fundamentals

Nur die Position(en) von Elementen ungleich null in einem dünnbesetzten Feature speichern.

Angenommen, ein kategoriales Feature namens species identifiziert die 36 in einem bestimmten Wald zu finden. Nehmen wir weiter an, dass jedes Beispiel für nur eine einzelne Spezies.

Sie können einen One-Hot-Vektor verwenden, um die Baumarten in jedem Beispiel darzustellen. Ein One-Hot-Vektor würde einen einzelnen 1 enthalten (um die jeweilige Baumart in diesem Beispiel) und 35 0s (zur Darstellung der 35 Baumarten nicht in diesem Beispiel). Die One-Hot-Darstellung von maple könnte etwa so aussehen:

Ein Vektor, in dem die Positionen 0 bis 23 den Wert 0 enthalten,
          24 enthält den Wert 1 und die Positionen 25 bis 35 den Wert 0.

Alternativ würde bei der dünnbesetzten Darstellung einfach die Position des bestimmte Spezies. Wenn sich maple auf Position 24 befindet, ist die dünnbesetzte Darstellung von maple wäre einfach:

24

Beachten Sie, dass die dünnbesetzte Darstellung viel kompakter ist als die One-Hot-Darstellung. Darstellung.

Dünnbesetzter Vektor

#fundamentals

Ein Vektor, dessen Werte hauptsächlich Nullen sind. Siehe auch Sparse und spars zu nutzen.

Verlust im Quadrat

#fundamentals

Synonym für L2-Verlust.

statisch

#fundamentals

Etwas, das einmal und nicht kontinuierlich ausgeführt wird. Die Begriffe statisch und offline sind Synonyme. Im Folgenden werden häufige Verwendungen von statisch und offline auf Computern aufgeführt. Lernen:

  • Statisches Modell (oder Offline-Modell) ist ein Modell, das einmal trainiert wird. verwendet werden.
  • Statisches Training (oder Offline-Training) ist der Trainingsprozess eines statisches Modell.
  • Statische Inferenz (oder Offline-Inferenz) ist eine Prozess, bei dem ein Modell einen Batch von Vorhersagen gleichzeitig generiert.

Stellen Sie einen Kontrast mit Dynamisch her.

statische Inferenz

#fundamentals

Synonym für offline-inferenz.

Stationarität

#fundamentals

Eine Funktion, deren Werte sich in einer oder mehreren Dimensionen nicht ändern, in der Regel zeitlich. Eine Funktion, deren Werte 2021 ungefähr gleich aussehen, 2023 zeigt „Stationarität“.

In der Praxis weisen nur sehr wenige Merkmale eine stationäre Form auf. Funktionen mit gleichmäßiger Ausrichtung gleichbedeutend mit Veränderungen der Stabilität (wie dem Meeresspiegel) im Laufe der Zeit.

Im Kontrast zu Instationarität stehen.

Stochastic Gradient Decent (SGD)

#fundamentals

Ein Gradientenabstiegsalgorithmus, bei dem das Batchgröße ist eins. Mit anderen Worten: SGD ein einzelnes Beispiel, das einheitlich Zufallsauswahl aus einem Trainings-Dataset.

überwachtes maschinelles Lernen

#fundamentals

Trainieren eines Modells anhand von Features und deren entsprechende Labels. Beim überwachten maschinellen Lernen indem sie eine Reihe von Fragen und ihre die entsprechenden Antworten. Nachdem Sie die Zuordnung zwischen Fragen und kann ein Schüler oder Student neue, noch nie gesehene zum selben Thema.

Vergleichen mit unüberwachtes maschinelles Lernen:

synthetisches Feature

#fundamentals

Eine Funktion, die nicht unter den Eingabefeatures vorhanden ist, jedoch die aus einem oder mehreren dieser Elemente zusammengestellt wurden. Methoden zum Erstellen synthetischer Features umfassen Folgendes:

  • Bucketing eines fortlaufenden Features in Bereichsklassen.
  • Feature-Cross erstellen
  • Multiplizieren (oder Teilen) eines Featurewerts mit anderen Featurewerten oder für sich allein. Wenn beispielsweise a und b Eingabefeatures sind, dann Beispiele für synthetische Features: <ph type="x-smartling-placeholder">
      </ph>
    • Ab
    • a2
  • Anwenden einer transzendentalen Funktion auf einen Featurewert. Beispiel: c ist ein Eingabefeature, dann sind folgende Beispiele für synthetische Merkmale: <ph type="x-smartling-placeholder">
      </ph>
    • sin(c)
    • ln(c)

Durch Normalisieren oder Skalieren erstellte Features werden nicht als synthetische Merkmale betrachtet.

T

Testverlust

#fundamentals

Ein Messwert, der den Verlust eines Modells in Bezug auf das Test-Dataset. Beim Erstellen eines Modells den Testverlust zu minimieren. Das liegt daran, dass ein geringer Testverlust ein stärkeres Signal als bei einem geringen Trainingsverlust oder geringer Validierungsverlust.

Manchmal gibt es eine große Lücke zwischen Test- und Trainings- oder Validierungsverlust. deutet darauf hin, dass Sie den Wert Regularisierungsrate.

Training

#fundamentals

Der Prozess zur Bestimmung der idealen Parameter (Gewichtung und Verzerrungen) besteht aus einem Modell. Während des Trainings liest ein System Beispiele und passt die Parameter nach und nach an. Beim Training werden ein paar bis Milliarden von Beispielen.

Trainingsverlust

#fundamentals

Ein Messwert, der den Verlust eines Modells während eines bestimmte Trainingsdurchlaufe. Angenommen, die Verlustfunktion ist Mean Squared Error. Vielleicht der Trainingsverlust (der Mittelwert Quadratischer Fehler) für den 10.Durchlauf 2, 2 und der Trainingsverlust für der 100. Durchlauf ist 1.9.

In einer Verlustkurve werden die Trainingsverluste im Vergleich zur Anzahl der Iterationen vor. Eine Verlustkurve bietet die folgenden Hinweise zum Training:

  • Ein Abfall deutet darauf hin, dass sich das Modell verbessert.
  • Ein Anstieg nach oben deutet darauf hin, dass sich das Modell verschlechtert.
  • Eine flache Steigung deutet darauf hin, dass das Modell bereits Konvergenz.

Beispielsweise die folgende, eher idealisierte Verlustkurve: Shows:

  • Ein steiler Abfall während der ersten Iterationen, was impliziert für eine schnelle Modellverbesserung.
  • Ein allmählich abflachender, aber immer noch nach unten liegender Anstieg, bis zum Ende hin was eine kontinuierliche Verbesserung des Modells langsameres Tempo als bei den ersten Durchläufen.
  • Ein flaches Gefälle gegen Ende des Trainings, das auf Konvergenz hindeutet.

Diagramm des Trainingsverlusts im Vergleich zu den Iterationen Diese Verlustkurve beginnt
     mit steilem Abfall. Die Steigung verringert sich allmählich, bis die
     die Steigung auf null wird.

Auch wenn der Trainingsverlust wichtig ist, Generalisierung.

Abweichungen zwischen Training und Bereitstellung

#fundamentals

Der Unterschied zwischen der Leistung eines Modells während Training und die Leistung dieses Modells während Auslieferung

Trainings-Dataset

#fundamentals

Die Teilmenge des Datasets, die zum Trainieren eines Modells verwendet wird.

Traditionell werden Beispiele im Dataset in die folgenden drei Bereiche unterteilt: für unterschiedliche Teilmengen:

Idealerweise sollte jedes Beispiel im Dataset nur zu einem der Teilmengen vorangehen. Ein einzelnes Beispiel sollte z. B. nicht zu Trainings- und Validierungs-Dataset.

Richtig negatives Ergebnis (TN)

#fundamentals

Ein Beispiel, bei dem das Modell das Ereignis richtig vorhersagt: ausschließende Klasse. Das Modell leitet beispielsweise ab, eine bestimmte E-Mail-Nachricht kein Spam ist und diese Nachricht in Wirklichkeit kein Spam.

Richtig positives Ergebnis (TP)

#fundamentals

Ein Beispiel, bei dem das Modell das Ereignis richtig vorhersagt: positive Klasse. Das Modell leitet beispielsweise ab, eine bestimmte E-Mail-Nachricht Spam ist und diese E-Mail-Nachricht tatsächlich Spam ist.

Rate richtig positiver Ergebnisse (TPR)

#fundamentals

Synonym für recall. Das bedeutet:

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

Die Rate richtig positiver Ergebnisse ist die Y-Achse in einer ROC-Kurve.

U

Unteranpassung

#fundamentals

Erstellen eines Modells mit schlechter Vorhersagefähigkeit, weil das Modell die Komplexität der Trainingsdaten nicht vollständig erfasst. Viele Probleme kann zu einer Unteranpassung führen, einschließlich:

Beispiel ohne Label

#fundamentals

Ein Beispiel, das Features, aber kein Label enthält. Die folgende Tabelle zeigt drei Beispiele ohne Label aus einem Haus Bewertungsmodell mit jeweils drei Merkmalen, aber ohne Immobilienwert:

Anzahl der Schlafzimmer Anzahl der Badezimmer Haushalt
3 2 15
2 1 72
4 2 34

Beim überwachten maschinellen Lernen Modelle werden anhand von Beispielen mit Labels trainiert und treffen Vorhersagen Beispiele ohne Label.

In Konten mit Elternaufsicht und unüberwachtes Lernen, Beispiele ohne Label werden während des Trainings verwendet.

Vergleichen Sie Beispiel ohne Label mit Beispiel mit Label.

unbeaufsichtigtes maschinelles Lernen

#clustering
#fundamentals

Trainieren eines Modells zum Auffinden von Mustern in einem Dataset, in der Regel ein Dataset ohne Label.

Unüberwachtes maschinelles Lernen wird am häufigsten genutzt, Cluster-Daten in Gruppen ähnlicher Beispiele. Beispiel: ein nicht überwachter Computer kann der Lernalgorithmus Songs anhand verschiedener Eigenschaften gruppieren der Musik. Die resultierenden Cluster können als Eingabe für andere Maschinen dienen Lernalgorithmen (z. B. an einen Musikempfehlungsdienst). Clustering kann hilfreich sein, wenn nützliche Beschriftungen knapp oder gar nicht vorhanden sind. In Bereichen wie Missbrauchsbekämpfung und Betrug können Cluster beispielsweise dass Menschen die Daten besser verstehen können.

Im Gegensatz zu überwachtem maschinellem Lernen.

V

validation

#fundamentals

Die erste Bewertung der Qualität eines Modells. Bei der Validierung wird die Qualität der Vorhersagen eines Modells mit dem Validierungsset:

Da sich das Validierungs-Dataset vom Trainings-Dataset unterscheidet, Validierung trägt zum Schutz vor Überanpassung bei.

Die Bewertung des Modells anhand des Validierungs-Datasets erste Testrunde und Bewertung des Modells anhand der Test-Dataset als zweite Testrunde

Validierungsverlust

#fundamentals

Ein Messwert, der den Verlust eines Modells in das Validierungs-Dataset während eines bestimmten Durchlauf des Trainings.

Siehe auch Generalisierungskurve.

Validierungs-Dataset

#fundamentals

Die Teilmenge des Datasets, die die anfänglichen Auswertung anhand eines trainierten Modells. In der Regel bewerten Sie das trainierte Modell anhand des Validierungs-Datasets bevor Sie das Modell mit dem Test-Dataset vergleichen.

Traditionell unterteilen Sie die Beispiele im Dataset in die folgenden drei für unterschiedliche Teilmengen:

Idealerweise sollte jedes Beispiel im Dataset nur zu einem der Teilmengen vorangehen. Ein einzelnes Beispiel sollte z. B. nicht zu Trainings- und Validierungs-Dataset.

W

Gewicht

#fundamentals

Wert, den ein Modell mit einem anderen Wert multipliziert. Training ist der Prozess zur Bestimmung des Idealgewichts eines Modells. Inferenz ist der Prozess, bei dem diese erlernten Gewichtungen Vorhersagen zu treffen.

gewichtete Summe

#fundamentals

Die Summe aller relevanten Eingabewerte multipliziert mit den entsprechenden Gewichte. Angenommen, die relevanten Eingaben setzen sich so zusammen:

Eingabewert Eingabegewichtung
2 -1,3
-1 0,6
3 0,4

Die gewichtete Summe lautet daher:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Eine gewichtete Summe ist das Eingabeargument für eine Aktivierungsfunktion:

Z

Normalisierung des Z-Werts

#fundamentals

Eine Skalierungstechnik, die eine unbearbeitete feature-Wert mit einem Gleitkommawert, der für die Anzahl der Standardabweichungen vom Mittelwert der Funktion. Nehmen wir zum Beispiel eine Funktion an, deren Mittelwert 800 ist und deren die Abweichung 100 beträgt. Die folgende Tabelle zeigt, wie die Normalisierung des Z-Werts würde den Rohwert seinem Z-Wert zuordnen:

Unverarbeiteter Wert Z-Wert
800 0
950 +1,5
575 -2,25

Das Modell für maschinelles Lernen wird dann anhand der Z-Werte trainiert. statt auf die Rohwerte.