Glossar zum maschinellen Lernen: ML-Grundlagen

Auf dieser Seite finden Sie die Begriffe aus dem Glossar zu „KI-Grundlagen“. Hier finden Sie alle Begriffe aus dem Glossar.

A

Genauigkeit

#fundamentals

Die Anzahl der korrekten Klassifizierungsvorhersagen geteilt durch die Gesamtzahl der Vorhersagen. Das bedeutet:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Ein Modell mit 40 richtigen und 10 falschen Vorhersagen hat beispielsweise eine Genauigkeit von:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

Bei der binären Klassifizierung werden die verschiedenen Kategorien von richtigen Vorhersagen und falschen Vorhersagen mit bestimmten Namen versehen. Die Formel für die Genauigkeit bei der binären Klassifizierung lautet also:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

Dabei gilt:

Vergleichen und kontrastieren Sie Accuracy mit Precision und Recall.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Klassifizierung: Genauigkeit, Rückruf, Präzision und zugehörige Messwerte.

Aktivierungsfunktion

#fundamentals

Eine Funktion, die es neuronalen Netzen ermöglicht, nichtlineare (komplexe) Beziehungen zwischen Features und dem Label zu lernen.

Zu den beliebten Aktivierungsfunktionen gehören:

Die Plots von Aktivierungsfunktionen sind nie einzelne Geraden. Die Darstellung der ReLU-Aktivierungsfunktion besteht beispielsweise aus zwei Geraden:

Ein kartesisches Diagramm mit zwei Linien. Die erste Linie hat einen konstanten y-Wert von 0 und verläuft entlang der x-Achse von -∞,0 bis 0,-0.
          Die zweite Linie beginnt bei 0,0. Diese Linie hat eine Steigung von +1 und verläuft daher von 0,0 bis +unendlich,+unendlich.

Ein Diagramm der Sigmoid-Aktivierungsfunktion sieht so aus:

Ein zweidimensionaler gekrümmter Plot mit X-Werten von –unendlich bis +positiv, während die Y-Werte den Bereich von fast 0 bis fast 1 umfassen. Wenn x = 0 ist, ist y = 0,5. Die Steigung der Kurve ist immer positiv, wobei die höchste Steigung bei 0,05 liegt und die Steigung mit zunehmendem Absolutwert von x allmählich abnimmt.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Neuronale Netzwerke: Aktivierungsfunktionen.

künstliche Intelligenz

#fundamentals

Ein nicht menschliches Programm oder Modell, das anspruchsvolle Aufgaben lösen kann. Ein Programm oder Modell, das Text übersetzt, oder ein Programm oder Modell, das Krankheiten anhand radiologischer Bilder erkennt, sind Beispiele für künstliche Intelligenz.

Formal gesehen ist maschinelles Lernen ein Teilgebiet der künstlichen Intelligenz. In den letzten Jahren haben einige Organisationen jedoch begonnen, die Begriffe künstliche Intelligenz und maschinelles Lernen synonym zu verwenden.

AUC (Bereich unter der ROC-Kurve)

#fundamentals

Eine Zahl zwischen 0,0 und 1,0, die angibt, wie gut ein binäres Klassifizierungsmodell positive Klassen von negativen Klassen unterscheiden kann. Je näher der AUC an 1,0 liegt, desto besser kann das Modell Klassen voneinander unterscheiden.

Die folgende Abbildung zeigt beispielsweise ein Klassifizierungsmodell, das positive Klassen (grüne Ovale) perfekt von negativen Klassen (violette Rechtecke) trennt. Dieses unrealistisch perfekte Modell hat einen AUC von 1,0:

Eine Zahlenlinie mit 8 positiven Beispielen auf der einen Seite und 9 negativen Beispielen auf der anderen Seite.

Die folgende Abbildung zeigt dagegen die Ergebnisse für ein Klassifizierungsmodell, das zufällige Ergebnisse generiert hat. Dieses Modell hat eine AUC von 0,5:

Eine Zahlenlinie mit 6 positiven und 6 negativen Beispielen.
          Die Abfolge der Beispiele ist positiv, negativ, positiv, negativ, positiv, negativ, positiv, negativ, positiv, negativ, positiv, negativ.

Ja, das vorherige Modell hat eine AUC von 0,5, nicht 0,0.

Die meisten Modelle liegen irgendwo zwischen diesen beiden Extremen. Das folgende Modell unterscheidet beispielsweise positiv und negativ etwas und hat daher einen AUC-Wert zwischen 0, 5 und 1, 0:

Eine Zahlenlinie mit 6 positiven und 6 negativen Beispielen.
          Die Abfolge der Beispiele lautet negativ, negativ, negativ, negativ, positiv, negativ, positiv, positiv, negativ, positiv, positiv, positiv.

Der AUC ignoriert alle Werte, die Sie für den Klassifizierungsgrenzwert festgelegt haben. Stattdessen werden bei der AUC alle möglichen Klassifizierungsschwellenwerte berücksichtigt.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Klassifizierung: ROC und AUC.

B

Backpropagation

#fundamentals

Der Algorithmus, der den Gradientenabstieg in neuronalen Netzwerken implementiert.

Das Training eines neuronalen Netzes umfasst viele iterations des folgenden zweistufigen Zyklus:

  1. Während des Vorwärtsdurchlaufs verarbeitet das System einen Batch von Beispielen, um Vorhersagen zu treffen. Das System vergleicht jede Vorhersage mit jedem Label-Wert. Die Differenz zwischen der Vorhersage und dem Labelwert ist der Verlust für dieses Beispiel. Das System aggregiert die Verluste für alle Beispiele, um den Gesamtverlust für den aktuellen Batch zu berechnen.
  2. Während des rückwärtsgerichteten Durchlaufs (Backpropagation) reduziert das System den Verlust, indem es die Gewichte aller Neuronen in allen versteckten Schichten anpasst.

Neuronale Netze enthalten oft viele Neuronen in vielen verborgenen Schichten. Jeder dieser Neuronen trägt auf unterschiedliche Weise zum Gesamtverlust bei. Bei der Backpropagation wird festgelegt, ob die Gewichte für bestimmte Neuronen erhöht oder verringert werden sollen.

Die Lernrate ist ein Multiplikator, mit dem gesteuert wird, in welchem Maße jedes Gewicht bei jedem Rückwärtsdurchlauf erhöht oder verringert wird. Bei einer hohen Lernrate werden die Gewichte stärker erhöht oder verringert als bei einer niedrigen Lernrate.

Mit der Backpropagation wird die Kettenregel aus der Differentialrechnung implementiert. Mit der Backpropagation wird also die partielle Ableitung des Fehlers in Bezug auf jeden Parameter berechnet.

Vor Jahren mussten ML-Experten Code schreiben, um die Backpropagation zu implementieren. Moderne ML-APIs wie Keras implementieren die Backpropagation jetzt für Sie. Geschafft!

Weitere Informationen finden Sie im Machine Learning Crash Course unter Neuronale Netzwerke.

Batch

#fundamentals

Die Beispiele, die in einer Trainings-Iteration verwendet werden. Die Batchgröße bestimmt die Anzahl der Beispiele in einem Batch.

Eine Erläuterung dazu, wie sich ein Batch auf eine Epoche bezieht, finden Sie unter Epoche.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Lineare Regression: Hyperparameter.

Batchgröße

#fundamentals

Die Anzahl der Beispiele in einem Batch. Wenn die Batchgröße beispielsweise 100 beträgt, verarbeitet das Modell 100 Beispiele pro Iteration.

Im Folgenden finden Sie gängige Strategien für die Batchgröße:

  • Stochastic Gradient Descent (SGD), bei dem die Batchgröße 1 ist.
  • Vollständiger Batch, bei dem die Batchgröße der Anzahl der Beispiele im gesamten Trainingssatz entspricht. Wenn der Trainingssatz beispielsweise eine Million Beispiele enthält, beträgt die Batchgröße eine Million Beispiele. Die vollständige Batch-Datei ist in der Regel eine ineffiziente Strategie.
  • Mini-Batch, bei dem die Batchgröße in der Regel zwischen 10 und 1.000 liegt. Mini-Batch ist in der Regel die effizienteste Strategie.

Weitere Informationen finden Sie hier:

Voreingenommenheit (Ethik/Fairness)

#fairness
#fundamentals

1. Stereotypisierung, Vorurteile oder Bevorzugung bestimmter Dinge, Personen oder Gruppen gegenüber anderen. Diese Verzerrungen können sich auf die Erhebung und Interpretation von Daten, das Design eines Systems und die Interaktion der Nutzer mit einem System auswirken. Beispiele für diese Art von Verzerrung sind:

2. Systematischer Fehler, der durch Stichprobenerhebung oder Berichterstellung verursacht wird. Beispiele für diese Art von Verzerrung sind:

Nicht zu verwechseln mit dem Bias-Begriff in Machine-Learning-Modellen oder dem Vorhersagefehler.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Fairness: Arten von Voreingenommenheit.

Bias (Mathematik) oder Bias-Termin

#fundamentals

Eine Schnittmenge oder ein Offset von einem Ursprung. Der Bias ist ein Parameter in Modellen für maschinelles Lernen, der durch einen der folgenden Symbole dargestellt wird:

  • b
  • w0

So ist der Bias beispielsweise das b in der folgenden Formel:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Bei einer einfachen zweidimensionalen Linie bedeutet „Bias“ einfach „y-Achsenabschnitt“. In der folgenden Abbildung hat die Linie beispielsweise einen Bias von 2.

Die Darstellung einer Linie mit einer Steigung von 0,5 und einer Abweichung (y-Achsenabschnitt) von 2.

Der Bias entsteht, weil nicht alle Modelle am Ursprung (0,0) beginnen. Angenommen, der Eintritt in einen Vergnügungspark kostet 2 € und zusätzlich 0,5 € pro Stunde, die ein Kunde dort verbringt. Daher hat ein Modell, das die Gesamtkosten abbildet, eine Voreingenommenheit von 2, da die niedrigsten Kosten 2 € betragen.

Voreingenommenheit ist nicht mit Voreingenommenheit in Bezug auf Ethik und Fairness oder Voreingenommenheit bei der Vorhersage zu verwechseln.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Lineare Regression.

Binärklassifizierung

#fundamentals

Eine Art von Klassifizierungsaufgabe, bei der eine von zwei sich gegenseitig ausschließenden Klassen vorhergesagt wird:

Die folgenden beiden Modelle für maschinelles Lernen führen beispielsweise eine binäre Klassifizierung durch:

  • Ein Modell, das bestimmt, ob E-Mails Spam (positive Klasse) oder kein Spam (negative Klasse) sind.
  • Ein Modell, das medizinische Symptome auswertet, um festzustellen, ob eine Person an einer bestimmten Krankheit leidet (positive Klasse) oder nicht (negative Klasse).

Im Gegensatz zur Klassifizierung mit mehreren Klassen.

Weitere Informationen finden Sie unter Logistische Regression und Klassifizierungsgrenzwert.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Klassifizierung.

Bucketing

#fundamentals

Umwandlung eines einzelnen Features in mehrere binäre Features, die als Buckets oder Bins bezeichnet werden, in der Regel basierend auf einem Wertebereich. Das geschnittene Element ist in der Regel ein stetiges Element.

Anstatt die Temperatur beispielsweise als einzelnes kontinuierliches Gleitkomma-Attribut darzustellen, können Sie Temperaturbereiche in diskrete Bereiche unterteilen, z. B.:

  • Unter 10 °C würde der „kalte“ Bereich sein.
  • 11 bis 24 Grad Celsius würden in die Kategorie „gemäßigt“ fallen.
  • „Wärme“ würde für eine Temperatur von mindestens 25 Grad Celsius stehen.

Im Modell werden alle Werte im selben Bucket identisch behandelt. Wenn sich die Werte 13 und 22 beispielsweise beide im mittelmäßigen Bucket befinden, werden sie vom Modell identisch behandelt.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Numerische Daten: Gruppierung.

C

kategorische Daten

#fundamentals

Features mit einer bestimmten Anzahl möglicher Werte. Nehmen wir als Beispiel ein kategorisches Feature namens traffic-light-state an, das nur einen der folgenden drei möglichen Werte haben kann:

  • red
  • yellow
  • green

Wenn traffic-light-state als kategorisches Feature dargestellt wird, kann ein Modell die unterschiedlichen Auswirkungen von red, green und yellow auf das Fahrerverhalten lernen.

Kategoriale Merkmale werden manchmal auch als diskrete Merkmale bezeichnet.

Im Gegensatz zu numerischen Daten.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Mit kategorischen Daten arbeiten.

Klasse

#fundamentals

Eine Kategorie, zu der ein Label gehören kann. Beispiel:

Ein Klassifizierungsmodell sagt eine Klasse vorher. Ein Regressionsmodell sagt dagegen eine Zahl anstelle einer Klasse vorher.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Klassifizierung.

Klassifizierungsmodell

#fundamentals

Ein Modell, dessen Vorhersage eine Klasse ist. Beispiele für Klassifizierungsmodelle:

  • Ein Modell, das die Sprache eines Eingabesatzes vorhersagt (Französisch? Spanisch? Italienisch?).
  • Ein Modell, das Baumarten vorhersagt (Ahorn? Eiche? Baobab?).
  • Ein Modell, das die positive oder negative Klasse für eine bestimmte Erkrankung vorhersagt.

Regressionsmodelle sagen dagegen Zahlen anstelle von Klassen vorher.

Zwei gängige Arten von Klassifizierungsmodellen sind:

Klassifizierungsschwellenwert

#fundamentals

Bei einer binären Klassifizierung ist dies eine Zahl zwischen 0 und 1, die die Rohausgabe eines logistischen Regressionsmodells in eine Vorhersage für die positive Klasse oder die negative Klasse umwandelt. Der Klassifizierungsgrenzwert ist ein Wert, der von einem Nutzer ausgewählt wird, nicht durch das Modelltraining.

Ein logistisches Regressionsmodell gibt einen Rohwert zwischen 0 und 1 aus. Dann:

  • Wenn dieser Rohwert über dem Klassifizierungsgrenzwert liegt, wird die positive Klasse vorhergesagt.
  • Wenn dieser Rohwert unter dem Klassifizierungsschwellenwert liegt, wird die negative Klasse vorhergesagt.

Angenommen, der Klassifizierungsgrenzwert ist 0,8. Wenn der Rohwert 0,9 beträgt, sagt das Modell die positive Klasse vorher. Wenn der Rohwert 0,7 beträgt, sagt das Modell die negative Klasse vorher.

Die Auswahl des Klassifizierungsgrenzwerts hat einen starken Einfluss auf die Anzahl der falsch positiven und falsch negativen Ergebnisse.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Grenzwerte und die Fehlermatrix.

Dataset mit Klassenungleichgewicht

#fundamentals

Ein Datensatz für ein Klassifizierungsproblem, bei dem sich die Gesamtzahl der Labels jeder Klasse deutlich unterscheidet. Betrachten Sie beispielsweise einen Datensatz für die binäre Klassifizierung, dessen zwei Labels so aufgeteilt sind:

  • 1.000.000 Label für auszuschließende Inhalte
  • 10 positive Labels

Das Verhältnis von negativen zu positiven Labels beträgt 100.000:1. Daher ist dies ein ungleichmäßig verteilter Datensatz.

Im Gegensatz dazu ist das folgende Dataset nicht unausgeglichen, da das Verhältnis der negativen zu den positiven Labels relativ nahe bei 1 liegt:

  • 517 Labels für negative Inhalte
  • 483 positive Labels

Mehrfachklassige Datasets können auch eine ungleiche Verteilung der Klassen aufweisen. Beispielsweise ist der folgende Datensatz für die Klassifizierung mit mehreren Klassen ebenfalls klassenungleichgewichtig, da ein Label viel mehr Beispiele als die anderen beiden hat:

  • 1.000.000 Labels mit der Klasse „grün“
  • 200 Labels mit der Klasse „purple“
  • 350 Labels mit der Klasse „orange“

Weitere Informationen finden Sie unter Entropie, Mehrheitsklasse und Minderheitsklasse.

Clipping

#fundamentals

Eine Methode zum Umgang mit Ausreißern, bei der eine oder beide der folgenden Aktionen ausgeführt werden:

  • Attribut-Werte, die über einem Maximalgrenzwert liegen, werden auf diesen Grenzwert reduziert.
  • Merkmale mit einem Wert unter einem Mindestwert werden auf diesen Mindestwert erhöht.

Angenommen, weniger als 0,5% der Werte für ein bestimmtes Merkmal fallen außerhalb des Bereichs 40–60. In diesem Fall haben Sie folgende Möglichkeiten:

  • Alle Werte über 60 (der maximale Grenzwert) werden auf genau 60 gekürzt.
  • Alle Werte unter 40 (Mindestgrenzwert) werden auf genau 40 gekürzt.

Ausreißer können Modelle beschädigen und manchmal dazu führen, dass Gewichte während des Trainings überlaufen. Einige Ausreißer können auch Messwerte wie die Genauigkeit drastisch verfälschen. Das Zuschneiden ist eine gängige Methode, um den Schaden zu begrenzen.

Bei der Gradientenbegrenzung werden die Gradientenwerte während des Trainings auf einen bestimmten Bereich begrenzt.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Numerische Daten: Normalisierung.

Wahrheitsmatrix

#fundamentals

Eine NxN-Tabelle, in der die Anzahl der richtigen und falschen Vorhersagen eines Klassifizierungsmodells zusammengefasst wird. Betrachten Sie beispielsweise die folgende Fehlermatrix für ein Modell der binären Klassifizierung:

Tumor (vorhergesagt) Nicht-Tumor (vorhergesagt)
Tumor (Ground Truth) 18 (TP) 1 (FN)
Nicht-Tumor (Ground Truth) 6 (FP) 452 (TN)

Die obige Wahrheitsmatrix zeigt Folgendes:

  • Von den 19 Vorhersagen, bei denen Grundwahrheit „Tumor“ war, hat das Modell 18 richtig und 1 falsch klassifiziert.
  • Von den 458 Vorhersagen, bei denen die Grundwahrheit „Kein Tumor“ war, hat das Modell 452 richtig und 6 falsch klassifiziert.

Die Wahrheitsmatrix für ein Problem mit der Klassifizierung mehrerer Klassen kann Ihnen helfen, Muster von Fehlern zu erkennen. Betrachten Sie beispielsweise die folgende Fehlermatrix für ein dreistufiges mehrstufiges Klassifizierungsmodell, das drei verschiedene Irisarten (Virginica, Versicolor und Setosa) kategorisiert. Wenn die Ground Truth „Virginica“ war, zeigt die Wahrheitsmatrix, dass das Modell mit viel höherer Wahrscheinlichkeit fälschlicherweise „Versicolor“ als „Setosa“ vorhersagte:

  Setosa (vorhergesagt) Versicolor (vorhergesagt) Virginica (vorhergesagt)
Setosa (Ground Truth) 88 12 0
Versicolor (Ground Truth) 6 141 7
Virginica (Ground Truth) 2 27 109

Als weiteres Beispiel könnte eine Fehlermatrix zeigen, dass ein Modell, das auf die Erkennung handgeschriebener Ziffern trainiert wurde, häufig fälschlicherweise „9“ anstelle von „4“ oder „1“ anstelle von „7“ vorhersagt.

Konfidenzmatrizen enthalten ausreichend Informationen, um eine Vielzahl von Leistungsmesswerten zu berechnen, darunter Genauigkeit und Trefferquote.

stetiges Feature

#fundamentals

Ein Gleitkomma-Attribut mit einem unendlichen Bereich möglicher Werte, z. B. Temperatur oder Gewicht.

Im Gegensatz zu diskreten Funktionen.

Konvergenz

#fundamentals

Ein Zustand, der erreicht wird, wenn sich die Werte für den Verlust bei jeder Iteration nur wenig oder gar nicht ändern. Die folgende Verlustkurve weist beispielsweise auf eine Konvergenz bei etwa 700 Iterationen hin:

Kartesisches Diagramm. Die X-Achse ist der Verlust. Die Y-Achse ist die Anzahl der Trainingsiterationen. Der Verlust ist in den ersten Iterationen sehr hoch, fällt aber stark ab. Nach etwa 100 Iterationen sinkt der Verlust zwar noch, aber viel langsamer. Nach etwa 700 Iterationen bleibt der Verlust gleich.

Ein Modell konvergiert, wenn es durch zusätzliches Training nicht verbessert werden kann.

Beim Deep Learning bleiben die Verlustwerte manchmal über viele Iterationen hinweg konstant oder nahezu konstant, bevor sie schließlich sinken. Bei einem langen Zeitraum mit konstanten Verlustwerten kann es vorübergehend zu einer falschen Konvergenz kommen.

Siehe auch vorzeitiges Beenden.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Modellkonvergenz und Verlustkurven.

D

DataFrame

#fundamentals

Ein beliebter Pandas-Datentyp zum Darstellen von Datasets im Arbeitsspeicher.

Ein DataFrame ist analog zu einer Tabelle oder einer Tabellenkalkulation. Jede Spalte eines DataFrames hat einen Namen (eine Überschrift) und jede Zeile wird durch eine eindeutige Nummer identifiziert.

Jede Spalte in einem DataFrame ist wie ein 2D-Array strukturiert, mit der Ausnahme, dass jeder Spalte ein eigener Datentyp zugewiesen werden kann.

Weitere Informationen finden Sie auch auf der offiziellen Referenzseite für pandas.DataFrame.

Datensatz

#fundamentals

Eine Sammlung von Rohdaten, die in der Regel (aber nicht ausschließlich) in einem der folgenden Formate organisiert ist:

  • in einer Tabelle
  • eine Datei im CSV-Format (Comma Separated Values, kommagetrennte Werte)

Deep Learning-Modell

#fundamentals

Ein neuronales Netzwerk mit mehr als einer verborgenen Schicht.

Ein Deep-Learning-Modell wird auch als neuronales Deep-Learning-Netzwerk bezeichnet.

Im Gegensatz zum breiten Modell.

vollbesetztes Feature

#fundamentals

Eine Funktion, bei der die meisten oder alle Werte ungleich Null sind, in der Regel ein Tensor mit Gleitkommawerten. Der folgende Tensor mit 10 Elementen ist beispielsweise dicht, da 9 der Werte ungleich 0 sind:

8 3 7 5 2 4 0 4 9 6

Im Gegensatz zu einem dünnbesetzten Feature.

Tiefe

#fundamentals

Die Summe der folgenden Elemente in einem neuronalen Netzwerk:

Ein neuronales Netzwerk mit fünf verborgenen Schichten und einer Ausgabeschicht hat beispielsweise eine Tiefe von 6.

Die Eingabeebene hat keinen Einfluss auf die Tiefe.

diskretes Feature

#fundamentals

Ein Attribut mit einer endlichen Anzahl möglicher Werte. Ein Beispiel für ein diskretes (oder kategorisches) Merkmal ist ein Merkmal, dessen Werte nur Tier, Gemüse oder Mineral sein können.

Im Gegensatz zu einem stetigen Feature.

dynamic

#fundamentals

Etwas, das häufig oder kontinuierlich getan wird. Die Begriffe dynamisch und online werden im Bereich maschinelles Lernen synonym verwendet. Im Folgenden finden Sie gängige Anwendungsfälle für dynamische und Online-Daten im Bereich maschinelles Lernen:

  • Ein dynamisches Modell (oder Onlinemodell) ist ein Modell, das häufig oder kontinuierlich neu trainiert wird.
  • Dynamisches Training (oder Onlinetraining) ist ein Training, das häufig oder kontinuierlich stattfindet.
  • Bei der dynamischen Inferenz (oder Online-Inferenz) werden Vorhersagen auf Abruf generiert.

dynamisches Modell

#fundamentals

Ein Modell, das häufig (vielleicht sogar kontinuierlich) neu trainiert wird. Ein dynamisches Modell ist ein „Lernender auf Lebenszeit“, der sich ständig an sich ändernde Daten anpasst. Ein dynamisches Modell wird auch als Onlinemodell bezeichnet.

Im Gegensatz zu einem statischen Modell.

E

Vorzeitiges Beenden

#fundamentals

Eine Methode zur Regulierbarkeit, bei der das Training bevor der Trainingsverlust vollständig abnimmt, beendet wird. Beim vorzeitigen Beenden wird das Training des Modells absichtlich beendet, wenn der Verlust in einem Validierungs-Dataset ansteigt, d. h. wenn sich die Generalisierungsleistung verschlechtert.

Einbettungsschicht

#language
#fundamentals

Eine spezielle versteckte Schicht, die mit einem hochdimensionalen kategorischen Merkmal trainiert wird, um nach und nach einen Einbettungsvektor mit niedrigerer Dimension zu lernen. Mit einer Einbettungsebene kann ein neuronales Netzwerk viel effizienter trainiert werden als nur mit dem hochdimensionalen kategorischen Merkmal.

In Google Earth werden derzeit beispielsweise etwa 73.000 Baumarten unterstützt. Angenommen, die Baumart ist ein Attribut in Ihrem Modell. Die Eingabeschicht Ihres Modells enthält dann einen One-Hot-Vektor mit 73.000 Elementen. baobab könnte beispielsweise so dargestellt werden:

Ein Array mit 73.000 Elementen. Die ersten 6.232 Elemente haben den Wert 0. Das nächste Element enthält den Wert 1. Die letzten 66.767 Elemente enthalten den Wert 0.

Ein Array mit 73.000 Elementen ist sehr lang. Wenn Sie dem Modell keine Einbettungsschicht hinzufügen, ist das Training aufgrund der Multiplikation von 72.999 Nullen sehr zeitaufwendig. Angenommen, Sie legen fest, dass die Einbettungsebene aus 12 Dimensionen bestehen soll. Daher lernt die Embedding-Ebene nach und nach einen neuen Embedding-Vektor für jede Baumart.

In bestimmten Situationen ist Hashing eine angemessene Alternative zu einer Einbettungsebene.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Embeddings.

Epoche

#fundamentals

Ein vollständiger Durchlauf des gesamten Trainings-Datasets, bei dem jedes Beispiel einmal verarbeitet wird.

Eine Epoche entspricht N ÷ Batchgröße Iterationen, wobei N die Gesamtzahl der Beispiele ist.

Angenommen, Folgendes ist der Fall:

  • Das Dataset besteht aus 1.000 Beispielen.
  • Die Batchgröße beträgt 50 Beispiele.

Daher sind für eine einzelne Epoche 20 Iterationen erforderlich:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

Weitere Informationen finden Sie im Machine Learning Crash Course unter Lineare Regression: Hyperparameter.

Beispiel

#fundamentals

Die Werte einer Zeile von Features und gegebenenfalls ein Label. Beispiele für überwachtes Lernen lassen sich in zwei allgemeine Kategorien unterteilen:

  • Ein beschriftetes Beispiel besteht aus einem oder mehreren Features und einem Label. Bei der Modellierung werden beschriftete Beispiele verwendet.
  • Ein unbeschriftetes Beispiel besteht aus einem oder mehreren Elementen, aber ohne Label. Bei der Inferenz werden Beispiele ohne Label verwendet.

Angenommen, Sie trainieren ein Modell, um den Einfluss der Wetterbedingungen auf die Testergebnisse von Schülern zu bestimmen. Hier sind drei Beispiele mit Labels:

Funktionen Label
Temperatur Luftfeuchtigkeit Luftdruck Testergebnis
15 47 998 Gut
19 34 1020 Sehr gut
18 92 1012 Schlecht

Hier sind drei Beispiele ohne Labels:

Temperatur Luftfeuchtigkeit Luftdruck  
12 62 1014  
21 47 1017  
19 41 1021  

Die Zeile eines Datasets ist in der Regel die Rohquelle für ein Beispiel. Ein Beispiel besteht also in der Regel aus einer Teilmenge der Spalten im Dataset. Außerdem können die Features in einem Beispiel auch synthetische Features enthalten, z. B. Feature-Kreuzungen.

Weitere Informationen finden Sie im Kurs „Einführung in maschinelles Lernen“ unter Supervised Learning.

F

Falsch negativ (FN)

#fundamentals

Ein Beispiel, in dem das Modell fälschlicherweise die negative Klasse vorhersagt. Angenommen, das Modell sagt vorher, dass eine bestimmte E-Mail kein Spam (die negative Klasse) ist, aber diese E-Mail ist tatsächlich Spam.

Falsch positiv (FP)

#fundamentals

Ein Beispiel, in dem das Modell fälschlicherweise die positive Klasse vorhersagt. Angenommen, das Modell sagt vorher, dass eine bestimmte E-Mail-Nachricht Spam (die positive Klasse) ist, sie ist aber eigentlich kein Spam.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Grenzwerte und die Fehlermatrix.

Rate falsch positiver Ergebnisse (False Positive Rate, FPR)

#fundamentals

Der Anteil der tatsächlich negativen Beispiele, für die das Modell fälschlicherweise die positive Klasse vorhergesagt hat. Mit der folgenden Formel wird die Rate der Falsch-Positiv-Ergebnisse berechnet:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

Die Rate falsch positiver Ergebnisse ist die X-Achse einer ROC-Kurve.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Klassifizierung: ROC und AUC.

Feature

#fundamentals

Eine Eingabevariable für ein Modell für maschinelles Lernen. Ein Beispiel besteht aus einer oder mehreren Funktionen. Angenommen, Sie trainieren ein Modell, um den Einfluss der Wetterbedingungen auf die Testergebnisse von Schülern zu ermitteln. Die folgende Tabelle enthält drei Beispiele mit jeweils drei Elementen und einem Label:

Funktionen Label
Temperatur Luftfeuchtigkeit Luftdruck Testergebnis
15 47 998 92
19 34 1020 84
18 92 1012 87

Im Gegensatz zu Label.

Weitere Informationen finden Sie im Kurs „Einführung in maschinelles Lernen“ unter Supervised Learning.

Featureverknüpfung

#fundamentals

Ein synthetisches Feature, das durch „Kreuzung“ von kategorischen oder in Buckets aufgeteilten Merkmalen gebildet wird.

Betrachten Sie beispielsweise ein Modell zur „Laune-Prognose“, das die Temperatur in einem der folgenden vier Bereiche darstellt:

  • freezing
  • chilly
  • temperate
  • warm

„wind_speed“ gibt die Windgeschwindigkeit in einem der folgenden drei Buckets an:

  • still
  • light
  • windy

Ohne Feature-Kreuzungen wird das lineare Modell unabhängig für jeden der sieben verschiedenen Bucket trainiert. Das Modell wird also beispielsweise mit freezing trainiert, unabhängig vom Training mit windy.

Alternativ können Sie ein Feature-Kreuz aus Temperatur und Windgeschwindigkeit erstellen. Diese synthetische Funktion hätte die folgenden 12 möglichen Werte:

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

Dank der Feature-Kreuzungen kann das Modell Stimmungsunterschiede zwischen einem freezing-windy-Tag und einem freezing-still-Tag lernen.

Wenn Sie ein synthetisches Feature aus zwei Features erstellen, die jeweils viele verschiedene Bucket haben, hat das resultierende Feature-Cross eine enorme Anzahl möglicher Kombinationen. Wenn ein Merkmal beispielsweise 1.000 Buckets und das andere 2.000 Buckets hat, hat die resultierende Merkmalskreuzung 2.000.000 Buckets.

Formell ist ein Kreuz ein kartesisches Produkt.

Feature-Kreuzungen werden hauptsächlich mit linearen Modellen und selten mit neuronalen Netzwerken verwendet.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Kategorische Daten: Feature-Kreuzungen.

Feature Engineering

#fundamentals
#TensorFlow

Ein Prozess, der die folgenden Schritte umfasst:

  1. Sie ermitteln, welche Features beim Trainieren eines Modells nützlich sein könnten.
  2. Rohdaten aus dem Datensatz in effiziente Versionen dieser Funktionen umwandeln.

Sie könnten beispielsweise feststellen, dass temperature eine nützliche Funktion wäre. Anschließend können Sie mit Bucketing experimentieren, um zu optimieren, was das Modell aus verschiedenen temperature-Bereichen lernen kann.

Feature Engineering wird manchmal auch als Feature-Extraktion oder Feature-Erstellung bezeichnet.

Weitere Informationen finden Sie im Crashkurs zu maschinellem Lernen unter Numerische Daten: So nimmt ein Modell Daten mithilfe von Featurevektoren auf.

Feature-Set

#fundamentals

Die Gruppe von Features, anhand derer Ihr Modell für maschinelles Lernen trainiert wird. Postleitzahl, Gebäudegröße und Gebäudezustand könnten beispielsweise einen einfachen Feature-Set für ein Modell bilden, mit dem Immobilienpreise vorhergesagt werden.

Featurevektor

#fundamentals

Das Array mit Feature-Werten, das ein Beispiel enthält. Der Featurevektor wird während des Trainings und während der Inferenz eingegeben. Der Merkmalsvektor für ein Modell mit zwei diskreten Features könnte beispielsweise so aussehen:

[0.92, 0.56]

Vier Schichten: eine Eingabeschicht, zwei verborgene Schichten und eine Ausgabeschicht.
          Die Eingabeschicht enthält zwei Knoten, von denen einer den Wert 0,92 und der andere den Wert 0,56 enthält.

Für jedes Beispiel werden unterschiedliche Werte für den Featurevektor angegeben. Der Featurevektor für das nächste Beispiel könnte also so aussehen:

[0.73, 0.49]

Beim Feature Engineering wird festgelegt, wie Features im Featurevektor dargestellt werden. Ein binäres kategorisches Merkmal mit fünf möglichen Werten kann beispielsweise mit One-Hot-Codierung dargestellt werden. In diesem Fall würde der Teil des Merkmalsvektors für ein bestimmtes Beispiel aus vier Nullen und einer einzelnen 1.0 an der dritten Position bestehen:

[0.0, 0.0, 1.0, 0.0, 0.0]

Angenommen, Ihr Modell besteht aus drei Features:

  • Ein binäres kategorisches Merkmal mit fünf möglichen Werten, die mit One-Hot-Codierung dargestellt werden, z. B.: [0.0, 1.0, 0.0, 0.0, 0.0]
  • ein weiteres binäres kategorisches Merkmal mit drei möglichen Werten, die mit One-Hot-Codierung dargestellt werden, z. B.: [0.0, 0.0, 1.0]
  • ein Gleitkomma-Element, z. B. 8.3.

In diesem Fall würde der Featurevektor für jedes Beispiel durch neun Werte dargestellt. Bei den Beispielwerten in der vorherigen Liste würde der Featurevektor so aussehen:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

Weitere Informationen finden Sie im Crashkurs zu maschinellem Lernen unter Numerische Daten: So nimmt ein Modell Daten mithilfe von Featurevektoren auf.

Feedbackschleife

#fundamentals

Bei der Verarbeitung mithilfe von maschinellem Lernen eine Situation, in der die Vorhersagen eines Modells die Trainingsdaten für dasselbe Modell oder ein anderes Modell beeinflussen. Ein Modell, das Filme empfiehlt, wirkt sich beispielsweise auf die Filme aus, die sich Nutzer ansehen. Das wiederum hat Auswirkungen auf nachfolgende Modelle für Filmvorschläge.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Produktions-ML-Systeme: Wichtige Fragen.

G

Generalisierung

#fundamentals

Die Fähigkeit eines Modells, korrekte Vorhersagen für neue, bisher nicht gesehene Daten zu treffen. Ein Modell, das generalisieren kann, ist das Gegenteil eines Modells, das überanpasst ist.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Generalisierung.

Generalisierungskurve

#fundamentals

Ein Diagramm, in dem sowohl der Trainingsverlust als auch der Validierungsverlust in Abhängigkeit von der Anzahl der Iterationen dargestellt ist.

Mit einer Generalisierungskurve können Sie mögliche Überanpassungen erkennen. Die folgende Generalisierungskurve weist beispielsweise auf Überanpassung hin, da der Validierungsverlust letztendlich deutlich höher als der Trainingsverlust ist.

Ein kartesisches Diagramm, in dem die Y-Achse mit „Verlust“ und die X-Achse mit „Iterationen“ beschriftet ist. Es werden zwei Diagramme angezeigt. In einem Diagramm wird der Trainingsverlust und in dem anderen der Validierungsverlust dargestellt.
          Die beiden Diagramme beginnen ähnlich, aber der Trainingsverlust sinkt schließlich weit unter den Validierungsverlust.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Generalisierung.

Gradientenabstieg

#fundamentals

Eine mathematische Methode zur Minimierung von Verlusten. Bei der Gradientenabstiegsmethode werden Gewichte und Voreingenommenheiten iterativ angepasst, um nach und nach die beste Kombination zur Minimierung des Verlusts zu finden.

Der Gradientenabstieg ist älter – viel, viel älter – als maschinelles Lernen.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Lineare Regression: Gradientenabstieg.

Ground Truth

#fundamentals

Realität.

Was tatsächlich passiert ist.

Angenommen, Sie haben ein binäres Klassifizierungsmodell, mit dem Sie vorhersagen möchten, ob ein Student im ersten Studienjahr innerhalb von sechs Jahren seinen Abschluss macht. Die Grundwahrheit für dieses Modell ist, ob der Schüler oder Student tatsächlich innerhalb von sechs Jahren seinen Abschluss gemacht hat.

H

Ausgeblendete Ebene

#fundamentals

Eine Schicht in einem neuronalen Netzwerk zwischen der Eingabeschicht (den Features) und der Ausgabeschicht (der Vorhersage). Jede verborgene Schicht besteht aus einem oder mehreren Neuronen. Das folgende neuronale Netzwerk enthält beispielsweise zwei verborgene Schichten, die erste mit drei Neuronen und die zweite mit zwei Neuronen:

Vier Ebenen. Die erste Ebene ist eine Eingabeebene mit zwei Elementen. Die zweite Schicht ist eine verborgene Schicht mit drei Neuronen. Die dritte Schicht ist eine verborgene Schicht mit zwei Neuronen. Die vierte Schicht ist eine Ausgabeschicht. Jedes Merkmal enthält drei Kanten, die jeweils auf ein anderes Neuron in der zweiten Schicht verweisen. Jeder der Neuronen in der zweiten Schicht enthält zwei Kanten, die jeweils auf ein anderes Neuron in der dritten Schicht verweisen. Jeder der Neuronen in der dritten Schicht enthält eine Kante, die jeweils auf die Ausgabeschicht zeigt.

Ein neuronales Deep-Learning-Netzwerk enthält mehr als eine versteckte Schicht. Die obige Abbildung ist beispielsweise ein tiefes neuronales Netzwerk, da das Modell zwei verborgene Schichten enthält.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Neuronale Netzwerke: Knoten und verborgene Schichten.

Hyperparameter

#fundamentals

Die Variablen, die Sie oder ein Dienst zur Hyperparameterabstimmung während aufeinanderfolgender Durchläufe des Modelltrainings anpassen. Ein Beispiel für einen Hyperparameter ist die Lernrate. Sie können die Lernrate vor einer Trainingssitzung auf 0,01 festlegen. Wenn Sie feststellen, dass 0,01 zu hoch ist, können Sie die Lernrate für die nächste Trainingseinheit auf 0,003 festlegen.

Parameter sind dagegen die verschiedenen Gewichte und Voreingenommenheiten, die das Modell während des Trainings lernt.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Lineare Regression: Hyperparameter.

I

unabhängig und identisch verteilt (iid)

#fundamentals

Daten, die aus einer Verteilung stammen, die sich nicht ändert und bei der jeder gezogene Wert nicht von zuvor gezogenen Werten abhängt. Ein i.i.d.-Prozess ist das Idealgas des maschinellen Lernens – ein nützliches mathematisches Konstrukt, das in der Realität fast nie genau zu finden ist. Beispielsweise kann die Verteilung der Besucher einer Webseite über einen kurzen Zeitraum hinweg unabhängig voneinander sein. Das heißt, die Verteilung ändert sich während dieses kurzen Zeitraums nicht und der Besuch einer Person ist im Allgemeinen unabhängig vom Besuch einer anderen Person. Wenn Sie diesen Zeitraum jedoch verlängern, können saisonale Unterschiede bei den Besuchern der Webseite auftreten.

Siehe auch Nichtstationarität.

Inferenz

#fundamentals

Beim maschinellen Lernen wird ein trainiertes Modell auf beispiellose Daten angewendet, um Vorhersagen zu treffen.

In der Statistik hat Inferenz eine etwas andere Bedeutung. Weitere Informationen finden Sie im Wikipedia-Artikel zur statistischen Inferenz.

Im Kurs „Einführung in die ML“ finden Sie unter Überwachtes Lernen Informationen zur Rolle der Inferenz in einem System für überwachtes Lernen.

Eingabeschicht

#fundamentals

Die Ebene eines neuronalen Netzwerks, die den Erkennungsvektor enthält. Die Eingabeschicht liefert also Beispiele für das Training oder die Inferenz. Die Eingabeschicht im folgenden Beispiel besteht aus zwei Funktionen:

Vier Schichten: eine Eingabeschicht, zwei verborgene Schichten und eine Ausgabeschicht.

Interpretierbarkeit

#fundamentals

Die Fähigkeit, die Argumentation eines ML-Modells in verständlicher Sprache zu erklären oder darzustellen.

Die meisten linearen Regressionsmodelle sind beispielsweise sehr aussagekräftig. Sie müssen sich lediglich die trainierten Gewichtungen für jedes Merkmal ansehen. Entscheidungsbäume sind außerdem sehr aussagekräftig. Manche Modelle erfordern jedoch eine komplexe Visualisierung, um interpretierbar zu werden.

Sie können das Learning Interpretability Tool (LIT) verwenden, um ML-Modelle zu interpretieren.

Iteration

#fundamentals

Eine einzelne Aktualisierung der Parameter eines Modells – der Gewichte und Voreingenommenheiten des Modells – während des Trainings. Die Batchgröße gibt an, wie viele Beispiele das Modell in einer einzelnen Iteration verarbeitet. Wenn die Batchgröße beispielsweise 20 beträgt, verarbeitet das Modell 20 Beispiele, bevor die Parameter angepasst werden.

Beim Training eines neuronalen Netzwerks umfasst eine einzelne Iteration die folgenden beiden Durchläufe:

  1. Ein Vorwärtsdurchlauf zur Bewertung des Verlusts für einen einzelnen Batch.
  2. Ein Rückwärtsdurchlauf (Backpropagation), um die Parameter des Modells anhand des Verlusts und der Lernrate anzupassen.

L

L0-Regularisierung

#fundamentals

Eine Art der Regularisierung, bei der die Gesamtzahl der nicht nullwertigen Gewichte in einem Modell bestraft wird. Ein Modell mit 11 nicht nullwertigen Gewichten wird beispielsweise stärker bestraft als ein ähnliches Modell mit 10 nicht nullwertigen Gewichten.

Die L0-Regularisierung wird manchmal auch als L0-Norm-Regularisierung bezeichnet.

L1-Verlust

#fundamentals

Eine Verlustfunktion, die den absoluten Wert der Differenz zwischen den tatsächlichen Label-Werten und den Werten berechnet, die von einem Modell vorhergesagt werden. Hier ist beispielsweise die Berechnung der L1-Verlustfunktion für einen Batch mit fünf Beispielen:

Tatsächlicher Wert des Beispiels Der prognostizierte Wert des Modells Absolutwert von Delta
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = Niederlage 1

Der L1-Verlust ist weniger empfindlich gegenüber Ausreißern als der L2-Verlust.

Der mittlere absolute Fehler ist der durchschnittliche L1-Verlust pro Beispiel.

L1-Regularisierung

#fundamentals

Eine Art der Regularisierung, bei der Gewichte proportional zur Summe der absoluten Werte der Gewichte bestraft werden. Die L1-Regularisierung trägt dazu bei, die Gewichtungen irrelevanter oder kaum relevanter Merkmale auf genau 0 zu senken. Ein Attribut mit dem Gewicht 0 wird effektiv aus dem Modell entfernt.

Im Gegensatz zur L2-Regularisierung.

L2-Verlust

#fundamentals

Eine Verlustfunktion, die das Quadrat der Differenz zwischen den tatsächlichen Label-Werten und den Werten berechnet, die von einem Modell vorhergesagt werden. Hier ist beispielsweise die Berechnung der L2-Verlustfunktion für einen Batch mit fünf Beispielen:

Tatsächlicher Wert des Beispiels Der prognostizierte Wert des Modells Quadrat von Delta
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = L2 – Niederlage

Durch die Quadratwurzel wird der Einfluss von Ausreißern durch L2-Verlust verstärkt. Das heißt, der L2-Verlust reagiert stärker auf schlechte Vorhersagen als der L1-Verlust. Beispielsweise würde der L1-Verlust für den vorherigen Batch 8 statt 16 betragen. Beachten Sie, dass ein einzelner Ausreißer 9 der 16 Werte ausmacht.

Bei Regressionsmodellen wird in der Regel die L2-Verlustfunktion als Verlustfunktion verwendet.

Der mittlere quadratische Fehler ist der durchschnittliche L2-Verlust pro Beispiel. Quadratischer Verlust ist ein anderer Name für den L2-Verlust.

L2-Regularisierung

#fundamentals

Eine Art der Regularisierung, bei der Gewichte proportional zur Summe der Quadrate der Gewichte bestraft werden. Die L2-Regelungsmethode trägt dazu bei, dass die Gewichte von Außenseitern (mit hohen positiven oder niedrigen negativen Werten) näher an 0, aber nicht ganz auf 0, gebracht werden. Features mit Werten nahe 0 bleiben im Modell, beeinflussen die Vorhersage des Modells aber nicht sehr stark.

Die L2-Regularisierung verbessert immer die Generalisierung in linearen Modellen.

Im Gegensatz zur L1-Regularisierung.

Label

#fundamentals

Beim überwachten maschinellen Lernen der Teil eines Beispiels, der als „Antwort“ oder „Ergebnis“ bezeichnet wird.

Jedes beschriftete Beispiel besteht aus einem oder mehreren Features und einem Label. In einem Datensatz zur Spamerkennung wäre das Label beispielsweise wahrscheinlich „Spam“ oder „Kein Spam“. In einem Niederschlagsdatensatz könnte das Label die Niederschlagsmenge sein, die in einem bestimmten Zeitraum gefallen ist.

Beispiel mit Label

#fundamentals

Ein Beispiel, das ein oder mehrere Features und ein Label enthält. Die folgende Tabelle enthält beispielsweise drei Beispiele mit Labels aus einem Modell zur Immobilienbewertung, jedes mit drei Merkmalen und einem Label:

Anzahl der Schlafzimmer Anzahl der Badezimmer Alter des Gebäudes Hauspreis (Label)
3 2 15 345.000 $
2 1 72 179.000 $
4 2 34 392.000 $

Beim überwachten maschinellen Lernen werden Modelle anhand von Beispielen mit Labels trainiert und treffen Vorhersagen für Beispiele ohne Labels.

Stellen Sie ein Beispiel mit Labels und ein Beispiel ohne Labels gegenüber.

Lambda

#fundamentals

Synonym für Regularisierungsrate.

Lambda ist ein überlasteter Begriff. Hier konzentrieren wir uns auf die Definition des Begriffs im Rahmen der Regularisierung.

Layer

#fundamentals

Eine Gruppe von Neuronen in einem neuronalen Netzwerk. Es gibt drei gängige Arten von Ebenen:

Die folgende Abbildung zeigt beispielsweise ein neuronales Netzwerk mit einer Eingabeschicht, zwei verborgenen Schichten und einer Ausgabeschicht:

Ein neuronales Netzwerk mit einer Eingabeschicht, zwei verborgenen Schichten und einer Ausgabeschicht. Die Eingabeebene besteht aus zwei Elementen. Die erste verborgene Schicht besteht aus drei Neuronen und die zweite aus zwei. Die Ausgabeschicht besteht aus einem einzelnen Knoten.

In TensorFlow sind Ebenen auch Python-Funktionen, die Tensoren und Konfigurationsoptionen als Eingabe annehmen und andere Tensoren als Ausgabe liefern.

Lernrate

#fundamentals

Eine Gleitkommazahl, die dem Gradientenabstieg-Algorithmus angibt, wie stark Gewichte und Voreingenommenheiten bei jeder Iteration angepasst werden sollen. Bei einer Lernrate von 0,3 werden Gewichte und Voreingenommenheiten beispielsweise dreimal stärker angepasst als bei einer Lernrate von 0,1.

Die Lernrate ist ein wichtiger Hyperparameter. Wenn Sie die Lernrate zu niedrig festlegen, dauert das Training zu lange. Wenn Sie die Lernrate zu hoch festlegen, hat der Gradientenabstieg häufig Probleme, die Konvergenz zu erreichen.

Linear

#fundamentals

Eine Beziehung zwischen zwei oder mehr Variablen, die ausschließlich durch Addition und Multiplikation dargestellt werden kann.

Die Darstellung einer linearen Beziehung ist eine Linie.

Im Gegensatz zu nicht linear.

Lineares Modell

#fundamentals

Ein Modell, das jedem Feature eine Gewichtung zuweist, um Vorhersagen zu treffen. Lineare Modelle enthalten auch eine Verzerrung. Im Gegensatz dazu ist das Verhältnis von Features zu Vorhersagen in Deep-Learning-Modellen in der Regel nichtlinear.

Lineare Modelle sind in der Regel einfacher zu trainieren und leichter zu interpretieren als Deep-Learning-Modelle. Deep-Learning-Modelle können jedoch komplexe Beziehungen zwischen Features lernen.

Lineare Regression und logistische Regression sind zwei Arten von linearen Modellen.

lineare Regression

#fundamentals

Eine Art von Machine-Learning-Modell, für das Folgendes zutrifft:

  • Das Modell ist ein lineares Modell.
  • Die Vorhersage ist ein Gleitkommawert. (Dies ist der Regressions-Teil der linearen Regression.)

Vergleichen Sie die lineare Regression mit der logistischen Regression. Außerdem sollten Sie Regression mit Klassifizierung vergleichen.

logistische Regression

#fundamentals

Eine Art Regressionsmodell, mit dem eine Wahrscheinlichkeit vorhergesagt wird. Logistische Regressionsmodelle haben folgende Merkmale:

  • Das Label ist kategorisch. Der Begriff „Logistische Regression“ bezieht sich in der Regel auf die binäre logistische Regression, also auf ein Modell, mit dem Wahrscheinlichkeiten für Labels mit zwei möglichen Werten berechnet werden. Bei der weniger gängigen multinomialen logistischen Regression werden Wahrscheinlichkeiten für Labels mit mehr als zwei möglichen Werten berechnet.
  • Die Verlustfunktion während des Trainings ist die Logarithmische Verlustfunktion. Für Labels mit mehr als zwei möglichen Werten können mehrere Log-Verlust-Einheiten parallel platziert werden.
  • Das Modell hat eine lineare Architektur und kein Deep-Learning-Netzwerk. Der Rest dieser Definition gilt jedoch auch für Deep-Modelle, die Wahrscheinlichkeiten für kategorische Labels vorhersagen.

Angenommen, Sie haben ein logistisches Regressionsmodell, mit dem die Wahrscheinlichkeit berechnet wird, dass eine E-Mail-Eingabe Spam ist oder nicht. Angenommen, das Modell prognostiziert während der Inferenz 0,72. Daher wird mit dem Modell Folgendes geschätzt:

  • Die Wahrscheinlichkeit, dass es sich bei der E-Mail um Spam handelt, beträgt 72 %.
  • 28% Wahrscheinlichkeit, dass es sich bei der E-Mail nicht um Spam handelt.

Ein logistisches Regressionsmodell verwendet die folgende zweistufige Architektur:

  1. Das Modell generiert eine Rohvorhersage (y'), indem eine lineare Funktion von Eingabefeatures angewendet wird.
  2. Das Modell verwendet diese Rohvorhersage als Eingabe für eine Sigmoidfunktion, die die Rohvorhersage in einen Wert zwischen 0 und 1 umwandelt.

Wie jedes Regressionsmodell prognostiziert ein logistisches Regressionsmodell eine Zahl. Diese Zahl wird jedoch in der Regel Teil eines binären Klassifizierungsmodells:

  • Wenn die vorhergesagte Anzahl höher als der Klassifizierungsschwellenwert ist, sagt das binäre Klassifizierungsmodell die positive Klasse vorher.
  • Wenn die vorhergesagte Anzahl unter dem Klassifizierungsgrenzwert liegt, sagt das binäre Klassifizierungsmodell die negative Klasse vorher.

Logarithmischer Verlust

#fundamentals

Die Verlustfunktion, die in der binären logistischen Regression verwendet wird.

Logarithmische Wahrscheinlichkeit

#fundamentals

Der Logarithmus der Wahrscheinlichkeit eines Ereignisses.

Niederlage

#fundamentals

Während des Trainings eines überwachten Modells gibt an, wie weit die Vorhersage eines Modells von seinem Label entfernt ist.

Mit einer Verlustfunktion wird der Verlust berechnet.

Verlustkurve

#fundamentals

Ein Diagramm des Verlusts als Funktion der Anzahl der Trainingsiterationen. Das folgende Diagramm zeigt eine typische Verlustkurve:

Ein kartesisches Diagramm mit Verlusten im Vergleich zu Trainingsiterationen, das einen schnellen Rückgang der Verluste bei den ersten Iterationen, gefolgt von einem allmählichen Rückgang und dann einer flachen Steigung während der letzten Iterationen zeigt.

Anhand von Verlustkurven können Sie feststellen, ob sich Ihr Modell konvergiert oder überanpasst.

Verlustkurven können alle folgenden Arten von Verlusten darstellen:

Siehe auch Generalisierungskurve.

Verlustfunktion

#fundamentals

Eine mathematische Funktion, die während des Trainings oder Tests den Verlust für einen Batch von Beispielen berechnet. Eine Verlustfunktion gibt für Modelle, die gute Vorhersagen treffen, einen geringeren Verlust zurück als für Modelle, die schlechte Vorhersagen treffen.

Das Ziel des Trainings besteht in der Regel darin, den Verlust zu minimieren, der von einer Verlustfunktion zurückgegeben wird.

Es gibt viele verschiedene Arten von Verlustfunktionen. Wählen Sie die geeignete Verlustfunktion für die Art des Modells aus, das Sie erstellen. Beispiel:

M

Machine Learning

#fundamentals

Ein Programm oder System, das ein Modell mit Eingabedaten trainiert. Das trainierte Modell kann für (komplett) neue Daten nützliche Vorhersagen treffen, die aus derselben Verteilung stammen wie die, die zum Trainieren des Modells verwendet wurde.

Der Begriff „Machine Learning“ bezieht sich auch auf das Forschungsgebiet, das sich mit diesen Programmen oder Systemen befasst.

Mehrheitsklasse

#fundamentals

Das häufigere Label in einem ungleichgewichteten Datensatz. Wenn ein Dataset beispielsweise 99% negative und 1% positive Labels enthält, sind die negativen Labels die Mehrheitsklasse.

Im Gegensatz zu Minderheitsklasse.

Mini-Batch

#fundamentals

Eine kleine, zufällig ausgewählte Teilmenge eines Batches, die in einer Iteration verarbeitet wird. Die Batchgröße eines Mini-Batches liegt in der Regel zwischen 10 und 1.000 Beispielen.

Angenommen, der gesamte Trainingssatz (der vollständige Batch) besteht aus 1.000 Beispielen. Angenommen, Sie legen die Batchgröße jedes Mini-Batches auf 20 fest. Daher wird bei jeder Iteration der Verlust für 20 zufällig ausgewählte der 1.000 Beispiele ermittelt und dann werden die Gewichte und Voreingenommenheiten entsprechend angepasst.

Es ist viel effizienter, den Verlust für einen Mini-Batch zu berechnen als den Verlust für alle Beispiele im vollständigen Batch.

Minderheitenklasse

#fundamentals

Das weniger häufige Label in einem ungleichgewichtigen Datensatz. Wenn ein Dataset beispielsweise 99% negative und 1% positive Labels enthält, sind die positiven Labels die Minderheitsklasse.

Im Gegensatz zur Majoritätsklasse.

Modell

#fundamentals

Im Allgemeinen jedes mathematische Konstrukt, das Eingabedaten verarbeitet und eine Ausgabe zurückgibt. Mit anderen Worten: Ein Modell ist die Kombination aus Parametern und Struktur, die ein System für die Vorhersage benötigt. Beim überwachten maschinellen Lernen nimmt ein Modell ein Beispiel als Eingabe entgegen und leitet daraus eine Vorhersage ab. Bei überwachtem maschinellem Lernen unterscheiden sich die Modelle etwas. Beispiel:

Sie können ein Modell speichern, wiederherstellen oder kopieren.

Beim unüberwachten maschinellen Lernen werden ebenfalls Modelle generiert, in der Regel eine Funktion, die ein Eingabebeispiel dem am besten geeigneten Cluster zuordnen kann.

Klassifizierung mehrerer Klassen

#fundamentals

Beim überwachten Lernen ein Klassifizierungsproblem, bei dem das Dataset mehr als zwei Labelklassen enthält. Die Labels im Iris-Dataset müssen beispielsweise einer der folgenden drei Klassen angehören:

  • Iris setosa
  • Iris virginica
  • Iris versicolor

Ein Modell, das mit dem Iris-Dataset trainiert wurde und den Iristyp anhand neuer Beispiele vorhersagt, führt eine mehrklassige Klassifizierung durch.

Klassifizierungsprobleme, bei denen zwischen genau zwei Klassen unterschieden wird, sind dagegen binäre Klassifizierungsmodelle. Ein E-Mail-Modell, das entweder Spam oder kein Spam vorhersagt, ist beispielsweise ein binäres Klassifizierungsmodell.

Bei Clustering-Problemen bezieht sich die Klassifizierung mit mehreren Klassen auf mehr als zwei Cluster.

N

Negative Klasse

#fundamentals

Bei der binären Klassifizierung wird eine Klasse als positiv und die andere als negativ bezeichnet. Die positive Klasse ist das Objekt oder Ereignis, auf das das Modell getestet wird, und die negative Klasse ist die andere Möglichkeit. Beispiel:

  • Die negative Klasse in einem medizinischen Test könnte „kein Tumor“ sein.
  • Die negative Klasse in einem E-Mail-Klassifikator könnte „Kein Spam“ sein.

Im Gegensatz zur positiven Klasse.

neuronales Netzwerk

#fundamentals

Ein Modell mit mindestens einer versteckten Schicht. Ein Deep Neural Network ist eine Art von neuronalem Netzwerk, das mehr als eine verborgene Schicht enthält. Das folgende Diagramm zeigt beispielsweise ein tiefes neuronales Netzwerk mit zwei verborgenen Schichten.

Ein neuronales Netzwerk mit einer Eingabeschicht, zwei verborgenen Schichten und einer Ausgabeschicht.

Jedes Neuron in einem neuronalen Netzwerk ist mit allen Knoten der nächsten Schicht verbunden. Im vorherigen Diagramm ist beispielsweise zu sehen, dass jeder der drei Neuronen in der ersten verborgenen Schicht separat mit den beiden Neuronen in der zweiten verborgenen Schicht verbunden ist.

Auf Computern implementierte neuronale Netzwerke werden manchmal als künstliche neuronale Netzwerke bezeichnet, um sie von neuronalen Netzwerken im Gehirn und anderen Nervensystemen zu unterscheiden.

Einige neuronale Netze können extrem komplexe nichtlineare Beziehungen zwischen verschiedenen Merkmalen und dem Label nachahmen.

Weitere Informationen finden Sie unter Convolutional Neural Network und Recurrent Neural Network.

Neuron

#fundamentals

Im Bereich Machine Learning eine einzelne Einheit innerhalb einer verborgenen Schicht eines neuronalen Netzwerks. Jedes Neuron führt die folgende zweistufige Aktion aus:

  1. Berechnet die gewichtete Summe der Eingabewerte multipliziert mit den entsprechenden Gewichten.
  2. Die gewichtete Summe wird als Eingabe an eine Aktivierungsfunktion übergeben.

Ein Neuron in der ersten verborgenen Schicht nimmt Eingaben von den Feature-Werten in der Eingabeschicht entgegen. Ein Neuron in einer beliebigen verborgenen Schicht nach der ersten nimmt Eingaben von den Neuronen in der vorherigen verborgenen Schicht entgegen. Ein Neuron in der zweiten verborgenen Schicht nimmt beispielsweise Eingaben von den Neuronen in der ersten verborgenen Schicht entgegen.

Die folgende Abbildung zeigt zwei Neurone und ihre Eingaben.

Ein neuronales Netzwerk mit einer Eingabeschicht, zwei verborgenen Schichten und einer Ausgabeschicht. Zwei Neuronen sind hervorgehoben: eines in der ersten verborgenen Schicht und eines in der zweiten verborgenen Schicht. Das hervorgehobene Neuron in der ersten verborgenen Schicht empfängt Eingaben von beiden Funktionen in der Eingabeschicht. Das hervorgehobene Neuron in der zweiten verborgenen Schicht erhält Eingaben von jedem der drei Neuronen in der ersten verborgenen Schicht.

Ein Neuron in einem neuronalen Netzwerk ahmt das Verhalten von Neuronen im Gehirn und in anderen Teilen des Nervensystems nach.

Knoten (neuronales Netzwerk)

#fundamentals

Ein Neuron in einer versteckten Schicht.

nicht linear

#fundamentals

Eine Beziehung zwischen zwei oder mehr Variablen, die nicht ausschließlich durch Addition und Multiplikation dargestellt werden kann. Ein linearer Zusammenhang kann als Linie dargestellt werden, ein nicht linearer Zusammenhang kann nicht als Linie dargestellt werden. Angenommen, Sie haben zwei Modelle, in denen jeweils ein einzelnes Feature mit einem einzelnen Label verknüpft ist. Das Modell auf der linken Seite ist linear und das Modell auf der rechten Seite nichtlinear:

Zwei Diagramme. Ein Plot ist eine Linie, also handelt es sich um eine lineare Beziehung.
          Die andere Darstellung ist eine Kurve, also eine nichtlineare Beziehung.

Nichtstationarität

#fundamentals

Ein Element, dessen Werte sich in einer oder mehreren Dimensionen ändern, in der Regel in Bezug auf die Zeit. Betrachten Sie beispielsweise die folgenden Beispiele für Nichtstationarität:

  • Die Anzahl der in einem bestimmten Geschäft verkauften Badeanzüge variiert je nach Saison.
  • Die Menge einer bestimmten Frucht, die in einer bestimmten Region geerntet wird, ist die meiste Zeit des Jahres null, aber für einen kurzen Zeitraum groß.
  • Aufgrund des Klimawandels ändern sich die jährlichen Durchschnittstemperaturen.

Im Gegensatz zur Stationarität.

Normalisierung

#fundamentals

Im Allgemeinen wird damit der Prozess bezeichnet, bei dem der tatsächliche Wertebereich einer Variablen in einen Standardwertbereich umgewandelt wird, z. B.:

  • −1 bis +1
  • 0 bis 1
  • Z-Werte (ungefähr -3 bis +3)

Angenommen, der tatsächliche Wertebereich eines bestimmten Merkmals liegt zwischen 800 und 2.400. Im Rahmen des Feature-Engineerings können Sie die tatsächlichen Werte auf einen Standardbereich wie -1 bis +1 normalisieren.

Die Normalisierung ist eine gängige Aufgabe beim Feature Engineering. Modelle lassen sich in der Regel schneller trainieren (und liefern bessere Vorhersagen), wenn jedes numerische Feature im Featurevektor ungefähr denselben Bereich hat.

Weitere Informationen finden Sie im Modul zum Arbeiten mit numerischen Daten des Machine Learning Crash Courses. Weitere Informationen finden Sie unter Z-Score-Normalisierung.

numerische Daten

#fundamentals

Features, die als Ganzzahlen oder reelle Zahlen dargestellt werden. In einem Modell zur Immobilienbewertung wird die Größe eines Hauses (in Quadratfuß oder Quadratmetern) beispielsweise als numerische Daten dargestellt. Wenn ein Feature als numerische Daten dargestellt wird, haben die Werte des Features eine mathematische Beziehung zum Label. Das heißt, die Anzahl der Quadratmeter in einem Haus hat wahrscheinlich eine mathematische Beziehung zum Wert des Hauses.

Nicht alle Ganzzahldaten sollten als numerische Daten dargestellt werden. In einigen Teilen der Welt sind Postleitzahlen beispielsweise Ganzzahlen. Ganzzahlige Postleitzahlen sollten jedoch nicht als numerische Daten in Modellen dargestellt werden. Das liegt daran, dass eine Postleitzahl von 20000 nicht doppelt (oder halb) so effektiv ist wie eine Postleitzahl von 10.000. Außerdem korrelieren unterschiedliche Postleitzahlen zwar mit unterschiedlichen Immobilienwerten, wir können jedoch nicht davon ausgehen, dass Immobilien in der Postleitzahl 20000 doppelt so viel wert sind wie Immobilien in der Postleitzahl 10000. Postleitzahlen sollten stattdessen als kategorische Daten dargestellt werden.

Numerische Merkmale werden manchmal auch als kontinuierliche Merkmale bezeichnet.

O

offline

#fundamentals

Synonym für static.

Offlineinferenzen

#fundamentals

Ein Modell generiert eine Reihe von Vorhersagen und speichert diese dann im Cache. Apps können dann auf die abgeleitete Vorhersage aus dem Cache zugreifen, anstatt das Modell noch einmal auszuführen.

Angenommen, ein Modell generiert alle vier Stunden lokale Wettervorhersagen. Nach jeder Modellausführung speichert das System alle lokalen Wettervorhersagen im Cache. Wetter-Apps rufen die Vorhersagen aus dem Cache ab.

Offline-Inferenz wird auch als statische Inferenz bezeichnet.

Im Gegensatz zur Online-Inferenz.

One-Hot-Codierung

#fundamentals

Kategorische Daten als Vektor darstellen, wobei:

  • Ein Element ist auf „1“ gesetzt.
  • Alle anderen Elemente werden auf „0“ gesetzt.

Die One-Hot-Codierung wird häufig verwendet, um Strings oder Kennungen mit einer endlichen Anzahl möglicher Werte darzustellen. Angenommen, ein bestimmtes kategorisches Merkmal namens Scandinavia hat fünf mögliche Werte:

  • „Dänemark“
  • „Schweden“
  • „Norwegen“
  • „Finnland“
  • „Island“

Bei der One-Hot-Codierung könnten die fünf Werte so dargestellt werden:

country Vektor
„Dänemark“ 1 0 0 0 0
„Schweden“ 0 1 0 0 0
„Norwegen“ 0 0 1 0 0
„Finnland“ 0 0 0 1 0
„Island“ 0 0 0 0 1

Dank der One-Hot-Codierung kann ein Modell unterschiedliche Verbindungen basierend auf den fünf Ländern lernen.

Die Darstellung eines Merkmals als numerische Daten ist eine Alternative zur One-Hot-Codierung. Die skandinavischen Länder numerisch darzustellen, ist leider keine gute Wahl. Betrachten wir beispielsweise die folgende numerische Darstellung:

  • „Dänemark“ ist 0
  • „Schweden“ ist 1
  • „Norwegen“ ist 2
  • „Finnland“ ist 3
  • „Island“ ist 4

Bei der numerischen Codierung würde ein Modell die Rohzahlen mathematisch interpretieren und versuchen, anhand dieser Zahlen zu trainieren. Island ist jedoch nicht doppelt so groß (oder halb so groß) wie Norwegen, sodass das Modell zu einigen merkwürdigen Schlussfolgerungen kommen würde.

one-vs.-all

#fundamentals

Bei einem Klassifizierungsproblem mit N Klassen besteht eine Lösung aus N separaten binären Klassifikatoren – ein binärer Klassifikator für jedes mögliche Ergebnis. Angenommen, Sie haben ein Modell, das Beispiele als tierisch, pflanzlich oder mineralisch klassifiziert. Eine Lösung vom Typ „Eins gegen alle“ würde dann die folgenden drei separaten binären Klassifikatoren bereitstellen:

  • Tier oder kein Tier
  • Gemüse oder kein Gemüse
  • Mineral oder nicht mineralisch

online

#fundamentals

Synonym für dynamisch.

Online-Inferenz

#fundamentals

On-Demand-Generierung von Vorhersagen Angenommen, eine App gibt eine Eingabe an ein Modell weiter und sendet eine Anfrage für eine Vorhersage. Ein System mit Online-Inferenz reagiert auf die Anfrage, indem es das Modell ausführt und die Vorhersage an die App zurückgibt.

Im Gegensatz zur Offline-Inferenz.

Ausgabeebene

#fundamentals

Die „letzte“ Schicht eines neuronalen Netzwerks. Die Ausgabeschicht enthält die Vorhersage.

Die folgende Abbildung zeigt ein kleines tiefes neuronales Netzwerk mit einer Eingabeschicht, zwei verborgenen Schichten und einer Ausgabeschicht:

Ein neuronales Netzwerk mit einer Eingabeschicht, zwei verborgenen Schichten und einer Ausgabeschicht. Die Eingabeebene besteht aus zwei Elementen. Die erste verborgene Schicht besteht aus drei Neuronen und die zweite aus zwei. Die Ausgabeschicht besteht aus einem einzelnen Knoten.

Überanpassung

#fundamentals

Ein Modell erstellen, das so genau mit den Trainingsdaten übereinstimmt, dass es keine korrekten Vorhersagen für neue Daten treffen kann.

Regulierungsmittel können das Überanpassen reduzieren. Auch das Training mit einem großen und vielfältigen Trainingssatz kann die Überanpassung reduzieren.

P

pandas

#fundamentals

Eine spaltenorientierte Datenanalyse-API, die auf numpy basiert. Viele Frameworks für maschinelles Lernen, einschließlich TensorFlow, unterstützen Pandas-Datenstrukturen als Eingaben. Weitere Informationen finden Sie in der Pandas-Dokumentation.

Parameter

#fundamentals

Die Gewichte und Voreingenommenheiten, die ein Modell während des Trainings lernt. In einem linearen Regressionsmodell bestehen die Parameter beispielsweise aus dem Bias (b) und allen Gewichten (w1, w2 usw.) in der folgenden Formel:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Hyperparameter sind dagegen die Werte, die Sie (oder ein Hyperparameter-Abstimmungsdienst) dem Modell zur Verfügung stellen. Die Lernrate ist beispielsweise ein Hyperparameter.

Positive Klasse

#fundamentals

Die Klasse, für die Sie testen.

Die positive Klasse in einem Krebsmodell könnte beispielsweise „Tumor“ sein. Die positive Klasse in einem E-Mail-Klassifikator könnte „Spam“ sein.

Im Gegensatz zur negativen Klasse.

Nachbearbeitung

#fairness
#fundamentals

Die Ausgabe eines Modells nach der Ausführung anpassen. Mit der Nachbearbeitung können Fairness-Einschränkungen erzwungen werden, ohne die Modelle selbst zu ändern.

So kann beispielsweise eine Nachbearbeitung auf einen binären Klassifikator angewendet werden, indem ein Klassifizierungsgrenzwert festgelegt wird, der für ein bestimmtes Attribut die Gleichbehandlung aufrechterhält. Dazu wird geprüft, ob die Rate der wahren positiven Ergebnisse für alle Werte dieses Attributs gleich ist.

Vorhersage-

#fundamentals

Die Ausgabe eines Modells. Beispiel:

  • Die Vorhersage eines binären Klassifizierungsmodells ist entweder die positive oder die negative Klasse.
  • Die Vorhersage eines Klassifizierungsmodells mit mehreren Klassen bezieht sich auf eine Klasse.
  • Die Vorhersage eines linearen Regressionsmodells ist eine Zahl.

Proxy-Labels

#fundamentals

Daten, die zur Annäherung an Labels verwendet werden, die nicht direkt in einem Datensatz verfügbar sind.

Angenommen, Sie müssen ein Modell trainieren, um den Stresspegel von Mitarbeitern vorherzusagen. Ihr Dataset enthält viele prognostische Funktionen, aber kein Label mit dem Namen Stresslevel. Sie wählen „Unfälle am Arbeitsplatz“ als Proxy-Label für den Stresspegel aus. Mitarbeiter, die unter hohem Stress stehen, erleiden schließlich mehr Unfälle als ruhige Mitarbeiter. Oder doch? Vielleicht steigen und sinken die Unfälle am Arbeitsplatz aus mehreren Gründen.

Angenommen, Sie möchten Regnet es? als boolesche Kennzeichnung für Ihren Datensatz verwenden, dieser enthält aber keine Niederschlagsdaten. Wenn Fotos verfügbar sind, können Sie Bilder von Personen mit Regenschirmen als Proxylabel für Regnet es? festlegen. Ist das ein gutes Proxy-Label? Möglicherweise. In einigen Kulturen tragen Menschen jedoch eher einen Regenschirm, um sich vor der Sonne zu schützen, als vor dem Regen.

Proxy-Labels sind oft unvollständig. Wählen Sie nach Möglichkeit tatsächliche Labels anstelle von Proxy-Labels aus. Wenn kein tatsächliches Label vorhanden ist, wählen Sie das Proxylabel jedoch sehr sorgfältig aus. Wählen Sie das am wenigsten schlimme Proxylabel aus.

R

RAG

#fundamentals

Abkürzung für Retrieval-Augmented Generation.

Bewerter

#fundamentals

Eine Person, die Labels für Beispiele bereitstellt. „Bearbeiter“ ist ein anderer Name für die Bewerter.

Rectified Linear Unit (ReLU)

#fundamentals

Eine Aktivierungsfunktion mit folgendem Verhalten:

  • Wenn die Eingabe negativ oder null ist, ist die Ausgabe 0.
  • Wenn die Eingabe positiv ist, entspricht die Ausgabe der Eingabe.

Beispiel:

  • Wenn die Eingabe -3 ist, ist die Ausgabe 0.
  • Wenn die Eingabe +3 ist, ist die Ausgabe 3,0.

Hier ist ein Plot von ReLU:

Ein kartesisches Diagramm mit zwei Linien. Die erste Linie hat einen konstanten y-Wert von 0 und verläuft entlang der x-Achse von -∞,0 bis 0,-0.
          Die zweite Linie beginnt bei 0,0. Diese Linie hat eine Steigung von +1 und verläuft daher von 0,0 bis +unendlich,+unendlich.

ReLU ist eine sehr beliebte Aktivierungsfunktion. Trotz seines einfachen Verhaltens ermöglicht ReLU einem neuronalen Netzwerk, nichtlineare Beziehungen zwischen Features und dem Label zu lernen.

Regressionsmodell

#fundamentals

Ein Modell, das eine numerische Vorhersage generiert. Ein Klassifizierungsmodell generiert dagegen eine Klassenvorhersage. Beispiele für Regressionsmodelle:

  • Ein Modell, das den Wert eines bestimmten Hauses in Euro vorhersagt,z. B. 423.000.
  • Ein Modell, das die Lebenserwartung eines bestimmten Baums in Jahren vorhersagt, z. B. 23,2.
  • Ein Modell, das die Regenmenge in Zentimetern vorhersagt, die in einer bestimmten Stadt in den nächsten sechs Stunden fallen wird, z. B. 0,18.

Zwei gängige Arten von Regressionsmodellen sind:

  • Lineare Regression: Hiermit wird die Linie ermittelt, die Labelwerte am besten den Features zuordnet.
  • Logistische Regression: Hier wird eine Wahrscheinlichkeit zwischen 0,0 und 1,0 generiert, die ein System dann in der Regel einer Klassenvorhersage zuordnet.

Nicht jedes Modell, das numerische Vorhersagen liefert, ist ein Regressionsmodell. In einigen Fällen ist eine numerische Vorhersage lediglich ein Klassifizierungsmodell mit numerischen Klassennamen. Ein Modell, mit dem beispielsweise eine numerische Postleitzahl vorhergesagt wird, ist ein Klassifizierungsmodell und kein Regressionsmodell.

Regularisierung

#fundamentals

Jeder Mechanismus, der Überanpassung reduziert. Zu den gängigen Arten der Regularisierung gehören:

Eine Regularisierung kann auch als Strafe für die Komplexität eines Modells definiert werden.

Regularisierungsrate

#fundamentals

Eine Zahl, die die relative Bedeutung der Regulierbarkeit während des Trainings angibt. Wenn Sie die Regularisierungsrate erhöhen, wird die Überanpassung reduziert, aber die Vorhersagekraft des Modells kann sinken. Wenn Sie die Regularisierungsrate hingegen reduzieren oder weglassen, steigt die Überanpassung.

ReLU

#fundamentals

Abkürzung für Rectified Linear Unit (Rektifizierte lineare Einheit).

Retrieval-Augmented Generation (RAG)

#fundamentals

Eine Methode zur Verbesserung der Qualität der Ausgabe eines Large Language Models (LLM), indem sie mit Wissensquellen fundiert wird, die nach dem Training des Modells abgerufen wurden. RAG verbessert die Genauigkeit von LLM-Antworten, indem es dem trainierten LLM Zugriff auf Informationen gewährt, die aus vertrauenswürdigen Wissensdatenbanken oder Dokumenten abgerufen werden.

Häufige Gründe für die Verwendung der Retrieval-Augmented Generation sind:

  • Die Faktenrichtigkeit der generierten Antworten eines Modells verbessern.
  • Dem Modell Zugriff auf Wissen gewähren, mit dem es nicht trainiert wurde.
  • Ändern des Wissens, das vom Modell verwendet wird.
  • Das Modell kann Quellen zitieren.

Angenommen, eine Chemie-App verwendet die PaLM API, um Zusammenfassungen zu Nutzeranfragen zu generieren. Wenn das Backend der App eine Anfrage empfängt, geschieht Folgendes:

  1. Es wird nach Daten gesucht („abgerufen“), die für die Suchanfrage des Nutzers relevant sind.
  2. Fügen Sie der Suchanfrage des Nutzers die relevanten Chemiedaten hinzu („erweitern“).
  3. Hiermit wird das LLM angewiesen, eine Zusammenfassung basierend auf den angehängten Daten zu erstellen.

ROC-Kurve (Receiver Operating Curve)

#fundamentals

Ein Diagramm der Richtig-Positiv-Rate im Vergleich zur Falsch-Positiv-Rate für verschiedene Klassifizierungsschwellenwerte bei der binären Klassifizierung.

Die Form einer ROC-Kurve gibt Aufschluss darüber, wie gut ein binäres Klassifizierungsmodell positive von negativen Klassen unterscheiden kann. Angenommen, ein binäres Klassifizierungsmodell trennt alle negativen Klassen perfekt von allen positiven Klassen:

Eine Zahlenlinie mit 8 positiven Beispielen auf der rechten Seite und 7 negativen Beispielen auf der linken Seite.

Die ROC-Kurve für das vorherige Modell sieht so aus:

Eine ROC-Kurve. Die X-Achse ist die Rate falsch positiver Ergebnisse und die Y-Achse die Rate richtig positiver Ergebnisse. Die Kurve hat die Form eines umgekehrten L. Die Kurve beginnt bei (0.0,0.0) und geht direkt nach oben zu (0.0,1.0). Die Kurve verläuft dann von (0.0,1.0) nach (1.0,1.0).

Im Gegensatz dazu zeigt die folgende Abbildung die Rohwerte der logistischen Regression für ein schlechtes Modell, das negative Klassen nicht von positiven Klassen unterscheiden kann:

Eine Zahlenlinie, auf der positive Beispiele und negative Klassen vollständig vermischt sind.

Die ROC-Kurve für dieses Modell sieht so aus:

Eine ROC-Kurve, die eigentlich eine Gerade von (0,0,0) nach (1,0,1) ist.

In der Praxis trennen die meisten binären Klassifizierungsmodelle positive und negative Klassen zwar in gewissem Maße, aber in der Regel nicht perfekt. Eine typische ROC-Kurve liegt also irgendwo zwischen den beiden Extremen:

Eine ROC-Kurve. Die X-Achse ist die Rate falsch positiver Ergebnisse und die Y-Achse die Rate richtig positiver Ergebnisse. Die ROC-Kurve nähert sich einem wackeligen Bogen, der die Kompasspunkte von Westen nach Norden durchläuft.

Der Punkt auf einer ROC-Kurve, der (0,0; 1,0) am nächsten ist, identifiziert theoretisch den idealen Klassifizierungsgrenzwert. Es gibt jedoch mehrere andere reale Probleme, die die Auswahl des idealen Klassifizierungsgrenzwerts beeinflussen. Vielleicht sind falsch negative Ergebnisse beispielsweise viel schlimmer als falsch positive.

Mit dem numerischen Messwert AUC wird die ROC-Kurve in einem einzigen Gleitkommawert zusammengefasst.

Wurzel der mittleren Fehlerquadratsumme (RMSE)

#fundamentals

Die Quadratwurzel der mittleren quadratischen Abweichung.

S

Sigmoidfunktion

#fundamentals

Eine mathematische Funktion, die einen Eingabewert in einen begrenzten Bereich presst, in der Regel 0 bis 1 oder -1 bis +1. Das heißt, Sie können einer Sigmoide eine beliebige Zahl (z. B. 2, eine Million oder eine negative Milliarde) übergeben. Die Ausgabe liegt dann immer innerhalb des eingeschränkten Bereichs. Ein Diagramm der Sigmoid-Aktivierungsfunktion sieht so aus:

Ein zweidimensionaler gekrümmter Plot mit X-Werten von –unendlich bis +positiv, während die Y-Werte den Bereich von fast 0 bis fast 1 umfassen. Wenn x = 0 ist, ist y = 0,5. Die Steigung der Kurve ist immer positiv, wobei die höchste Steigung bei 0,05 liegt und die Steigung mit zunehmendem Absolutwert von x allmählich abnimmt.

Die Sigmoidfunktion hat mehrere Anwendungen im Bereich maschinelles Lernen, darunter:

Softmax-Funktion

#fundamentals

Eine Funktion, die Wahrscheinlichkeiten für jede mögliche Klasse in einem mehrklassigen Klassifizierungsmodell bestimmt. Die Wahrscheinlichkeiten summieren sich genau zu 1,0. In der folgenden Tabelle wird beispielsweise gezeigt, wie die Softmax-Funktion verschiedene Wahrscheinlichkeiten verteilt:

Das Bild ist eine… Probability
Hund 0,85
Katze .13
Pferd 0,02

Softmax wird auch als Full Softmax bezeichnet.

Im Gegensatz zur Kandidatenstichprobe.

dünnbesetztes Feature

#language
#fundamentals

Eine Funktion, deren Werte überwiegend null oder leer sind. Ein Beispiel für ein solches Feature ist ein Feature mit einem einzelnen Wert „1“ und einer Million Nullwerte. Ein dichtes Merkmal hat dagegen Werte, die überwiegend nicht null oder leer sind.

Beim maschinellen Lernen sind eine überraschend große Anzahl von Merkmalen spärlich. Kategoriale Merkmale sind in der Regel spärliche Merkmale. Von den 300 möglichen Baumarten in einem Wald wird beispielsweise in einem einzigen Beispiel nur ein Ahorn identifiziert. Oder von den Millionen möglichen Videos in einer Videomediathek wird nur „Casablanca“ als Beispiel erkannt.

In einem Modell werden spärliche Merkmale in der Regel mit One-Hot-Codierung dargestellt. Wenn die One-Hot-Codierung groß ist, können Sie für mehr Effizienz eine Embedding-Ebene über die One-Hot-Codierung legen.

Sparse Darstellung

#language
#fundamentals

Es werden nur die Positionen der nicht nullwertigen Elemente in einem spärlichen Attribut gespeichert.

Angenommen, ein kategorisches Feature namens species gibt die 36 Baumarten in einem bestimmten Wald an. Angenommen, jedes Beispiel identifiziert nur eine einzige Art.

Sie könnten einen One-Hot-Vektor verwenden, um die Baumarten in jedem Beispiel darzustellen. Ein One-Hot-Vektor würde eine einzelne 1 (für die jeweilige Baumart in diesem Beispiel) und 35 0s (für die 35 Baumarten, die in diesem Beispiel nicht vorkommen) enthalten. Die One-Hot-Darstellung von maple könnte also so aussehen:

Ein Vektor, bei dem die Positionen 0 bis 23 den Wert 0, Position 24 den Wert 1 und die Positionen 25 bis 35 den Wert 0 haben.

Alternativ würde die spärliche Darstellung einfach die Position der jeweiligen Art angeben. Wenn maple an Position 24 steht, lautet die sparse Darstellung von maple einfach:

24

Die sparse Darstellung ist viel kompakter als die One-Hot-Darstellung.

dünn besetzten Vektor

#fundamentals

Ein Vektor, dessen Werte hauptsächlich Nullen sind. Weitere Informationen finden Sie unter sperriges Attribut und Sparsity.

Quadratische Abweichung

#fundamentals

Synonym für L2-Verlust.

statisch

#fundamentals

Eine Aktion, die nur einmal und nicht kontinuierlich ausgeführt wird. Die Begriffe statisch und offline werden synonym verwendet. Im Folgenden finden Sie einige gängige Anwendungsfälle für statische und offline im Bereich des Machine Learning:

  • Ein statisches Modell (oder Offlinemodell) ist ein Modell, das einmal trainiert und dann für eine Weile verwendet wird.
  • Beim statischen Training (oder Offlinetraining) wird ein statisches Modell trainiert.
  • Bei der statischen Inferenz (oder Offlineinferenz) generiert ein Modell jeweils einen Batch von Vorhersagen.

Im Gegensatz zu dynamisch.

Statische Inferenz

#fundamentals

Synonym für Offlineinferenzen.

Stationarität

#fundamentals

Ein Feature, dessen Werte sich in einer oder mehreren Dimensionen nicht ändern, in der Regel in Bezug auf die Zeit. Ein Beispiel für Stationarität ist ein Feature, dessen Werte 2021 und 2023 ungefähr gleich sind.

In der Praxis weisen nur sehr wenige Merkmale Stationarität auf. Selbst Merkmale, die für Stabilität stehen (z. B. der Meeresspiegel), ändern sich im Laufe der Zeit.

Im Gegensatz zur Nichtstationarität.

Stochastischer Gradientenabstieg (SGD)

#fundamentals

Ein Gradientenabstiegsalgorithmus, bei dem die Batchgröße 1 ist. Mit anderen Worten: SGD wird anhand eines einzelnen Beispiels trainiert, das nach dem Zufallsprinzip aus einem Trainingssatz ausgewählt wird.

Supervised Machine Learning

#fundamentals

Training eines Modells anhand von Features und ihren entsprechenden Labels. Supervised Machine Learning ist vergleichbar mit dem Lernen eines Themas durch das Studium einer Reihe von Fragen und der entsprechenden Antworten. Nachdem die Zuordnung von Fragen und Antworten gemeistert wurde, kann ein Schüler oder Student Antworten auf neue (noch nie zuvor gesehene) Fragen zum selben Thema geben.

Vergleich mit nicht überwachtem maschinellem Lernen

synthetisches Feature

#fundamentals

Ein Attribut, das nicht zu den Eingabeattributen gehört, sondern aus einem oder mehreren davon zusammengestellt wurde. Zu den Methoden zum Erstellen synthetischer Elemente gehören:

  • Bucketing eines kontinuierlichen Features in Bereichsgruppen.
  • Erstellen eines Feature-Cross
  • Multiplizieren (oder Dividieren) eines Featurewerts mit anderen Featurewerten oder mit sich selbst. Wenn a und b beispielsweise Eingabefeatures sind, sind die folgenden Beispiele für synthetische Features:
    • ab
    • a2
  • Anwenden einer transzendentalen Funktion auf einen Featurewert. Wenn c beispielsweise ein Eingabeelement ist, sind die folgenden Beispiele für synthetische Elemente:
    • sin(c)
    • ln(c)

Funktionen, die durch Normalisierung oder Skalierung allein erstellt wurden, gelten nicht als synthetische Funktionen.

T

Testverlust

#fundamentals

Ein Messwert, der den Verlust eines Modells im Vergleich zum Test-Dataset darstellt. Beim Erstellen eines Modells versuchen Sie in der Regel, den Testverlust zu minimieren. Das liegt daran, dass ein niedriger Testverlust ein stärkeres Qualitätssignal ist als ein niedriger Trainingsverlust oder ein niedriger Validierungsverlust.

Ein großer Unterschied zwischen Testverlust und Trainingsverlust oder Validierungsverlust weist manchmal darauf hin, dass Sie die Regulierungsrate erhöhen müssen.

Training

#fundamentals

Der Prozess, bei dem die idealen Parameter (Gewichte und Verzerrungen) eines Modells bestimmt werden. Während des Trainings liest ein System Beispiele ein und passt die Parameter nach und nach an. Bei der Modellierung werden die einzelnen Beispiele einige Male bis hin zu Milliarden Mal verwendet.

Trainingsverlust

#fundamentals

Ein Messwert, der den Verlust eines Modells während einer bestimmten Trainingsiteration darstellt. Angenommen, die Verlustfunktion ist der Quadratische Mittelwert. Angenommen, der Trainingsverlust (der mittlere quadratische Fehler) für die 10.Iteration beträgt 2,2 und der Trainingsverlust für die 100.Iteration 1,9.

Eine Verlustkurve stellt den Trainingsverlust in Abhängigkeit von der Anzahl der Iterationen dar. Eine Verlustkurve liefert folgende Hinweise zum Training:

  • Ein nach unten geneigter Verlauf bedeutet, dass sich das Modell verbessert.
  • Eine Steigung bedeutet, dass das Modell schlechter wird.
  • Eine flache Steigung bedeutet, dass das Modell Konvergenz erreicht hat.

Die folgende etwas idealisierte Verlustkurve zeigt beispielsweise:

  • Ein starker Abfall während der ersten Iterationen, was auf eine schnelle Modellverbesserung hindeutet.
  • Eine allmählich flachere (aber weiterhin abwärts gerichtete) Steigung bis kurz vor Ende des Trainings, was eine kontinuierliche Modellverbesserung mit etwas geringerem Tempo als bei den ersten Iterationen bedeutet.
  • Eine flache Steigung gegen Ende des Trainings, was auf eine Konvergenz hindeutet.

Die Darstellung des Trainingsverlusts im Vergleich zu den Iterationen. Diese Verlustkurve beginnt mit einer steilen Abwärtsneigung. Die Steigung wird allmählich flacher, bis sie null ist.

Auch wenn der Trainingsverlust wichtig ist, sollten Sie sich auch mit der Generalisierung befassen.

Abweichungen zwischen Training und Bereitstellung

#fundamentals

Der Unterschied zwischen der Leistung eines Modells während des Trainings und der Leistung desselben Modells während der Bereitstellung.

Trainings-Dataset

#fundamentals

Die Teilmenge des Datasets, die zum Trainieren eines Modells verwendet wird.

Traditionell werden Beispiele im Dataset in die folgenden drei verschiedenen Teilmengen unterteilt:

Idealerweise sollte jedes Beispiel im Dataset nur einer der vorherigen Teilmengen angehören. Ein einzelnes Beispiel sollte beispielsweise nicht sowohl zum Trainings- als auch zum Validierungs-Dataset gehören.

Richtig negativ (TN)

#fundamentals

Ein Beispiel, in dem das Modell die negative Klasse richtig vorhersagt. Angenommen, das Modell schließt daraus, dass eine bestimmte E-Mail kein Spam ist, und diese E-Mail ist tatsächlich kein Spam.

Richtig positiv (TP)

#fundamentals

Ein Beispiel, in dem das Modell die positive Klasse richtig vorhersagt. Angenommen, das Modell schließt daraus, dass eine bestimmte E-Mail-Nachricht Spam ist, und diese E-Mail-Nachricht ist tatsächlich Spam.

Rate richtig positiver Ergebnisse (True Positive Rate, TPR)

#fundamentals

Synonym für Erinnerung. Das bedeutet:

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

Die Rate richtig positiver Ergebnisse ist die y-Achse einer ROC-Kurve.

U

Unteranpassung

#fundamentals

Ein Modell mit schlechter Vorhersagefähigkeit erstellen, weil es die Komplexität der Trainingsdaten nicht vollständig erfasst hat. Viele Probleme können zu einer Unteranpassung führen, darunter:

Beispiel ohne Label

#fundamentals

Ein Beispiel, das Features, aber kein Label enthält. Die folgende Tabelle enthält beispielsweise drei Beispiele ohne Labels aus einem Modell zur Immobilienbewertung. Jedes Beispiel enthält drei Merkmale, aber keinen Hauswert:

Anzahl der Schlafzimmer Anzahl der Badezimmer Alter des Gebäudes
3 2 15
2 1 72
4 2 34

Beim überwachten maschinellen Lernen werden Modelle anhand von Beispielen mit Labels trainiert und treffen Vorhersagen für Beispiele ohne Labels.

Beim halbüberwachten und unbeaufsichtigten Lernen werden während des Trainings nicht beschriftete Beispiele verwendet.

Stellen Sie das Beispiel ohne Labels dem Beispiel mit Labels gegenüber.

unüberwachtes maschinelles Lernen

#clustering
#fundamentals

Training eines Modells zum Finden von Mustern in einem Dataset, in der Regel einem nicht beschrifteten Dataset.

Die am häufigsten verwendete Methode für unbeaufsichtigtes maschinelles Lernen ist das Clustering von Daten in Gruppen ähnlicher Beispiele. Ein unüberwachter Algorithmus für maschinelles Lernen kann beispielsweise Songs basierend auf verschiedenen Eigenschaften der Musik gruppieren. Die resultierenden Cluster können als Eingabe für andere Algorithmen des maschinellen Lernens verwendet werden, z. B. für einen Musikempfehlungsservice. Clustering kann hilfreich sein, wenn nützliche Labels selten oder gar nicht vorhanden sind. In Bereichen wie Missbrauchs- und Betrugsprävention können Cluster beispielsweise Menschen helfen, die Daten besser zu verstehen.

Im Gegensatz zu überwachtem maschinellem Lernen.

V

Validierung

#fundamentals

Die erste Bewertung der Qualität eines Modells. Bei der Validierung wird die Qualität der Vorhersagen eines Modells anhand des Validierungs-Datasets überprüft.

Da sich das Validierungs-Dataset vom Trainings-Dataset unterscheidet, hilft die Validierung, eine Überanpassung zu vermeiden.

Sie können die Bewertung des Modells anhand des Validierungs-Sets als erste Testrunde und die Bewertung des Modells anhand des Test-Sets als zweite Testrunde betrachten.

Ausschussrate

#fundamentals

Ein Messwert, der den Verlust eines Modells im Validierungs-Dataset während einer bestimmten Iteration des Trainings darstellt.

Siehe auch Generalisierungskurve.

Validierungs-Dataset

#fundamentals

Die Teilmenge des Datasets, mit der die erste Bewertung anhand eines trainierten Modells durchgeführt wird. Normalerweise wird das trainierte Modell mehrmals anhand des Validierungs-Datasets bewertet, bevor es anhand des Test-Datasets bewertet wird.

Traditionell werden die Beispiele im Dataset in die folgenden drei verschiedenen Teilmengen unterteilt:

Idealerweise sollte jedes Beispiel im Dataset nur einer der vorherigen Teilmengen angehören. Ein einzelnes Beispiel sollte beispielsweise nicht sowohl zum Trainings- als auch zum Validierungs-Dataset gehören.

W

Gewicht

#fundamentals

Ein Wert, der in einem Modell mit einem anderen Wert multipliziert wird. Beim Training werden die idealen Gewichte eines Modells ermittelt. Bei der Inferenz werden diese gelernten Gewichte verwendet, um Vorhersagen zu treffen.

gewichtete Summe

#fundamentals

Die Summe aller relevanten Eingabewerte multipliziert mit ihren entsprechenden Gewichten. Angenommen, die relevanten Eingaben bestehen aus Folgendem:

Eingabewert Eingabegewicht
2 -1,3
-1 0,6
3 0,4

Die gewichtete Summe ist daher:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Eine gewichtete Summe ist das Eingabeargument einer Aktivierungsfunktion.

Z

Normalisierung nach Z-Wert

#fundamentals

Eine Skalierungsmethode, bei der ein Rohwert eines Features durch einen Gleitkommawert ersetzt wird, der die Anzahl der Standardabweichungen vom Mittelwert dieses Features darstellt. Angenommen, ein Feature hat einen Mittelwert von 800 und eine Standardabweichung von 100. In der folgenden Tabelle wird gezeigt, wie der Rohwert bei der Normalisierung mit dem Z-Wert abgeglichen wird:

Unverarbeiteter Wert Z-Wert
800 0
950 +1,5
575 -2,25

Das Modell für maschinelles Lernen wird dann anhand der Z-Werte für dieses Merkmal und nicht anhand der Rohwerte trainiert.