Diese Seite wurde von der Cloud Translation API übersetzt.

Glossar zum maschinellen Lernen: ML-Grundlagen

Diese Seite enthält Glossarbegriffe für ML-Grundlagen. Für alle Glossarbegriffe klicken Sie hier.

A

Genauigkeit

#fundamentals

Die Anzahl der Vorhersagen für die richtige Klassifizierung geteilt durch durch die Gesamtzahl der Vorhersagen. Das bedeutet:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Beispiel: Ein Modell, das 40 richtige und 10 falsche Vorhersagen gemacht hat, Vorhersagen eine Genauigkeit von:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

Die Binärklassifizierung stellt bestimmte Namen bereit. für die verschiedenen Kategorien richtiger Vorhersagen und falsche Vorhersagen. Die Genauigkeitsformel für die binäre Klassifizierung lautet:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

Dabei gilt:

TP ist die Anzahl der richtig positiven Ergebnisse (richtige Vorhersagen).
TN ist die Anzahl der richtigen negativen Ergebnisse (richtige Vorhersagen).
FP ist die Anzahl der falsch positiven Ergebnisse (falsche Vorhersagen).
FN ist die Anzahl der falsch negativen Ergebnisse (falsche Vorhersagen).

Vergleichen Sie die Genauigkeit mit Precision und Recall.

Klicken Sie auf das Symbol, um weitere Hinweise aufzurufen.

In einigen Situationen ist die Genauigkeit zwar ein wertvoller Messwert, irrezuführen. Die Genauigkeit ist in der Regel ein schlechter Messwert, zur Bewertung von Klassifizierungsmodellen, klassenunausgeglichene Datasets.

Angenommen, Schnee fällt nur an 25 Tagen pro Jahrhundert in subtropischen Stadt. Da Tage ohne Schnee (die negative Klasse) Anzahl der Tage mit Schnee (die positive Klasse), das Schnee-Dataset für in dieser Stadt herrscht Ungleichgewicht. Stellen Sie sich eine binäre Klassifizierung vor. das jeden Tag entweder Schnee oder keinen Schnee vorhersagen soll, sagt einfach „kein Schnee“ vorher. täglich. Dieses Modell ist sehr genau, hat aber keine Vorhersagekraft. In der folgenden Tabelle sind die Ergebnisse für ein Jahrhundert von Vorhersagen zusammengefasst:

Kategorie	Zahl
RPE	0
TN	36500
FP	25
FNE	0

Die Genauigkeit dieses Modells ist daher:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (0 + 36500) / (0 + 36500 + 25 + 0) = 0.9993 = 99.93%

Obwohl eine Genauigkeit von 99,93% ein sehr beeindruckender Prozentsatz zu sein scheint, eigentlich keine Vorhersagekraft hat.

Genauigkeit und Recall sind in der Regel nützlichere Messwerte, als Genauigkeit bei der Bewertung von Modellen, die mit klassenunausgeglichenen Datasets trainiert wurden.

Aktivierungsfunktion

#fundamentals

Eine Funktion, mit der neuronale Netzwerke lernen können nonlinear (komplexe) Beziehungen zwischen Elementen und das Label.

Beliebte Aktivierungsfunktionen sind:

ReLU
Sigmoid

Die Diagramme von Aktivierungsfunktionen sind niemals gerade Linien. Das Diagramm der ReLU-Aktivierungsfunktion besteht beispielsweise aus zwei gerade Linien:

Ein kartesisches Diagramm mit zwei Linien. Die erste Linie hat eine Konstante,
y-Wert von 0, der entlang der x-Achse von -unendlich,0 bis 0,-0 verläuft.
Die zweite Zeile beginnt bei 0,0. Diese Linie hat eine Steigung von +1,
von 0,0 bis +unendlich,+unendlich.

Ein Diagramm der Sigmoid-Aktivierungsfunktion sieht so aus:

Ein zweidimensionales, gebogenes Diagramm mit x-Werten, die die Domain umfassen
-endlos zu +positiv, während y-Werte einen Bereich von fast 0 bis
Fast 1. Wenn x 0 ist, ist y 0,5. Die Steigung der Kurve ist immer gleich
positiv, wobei die höchste Steigung bei 0,0,5 liegt und allmählich abnimmt.
wenn der Absolutwert von x ansteigt.

Klicken Sie auf das Symbol, um ein Beispiel zu sehen.

In einem neuronalen Netzwerk verändern Aktivierungsfunktionen die gewichtete Summe aller Eingaben für eine Neuron. Zur Berechnung einer gewichteten Summe summiert das Neuron die Produkte der relevanten Werte und Gewichtungen. Angenommen, der Parameter Eingabe für ein Neuron besteht aus Folgendem:

Eingabewert	Eingabegewichtung
2	-1,3
-1	0,6
3	0,4

Die gewichtete Summe lautet daher:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Angenommen, der Designer dieses neuronalen Netzwerks wählt die Sigmoidfunktion als der Aktivierungsfunktion. In diesem Fall berechnet das Neuron die Sigmoid von -2,0, was ungefähr 0,12 entspricht. Daher entspricht der Parameter übergibt das Neuron 0,12 (statt -2,0) an die nächste Schicht im neuronalen Netzwerk. Die folgende Abbildung zeigt den relevanten Teil des Prozesses:

künstliche Intelligenz

#fundamentals

Ein nicht-menschliches Programm oder Modell, das komplexe Aufgaben lösen kann. Beispielsweise ein Programm oder Modell, das Text übersetzt, oder ein Programm oder Modell, identifiziert Krankheiten in radiologischen Bildern, die beide künstliche Intelligenz zeigen.

Formal ist maschinelles Lernen ein Teilbereich des künstlichen Bedrohungsdaten. In den letzten Jahren haben einige Unternehmen jedoch damit begonnen, Begriffe künstliche Intelligenz und Maschinelles Lernen synonym.

AUC (Bereich unter der ROC-Kurve)

#fundamentals

Eine Zahl zwischen 0,0 und 1,0, die ein binäre Klassifizierung des Modells positive Klassen von negative Klassen. Je näher die AUC an 1,0 liegt, desto besser kann das Modell Klassen voneinander zu lernen.

Die folgende Abbildung zeigt beispielsweise ein Klassifikatormodell zur Trennung von positiven Klassen (grüne Ovale) von negativen Klassen. (lila Rechtecke) perfekt. Dieses unrealistisch perfekte Modell eine AUC von 1,0:

Eine Zahlenreihe mit acht positiven Beispielen auf einer Seite und
9 Negativbeispiele auf der anderen Seite.

Umgekehrt sind in der folgenden Abbildung die Ergebnisse für einen Klassifikator das zufällige Ergebnisse generiert hat. Dieses Modell hat eine AUC von 0,5:

Eine Zahlenreihe mit 6 positiven und 6 negativen Beispielen.
Die Reihenfolge der Beispiele ist positiv, negativ,
positiv, negativ, positiv, negativ, positiv, negativ, positiv
negativ, positiv, negativ.

Ja, das vorherige Modell hat eine AUC von 0,5, nicht 0,0.

Die meisten Modelle befinden sich irgendwo zwischen zwei Extremen. Zum Beispiel folgendes Modell trennt Positive von Negativen in gewisser Weise. liegt eine AUC zwischen 0,5 und 1,0:

Eine Zahlenreihe mit 6 positiven und 6 negativen Beispielen.
Die Reihenfolge der Beispiele ist negativ, negativ, negativ, negativ,
positiv, negativ, positiv, positiv, negativ, positiv, positiv,
positiv zu bewerten.

AUC ignoriert alle Werte, die Sie für Klassifizierungsschwellenwert. Stattdessen wird AUC berücksichtigt alle möglichen Klassifizierungsschwellenwerte.

Klicken Sie auf das Symbol, um mehr über die Beziehung zwischen AUC- und ROC-Kurven zu erfahren.

AUC repräsentiert die Fläche unter einem ROC-Kurve: Beispiel: die ROC-Kurve für ein Modell, das Positive für auszuschließende Keywords wie folgt aus:

AUC ist der Bereich des grauen Bereichs in der vorherigen Abbildung. In diesem ungewöhnlichen Fall entspricht der Bereich einfach der Länge des grauen Bereichs. (1,0) multipliziert mit der Breite des grauen Bereichs (1,0). Das Produkt 1,0 und 1,0 ergibt eine AUC von genau 1,0, was der höchstmöglichen AUC-Wert.

Umgekehrt ist die ROC-Kurve für einen Klassifikator, der Klassen nicht trennen kann, ist wie folgt. Die Fläche dieses grauen Bereichs beträgt 0,5.

Eine typische ROC-Kurve sieht ungefähr so aus:

Es wäre mühsam, die Fläche unter dieser Kurve manuell zu berechnen, Deshalb berechnet ein Programm in der Regel die meisten AUC-Werte.

Klicken Sie auf das Symbol, um eine förmlichere Definition von AUC zu erhalten.

AUC ist die Wahrscheinlichkeit, mit der ein Klassifikator mit größerer Wahrscheinlichkeit sicher ist, dass ein zufällig ausgewähltes positives Beispiel tatsächlich positiv ist. zufällig ausgewähltes negatives Beispiel positiv ist.

B

Rückpropagierung

#fundamentals

Der Algorithmus, der die Gradientenverfahren in neuronale Netzwerke.

Das Training eines neuronalen Netzwerks beinhaltet viele Iterationen des folgenden Zyklus mit zwei Durchläufen:

Während der Vorwärtsterminierung verarbeitet das System einen Batch von Beispiele für Vorhersagen. Das System vergleicht alle Vorhersage für jeden label-Wert. Der Unterschied zwischen der Vorhersage und der Labelwert ist der Verlust für dieses Beispiel. Das System aggregiert die Verluste für alle Beispiele, um die Gesamtsumme zu berechnen. für den aktuellen Batch.
Während der Rückwärtspropagierung (Rückpropagierung) reduziert das System den Verlust um die Gewichtung aller Neuronen in allen ausgeblendete Ebene(n):

Neuronale Netzwerke umfassen oft viele Neuronen auf vielen verborgenen Schichten. Jedes dieser Neuronen trägt auf unterschiedliche Weise zum Gesamtverlust bei. Die Rückpropagierung bestimmt, ob die Gewichtungen erhöht oder verringert werden sollen auf bestimmte Neuronen angewendet.

Die Lernrate ist ein Multiplikator, der die Grad, um den die Gewichtung bei jedem Rückwärtsgang zu- oder abnimmt. Eine große Lernrate erhöht oder verringert jede Gewichtung um mehr als ein eine geringe Lernrate.

Rechnerisch betrachtet wird bei der Rückpropagierung die Methode Kettenregel. aus Differenzial- und Integralrechnungen. Das heißt, die Rückpropagierung berechnet partielle Ableitung des Fehlers mit in Bezug auf den jeweiligen Parameter.

Vor Jahren mussten ML-Anwender Code schreiben, um die Rückpropagierung zu implementieren. Moderne ML-APIs wie TensorFlow implementieren jetzt die Rückpropagierung für Sie. Geschafft!

Batch

#fundamentals

Die in einem Training verwendeten Beispiele Iteration. Die Batchgröße bestimmt die Anzahl der Beispiele in einer zu erstellen.

Unter Epoche finden Sie eine Erläuterung, wie sich ein Batch auf eine Epoche.

Batchgröße

#fundamentals

Die Anzahl der Beispiele in einem Batch. Wenn die Batchgröße beispielsweise 100 beträgt, verarbeitet das Modell 100 Beispiele pro Version

Die folgenden Strategien sind beliebte Batchgrößen-Strategien:

Stochastic Gradient Descent (SGD) mit einer Batchgröße von 1.
Vollständiger Batch, bei dem die Batchgröße die Anzahl der Beispiele im gesamten Trainings-Dataset Wenn z. B. das Trainings-Dataset eine Million Beispiele enthält, wäre die Batchgröße eine Million Beispiele. Ein vollständiger Batch ist normalerweise eine ineffiziente Strategie.
Mini-Batch, bei dem die Batchgröße normalerweise zwischen 10 und 1.000. Mini-Batches sind normalerweise die effizienteste Strategie.

Voreingenommenheit (Ethik/Fairness)

#fairness

#fundamentals

1. Vorurteile, Vorurteile gegenüber bestimmten Dingen, Menschen, oder Gruppen vor anderen. Diese Voreingenommenheiten können sich auf die Erfassung und Interpretation von Daten, das Design eines Systems und die Art und Weise, wie Nutzende interagieren mit einem System. Zu diesen Formen von Verzerrungen gehören:

2. Systematischer Fehler, der durch ein Stichproben- oder Meldeverfahren verursacht wird. Zu diesen Formen von Verzerrungen gehören:

Nicht zu verwechseln mit dem Begriff „Voreingenommenheit“ in Modellen für maschinelles Lernen oder Vorhersageverzerrung.

Verzerrung (Mathematik) oder Bias-Begriff

#fundamentals

Ein Achsenabschnitt oder Versatz von einem Ursprung. Verzerrung ist ein Parameter in die durch eine der beiden Methoden Folgendes:

M
W₀

Verzerrungen sind beispielsweise das b in der folgenden Formel:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Bei einer einfachen zweidimensionalen Linie bedeutet Verzerrung einfach "y-Achsenabschnitt". Die Verzerrung der Linie in der folgenden Abbildung beträgt beispielsweise 2.

Diagramm einer Geraden mit einer Steigung von 0,5 und einer Verzerrung (y-Achsenabschnitt) von 2.

Verzerrung liegt vor, weil nicht alle Modelle am Ursprung (0,0) beginnen. Beispiel: Ein Vergnügungspark kostet 2 € und eine weitere 0,50 € pro Stunde, die ein Kunde übernachtet. Daher kann ein Modell, das die Die Gesamtkosten weisen eine Verzerrung von 2 auf, da die niedrigsten Kosten 2 Euro betragen.

Voreingenommenheit ist nicht zu verwechseln mit Voreingenommenheit in Bezug auf Ethik und Fairness. oder Vorhersageverzerrung.

Binäre Klassifizierung

#fundamentals

Eine Art der Klassifizierung, die sagt eine von zwei sich gegenseitig ausschließlichen Klassen vorher:

die positive Klasse
die negative Klasse

Die folgenden beiden ML-Modelle erzielen beispielsweise Binäre Klassifizierung:

Ein Modell, das bestimmt, ob E-Mails spam (die positive Klasse) oder not spam (die negative Klasse).
Modell, das medizinische Symptome bewertet, um festzustellen, ob eine Person hat eine bestimmte Krankheit (die positive Klasse) oder nicht Krankheit (die negative Klasse).

Im Kontrast zur Klassifizierung mit mehreren Klassen stehen.

Siehe auch logistische Regression und Klassifizierungsschwellenwert.

Bucketing

#fundamentals

Ein einzelnes feature in mehrere binäre Features umwandeln als buckets oder bins, in der Regel auf einem Wertebereich basieren. Die geschnittene Funktion ist in der Regel ein fortlaufende Funktion:

Anstatt beispielsweise die Temperatur als einzelnes Gleitpunktelement definiert ist, können Sie Temperaturbereiche in separate Gruppen unterteilen, z. B.:

<= 10 Grad Celsius wäre die „kalte“ Temperatur Bucket.
11 bis 24 Grad Celsius wären das gemäßigte Temperatur Bucket.
>= 25 Grad Celsius wären Bucket.

Das Modell behandelt jeden Wert im selben Bucket gleich. Für Beispiel: Die Werte 13 und 22 befinden sich beide im gemäßigten Bucket, sodass der Wert werden beide Werte gleich behandelt.

Klicken Sie auf das Symbol, um weitere Hinweise aufzurufen.

Wenn Sie die Temperatur als stetiges Merkmal darstellen, die Temperatur als eine Funktion behandelt. Wenn Sie die Temperatur angeben als drei Buckets, dann behandelt das Modell jeden Bucket als separates Feature. Das heißt, ein Modell kann die Beziehungen jedes Buckets zum label: Beispiel: lineares Regressionsmodell lernt, separate Gewichtungen für jeden Bucket.

Wenn Sie die Anzahl der Buckets erhöhen, wird Ihr Modell komplizierter, die Anzahl der Beziehungen erhöhen, die das Modell lernen muss. Die kalten, warmen und die gemäßigten Buckets sind im Grunde drei separate Merkmale haben, mit denen Ihr Modell trainiert werden kann. Wenn Sie sich für z. B. „gefrieren“ und „heiß“, wird Ihr Modell müssen jetzt fünf verschiedene Funktionen trainieren.

Woher wissen Sie, wie viele Buckets erstellt werden sollen oder welche Bereiche die einzelnen Gruppen haben sollen? Bucket sein? Die Antworten erfordern in der Regel zu experimentieren.

C

Kategorische Daten

#fundamentals

Elemente mit einem bestimmten Satz möglicher Werte. Beispiel: betrachten wir ein kategoriales Merkmal namens traffic-light-state, das nur haben einen der folgenden drei möglichen Werte:

red
yellow
green

Wenn traffic-light-state als kategoriales Merkmal dargestellt wird, kann ein Modell lernen, unterschiedliche Auswirkungen von red, green und yellow auf das Fahrverhalten.

Kategoriale Merkmale werden manchmal als diskrete Funktionen:

Einen Kontrast zu numerischen Daten

Klasse

#fundamentals

Eine Kategorie, zu der ein Label gehören kann. Beispiel:

In einem binären Klassifizierungsmodell, das Spam ist, können die beiden Klassen Spam und kein Spam sein.
In einem Klassifizierungsmodell mit mehreren Klassen zur Identifizierung von Hunderassen, könnten die Klassen Pudel, Beagle, Mops, und so weiter.

Ein Klassifizierungsmodell sagt eine Klasse vorher. Im Gegensatz dazu sagt ein Regressionsmodell eine Zahl und nicht auf einen Kurs.

Klassifizierungsmodell

#fundamentals

Ein Modell, dessen Vorhersage eine Klasse ist. Im Folgenden finden Sie alle Klassifizierungsmodelle:

Ein Modell, das die Sprache eines Eingabesatzes vorhersagt (Französisch? Spanisch? Italienisch?).
Ein Modell, das Baumarten vorhersagt (Maple? Eiche? Affenbrot?).
Modell, das die positive oder negative Klasse für eine bestimmte Erkrankungen.

Im Gegensatz dazu sagen Regressionsmodelle Zahlen voraus. und nicht für Kurse.

Zwei gängige Arten von Klassifizierungsmodellen sind:

Binärklassifizierung
Klassifizierung mit mehreren Klassen

Klassifizierungsschwellenwert

#fundamentals

Bei einer binären Klassifizierung ist ein Zahl zwischen 0 und 1, die die Rohausgabe eines logistisches Regressionsmodell in eine Vorhersage entweder der positiven Klasse oder die negative Klasse. Der Klassifizierungsschwellenwert wird vom Nutzer ausgewählt. kein Wert, der vom Modelltraining ausgewählt wurde.

Ein logistisches Regressionsmodell gibt einen Rohwert zwischen 0 und 1 aus. Dann:

Wenn dieser Rohwert größer als der Klassifizierungsschwellenwert ist, dann: wird die positive Klasse vorhergesagt.
Wenn dieser Rohwert kleiner als Klassifizierungsschwellenwert ist, gilt: wird die negative Klasse vorhergesagt.

Angenommen, der Klassifizierungsschwellenwert beträgt 0,8. Wenn der Rohwert 0,9 ist, sagt das Modell die positive Klasse vorher. Wenn der Rohwert gleich 0,7 ist, sagt das Modell die negative Klasse vorher.

Die Wahl des Klassifizierungsschwellenwerts wirkt sich stark auf die Anzahl der falsch positive Ergebnisse und falsch negative Ergebnisse.

Klicken Sie auf das Symbol, um weitere Hinweise aufzurufen.

Wenn sich Modelle oder Datasets weiterentwickeln, ändern Entwickler manchmal auch die Klassifizierungsschwellenwert. Wenn sich der Klassifizierungsschwellenwert ändert, Vorhersagen von positiven Klassen können plötzlich zu negativen Klassen werden. und umgekehrt.

Betrachten Sie beispielsweise ein Krankheitsvorhersagemodell für die binäre Klassifikation. Angenommen, das System wird im ersten Jahr ausgeführt:

Der Rohwert für einen bestimmten Patienten beträgt 0,95.
Der Klassifizierungsschwellenwert beträgt 0,94.

Daher diagnostiziert das System die positive Klasse. (Der Patient schnappt nach Luft, „Oh nein! Ich bin krank!")

Ein Jahr später sehen die Werte vielleicht so aus:

Der Rohwert für denselben Patienten bleibt bei 0,95.
Der Klassifizierungsschwellenwert ändert sich in 0,97.

Daher klassifiziert das System diesen Patienten jetzt als negative Klasse. („Schönen Tag! Ich bin nicht krank.") Derselbe Patient. Andere Diagnose.

Dataset mit klassenunausgeglichenem Dataset

#fundamentals

Ein Dataset für ein Klassifizierungsproblem, bei dem die Gesamtzahl der Labels jeder Klasse unterscheiden sich erheblich. Nehmen wir als Beispiel ein binäres Klassifizierungs-Dataset, dessen zwei Labels wie folgt aufgeteilt:

1.000.000 auszuschließende Labels
10 positive Labels

Das Verhältnis von negativen zu positiven Labels beträgt 100.000:1. ist ein klassenunausgeglichenes Dataset.

Im Gegensatz dazu ist das folgende Dataset nicht klassenunausgewogen, da die Verhältnis von negativen Labels zu positiven Labels liegt relativ nahe bei 1:

517 ausschließende Labels
483 positive Labels

Datasets mit mehreren Klassen können auch klassenunausgewogen sein. Beispiel: Das mehrklassige Klassifizierungs-Dataset ist ebenfalls unausgewogen, da ein Label enthält weit mehr Beispiele als die anderen beiden:

1.000.000 Labels mit der Klasse „green“
200 Labels mit der Klasse „lila“
350 Labels mit der Klasse „orange“

Siehe auch Entropie, Mehrheitsklasse, und Minderheitenklasse.

Clipping

#fundamentals

Verfahren zum Umgang mit Ausreißern durch Entweder oder beide:

Reduzieren von feature-Werten, die größer als ein Maximum sind Grenzwert unter diesen Höchstwert reduzieren.
Die Erhöhung von Featurewerten unter einem Mindestgrenzwert bis zu diesem Wert Untergrenze.

Angenommen, < 0,5% der Werte für ein bestimmtes Feature fallen außerhalb des Bereichs von 40 bis 60 liegt. In diesem Fall könnten Sie so vorgehen:

Alle Werte über 60 (der maximale Schwellenwert) werden auf genau 60 reduziert.
Alle Werte unter 40 (die Mindestgrenze) werden auf genau 40 gekürzt.

Ausreißer können Modelle beschädigen und manchmal Gewichtungen verursachen. während des Trainings überlaufen. Einige Ausreißer können auch dramatisch verderben Messwerte wie Genauigkeit. Das Abschneiden ist eine gängige Methode, für den Schaden.

Kräfte zum Abschneiden des Farbverlaufs Gradienten-Werten innerhalb eines festgelegten Bereichs während des Trainings.

Wahrheitsmatrix

#fundamentals

Eine NxN-Tabelle, die die Anzahl der richtigen und falschen Vorhersagen zusammenfasst die ein Klassifizierungsmodell erstellt hat. Betrachten Sie beispielsweise die folgende Wahrheitsmatrix für ein binäres Klassifizierungsmodell:

	Tumor (prognostiziert)	Kein Tumor (prognostiziert)
Tumor (Ground Truth)	18 (TP)	1 (FN)
Nicht Tumor (Ground Truth)	6 (FP)	452 (TN)

Die obige Wahrheitsmatrix zeigt Folgendes:

Von den 19 Vorhersagen, bei denen Ground Truth Tumor war, dass das Modell 18 richtig und falsch 1 klassifiziert hat.
Von den 458 Vorhersagen, bei denen die Grundwahrheit „Nicht-Tumor“ war, wurde das Modell richtig klassifiziert 452 und falsch klassifiziert 6.

Die Wahrheitsmatrix für eine Klassifizierung mit mehreren Klassen kann Ihnen helfen, Fehlermuster zu erkennen. Betrachten Sie beispielsweise die folgende Wahrheitsmatrix für eine 3-Klassen-Klasse. Klassifizierungsmodell mit mehreren Klassen, das drei verschiedene Iristypen kategorisiert (Virginica, Versicolor und Setosa). Als die Grundwahrheit Virginica war, Die Wahrheitsmatrix zeigt, dass das Modell viel häufiger Versicolor als Setosa vorhersagen:

	Setosa (prognostiziert)	Versicolor (vorhergesagt)	Virginica (prognostiziert)
Setosa (Ground Truth)	88	12	0
Versicolor (Ground Truth)	6	141	7
Virginica (Ground Truth)	2	27	109

Ein weiteres Beispiel: Eine Wahrheitsmatrix könnte zeigen, dass ein trainiertes Modell handschriftliche Ziffern zu erkennen, bestimmt fälschlicherweise 9 statt 4 vorher, oder versehentlich 1 statt 7 vorhersagen.

Wahrheitsmatrizes enthalten genügend Informationen, um eine verschiedene Leistungsmesswerte, einschließlich Genauigkeit und Recall.

stetiges Feature

#fundamentals

Ein Gleitkomma-Element mit einem unendlichen Bereich möglicher wie Temperatur oder Gewicht.

Stellen Sie einen Kontrast mit der diskreten Funktion her.

Konvergenz

#fundamentals

Ein Status, bei dem sich der Verlust nur sehr gering oder überhaupt nicht bei jeder Iteration. Beispiel: Die Verlustkurve suggeriert eine Konvergenz bei etwa 700 Iterationen:

kartesisches Diagramm. Die X-Achse steht für Verlust. Die Y-Achse steht für die Anzahl der Trainings,
Iterationen vor. Die Verluste sind in den ersten Iterationen sehr hoch,
stark ab. Nach etwa 100 Iterationen ist der Verlust immer noch
absteigend, aber viel allmählicher. Nach etwa 700 Iterationen
bleiben die Verluste stabil.

Ein Modell konvergiert, wenn zusätzliches Training nicht um das Modell zu verbessern.

Beim Deep Learning bleiben Verlustwerte bei vielen Iterationen annähernd vor dem Absteigen. Über einen längeren Zeitraum konstanter Verlustwerte zu sehen, kann es sein, dass Sie temporär ein falsches Konvergenzgefühl haben.

Siehe auch Vorzeitiges Beenden.

D

DataFrame

#fundamentals

Ein beliebter pandas-Datentyp zur Darstellung Datasets im Arbeitsspeicher.

Ein DataFrame ist analog zu einer Tabelle oder einer Tabellenkalkulation. Jede Spalte von ein DataFrame einen Namen (eine Kopfzeile) hat und jede Zeile durch ein eindeutige Nummer.

Jede Spalte in einem DataFrame ist wie ein 2D-Array strukturiert, außer dass kann jeder Spalte ein eigener Datentyp zugewiesen werden.

Siehe auch die offizielle pandas.DataFrame-Referenz .

Dataset oder Dataset

#fundamentals

Eine Sammlung von Rohdaten, die üblicherweise (aber nicht ausschließlich) in einem der folgenden Formate verwenden:

Tabelle
Eine Datei im CSV-Format (Comma-Separated Values, durch Kommas getrennte Werte)

Deep-Modell

#fundamentals

Ein neuronales Netzwerk mit mehr als einem verborgene Ebene:

Ein tiefes Modell wird auch als neuronales Deep-Learning-Netzwerk bezeichnet.

Kontrast zum breiten Modell

vollbesetztes Feature

#fundamentals

Eine Funktion, bei der die meisten oder alle Werte ungleich null sind, typischerweise Ein Tensor mit Gleitkommawerten Beispiel: Tensor mit 10 Elementen ist dicht, weil 9 seiner Werte ungleich null sind:

Kontrast zur dünnbesetzten Funktion

Tiefe

#fundamentals

Die Summe der folgenden Messwerte in einem neuronalen Netzwerk:

Anzahl der ausgeblendeten Ebenen
die Anzahl der Ausgabeschichten (in der Regel 1)
Anzahl der Einbettungsebenen

Beispiel: ein neuronales Netzwerk mit fünf verborgenen Schichten und einer Ausgabeschicht hat eine Tiefe von 6.

Beachten Sie, dass die Eingabeebene die Einflusstiefe.

diskretes Feature

#fundamentals

Ein Feature mit einer endlichen Reihe möglicher Werte. Beispiel: Ein Element, dessen Werte nur Tier, Gemüse oder Mineral sein dürfen, ist ein diskretes (oder kategoriales) Merkmal.

Kontrast zur kontinuierlichen Funktion

dynamic

#fundamentals

Etwas, das häufig oder kontinuierlich ausgeführt wird. Die Begriffe dynamisch und online sind Synonyme im maschinellen Lernen. Im Folgenden werden gängige Anwendungen von dynamisch und online in Maschinen genannt. Lernen:

Ein dynamisches Modell (oder Onlinemodell) ist ein Modell das häufig oder kontinuierlich neu trainiert wird.
Dynamisches Training (oder Online-Training) ist der Trainingsprozess. häufig oder fortlaufend sein.
Dynamische Inferenz (oder Online-Inferenz) ist der Prozess, Vorhersagen bei Bedarf zu erstellen.

dynamisches Modell

#fundamentals

Ein Modell, das häufig, vielleicht sogar kontinuierlich, erneut trainiert. Ein dynamisches Modell ist ein „lebenslang Lernender“. das passt sich ständig an neue Daten an. Ein dynamisches Modell wird auch als Onlinemodell.

Im Kontrast zum statischen Modell stehen.

E

vorzeitiges Beenden

#fundamentals

Eine Methode zur Regularisierung, bei der das Ende Training vor Ende der Trainingsverluste nimmt ab. Beim vorzeitigen Beenden stoppen Sie das Training des Modells absichtlich. Der Verlust eines Validierungs-Datasets beginnt, increase; Das heißt, wenn Die Leistung der Generalisierung verschlechtert sich.

Klicken Sie auf das Symbol, um weitere Hinweise aufzurufen.

Ein vorzeitiges Beenden mag unlogisch erscheinen. Schließlich bitten wir, ein Modell anzuhalten, während die Verluste immer weiter sinken, mag es so aussehen, als würde man gar nicht mehr zu kochen, bevor der Nachtisch vollständig gebacken ist. Das Trainieren eines Modells für zu lange kann zu Überanpassung führen. Wenn Sie also ein Modell zu lang trainieren, passt das Modell möglicherweise so genau an die Trainingsdaten an, trifft das Modell keine guten Vorhersagen für neue Beispiele.

Einbettungsebene

#language

#fundamentals

Eine spezielle verborgene Ebene, die auf einem ein hochdimensionales kategoriales Feature einen Einbettungsvektor niedrigerer Dimension lernen. Eine kann ein neuronales Netzwerk weitaus mehr als nur das hochdimensionale kategoriale Merkmal trainieren.

So unterstützt Google Earth derzeit etwa 73.000 Baumarten. Angenommen, Die Baumart ist ein Merkmal in Ihrem Modell. Eingabeebene enthält einen One-Hot-Vektor 73.000 Elemente lang sein. Beispielsweise würde baobab in etwa so dargestellt:

Ein Array mit 73.000 Elementen. Die ersten 6.232 Elemente enthalten den Wert
0. Das nächste Element enthält den Wert 1. Die letzten 66.767 Elemente
den Wert Null.

Ein Array mit 73.000 Elementen ist sehr lang. Wenn Sie keine Einbettungsebene hinzufügen ist das Training sehr zeitaufwändig, multipliziert mit 72.999 Nullen. Vielleicht wählen Sie die Einbettungsebene aus, von 12 Dimensionen. Daher lernt die Einbettungsebene allmählich für jede Baumart einen neuen Einbettungsvektor erstellen.

In bestimmten Situationen ist Hashing eine sinnvolle Alternative. zu einer Einbettungsebene hinzufügen.

Epoche

#fundamentals

Einen vollständigen Trainingsdurchlauf für das gesamte Trainings-Dataset Dadurch wurde jedes Beispiel einmal verarbeitet.

Eine Epoche stellt N/Batchgröße dar. Trainingsiterationen, wobei N der Wert für Gesamtzahl der Beispiele.

Beispiel:

Das Dataset besteht aus 1.000 Beispielen.
Die Batchgröße beträgt 50 Beispiele.

Daher erfordert eine einzelne Epoche 20 Iterationen:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

Beispiel

#fundamentals

Die Werte einer Zeile mit features und möglicherweise ein Label. Beispiele in überwachtes Lernen lässt sich allgemeine Kategorien:

Ein Beispiel mit einem Label besteht aus einem oder mehreren Merkmalen. und einem Label. Beispiele mit Label werden während des Trainings verwendet.
Ein Beispiel ohne Label besteht aus einem oder mehr Funktionen, aber ohne Label. Beispiele ohne Label werden bei der Inferenz verwendet.

Angenommen, Sie trainieren ein Modell, um den Einfluss der Prüfungsergebnisse der Schüler:innen. Hier sind drei Beispiele mit Labels:

Funktionen			Label
Temperatur	Luftfeuchtigkeit	Luftdruck	Prüfungspunktzahl
15	47	998	Gut
19	34	1020	Sehr gut
18	92	1012	Schlecht

Hier sind drei Beispiele ohne Label:

Temperatur	Luftfeuchtigkeit	Luftdruck
12	62	1014
21	47	1017
19	41	1021

Die Zeile eines Datasets ist normalerweise die Rohquelle für ein Beispiel. Das heißt, ein Beispiel besteht normalerweise aus einer Teilmenge der Spalten des Datasets. Darüber hinaus können die Funktionen in einem Beispiel auch synthetische Funktionen wie Funktionsverknüpfungen:

F

Falsch-negativ (FN)

#fundamentals

Beispiel, bei dem das Modell den negative class (auszuschließende Klasse) hinzu. Zum Beispiel hat das Modell sagt, dass es sich bei einer bestimmten E-Mail-Nachricht um kein Spam handelt (die negative Klasse), aber diese E-Mail ist tatsächlich Spam.

Falsch positives Ergebnis (FP)

#fundamentals

Beispiel, bei dem das Modell den positive Klasse. Das Modell sagt beispielsweise dass es sich bei einer bestimmten E-Mail-Nachricht um Spam handelt (die positive Klasse), aber dass E-Mail-Nachricht ist tatsächlich kein Spam.

Rate falsch positiver Ergebnisse (FPR)

#fundamentals

Der Anteil der tatsächlichen negativen Beispiele, für die das Modell versehentlich die positive Klasse vorhergesagt. Mit der folgenden Formel wird die „false“ berechnet, positive Rate:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

Die Falsch-Positiv-Rate ist die x-Achse in einer ROC-Kurve.

Feature

#fundamentals

Eine Eingabevariable für ein ML-Modell. Beispiel besteht aus einem oder mehreren Merkmalen. Angenommen, Sie trainieren ein Modell, um den Einfluss der Wetterbedingungen auf die Prüfungsergebnisse der Schüler zu bestimmen. Die folgende Tabelle enthält drei Beispiele, die jeweils Folgendes enthalten: drei Funktionen und ein Label:

Funktionen			Label
Temperatur	Luftfeuchtigkeit	Luftdruck	Prüfungspunktzahl
15	47	998	92
19	34	1020	84
18	92	1012	87

Stellen Sie einen Kontrast mit label her.

Featureverknüpfung

#fundamentals

Ein synthetisches Element, das durch „Kreuzung“ gebildet wird kategoriale oder Bucket-bezogene Features.

Stellen Sie sich z. B. eine „Stimmungsprognose“ ein Modell, das die in einen der folgenden vier Kategorien eingeben:

freezing
chilly
temperate
warm

Und stellt die Windgeschwindigkeit in einer der folgenden drei Kategorien dar:

still
light
windy

Ohne Featureverknüpfungen wird das lineare Modell unabhängig von den sieben verschiedenen Gruppen vorangehen. Das Modell trainiert also zum Beispiel freezing unabhängig vom Training, z. B. windy.

Alternativ können Sie eine Funktionsverknüpfung für Temperatur und Windgeschwindigkeit. Dieses synthetische Feature hätte die folgenden 12 möglichen Werte:

freezing-still
freezing-light
freezing-windy
chilly-still
chilly-light
chilly-windy
temperate-still
temperate-light
temperate-windy
warm-still
warm-light
warm-windy

Dank der Funktionsverknüpfungen kann das Modell Stimmungsunterschiede lernen. zwischen einem freezing-windy und einem freezing-still Tag.

Wenn Sie eine synthetische Funktion aus zwei Funktionen erstellen, Buckets haben, wird die daraus resultierende Merkmalsverknüpfung eine große Anzahl der möglichen Kombinationen. Wenn ein Feature z. B. 1.000 Buckets hat und hat das andere Feature 2.000 Buckets, die daraus resultierende Featureverknüpfung 2.000.000 Buckets.

Formal ist ein Kreuz ein Kartesisches Produkt:

Featureverknüpfungen werden hauptsächlich mit linearen Modellen verwendet und selten verwendet mit neuronalen Netzen.

Feature Engineering

#fundamentals

#TensorFlow

Ein Prozess, der die folgenden Schritte umfasst:

Geeignete Funktionen ermitteln beim Trainieren eines Modells.
Das Konvertieren von Rohdaten aus dem Dataset in effiziente Versionen von für diese Funktionen.

Sie könnten z. B. feststellen, dass temperature für Sie nützlich sein könnte. . Anschließend können Sie mit Bucketing experimentieren. um zu optimieren, was das Modell aus verschiedenen temperature-Bereichen lernen kann.

Feature Engineering wird manchmal Feature-Extraktion oder Funktionen:

Klicken Sie auf das Symbol, um weitere Hinweise zu TensorFlow zu erhalten.

In TensorFlow bedeutet Feature Engineering oft das Konvertieren der Rohlogdatei in tf.Example-Protokollpuffer. Siehe auch tf.Transform.

Feature-Set

#fundamentals

Die Gruppe der Funktionen Ihres maschinellen Lernens model wird weiter trainiert. Beispiele: Postleitzahl, Immobiliengröße und Immobilienzustand einen einfachen Satz von Merkmalen für ein Modell, das Immobilienpreise vorhersagt.

Featurevektor

#fundamentals

Das Array der feature-Werte, das ein Beispiel: Der Featurevektor wird während Training und während der Inferenz. Der Featurevektor für ein Modell mit zwei diskreten Merkmalen kann so lauten:

[0.92, 0.56]

Vier Schichten: eine Eingabeschicht, zwei versteckte Schichten und eine Ausgabeschicht.
Die Eingabeebene enthält zwei Knoten, einer mit dem Wert
0.92 und die andere mit dem Wert 0.56.

Jedes Beispiel stellt unterschiedliche Werte für den Featurevektor bereit, sodass das für das nächste Beispiel könnte etwa so aussehen:

[0.73, 0.49]

Feature Engineering bestimmt, wie die Elemente im Featurevektor enthalten. Ein binäres kategoriales Feature mit könnten fünf mögliche Werte durch One-Hot-Codierung. In diesem Fall entspricht der Teil der Merkmalsvektor für ein bestimmtes Beispiel aus vier Nullen und eine einzelne 1, 0 an der dritten Position:

[0.0, 0.0, 1.0, 0.0, 0.0]

Nehmen wir als weiteres Beispiel an, Ihr Modell besteht aus drei Merkmalen:

ein binäres kategoriales Merkmal mit fünf möglichen Werten, dargestellt durch One-Hot-Codierung; Beispiel: [0.0, 1.0, 0.0, 0.0, 0.0]
ein weiteres binäres kategoriales Merkmal mit drei möglichen Werten mit One-Hot-Codierung; Beispiel: [0.0, 0.0, 1.0]
eine Gleitkommafunktion; Beispiel: 8.3.

In diesem Fall würde der Featurevektor für jedes Beispiel um neun Werte. Bei den Beispielwerten in der vorherigen Liste Merkmalsvektor wäre:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

Feedback Loop

#fundamentals

Beim maschinellen Lernen beeinflussen die Vorhersagen eines Modells den Trainingsdaten für dasselbe oder ein anderes Modell zu erhalten. Ein Modell, das Filmempfehlungen beeinflussen, welche Filme Nutzer sich ansehen. weitere Filmempfehlungsmodelle beeinflussen.

G

Generalisierung

#fundamentals

Die Fähigkeit eines Modells, korrekte Vorhersagen für neue, bisher unbekannten Daten. Ein Modell, das generalisieren kann, ist das Gegenteil eines Modells, das überanpassung ist.

Klicken Sie auf das Symbol, um weitere Hinweise aufzurufen.

Sie trainieren ein Modell anhand der Beispiele im Trainings-Dataset. Folglich ist das die Besonderheiten der Daten im Trainings-Dataset lernt. Generalisierung fragt im Wesentlichen, ob Ihr Modell gute Vorhersagen für Beispiele treffen kann. die nicht im Trainings-Dataset enthalten sind.

Um die Generalisierung zu fördern, Regularisierung hilft beim Trainieren eines Modells. mit den Besonderheiten der Daten im Trainings-Dataset vergleichen.

Generalisierungskurve

#fundamentals

Eine Darstellung des Trainingsverlusts Der Validierungsverlust ist eine Funktion der Anzahl Iterationen.

Mithilfe einer Generalisierungskurve können Sie Überanpassung. Beispiel: Generalisierungskurve deutet auf eine Überanpassung hin, da der Validierungsverlust deutlich höher als der Trainingsverlust.

Ein kartesischer Graph, in dem die y-Achse mit Verlust und die x-Achse beschriftet sind.
mit Iterationen beschriftet. Es werden zwei Diagramme angezeigt. Ein Diagramm zeigt die
und der zweite den Validierungsverlust.
Die beiden Diagramme fangen ähnlich an, aber der Trainingsverlust
deutlich geringer ausfällt
als der Validierungsverlust.

Gradientenabstieg

#fundamentals

Eine mathematische Methode zur Minimierung von Verlust. Der Gradientenabstieg wird iterativ angepasst Gewichtungen und Verzerrungen, und schrittweise die beste Kombination finden, um den Verlust zu minimieren.

Das Gradientenverfahren ist älter – viel, viel älter – als das maschinelle Lernen.

Ground Truth

#fundamentals

Realität.

Die Sache, die tatsächlich passiert ist.

Angenommen, Sie verwenden eine binäre Klassifizierung. Modell, das vorhersagt, ob ein Student im ersten Studienjahr wird innerhalb von sechs Jahren abgeschlossen. Die Grundwahrheit für dieses Modell ist, und zwar nicht, dass dieser Student innerhalb von sechs Jahren den Abschluss gemacht hat.

Klicken Sie auf das Symbol, um weitere Hinweise aufzurufen.

Wir bewerten die Modellqualität anhand der Grundwahrheit. Die Grundwahrheit nicht immer vollkommen wahrheitsgemäß ist. Stellen Sie sich zum Beispiel die folgende Beispiele für potenzielle Fehler in der Ground-Truth-Datei:

Ist beim Beispiel für die Umstellung sicher, dass der sind die Datensätze der einzelnen Lernenden immer korrekt? Gehört die Universität Dokumentation zu erhalten?
Angenommen, das Label ist ein Gleitkommawert, der von Zahlungsmitteln gemessen wird (z. B. Barometer). Wie können wir sicher sein, dass jedes Instrument identisch kalibriert ist oder dass jede Messung unter demselben Situation?
Wenn es sich bei dem Label um eine menschliche Meinung handelt, wie können wir sicher sein, jeder menschliche Bewerter Ereignisse im auf die gleiche Weise? Zur Verbesserung der Konsistenz empfehlen wir manchmal, dass fachkundige Prüfer eingreifen.

H

versteckte Ebene

#fundamentals

Eine Schicht in einem neuronalen Netzwerk zwischen der Eingabeebene (die Funktionen) und die Ausgabeschicht (die Vorhersage). Jede versteckte Schicht besteht aus einem oder mehreren Neuronen. Das folgende neuronale Netzwerk enthält beispielsweise zwei verborgene Schichten, das erste mit drei Neuronen und das zweite mit zwei Neuronen:

Ein neuronales Deep-Learning-Netzwerk enthält mehr als ein ausgeblendete Ebene. Die vorherige Abbildung zeigt beispielsweise ein neuronales Deep-Learning- da das Modell zwei verborgene Schichten enthält.

Hyperparameter

#fundamentals

Die Variablen, die Sie oder ein Hyperparameter-Abstimmungsdienst . aufeinanderfolgenden Trainingsläufen eines Modells anpassen. Beispiel: Lernrate ist ein Hyperparameter. Sie könnten Lernrate vor einer Schulung auf 0,01 einstellen. Wenn Sie feststellen, dass 0,01 zu hoch ist, könnten Sie vielleicht die Lernphase für die nächste Schulung auf 0,003.

Im Gegensatz dazu stehen parameters für die verschiedenen Gewichtungen und Verzerrungen, die das Modell lernt während des Trainings.

I

unabhängig und identisch verteilt (i.i.d)

#fundamentals

Daten aus einer Verteilung, die sich nicht ändert, und bei denen jeder Wert hängt nicht von Werten ab, die zuvor gezeichnet wurden. Ein i.d. ist das ideale Gas der Maschine ein nützliches mathematisches Konstrukt, das jedoch fast nie in der realen Welt an. Zum Beispiel die Verteilung der Besucher einer Webseite z. B. i.i.d. innerhalb eines kurzen Zeitfensters Das heißt, die Verteilung ändert sich in diesem kurzen Zeitfenster und der Besuch einer Person ist in der Regel unabhängig von den Besuchen anderer Nutzer. Wenn Sie dieses Zeitfenster jedoch verlängern, können saisonale Unterschiede bei den Besuchern der Webseite auftreten.

Siehe auch Instationarität.

Inferenz

#fundamentals

Beim maschinellen Lernen wird der Prozess der Vorhersage Anwenden eines trainierten Modells auf Beispiele ohne Labels

Inferenz hat in der Statistik eine etwas andere Bedeutung. Weitere Informationen finden Sie in der <ph type="x-smartling-placeholder"></ph> Wikipedia-Artikel zu statistischen Inferenzen

Eingabeebene

#fundamentals

Die Schicht eines neuronalen Netzwerks, die enthält den Featurevektor. Das heißt, die Eingabeschicht Beispiele für das Training oder Inferenz. Die Eingabeschicht in der eines neuronalen Netzwerks besteht aus zwei Funktionen:

Vier Schichten: eine Eingabeschicht, zwei versteckte Schichten und eine Ausgabeschicht.

Interpretierbarkeit

#fundamentals

Die Fähigkeit, die Begründungen eines ML-Modells in Begriffe verständlich sind.

Die meisten linearen Regressionsmodelle beispielsweise sind hoch interpretierbar sind. (Sie müssen sich nur die trainierten Gewichtungen feature.) Auch Entscheidungsforen sind gut interpretierbar. Einige Modelle hingegen eine ausgefeilte Visualisierung erfordern, um interpretierbar zu werden.

Sie können die Learning Interpretability Tool (LIT) Interpretation von ML-Modellen.

Iteration

#fundamentals

Eine einzelne Aktualisierung der Parameter eines Modells – der des Modells Gewichtungen und Verzerrungen – während training Die Batchgröße bestimmt, wie viele Beispiele das Modell in einer einzelnen Iteration verarbeitet. Beispiel: Bei einer Batchgröße von 20 verarbeitet das Modell 20 Beispiele vor Anpassen der Parameter.

Beim Trainieren eines neuronalen Netzwerks wird eine einzelne Iteration umfasst die folgenden beiden Durchgänge:

Ein Vorwärtsdurchlauf zum Auswerten des Verlusts eines einzelnen Batches.
Eine Rückwärtsterminierung (Backpropagation) zum Anpassen der Modellparameter auf Basis des Verlusts und der Lernrate.

L

L₀-Regularisierung

#fundamentals

Eine Art der Regularisierung, die bestraft die Gesamtzahl der Gewichtungen ungleich null in einem Modell an. Beispiel: Ein Modell mit 11 Gewichtungen ungleich null stärker benachteiligt werden als ein ähnliches Modell mit 10 Gewichtungen ungleich null.

Die L₀-Regularisierung wird manchmal als L0-Norm-Regularisierung bezeichnet.

Klicken Sie auf das Symbol, um weitere Hinweise aufzurufen.

Die L₀-Regularisierung ist in großen Modellen im Allgemeinen unpraktisch, da Die L₀-Regularisierung macht Training zu einem konvex Optimierungsproblem.

L₁-Verlust

#fundamentals

Eine Verlustfunktion, die den absoluten Wert berechnet der Differenz zwischen den tatsächlichen label-Werten und Werte, die ein Modell vorhersagt. Hier ist zum Beispiel die Berechnung des L₁-Verlusts für einen Batch von 5 Beispiele:

Tatsächlicher Wert des Beispiels	Vorhergesagter Wert des Modells	Absolutwert von Delta
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
		8 = L₁-Verlust

Der L₁-Verlust ist weniger empfindlich auf Ausreißer. als bei L₂-Verlust.

Der mittlere absolute Fehler ist der Durchschnitt L₁-Verlust pro Beispiel.

Klicken Sie auf das Symbol, um die formalen Berechnungen anzuzeigen.

$$ L_1 loss = \sum_{i=0}^n | y_i - \hat{y}_i |$$

Dabei gilt:

$n$ ist die Anzahl der Beispiele.
$y$ ist der tatsächliche Wert des Labels.
$\hat{y}$ ist der Wert, den das Modell für $y$ vorhersagt.

L₁-Regularisierung

#fundamentals

Eine Art der Regularisierung, die bestraft, Gewichtungen proportional zur Summe des absoluten Werts von die Gewichte. Die L₁-Regularisierung hilft, die Gewichtung irrelevanter oder kaum relevante Funktionen auf genau 0. Eine Funktion mit wird eine Gewichtung von 0 effektiv aus dem Modell entfernt.

Kontrast zur L₂-Regularisierung.

L₂-Verlust

#fundamentals

Eine Verlustfunktion, die das Quadrat berechnet der Differenz zwischen den tatsächlichen label-Werten und Werte, die ein Modell vorhersagt. Hier ist zum Beispiel die Berechnung des L₂-Verlusts für einen Batch von 5 Beispiele:

Tatsächlicher Wert des Beispiels	Vorhergesagter Wert des Modells	Quadrat des Deltas
7	6	1
5	4	1
8	11	9
4	6	4
9	8	1
		16 = L₂-Verlust

Aufgrund der Quadrate verstärkt der L₂-Verlust den Einfluss von Ausreißer: Das heißt, der L₂-Verlust reagiert stärker auf schlechte Vorhersagen als L₁-Verlust: Zum Beispiel der L₁-Verlust für den vorherigen Batch wäre 8 statt 16. Beachten Sie, dass ein einzelner 9 von 16 aus.

Regressionsmodelle nutzen in der Regel den L₂-Verlust als Verlustfunktion.

Der mittlere quadratische Fehler ist der durchschnittliche L₂-Verlust pro Beispiel. Quadratischer Verlust ist eine andere Bezeichnung für L₂-Verlust.

Klicken Sie auf das Symbol, um die formalen Berechnungen anzuzeigen.

$$ L_2 loss = \sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$

Dabei gilt:

$n$ ist die Anzahl der Beispiele.
$y$ ist der tatsächliche Wert des Labels.
$\hat{y}$ ist der Wert, den das Modell für $y$ vorhersagt.

L₂-Regularisierung

#fundamentals

Eine Art der Regularisierung, die bestraft, Gewichtungen im Verhältnis zur Summe der Quadrate der Gewichtungen Die L₂-Regularisierung trägt dazu bei, die Gewichtung von Ausreißer zu erhöhen (diejenigen mit hohen positiven oder niedrigen negativen Werten), die näher bei 0, aber nicht ganz bei 0 liegen. Features mit Werten, die sehr nahe bei 0 liegen, verbleiben im Modell aber keinen großen Einfluss auf die Vorhersage des Modells.

Die L₂-Regularisierung verbessert immer die Generalisierung in linearen Modellen:

Kontrast zur L₁-Regularisierung.

Label

#fundamentals

Beim überwachten maschinellen Lernen „antworten“ oder „Ergebnis“ aus einem Beispiel.

Jedes Beispiel mit einem Label besteht aus einem oder mehreren features und ein Label. Zum Beispiel in einem Spam- erkannt wurde, wäre das Label wahrscheinlich „Spam“ oder „Kein Spam“. In einem Niederschlags-Dataset könnte das Label die Menge der Regen, der während eines bestimmten Zeitraums fiel.

Beispiel mit Label

#fundamentals

Ein Beispiel, das eine oder mehrere Features und einen label Die folgende Tabelle zeigt beispielsweise drei beschriftete Beispiele aus einem Hausbewertungsmodell mit jeweils drei Merkmalen und ein Label:

Anzahl der Schlafzimmer	Anzahl der Badezimmer	Haushalt	Hauspreis (Label)
3	2	15	345.000 $
2	1	72	179.000 $
4	2	34	392.000 $

Beim überwachten maschinellen Lernen Modelle werden anhand von Beispielen mit Labels trainiert und treffen Vorhersagen Beispiele ohne Label.

Beispiel mit Beispielen gegenüber Beispielen ohne Label gegenüberstellen.

Lambda

#fundamentals

Synonym für Regularisierungsrate.

Lambda ist ein Begriff mit Überlastung. Hier konzentrieren wir uns auf die -Definition innerhalb der Regularisierung.

Layer

#fundamentals

Eine Reihe von Neuronen in einer neuronales Netzwerk. Drei gängige Ebenentypen sind:

Eingabeebene, die Werte für alle Funktionen:
Eine oder mehrere ausgeblendete Ebenen, für die nicht linearen Beziehungen zwischen den Elementen und dem Label.
Die Ausgabeschicht, die die Vorhersage bereitstellt.

Die folgende Abbildung zeigt beispielsweise ein neuronales Netzwerk mit eine Eingabeschicht, zwei versteckte Schichten und eine Ausgabeschicht:

Ein neuronales Netzwerk mit einer Eingabeschicht, zwei verborgenen Schichten und einer
Ausgabeebene. Die Eingabeebene besteht aus zwei Merkmalen. Das erste
Die verborgene Schicht besteht aus drei Neuronen und der zweiten verborgenen Schicht.
besteht aus zwei Neuronen. Die Ausgabeebene besteht aus einem einzelnen Knoten.

In TensorFlow sind Layers auch Python-Funktionen, die Tensoren und Konfigurationsoptionen als Eingabe- und andere Tensoren als Ausgabe erzeugen.

Lernrate

#fundamentals

Eine Gleitkommazahl, die das Gradientenverfahren angibt Algorithmus, wie stark die Gewichtungen und Verzerrungen bei jedem Iteration. Eine Lernrate von 0, 3 würde beispielsweise Gewichtungen und Verzerrungen dreimal so wirksamer anpassen als eine Lernrate, von 0,1.

Die Lernrate ist ein wichtiger Hyperparameter. Wenn Sie die Lernrate zu niedrig ist, dauert das Training zu lange. Wenn ist die Lernrate zu hoch, hat das Gradientenverfahren oft Probleme, Konvergenz erreichen.

Klicken Sie auf das Symbol, um eine mathematischere Erklärung zu erhalten.

Während jeder Iteration Gradientenverfahren multipliziert den Algorithmus mit dem Gradienten. Das sich daraus ergebende Produkt Schritt "Farbverlauf" hinzu.

Linear

#fundamentals

Beziehung zwischen zwei oder mehr Variablen, die ausschließlich dargestellt werden kann durch Addition und Multiplikation.

Das Diagramm einer linearen Beziehung ist eine Linie.

Kontrast mit nonlinear

lineares Modell

#fundamentals

Ein Modell, bei dem pro Gewichtung jeweils ein Wert zugewiesen wird Funktion verwenden, um Vorhersagen zu treffen. Lineare Modelle enthalten auch eine Verzerrung. Im Gegensatz dazu die Beziehung von Merkmalen zu Vorhersagen in tiefen Modellen ist im Allgemeinen nonlinear.

Lineare Modelle sind in der Regel einfacher zu trainieren interpretierbar als tiefgehende Modelle. Sie können jedoch tiefgehende Modelle können komplexe Beziehungen zwischen Merkmalen lernen.

Lineare Regression und logistische Regressionen sind zwei Arten von linearen Modellen.

Klicken Sie auf das Symbol, um die Berechnungen anzuzeigen.

Ein lineares Modell folgt dieser Formel:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Dabei gilt: <ph type="x-smartling-placeholder">

J ist die Rohvorhersage. Bei bestimmten linearen Modellen die unverarbeitete Vorhersage weiterverändert wird. Siehe zum Beispiel logistische Regression.
b ist die Voreingenommenheit.
w ist eine Gewichtung, also ist w₁ die Gewichtung des ersten Merkmals, w₂ ist die Gewichtung des Funktion usw.
x ist eine Funktion, also x₁ ist die Wert der ersten Funktion, x₂ ist der Wert der zweiten Funktion, und so weiter.

Angenommen, ein lineares Modell für drei Funktionen lernt Folgendes: Verzerrungen und Gewichtungen: <ph type="x-smartling-placeholder">

b = 7
w₁ = -2,5
w₂ = -1,2
w₃ = 1,4

Bei drei Funktionen (x₁, x₂, und x₃), verwendet das lineare Modell die folgende Gleichung: um jede Vorhersage zu generieren:

y' = 7 + (-2.5)(x₁) + (-1.2)(x₂) + (1.4)(x₃)

Angenommen, ein bestimmtes Beispiel enthält die folgenden Werte:

x₁ = 4
x₂ = -10
x₃ = 5

Wenn Sie diese Werte in die Formel einfügen, erhalten Sie eine Vorhersage für dieses Beispiel:

y' = 7 + (-2.5)(4) + (-1.2)(-10) + (1.4)(5)
y' = 16

Lineare Modelle umfassen nicht nur Modelle, die nur eine lineare Gleichung zur Berechnung Vorhersagen treffen, aber auch einen breiteren Satz von Modellen, die eine lineare Gleichung verwenden als eine Komponente der Formel, die Vorhersagen trifft. Bei einer logistischen Regression werden zum Beispiel die Rohdaten Vorhersage (y'), um einen endgültigen Vorhersagewert zwischen 0 und 1 zu erzeugen, .

lineare Regression

#fundamentals

Modell für maschinelles Lernen, bei dem die beiden folgenden Bedingungen zutreffen:

Das Modell ist ein lineares Modell.
Die Vorhersage ist ein Gleitkommawert. (Dies ist die Regression der linearen Regression)

Lineare Regression mit logistischer Regression gegenüberstellen Vergleichen Sie die Regression außerdem der Klassifizierung.

logistische Regression

#fundamentals

Eine Art von Regressionsmodell, das eine Wahrscheinlichkeit vorhersagt. Logistische Regressionsmodelle haben die folgenden Eigenschaften:

Das Label ist kategorial. Der Begriff „logistisch“ Regression bezieht sich in der Regel auf eine binär logistische Regression, d. h. zu einem Modell hinzu, das Wahrscheinlichkeiten für Labels mit zwei möglichen Werten berechnet. Eine weniger gebräuchliche Variante, die multinomiale logistische Regression, berechnet Wahrscheinlichkeiten für Labels mit mehr als zwei möglichen Werten.
Die Verlustfunktion während des Trainings ist Logverlust. (Für Labels können mehrere Logverlusteinheiten parallel platziert werden. mit mehr als zwei möglichen Werten.)
Das Modell hat eine lineare Architektur, kein neuronales Deep-Learning-Netzwerk. Der Rest dieser Definition gilt jedoch auch für tiefe Modelle, die Wahrscheinlichkeiten vorhersagen für kategoriale Labels.

Nehmen wir zum Beispiel ein logistisches Regressionsmodell, das die Wahrscheinlichkeit, dass eine eingegebene E-Mail Spam ist. Angenommen, das Modell sagt bei der Inferenz 0,72 vorher. Daher entspricht der Parameter schätzt Folgendes:

Eine Wahrscheinlichkeit von 72 %, dass es sich bei der E-Mail um Spam handelt.
Eine Wahrscheinlichkeit von 28 %, dass es sich bei der E-Mail nicht um Spam handelt.

Ein logistisches Regressionsmodell verwendet die folgende zweistufige Architektur:

Das Modell generiert eine Rohvorhersage (y') durch Anwendung einer linearen Funktion. von Eingabefeatures.
Das Modell nutzt diese Rohvorhersage dann als Eingabe für Sigmoidfunktion, die die Rohdaten umwandelt auf einen Wert zwischen 0 und 1 (ausschließlich) setzen.

Wie jedes Regressionsmodell sagt auch ein logistisches Regressionsmodell eine Zahl vorher. Diese Zahl wird jedoch normalerweise Teil einer binären Klassifizierung. wie folgt aussehen:

Wenn die vorhergesagte Zahl größer ist als die Klassifizierungsschwellenwert, der das binäre Klassifikationsmodell die positive Klasse vorhersagt.
Wenn die vorhergesagte Zahl kleiner als der Klassifizierungsschwellenwert ist, sagt das binäre Klassifizierungsmodell die negative Klasse vorher.

Logverlust

#fundamentals

Die im Binärprogramm verwendete Verlustfunktion logistische Regression:

Klicken Sie auf das Symbol, um die Berechnungen anzuzeigen.

Mit der folgenden Formel wird der Logverlust berechnet:

$$\text{Log Loss} = \sum_{(x,y)\in D} -y\log(y') - (1 - y)\log(1 - y')$$

Dabei gilt:

$(x,y)\in D$ ist das Dataset, das viele mit Labels versehene Beispiele: $(x,y)$ Paare.
$y$ ist das Label in einem Beispiel mit Label. Da es sich um eine logistische Regression handelt, Jeder Wert von $y$ muss entweder 0 oder 1 sein.
$y'$ ist der vorhergesagte Wert (zwischen 0 und 1, ausschließlich) angesichts der Funktionen in $x$.

Logwahrscheinlichkeiten

#fundamentals

Logarithmus der Wahrscheinlichkeit eines Ereignisses

Klicken Sie auf das Symbol, um die Berechnungen anzuzeigen.

Wenn das Ereignis eine binäre Wahrscheinlichkeit ist, beziehen sich die Wahrscheinlichkeiten auf das Verhältnis der Erfolgswahrscheinlichkeit (p) zur Wahrscheinlichkeit von Fehler (1–p). Nehmen wir beispielsweise an, dass bei einem bestimmten Ereignis eine Erfolgswahrscheinlichkeit und eine 10% ige Fehlerwahrscheinlichkeit. In diesem Fall wie folgt berechnet:

$$ {\text{odds}} = \frac{\text{p}} {\text{(1-p)}} = \frac{.9} {.1} = {\text{9}} $$

Die Log-Quoten sind einfach der Logarithmus der Quoten. Konventionsgemäß "Logarithmus" bezieht sich auf natürlicher Logarithmus aber der Logarithmus kann jede beliebige Basis größer als 1 sein. Gemäß der Konvention lautet die Logwahrscheinlichkeit in unserem Beispiel daher wie folgt:

$$ {\text{log-odds}} = ln(9) ~= 2.2 $$

Die Log-Wahrscheinlichkeitsfunktion ist die Umkehrfunktion von Sigmoidfunktion:

Niederlage

#fundamentals

Während des Trainings eines Modell mit Elternaufsicht ein, mit dem gemessen wird, wie weit Die Vorhersage des Modells stammt von seinem Label.

Eine Verlustfunktion berechnet den Verlust.

Verlustkurve

#fundamentals

Ein Diagramm des Verlusts in Abhängigkeit von der Anzahl der Trainings Iterationen. Das folgende Diagramm zeigt einen typischen Verlust Kurve:

Ein kartesisches Diagramm von Verlusten im Vergleich zu Trainingsdurchläufen, das eine
rascher Rückgang des Verlusts bei den ersten Iterationen, gefolgt von
und in den letzten Iterationen eine flache Steigung.

Verlustkurven helfen Ihnen zu bestimmen, wann Ihr Modell Konvergenz oder Überanpassung.

Verlustkurven können alle der folgenden Verlusttypen darstellen:

Trainingsverlust
Verlust der Validierung
Testverlust

Siehe auch Generalisierungskurve.

Verlustfunktion

#fundamentals

Während eines Trainings oder Tests wird eine mathematische Funktion zur Berechnung der in einer Reihe von Beispielen. Eine Verlustfunktion gibt einen geringeren Verlust zurück. für Modelle, die gute Vorhersagen treffen, als für Modelle, die schlechte Vorhersagen machen.

Das Ziel des Trainings besteht in der Regel darin, den Verlust zu minimieren, Rücksendungen.

Es gibt viele verschiedene Arten von Verlustfunktionen. Den richtigen Verlust auswählen für die Art des Modells, das Sie erstellen. Beispiel:

L₂-Verlust (oder Mean Squared Error) ist die Verlustfunktion für die lineare Regression.
Logverlust ist die Verlustfunktion für logistische Regression:

M

Machine Learning

#fundamentals

Ein Programm oder System zum Trainieren eines model aus Eingabedaten. Das trainierte Modell kann Nutzen Sie neue (noch nie gesehene) Daten aus Ihren Daten, die zum Trainieren des Modells verwendet wurde.

Maschinelles Lernen bezieht sich auch auf ein Studienfach, mit diesen Programmen oder Systemen.

Mehrheitsklasse

#fundamentals

Die gebräuchlichere Bezeichnung in einer Klassen-unausgeglichenes Dataset. Beispiel: Bei einem Dataset mit 99% negativen und 1% positiven Labels sind negative Labels die Mehrheitsklasse.

Im Kontrast zur Minderheitsklasse stehen.

Mini-Batch

#fundamentals

Eine kleine, zufällig ausgewählte Teilmenge eines in einem verarbeiteten Batch Iteration. Die Batchgröße eines Minibatches beträgt in der Regel 10 bis 1.000 Beispiele.

Angenommen, das gesamte Trainings-Dataset (der vollständige Batch) besteht aus 1.000 Beispielen. Angenommen, Sie legen den Parameter Batchgröße jedes Mini-Batches auf 20 festlegen. Daher entspricht jede Iterationen den Verlust bei 20 zufälligen 1.000 Beispielen die Gewichtungen und Verzerrungen entsprechend angepasst.

Es ist viel effizienter, den Verlust bei einem Mini-Batch zu berechnen als bei einem bei allen Beispielen im vollständigen Batch.

Minderheitenklasse

#fundamentals

Das seltener verwendete Label in einer Klassen-unausgeglichenes Dataset. Beispiel: Bei einem Dataset mit 99% negativen und 1% positiven Labels sind positive Labels die Minderheitenklasse.

Im Kontrast zur Hauptklasse stehen.

Klicken Sie auf das Symbol, um weitere Hinweise aufzurufen.

Ein Trainings-Dataset mit Millionen Beispielgeräuschen beeindruckend. Ist die Minderheitenklasse jedoch schlecht repräsentiert, dann reicht ein sehr großes Trainings-Dataset vielleicht nicht aus. Weniger fokussieren zur Gesamtzahl der Beispiele im Dataset und mehr zur Anzahl Beispiele für die Minderheitenklasse.

Wenn Ihr Dataset nicht genügend Beispiele für Minderheiten enthält, sollten Sie mit dem Downsampling (die Definition im zweiten Punkt) zur Ergänzung der Minderheitenklasse.

Modell

#fundamentals

Im Allgemeinen gilt: Jedes mathematische Konstrukt, das Eingabedaten verarbeitet und Ergebnisse zurückgibt . Anders ausgedrückt: Ein Modell ist ein Satz von Parametern und Struktur damit ein System Vorhersagen treffen kann. Beim überwachten maschinellen Lernen ein Modell verwendet ein Beispiel als Eingabe Vorhersage als Ausgabe. Beim überwachten maschinellen Lernen Modelle etwas unterscheiden. Beispiel:

Ein lineares Regressionsmodell besteht aus einer Reihe von Gewichtungen. und Voreingenommenheit.
Ein neuronales Netzwerkmodell besteht aus: <ph type="x-smartling-placeholder">
- Eine Reihe ausgeblendeter Ebenen, die jeweils eine oder mehrere Ebenen enthalten. weitere Neuronen.
- Die mit jedem Neuron verbundenen Gewichtungen und Verzerrungen.
Ein Entscheidungsbaummodell besteht aus: <ph type="x-smartling-placeholder">
- Die Form des Baums also das Muster, in dem die Bedingungen und Blätter sind verbunden.
- Die Bedingungen und Blätter.

Sie können ein Modell speichern, wiederherstellen oder Kopien davon erstellen.

auch unüberwachtes maschinelles Lernen generiert Modelle, in der Regel eine Funktion, die ein Eingabebeispiel einer den am besten geeigneten Cluster aus.

Klicken Sie auf das Symbol, um algebraische und Programmierfunktionen mit ML-Modellen zu vergleichen.

Eine algebraische Funktion wie die folgende ist ein Modell:

  f(x, y) = 3x -5xy + y² + 17

Die vorherige Funktion ordnet Eingabewerte (x und y) folgenden .

In ähnlicher Weise ist eine Programmierfunktion wie die folgende ebenfalls ein Modell:

def half_of_greater(x, y):
  if (x > y):
    return(x / 2)
  else
    return(y / 2)

Ein Aufrufer übergibt Argumente an die vorhergehende Python-Funktion und die Die Python-Funktion generiert eine Ausgabe (über die return-Anweisung).

Obwohl ein neuronales Deep-Learning-Netzwerk eine ganz andere mathematische Struktur als eine algebraische oder Programmierung nimmt ein neuronales Deep-Learning-Netzwerk immer noch Eingaben (Beispiel) und gibt Ausgabe (eine Vorhersage).

Ein menschlicher Programmierer codiert eine Programmierfunktion manuell. Im Gegensatz dazu lernt ein Modell für maschinelles Lernen nach und nach die optimalen Parameter, während des automatisierten Trainings.

Klassifizierung mit mehreren Klassen

#fundamentals

Beim überwachten Lernen ist ein Klassifizierungsproblem bei denen das Dataset mehr als zwei Klassen von Labels enthält. Die Labels im Iris-Dataset müssen beispielsweise eines der folgenden sein: drei Klassen:

Iris Setosa
Iris virginica
Iris Vericolor

Ein mit dem Iris-Dataset trainiertes Modell, das den Iris-Typ für neue Beispiele vorhersagt eine Klassifizierung mit mehreren Klassen durchführt.

Im Gegensatz dazu gibt es Klassifizierungsprobleme, Klassen sind binäre Klassifizierungsmodelle. Beispiel: ein E-Mail-Modell, das entweder Spam oder kein Spam vorhersagt ist ein binäres Klassifizierungsmodell.

Bei Clustering-Problemen bezieht sich die mehrklassige Klassifizierung auf mehr als zwei Cluster.

N

negative Klasse

#fundamentals

Bei der binären Klassifizierung ist eine Klasse als positiv und als negativ bezeichnet. Die positive Klasse ist die Sache oder das Ereignis, das bzw. das das Modell testet. Die negative Klasse ist die eine andere Möglichkeit haben. Beispiel:

Die negative Klasse bei einem medizinischen Test könnte „kein Tumor“ sein.
Die negative Klasse in einem E-Mail-Klassifikator ist möglicherweise „Kein Spam“.

Im Kontrast zur positiven Klasse stehen.

neuronales Netzwerk

#fundamentals

Ein Modell, das mindestens eins enthält verborgene Ebene: Ein neuronales Deep-Learning-Netzwerk ist eine Art neuronales Netz die mehr als eine verborgene Ebene enthält. Das folgende Diagramm zeigt ein neuronales Deep-Learning-Netzwerk mit zwei verborgenen Schichten.

Ein neuronales Netzwerk mit einer Eingabeschicht, zwei verborgenen Schichten und einer
Ausgabeebene.

Jedes Neuron in einem neuronalen Netzwerk ist mit allen Knoten der nächsten Schicht verbunden. Beachten Sie beispielsweise im obigen Diagramm, dass jedes der drei Neuronen die in der ersten verborgenen Schicht separat mit den beiden Neuronen im zweiten verborgenen Layer.

Auf Computern implementierte neuronale Netzwerke werden manchmal als künstliche neuronale Netze, um sie von neuronalen Netzen, die im Gehirn und in anderen Nervensystemen zu finden sind.

Einige neuronale Netzwerke können extrem komplexe nicht lineare Beziehungen nachahmen Funktionen und Beschriftung.

Siehe auch Convolutional Neural Network und recurrent Neural network.

Neuron

#fundamentals

Beim maschinellen Lernen eine eindeutige Einheit innerhalb einer verborgenen Schicht eines neuronalen Netzwerks. Jedes Neuron führt Folgendes aus: 2-Faktor-Authentifizierung:

Berechnet die gewichtete Summe von Eingabewerten multipliziert mit und zwar durch ihre jeweiligen Gewichtungen.
Übergibt die gewichtete Summe als Eingabe an einen Aktivierungsfunktion:

Ein Neuron in der ersten verborgenen Ebene akzeptiert Eingaben von den Featurewerten in der Eingabeebene. Ein Neuron in einer verborgenen Schicht die erste akzeptiert Eingaben von den Neuronen der vorherigen verborgenen Schicht. Ein Neuron in der zweiten verborgenen Schicht akzeptiert z. B. Eingaben vom Neuronen in der ersten verborgenen Schicht.

In der folgenden Abbildung sind zwei Neuronen und ihre Eingaben.

Ein Neuron in einem neuronalen Netzwerk ahmt das Verhalten von Neuronen in Gehirnen nach anderer Teile des Nervensystems.

Knoten (neuronales Netzwerk)

#fundamentals

Ein Neuron in einer verborgenen Schicht.

nonlinear

#fundamentals

Beziehung zwischen zwei oder mehr Variablen, die nicht ausschließlich dargestellt werden kann durch Addition und Multiplikation. Eine lineare Beziehung als Linie dargestellt werden; kann eine nonlinear Beziehung nicht als Linie dargestellt. Betrachten Sie beispielsweise zwei Modelle, die jeweils einem einzelnen Label zu. Das Modell links ist linear Das Modell auf der rechten Seite ist nicht linear:

Zwei Diagramme. Ein Diagramm ist eine Linie, also eine lineare Beziehung.
Das andere Diagramm ist eine Kurve, die Beziehung ist also nicht linear.

Nichtstationarität

#fundamentals

Eine Funktion, deren Werte sich in einer oder mehreren Dimensionen ändern, in der Regel zeitlich. Betrachten Sie beispielsweise die folgenden Beispiele für Nichtstationarität:

Die Anzahl der in einem bestimmten Geschäft verkauften Badeanzüge variiert je nach Saison.
Die Menge einer bestimmten Frucht, die in einer bestimmten Region geerntet wird für den Großteil des Jahres null, aber nur für kurze Zeit groß.
Aufgrund des Klimawandels ändern sich die jährlichen Durchschnittstemperaturen.

Kontrast mit Stationarität.

Normalisierung

#fundamentals

Im Großen und Ganzen der Prozess der Umwandlung des tatsächlichen Bereichs einer Variablen von Werten in einen Standardwertbereich verschieben. Beispiel:

-1 bis +1
0 bis 1
Normalverteilung

Angenommen, der tatsächliche Wertebereich eines bestimmten Merkmals ist 800 bis 2.400. Im Rahmen des Feature Engineering könnten Sie die tatsächlichen Werte auf einen Standardbereich normalisieren, z. B. als -1 bis +1.

Normalisierung ist eine gängige Aufgabe in Feature Engineering. Modelle werden in der Regel schneller trainiert (und bessere Vorhersagen zu erhalten), wenn jedes numerische Merkmal im Featurevektor hat ungefähr denselben Bereich.

numerische Daten

#fundamentals

Elemente, die als Ganzzahlen oder reellwertige Zahlen dargestellt werden Ein Hausbewertungsmodell würde beispielsweise wahrscheinlich die Größe eines Hauses (in Quadratfuß oder Quadratmetern) als numerische Daten darstellen. Darstellung Ein Element als numerische Daten zeigt an, dass die Werte des Elements eine mathematische Beziehung zum Label haben. Das heißt, die Quadratmeterzahl in einem Haus hat wahrscheinlich mathematische Beziehung zum Wert des Hauses.

Nicht alle Ganzzahldaten sollten als numerische Daten dargestellt werden. Beispiel: Postleitzahlen in einigen Teilen der Welt sind Ganzzahlen. aber Ganzzahl "post" Codes sollten in Modellen nicht als numerische Daten dargestellt werden. Das liegt daran, Die Postleitzahl von 20000 ist nicht doppelt (oder halb so stark) wie die Postleitzahl von 10.000. Auch wenn verschiedene Postleitzahlen zu unterschiedlichen können wir nicht davon ausgehen, dass Immobilienwerte in der Postleitzahl 20.000 sind doppelt so wertvoll wie Immobilienwerte an der Postleitzahl 10000. Postleitzahlen sollten als kategorische Daten dargestellt werden. .

Numerische Merkmale werden manchmal als kontinuierliche Funktionen:

O

offline

#fundamentals

Synonym für static.

Offline-Inferenz

#fundamentals

Der Prozess eines Modells, das einen Batch von Vorhersagen generiert und diese Vorhersagen dann im Cache zu speichern. Apps können dann auf die abgeleiteten aus dem Cache, anstatt das Modell noch einmal auszuführen.

Stellen Sie sich zum Beispiel ein Modell vor, das lokale Wettervorhersagen generiert. (Vorhersagen) einmal alle vier Stunden. Nach jeder Modellausführung werden alle lokalen Wettervorhersagen im Cache gespeichert. Wetter-Apps rufen Vorhersagen ab aus dem Cache.

Offline-Inferenz wird auch als statische Inferenz bezeichnet.

Im Kontrast zu Online-Inferenz stehen.

One-Hot-Codierung

#fundamentals

Darstellung kategorialer Daten als Vektor mit:

Ein Element ist auf „1“ festgelegt.
Alle anderen Elemente sind auf 0 gesetzt.

One-Hot-Codierung wird in der Regel zur Darstellung von Strings oder Kennungen verwendet, eine endliche Menge möglicher Werte haben. Angenommen, ein bestimmtes kategoriales Merkmal namens Scandinavia hat fünf mögliche Werte:

„Dänemark“
„Schweden“
„Norwegen“
„Finnland“
„Island“

Die One-Hot-Codierung könnte jeden der fünf Werte wie folgt darstellen:

country	Vektor
„Dänemark“	1	0	0	0	0
„Schweden“	0	1	0	0	0
„Norwegen“	0	0	1	0	0
„Finnland“	0	0	0	1	0
„Island“	0	0	0	0	1

Dank der One-Hot-Codierung kann ein Modell verschiedene Verbindungen basierend auf den fünf Ländern.

Die Darstellung eines Elements als numerische Daten ist ein zur One-Hot-Codierung ein. Leider ist die Vertretung der Skandinavische Länder sind keine gute Wahl. Beispiel: Betrachten Sie die folgende numerische Darstellung:

„Dänemark“ ist 0
„Schweden“ ist 1
„Norwegen“ ist 2
„Finnland“ ist 3
„Island“ ist 4

Bei numerischer Codierung würde ein Modell die Rohzahlen interpretieren mathematisch angewandt und versucht, mit diesen Zahlen zu trainieren. Allerdings ist Island nicht doppelt so viel (oder halb so viel) etwas wie Norwegen, daher würde das Modell seltsame Schlussfolgerungen ziehen.

Eins gegen alle

#fundamentals

Bei einem Klassifizierungsproblem mit n Klassen aus n separaten binäre Klassifikatoren – ein binärer Klassifikator für zu jedem möglichen Ergebnis. Bei einem Modell, das Beispiele klassifiziert, tierisch, pflanzlich oder negativ bewertet, wäre eine Ein-gegen-alle-Lösung folgenden drei separaten binären Klassifikatoren:

Tier oder kein Tier
Gemüse gegen Gemüse
Mineral im Vergleich zu nicht Mineral

online

#fundamentals

Synonym für dynamic.

Online-Inferenz

#fundamentals

Vorhersagen bei Bedarf generieren. Beispiel: Angenommen, eine App übergibt eine Eingabe an ein Modell und gibt eine Anfrage für eine Vorhersage treffen. Ein System, das Online-Inferenz verwendet, reagiert auf die Anfrage mit folgendem Befehl: (und die Vorhersage an die App zurückgeben).

Im Kontrast zu Offline-Inferenz.

Ausgabeebene

#fundamentals

Das „finale“ eines neuronalen Netzwerks. Die Ausgabeebene enthält die Vorhersage.

Die folgende Abbildung zeigt ein kleines neuronales Deep-Learning-Netzwerk mit einer Eingabe -Ebene, zwei verborgenen Layern und einer Ausgabeebene:

Ein neuronales Netzwerk mit einer Eingabeschicht, zwei verborgenen Schichten und einer
Ausgabeebene. Die Eingabeebene besteht aus zwei Merkmalen. Das erste
Die versteckte Schicht besteht aus drei Neuronen und der zweiten versteckten Schicht
besteht aus zwei Neuronen. Die Ausgabeebene besteht aus einem einzelnen Knoten.

Überanpassung

#fundamentals

Erstellen eines Modells, das den Trainingsdaten so genau, dass das Modell korrekte Vorhersagen für neue Daten zu treffen.

Die Regularisierung kann eine Überanpassung reduzieren. Wenn du mit einem großen und vielfältigen Trainings-Dataset trainierst, kannst du eine Überanpassung ebenfalls reduzieren.

Klicken Sie auf das Symbol, um weitere Hinweise aufzurufen.

Überanpassung ist, als würde man sich streng an die Ratschläge eurer Lieblinge halten. Lehrkraft. Wahrscheinlich werden Sie im Kurs dieser Lehrkraft erfolgreich sein, aber Sie könnte „überangepasst“ auf die Ideen dieser Lehrkraft hinversetzen und in anderen Klassen. Wenn Sie den Rat verschiedener Pädagogen befolgen, können Sie sich besser an neue Situationen anzupassen.

P

pandas

#fundamentals

Eine spaltenorientierte Datenanalyse API, die auf numpy basiert. Viele Frameworks für maschinelles Lernen, wie TensorFlow, unterstützen Pandas-Datenstrukturen als Eingaben. Weitere Informationen finden Sie in der pandas-Dokumentation .

Parameter

#fundamentals

Die Gewichtungen und Verzerrungen, die ein Modell lernt Training. Beispiel: In einer linearen Regressionsmodell basiert, bestehen die Parameter aus den Bias (b) und alle Gewichtungen (w₁, w₂, und so weiter) in die folgende Formel ein:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Im Gegensatz dazu sind Hyperparameter die Werte, Sie (oder einen Hyperparameter-Turn-Service) bereitstellen. Beispielsweise ist die Lernrate ein Hyperparameter.

positive Klasse

#fundamentals

Die Klasse, für die Sie den Test durchführen.

Die positive Klasse in einem Krebsmodell könnte beispielsweise „Tumor“ sein. Die positive Klasse in einem E-Mail-Klassifikator kann beispielsweise „Spam“ sein.

Kontrast mit negativer Klasse.

Klicken Sie auf das Symbol, um weitere Hinweise aufzurufen.

Der Begriff positive Klasse kann verwirrend sein, da der Begriff Ergebnis von vielen Tests ist oft ein unerwünschtes Ergebnis. Die positive Klasse in Bei vielen medizinischen Tests geht es um Tumoren oder Krankheiten. Im Allgemeinen sollten Sie zu sagen: „Glückwunsch! Ihre Testergebnisse waren negativ.“ Unabhängig davon ist die positive Klasse das Ereignis, das mit dem Test gefunden werden soll.

Zugegeben, ihr testet gleichzeitig sowohl das positive als auch das negative Klassen.

Nachbearbeitung

#fairness

#fundamentals

Ausgabe eines Modells anpassen, nachdem das Modell ausgeführt wurde. Mit der Nachbearbeitung lassen sich Fairness-Einschränkungen erzwingen, Modelle selbst zu modifizieren.

Beispielsweise kann die Nachverarbeitung auf einen binären Klassifikator angewendet werden, indem Sie einen Klassifizierungsschwellenwert festlegen, Chancengleichheit gewahrt bleibt für ein bestimmtes Attribut, indem geprüft wird, ob der Wert für richtig positive Ergebnisse ist für alle Werte dieses Attributs gleich.

prognostizierter Wert

#fundamentals

Die Ausgabe eines Modells. Beispiel:

Die Vorhersage eines binären Klassifizierungsmodells ist entweder die positive oder die negative Klasse.
Die Vorhersage eines mehrklassigen Klassifizierungsmodells ist eine Klasse.
Die Vorhersage eines linearen Regressionsmodells ist eine Zahl.

Proxy-Labels

#fundamentals

Daten zur Schätzung von Labels, die nicht direkt in einem Dataset verfügbar sind.

Angenommen, Sie müssen ein Modell trainieren, um die Anzahl der Stresslevel zu reduzieren. Ihr Dataset enthält viele Vorhersagefunktionen, enthält kein Label namens Stresslevel. Unermutigt wählen Sie „Arbeitsunfälle“ als Proxy-Label für Stresslevel zu reduzieren. Schließlich haben Mitarbeitende unter hohem Stress mehr Zeit, als beruhigende Mitarbeitende. Oder? Vielleicht Arbeitsunfälle die aus verschiedenen Gründen steigen und fallen.

Angenommen, Sie möchten Ist es regnet? ein boolesches Label sein? für Ihr Dataset, enthält aber keine Regendaten. Wenn Fotos verfügbar sind, können Sie Bilder von Personen erstellen, Regenschirme als Ersatzlabel für regnet es? Ist das ein gutes Proxy-Label? Vielleicht, aber Menschen in einigen Kulturen tragen eher Sonnenschirme bei als Regen.

Proxy-Labels sind oft nicht perfekt. Wählen Sie nach Möglichkeit tatsächliche Labels gegenüber Proxy-Labels. Wenn jedoch kein tatsächliches Label vorhanden ist, wählen Sie den Proxy aus. sehr sorgfältig und wählt den am wenigsten schrecklichen Proxy-Label-Kandidaten aus.

R

RAG

#fundamentals

Abkürzung für Retrieval Augmented Generation

Bewerter

#fundamentals

Ein Nutzer, der Labels für Beispiele bereitstellt. „Kommentator“ ist ein anderer Name für Evaluator.

Rektifizierte Lineareinheit (ReLU)

#fundamentals

Eine Aktivierungsfunktion mit folgendem Verhalten:

Wenn die Eingabe negativ oder null ist, ist die Ausgabe 0.
Wenn die Eingabe positiv ist, ist die Ausgabe gleich der Eingabe.

Beispiel:

Wenn die Eingabe -3 ist, ist die Ausgabe 0.
Wenn die Eingabe +3 ist, ist die Ausgabe 3,0.

Hier ist ein ReLU-Diagramm:

ReLU ist eine sehr beliebte Aktivierungsfunktion. Trotz des einfachen Verhaltens Mit ReLU kann ein neuronales Netzwerk weiterhin nonlinear lernen Beziehungen zwischen Merkmalen und dem Label.

Regressionsmodell

#fundamentals

Informell ein Modell, das eine numerische Vorhersage generiert. (Im Gegensatz dazu Ein Klassifizierungsmodell generiert eine Klasse. prediction.) Im Folgenden sehen Sie beispielsweise alle Regressionsmodelle:

Ein Modell, das den Wert eines bestimmten Hauses vorhersagt,z. B. 423.000 €.
Modell, das die Lebenserwartung eines bestimmten Baums vorhersagt, z. B. 23,2 Jahre.
Modell, das die Regenmenge vorhersagt, die in einer bestimmten Stadt fallen wird innerhalb der nächsten sechs Stunden, z. B. 0,18 Zoll.

Zwei gängige Arten von Regressionsmodellen sind:

Lineare Regression, mit der die Gerade ermittelt wird, passt Labelwerte zu Features.
Logistische Regression, die eine Wahrscheinlichkeit zwischen 0,0 und 1,0, dass ein System typischerweise einer Klasse zuordnet eine Vorhersage treffen.

Nicht jedes Modell, das numerische Vorhersagen ausgibt, ist ein Regressionsmodell. Manchmal ist eine numerische Vorhersage eigentlich nur ein Klassifizierungsmodell. numerische Klassennamen. Beispiel: Ein Modell, das ist eine numerische Postleitzahl ein Klassifizierungsmodell, kein Regressionsmodell.

Regularisierung

#fundamentals

Jeder Mechanismus, der eine Überanpassung reduziert. Zu den beliebten Regularisierungstypen gehören:

L₁-Regularisierung
L₂-Regularisierung
Dropout-Regularisierung
Vorzeitiges Beenden (keine formelle Regularisierungsmethode, kann aber die Überanpassung effektiv begrenzen)

Regularisierung kann auch als Strafe für die Komplexität eines Modells definiert werden.

Klicken Sie auf das Symbol, um weitere Hinweise aufzurufen.

Regularisierung ist widersprüchlich. Zunehmende Regularisierung erhöht den Trainingsverlust, was verwirrend ist, Trainingsverlust zu minimieren?

Nein. Das Ziel ist nicht, den Trainingsverlust zu minimieren. Das Ziel ist es, um hervorragende Vorhersagen an realen Beispielen zu treffen. Erstaunlicherweise eine zunehmende Regularisierung erhöht den Trainingsverlust. bessere Vorhersagen anhand realer Beispiele.

Regularisierungsrate

#fundamentals

Zahl, die die relative Bedeutung von Regularisierung während des Trainings. Anheben der Regularisierungsrate reduziert die Überanpassung, kann aber die Vorhersageleistung des Modells reduzieren. Umgekehrt kann das Reduzieren oder Auslassen erhöht die Regularisierungsrate die Überanpassung.

Klicken Sie auf das Symbol, um die Berechnungen anzuzeigen.

Die Regularisierungsrate wird normalerweise als griechischer Buchstabe Lambda dargestellt. Die folgende vereinfachte Verlustsgleichung zeigt Einfluss von Lambda:

$$\text{minimize(loss function + }\lambda\text{(regularization))}$$

Dabei ist Regularisierung ein beliebiger Regularisierungsmechanismus, einschließlich:

L₁-Regularisierung
L₂-Regularisierung

ReLU

#fundamentals

Kürzel für Rektifizierte lineare Einheit.

Retrieval-Augmented Generation (RAG)

#fundamentals

Eine Technik zur Verbesserung der Qualität Large Language Model (LLM)-Ausgabe durch Wissensquellen, die nach dem Trainieren des Modells abgerufen wurden. RAG verbessert die Genauigkeit von LLM-Antworten, indem das trainierte LLM mit Zugriff auf Informationen aus vertrauenswürdigen Wissensdatenbanken oder Dokumenten

Häufige Beweggründe für die Nutzung von „Retrieval Augmented Generation“ sind:

Die faktische Genauigkeit der generierten Antworten eines Modells erhöhen.
Gewährt dem Modell Zugriff auf Informationen, mit denen es nicht trainiert wurde.
Ändern des Wissens, das das Modell verwendet.
Das Modell zum Zitieren von Quellen aktivieren

Angenommen, eine Chemie-App verwendet das PaLM API zum Generieren von Zusammenfassungen die sich auf Nutzeranfragen beziehen. Wenn das Back-End der Anwendung eine Abfrage empfängt, geschieht Folgendes:

Sucht nach Daten, die für die Suchanfrage des Nutzers relevant sind („abruft“)
Hängt die relevanten Chemiedaten an die Suchanfrage des Nutzers an.
Weist das LLM an, anhand der angehängten Daten eine Zusammenfassung zu erstellen.

ROC-Kurve (Receiver Operating Curve, Receiver Operating Curve)

#fundamentals

Ein Diagramm mit der Rate wirklich positiver Ergebnisse im Vergleich zu Rate falsch positiver Ergebnisse für verschiedene Klassifizierungsschwellenwerte in Binärcode Klassifizierung.

Die Form einer ROC-Kurve deutet auf die Fähigkeit eines binären Klassifizierungsmodells hin. um positive von negativen Klassen zu trennen. Nehmen wir zum Beispiel an, dass ein binäres Klassifizierungsmodell alle negativen Klassen aus allen positiven Klassen:

Eine Zahlenreihe mit acht positiven Beispielen auf der rechten Seite und
Sieben negative Beispiele links.

Die ROC-Kurve für das vorherige Modell sieht so aus:

Eine ROC-Kurve. Die x-Achse steht für die Rate falsch positiver Ergebnisse und die y-Achse
ist die Richtig-Positiv-Rate. Die Kurve hat eine umgekehrte L-Form. Die Kurve
beginnt bei (0.0,0.0) und geht direkt bis (0.0,1.0). Dann ist die Kurve
ändert sich von (0.0,1.0) nach (1.0,1.0).

Im Gegensatz dazu wird in der folgenden Abbildung die rohe logistische Regression grafisch dargestellt. für ein schreckliches Modell, das negative Klassen nicht von keine positiven Klassen haben:

Eine Zahlenlinie mit positiven Beispielen und negativen Klassen
vollständig vermischt sind.

Die ROC-Kurve für dieses Modell sieht so aus:

Eine ROC-Kurve, die eigentlich eine gerade Linie von (0,0,0,0) ist
bis (1.0;1.0).

In der realen Welt sind die meisten binären Klassifizierungsmodelle bis zu einem gewissen Grad an positiven und negativen Klassen, aber normalerweise nicht perfekt. Also: liegt eine typische ROC-Kurve irgendwo zwischen den beiden Extremen:

Eine ROC-Kurve. Die x-Achse steht für die Rate falsch positiver Ergebnisse und die y-Achse
ist die Richtig-Positiv-Rate. Die ROC-Kurve entspricht einem wackeligen Bogen.
die Kompasspunkte von Westen nach Norden durchlaufen.

Der Punkt auf einer ROC-Kurve, der (0.0,1.0) am nächsten liegt, identifiziert theoretisch den idealen Klassifizierungsschwellenwert. Es gibt jedoch auch andere Probleme, die Auswahl des idealen Klassifizierungsschwellenwerts beeinflussen. Beispiel: haben vielleicht falsch negative Ergebnisse weitaus mehr Schmerz als falsch positive Ergebnisse.

Der numerische Messwert AUC fasst die ROC-Kurve in einen einzelnen Gleitkommawert.

Wurzel der mittleren Fehlerquadratsumme (Root Mean Squared Error, RMSE)

#fundamentals

Die Quadratwurzel des mittleren quadratischen Fehlers.

S

Sigmoidfunktion

#fundamentals

Eine mathematische Funktion, die „zerquetscht“ einen Eingabewert in einen beschränkten Bereich normalerweise 0 bis 1 oder -1 bis +1. Das heißt, Sie können jede Zahl (zwei, eine Million, negative Milliarden oder irgendetwas) in ein Sigmoid wandeln und das Ergebnis immer noch in der eingeschränkten Bereich an. Ein Diagramm der Sigmoid-Aktivierungsfunktion sieht so aus:

Die Sigmoidfunktion kann im maschinellen Lernen zu verschiedenen Zwecken eingesetzt werden:

Die Umwandlung der Rohausgabe eines logistische Regression oder multinomiales Regressionsmodell, eine Wahrscheinlichkeit.
Sie dient in einigen Fällen als Aktivierungsfunktion. neuronalen Netzen.

Klicken Sie auf das Symbol, um die Berechnungen anzuzeigen.

Die Sigmoidfunktion über der Eingabenummer x verwendet die folgende Formel:

$$ sigmoid(x) = \frac{1}{1 + e^{-\text{x}}} $$

Beim maschinellen Lernen ist x in der Regel ein gewichtete Summe:

Softmax-Funktion

#fundamentals

Eine Funktion, die Wahrscheinlichkeiten für jede mögliche Klasse in einer Klassifizierungsmodell mit mehreren Klassen. Die Wahrscheinlichkeiten addieren sich auf genau 1,0. Die folgende Tabelle zeigt beispielsweise, wie Softmax-Werte verschiedene Wahrscheinlichkeiten:

Bild ist...	Probability
Hund	0,85
Katze	,13
Pferd	,02

Softmax wird auch Full Softmax genannt.

Im Gegensatz dazu können Sie mit der Stichprobenerhebung kontrastieren.

Klicken Sie auf das Symbol, um die Berechnungen anzuzeigen.

Die Softmax-Gleichung lautet wie folgt:

$$\sigma_i = \frac{e^{\text{z}_i}} {\sum_{j=1}^{j=K} {e^{\text{z}_j}}} $$

Dabei gilt: <ph type="x-smartling-placeholder">

$\sigma_i$ ist der Ausgabevektor. Jedes Element des Ausgabevektors gibt die Wahrscheinlichkeit für dieses Element an. Die Summe aller Elemente im Ausgabevektor 1,0 ist. Der Ausgabevektor enthält dieselbe Zahl von Elementen als Eingabevektor $z$.
$z$ ist der Eingabevektor. Jedes Element des Eingabevektors enthält ein Gleitkommawert ist.
$K$ ist die Anzahl der Elemente im Eingabevektor (und der Ausgabevektor). Vektoren.

Angenommen, der Eingabevektor ist:

[1.2, 2.5, 1.8]

Daher berechnet Softmax den Nenner so:

$$\text{denominator} = e^{1.2} + e^{2.5} + e^{1.8} = 21.552$$

Die Softmax-Wahrscheinlichkeit jedes Elements ist daher:

$$\sigma_1 = \frac{e^{1.2}}{21.552} = 0.154 $$ $$\sigma_2 = \frac{e^{2.5}}{21.552} = 0.565 $$ $$\sigma_1 = \frac{e^{1.8}}{21.552} = 0.281 $$

Der Ausgabevektor ist also:

$$\sigma = [0.154, 0.565, 0.281]$$

Die Summe der drei Elemente in $\sigma$ beträgt 1,0. Geschafft!

dünnbesetztes Feature

#language

#fundamentals

Ein feature, dessen Werte überwiegend null oder leer sind. Ein Feature mit einem einzelnen 1-Wert und einer Million 0-Werten dünnbesetzt sind. Ein dichtes Feature hingegen hat Werte, meistens nicht null oder leer sind.

Beim maschinellen Lernen handelt es sich bei einer überraschenden Anzahl von Features um dünnbesetzte Features. Kategoriale Merkmale sind in der Regel dünnbesetzte Merkmale. Von den 300 möglichen Baumarten in einem Wald könnte ein einziges lediglich einen Ahornbaum erkennen. Oder von den Millionen in einer Videobibliothek gibt, könnte ein Beispiel nur „Casablanca“.

In einem Modell stellen Sie dünnbesetzte Features normalerweise mit One-Hot-Codierung. Wenn die One-Hot-Codierung groß ist, können Sie eine Einbettungsebene über das Bild One-Hot-Codierung für mehr Effizienz.

Dünnbesetzte Darstellung

#language

#fundamentals

Nur die Position(en) von Elementen ungleich null in einem dünnbesetzten Feature speichern.

Angenommen, ein kategoriales Feature namens species identifiziert die 36 in einem bestimmten Wald zu finden. Nehmen wir weiter an, dass jedes Beispiel für nur eine einzelne Spezies.

Sie können einen One-Hot-Vektor verwenden, um die Baumarten in jedem Beispiel darzustellen. Ein One-Hot-Vektor würde einen einzelnen 1 enthalten (um die jeweilige Baumart in diesem Beispiel) und 35 0s (zur Darstellung der 35 Baumarten nicht in diesem Beispiel). Die One-Hot-Darstellung von maple könnte etwa so aussehen:

Ein Vektor, in dem die Positionen 0 bis 23 den Wert 0 enthalten,
24 enthält den Wert 1 und die Positionen 25 bis 35 den Wert 0.

Alternativ würde bei der dünnbesetzten Darstellung einfach die Position des bestimmte Spezies. Wenn sich maple auf Position 24 befindet, ist die dünnbesetzte Darstellung von maple wäre einfach:

Beachten Sie, dass die dünnbesetzte Darstellung viel kompakter ist als die One-Hot-Darstellung. Darstellung.

Klicken Sie auf das Symbol, um ein etwas komplexeres Beispiel aufzurufen.

Angenommen, jedes Beispiel in Ihrem Modell muss die Wörter darstellen, aber nicht die Reihenfolge dieser Wörter in einem englischen Satz. Englisch besteht aus etwa 170.000 Wörtern, daher ist Englisch -Element mit etwa 170.000 Elementen. Die meisten englischen Sätze enthalten ein Zeichen nur ein sehr kleiner Bruchteil dieser 170.000 Wörter, sodass die Wörter in einem wird mit ziemlicher Sicherheit dünnbesetzte Daten sein.

Betrachten Sie den folgenden Satz:

My dog is a great dog

Sie könnten eine Variante des One-Hot-Vektors verwenden, um die Wörter in diesem Satz. Bei dieser Variante können mehrere Zellen im Vektor Elemente enthalten, einen Wert ungleich null. Außerdem kann eine Zelle bei dieser Variante eine Ganzzahl enthalten. als eine andere. Die Wörter "mein", "ist", "ein" und "prima" nur anzeigen einmal im Satz das Wort „Hund“ erscheint zweimal. Verwendung dieser Variante von One-Hot-Vektoren zur Darstellung der Wörter in diesem Satz ergeben Folgendes: Vektor mit 170.000 Elementen:

Eine dünnbesetzte Darstellung desselben Satzes würde einfach wie folgt aussehen:

Klicken Sie auf das Symbol, wenn Sie sich nicht sicher sind.

Der Begriff „dünnbesetzte Darstellung“ verwirrt viele Menschen, ist selbst kein dünnbesetzter Vektor. Vielmehr dünnbesetzt ist eigentlich eine dichte Darstellung eines dünnbesetzten Vektors. Das Synonym Indexdarstellung ist etwas verständlicher als „dünnbesetzte Darstellung“.

Dünnbesetzter Vektor

#fundamentals

Ein Vektor, dessen Werte hauptsächlich Nullen sind. Siehe auch Sparse und spars zu nutzen.

Verlust im Quadrat

#fundamentals

Synonym für L₂-Verlust.

statisch

#fundamentals

Etwas, das einmal und nicht kontinuierlich ausgeführt wird. Die Begriffe statisch und offline sind Synonyme. Im Folgenden werden häufige Verwendungen von statisch und offline auf Computern aufgeführt. Lernen:

Statisches Modell (oder Offline-Modell) ist ein Modell, das einmal trainiert wird. verwendet werden.
Statisches Training (oder Offline-Training) ist der Trainingsprozess eines statisches Modell.
Statische Inferenz (oder Offline-Inferenz) ist eine Prozess, bei dem ein Modell einen Batch von Vorhersagen gleichzeitig generiert.

Stellen Sie einen Kontrast mit Dynamisch her.

statische Inferenz

#fundamentals

Synonym für offline-inferenz.

Stationarität

#fundamentals

Eine Funktion, deren Werte sich in einer oder mehreren Dimensionen nicht ändern, in der Regel zeitlich. Eine Funktion, deren Werte 2021 ungefähr gleich aussehen, 2023 zeigt „Stationarität“.

In der Praxis weisen nur sehr wenige Merkmale eine stationäre Form auf. Funktionen mit gleichmäßiger Ausrichtung gleichbedeutend mit Veränderungen der Stabilität (wie dem Meeresspiegel) im Laufe der Zeit.

Im Kontrast zu Instationarität stehen.

Stochastic Gradient Decent (SGD)

#fundamentals

Ein Gradientenabstiegsalgorithmus, bei dem das Batchgröße ist eins. Mit anderen Worten: SGD ein einzelnes Beispiel, das einheitlich Zufallsauswahl aus einem Trainings-Dataset.

überwachtes maschinelles Lernen

#fundamentals

Trainieren eines Modells anhand von Features und deren entsprechende Labels. Beim überwachten maschinellen Lernen indem sie eine Reihe von Fragen und ihre die entsprechenden Antworten. Nachdem Sie die Zuordnung zwischen Fragen und kann ein Schüler oder Student neue, noch nie gesehene zum selben Thema.

Vergleichen mit unüberwachtes maschinelles Lernen:

synthetisches Feature

#fundamentals

Eine Funktion, die nicht unter den Eingabefeatures vorhanden ist, jedoch die aus einem oder mehreren dieser Elemente zusammengestellt wurden. Methoden zum Erstellen synthetischer Features umfassen Folgendes:

Bucketing eines fortlaufenden Features in Bereichsklassen.
Feature-Cross erstellen
Multiplizieren (oder Teilen) eines Featurewerts mit anderen Featurewerten oder für sich allein. Wenn beispielsweise a und b Eingabefeatures sind, dann Beispiele für synthetische Features: <ph type="x-smartling-placeholder">
- Ab
- a²
Anwenden einer transzendentalen Funktion auf einen Featurewert. Beispiel: c ist ein Eingabefeature, dann sind folgende Beispiele für synthetische Merkmale: <ph type="x-smartling-placeholder">
- sin(c)
- ln(c)

Durch Normalisieren oder Skalieren erstellte Features werden nicht als synthetische Merkmale betrachtet.

T

Testverlust

#fundamentals

Ein Messwert, der den Verlust eines Modells in Bezug auf das Test-Dataset. Beim Erstellen eines Modells den Testverlust zu minimieren. Das liegt daran, dass ein geringer Testverlust ein stärkeres Signal als bei einem geringen Trainingsverlust oder geringer Validierungsverlust.

Manchmal gibt es eine große Lücke zwischen Test- und Trainings- oder Validierungsverlust. deutet darauf hin, dass Sie den Wert Regularisierungsrate.

Training

#fundamentals

Der Prozess zur Bestimmung der idealen Parameter (Gewichtung und Verzerrungen) besteht aus einem Modell. Während des Trainings liest ein System Beispiele und passt die Parameter nach und nach an. Beim Training werden ein paar bis Milliarden von Beispielen.

Trainingsverlust

#fundamentals

Ein Messwert, der den Verlust eines Modells während eines bestimmte Trainingsdurchlaufe. Angenommen, die Verlustfunktion ist Mean Squared Error. Vielleicht der Trainingsverlust (der Mittelwert Quadratischer Fehler) für den 10.Durchlauf 2, 2 und der Trainingsverlust für der 100. Durchlauf ist 1.9.

In einer Verlustkurve werden die Trainingsverluste im Vergleich zur Anzahl der Iterationen vor. Eine Verlustkurve bietet die folgenden Hinweise zum Training:

Ein Abfall deutet darauf hin, dass sich das Modell verbessert.
Ein Anstieg nach oben deutet darauf hin, dass sich das Modell verschlechtert.
Eine flache Steigung deutet darauf hin, dass das Modell bereits Konvergenz.

Beispielsweise die folgende, eher idealisierte Verlustkurve: Shows:

Ein steiler Abfall während der ersten Iterationen, was impliziert für eine schnelle Modellverbesserung.
Ein allmählich abflachender, aber immer noch nach unten liegender Anstieg, bis zum Ende hin was eine kontinuierliche Verbesserung des Modells langsameres Tempo als bei den ersten Durchläufen.
Ein flaches Gefälle gegen Ende des Trainings, das auf Konvergenz hindeutet.

Diagramm des Trainingsverlusts im Vergleich zu den Iterationen Diese Verlustkurve beginnt
mit steilem Abfall. Die Steigung verringert sich allmählich, bis die
die Steigung auf null wird.

Auch wenn der Trainingsverlust wichtig ist, Generalisierung.

Abweichungen zwischen Training und Bereitstellung

#fundamentals

Der Unterschied zwischen der Leistung eines Modells während Training und die Leistung dieses Modells während Auslieferung

Trainings-Dataset

#fundamentals

Die Teilmenge des Datasets, die zum Trainieren eines Modells verwendet wird.

Traditionell werden Beispiele im Dataset in die folgenden drei Bereiche unterteilt: für unterschiedliche Teilmengen:

ein Trainings-Dataset
ein Validierungs-Dataset
ein Test-Dataset

Idealerweise sollte jedes Beispiel im Dataset nur zu einem der Teilmengen vorangehen. Ein einzelnes Beispiel sollte z. B. nicht zu Trainings- und Validierungs-Dataset.

Richtig negatives Ergebnis (TN)

#fundamentals

Ein Beispiel, bei dem das Modell das Ereignis richtig vorhersagt: ausschließende Klasse. Das Modell leitet beispielsweise ab, eine bestimmte E-Mail-Nachricht kein Spam ist und diese Nachricht in Wirklichkeit kein Spam.

Richtig positives Ergebnis (TP)

#fundamentals

Ein Beispiel, bei dem das Modell das Ereignis richtig vorhersagt: positive Klasse. Das Modell leitet beispielsweise ab, eine bestimmte E-Mail-Nachricht Spam ist und diese E-Mail-Nachricht tatsächlich Spam ist.

Rate richtig positiver Ergebnisse (TPR)

#fundamentals

Synonym für recall. Das bedeutet:

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

Die Rate richtig positiver Ergebnisse ist die Y-Achse in einer ROC-Kurve.

U

Unteranpassung

#fundamentals

Erstellen eines Modells mit schlechter Vorhersagefähigkeit, weil das Modell die Komplexität der Trainingsdaten nicht vollständig erfasst. Viele Probleme kann zu einer Unteranpassung führen, einschließlich:

Beim Training werden die falschen Funktionen verwendet.
Training über zu wenige Epochen oder zu niedrig eine Lernrate.
Training mit einer zu hohen Regularisierungsrate.
Werden zu wenige verborgene Ebenen in einem neuronalen Deep-Learning-Netzwerk.

Beispiel ohne Label

#fundamentals

Ein Beispiel, das Features, aber kein Label enthält. Die folgende Tabelle zeigt drei Beispiele ohne Label aus einem Haus Bewertungsmodell mit jeweils drei Merkmalen, aber ohne Immobilienwert:

Anzahl der Schlafzimmer	Anzahl der Badezimmer	Haushalt
3	2	15
2	1	72
4	2	34

Beim überwachten maschinellen Lernen Modelle werden anhand von Beispielen mit Labels trainiert und treffen Vorhersagen Beispiele ohne Label.

In Konten mit Elternaufsicht und unüberwachtes Lernen, Beispiele ohne Label werden während des Trainings verwendet.

Vergleichen Sie Beispiel ohne Label mit Beispiel mit Label.

unbeaufsichtigtes maschinelles Lernen

#clustering

#fundamentals

Trainieren eines Modells zum Auffinden von Mustern in einem Dataset, in der Regel ein Dataset ohne Label.

Unüberwachtes maschinelles Lernen wird am häufigsten genutzt, Cluster-Daten in Gruppen ähnlicher Beispiele. Beispiel: ein nicht überwachter Computer kann der Lernalgorithmus Songs anhand verschiedener Eigenschaften gruppieren der Musik. Die resultierenden Cluster können als Eingabe für andere Maschinen dienen Lernalgorithmen (z. B. an einen Musikempfehlungsdienst). Clustering kann hilfreich sein, wenn nützliche Beschriftungen knapp oder gar nicht vorhanden sind. In Bereichen wie Missbrauchsbekämpfung und Betrug können Cluster beispielsweise dass Menschen die Daten besser verstehen können.

Im Gegensatz zu überwachtem maschinellem Lernen.

Klicken Sie auf das Symbol, um weitere Hinweise aufzurufen.

Ein weiteres Beispiel für unüberwachtes maschinelles Lernen Hauptkomponentenanalyse (Principal Component Analysis, PCA). Die Anwendung von PCA auf eine Dataset, das den Inhalt von Millionen von Einkaufswagen enthält, könnte Aufschluss darüber geben, dass Einkaufswagen mit Zitronen häufig auch Antazida enthalten.

V

validation

#fundamentals

Die erste Bewertung der Qualität eines Modells. Bei der Validierung wird die Qualität der Vorhersagen eines Modells mit dem Validierungsset:

Da sich das Validierungs-Dataset vom Trainings-Dataset unterscheidet, Validierung trägt zum Schutz vor Überanpassung bei.

Die Bewertung des Modells anhand des Validierungs-Datasets erste Testrunde und Bewertung des Modells anhand der Test-Dataset als zweite Testrunde

Validierungsverlust

#fundamentals

Ein Messwert, der den Verlust eines Modells in das Validierungs-Dataset während eines bestimmten Durchlauf des Trainings.

Siehe auch Generalisierungskurve.

Validierungs-Dataset

#fundamentals

Die Teilmenge des Datasets, die die anfänglichen Auswertung anhand eines trainierten Modells. In der Regel bewerten Sie das trainierte Modell anhand des Validierungs-Datasets bevor Sie das Modell mit dem Test-Dataset vergleichen.

Traditionell unterteilen Sie die Beispiele im Dataset in die folgenden drei für unterschiedliche Teilmengen:

Trainings-Dataset
ein Validierungs-Dataset
ein Test-Dataset

Idealerweise sollte jedes Beispiel im Dataset nur zu einem der Teilmengen vorangehen. Ein einzelnes Beispiel sollte z. B. nicht zu Trainings- und Validierungs-Dataset.

W

Gewicht

#fundamentals

Wert, den ein Modell mit einem anderen Wert multipliziert. Training ist der Prozess zur Bestimmung des Idealgewichts eines Modells. Inferenz ist der Prozess, bei dem diese erlernten Gewichtungen Vorhersagen zu treffen.

Klicken Sie auf das Symbol, um ein Beispiel für Gewichtungen in einem linearen Modell aufzurufen.

Stellen Sie sich ein lineares Modell mit zwei Features vor. Angenommen, das Training bestimmt die folgenden Gewichtungen (und bias):

Die Verzerrung, b, hat einen Wert von 2,2.
Die Gewichtung w₁ für ein Feature beträgt 1, 5.
Die Gewichtung w₂ der anderen Funktion beträgt 0, 4.

Stellen Sie sich nun ein Beispiel mit der folgenden Funktion vor: Werte:

Der Wert einer Funktion, x₁, ist 6.
Der Wert des anderen Elements, x₂, ist 10.

Dieses lineare Modell verwendet die folgende Formel, um eine Vorhersage zu generieren. y':

$$y' = b + w_1x_1 + w_2x_2$$

Die Vorhersage lautet daher:

$$y' = 2.2 + (1.5)(6) + (0.4)(10) = 15.2$$

Wenn eine Gewichtung 0 ist, trägt das entsprechende Merkmal nicht zu das Modell zu verstehen. Beispiel: Wenn w₁ 0 ist, dann ist der Wert von x₁ ist irrelevant.

gewichtete Summe

#fundamentals

Die Summe aller relevanten Eingabewerte multipliziert mit den entsprechenden Gewichte. Angenommen, die relevanten Eingaben setzen sich so zusammen:

Eingabewert	Eingabegewichtung
2	-1,3
-1	0,6
3	0,4

Die gewichtete Summe lautet daher:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Eine gewichtete Summe ist das Eingabeargument für eine Aktivierungsfunktion:

Z

Normalisierung des Z-Werts

#fundamentals

Eine Skalierungstechnik, die eine unbearbeitete feature-Wert mit einem Gleitkommawert, der für die Anzahl der Standardabweichungen vom Mittelwert der Funktion. Nehmen wir zum Beispiel eine Funktion an, deren Mittelwert 800 ist und deren die Abweichung 100 beträgt. Die folgende Tabelle zeigt, wie die Normalisierung des Z-Werts würde den Rohwert seinem Z-Wert zuordnen:

Unverarbeiteter Wert	Z-Wert
800	0
950	+1,5
575	-2,25

Das Modell für maschinelles Lernen wird dann anhand der Z-Werte trainiert. statt auf die Rohwerte.

Glossar zum maschinellen Lernen: ML-Grundlagen

A

Genauigkeit

Klicken Sie auf das Symbol, um weitere Hinweise aufzurufen.

Aktivierungsfunktion

Klicken Sie auf das Symbol, um ein Beispiel zu sehen.

künstliche Intelligenz

AUC (Bereich unter der ROC-Kurve)

Klicken Sie auf das Symbol, um mehr über die Beziehung zwischen AUC- und ROC-Kurven zu erfahren.

Klicken Sie auf das Symbol, um eine förmlichere Definition von AUC zu erhalten.

B

Rückpropagierung

Batch

Batchgröße

Voreingenommenheit (Ethik/Fairness)

Verzerrung (Mathematik) oder Bias-Begriff

Binäre Klassifizierung

Bucketing

Klicken Sie auf das Symbol, um weitere Hinweise aufzurufen.

C

Kategorische Daten

Klasse

Klassifizierungsmodell

Klassifizierungsschwellenwert

Klicken Sie auf das Symbol, um weitere Hinweise aufzurufen.

Dataset mit klassenunausgeglichenem Dataset

Clipping

Wahrheitsmatrix

stetiges Feature

Konvergenz

D

DataFrame

Dataset oder Dataset

Deep-Modell

vollbesetztes Feature

Tiefe

diskretes Feature

dynamic

dynamisches Modell

E

vorzeitiges Beenden

Klicken Sie auf das Symbol, um weitere Hinweise aufzurufen.

Einbettungsebene

Epoche

Beispiel

F

Falsch-negativ (FN)

Falsch positives Ergebnis (FP)

Rate falsch positiver Ergebnisse (FPR)

Feature

Featureverknüpfung

Feature Engineering

Klicken Sie auf das Symbol, um weitere Hinweise zu TensorFlow zu erhalten.

Feature-Set

Featurevektor

Feedback Loop

G

Generalisierung

Klicken Sie auf das Symbol, um weitere Hinweise aufzurufen.

Generalisierungskurve

Gradientenabstieg

Ground Truth

Klicken Sie auf das Symbol, um weitere Hinweise aufzurufen.

H

versteckte Ebene

Hyperparameter

I

unabhängig und identisch verteilt (i.i.d)

Inferenz

Eingabeebene

Interpretierbarkeit

Iteration

L

L0-Regularisierung

Klicken Sie auf das Symbol, um weitere Hinweise aufzurufen.

L1-Verlust

Klicken Sie auf das Symbol, um die formalen Berechnungen anzuzeigen.

L1-Regularisierung

L2-Verlust

Klicken Sie auf das Symbol, um die formalen Berechnungen anzuzeigen.

L₀-Regularisierung

L₁-Verlust

L₁-Regularisierung

L₂-Verlust

L₂-Regularisierung