Glossar zum Thema maschinelles Lernen: Messwerte

Auf dieser Seite finden Sie Begriffe aus dem Glossar zu Messwerten. Hier finden Sie alle Begriffe aus dem Glossar.

#fundamentals
#Messwert

Die Anzahl der korrekten Klassifizierungsvorhersagen geteilt durch die Gesamtzahl der Vorhersagen. Das bedeutet:

Accuracy=correct predictionscorrect predictions + incorrect predictions 

Ein Modell mit 40 richtigen und 10 falschen Vorhersagen hat beispielsweise eine Genauigkeit von:

Accuracy=4040 + 10=80%

Bei der binären Klassifizierung werden die verschiedenen Kategorien von richtigen Vorhersagen und falschen Vorhersagen mit bestimmten Namen versehen. Die Formel für die Genauigkeit bei der binären Klassifizierung lautet also:

Accuracy=TP+TNTP+TN+FP+FN

Dabei gilt:

Vergleichen und kontrastieren Sie Accuracy mit Precision und Recall.

Die Genauigkeit ist zwar in einigen Situationen ein wertvoller Messwert, in anderen jedoch äußerst irreführend. Die Genauigkeit ist in der Regel kein geeigneter Messwert für die Bewertung von Klassifizierungsmodellen, die ungleichmäßige Datensätze verarbeiten.

Angenommen, in einer bestimmten subtropischen Stadt fällt nur an 25 Tagen pro Jahrhundert Schnee. Da die Tage ohne Schnee (die negative Klasse) die Tage mit Schnee (die positive Klasse) bei weitem übertreffen, ist der Schneedatensatz für diese Stadt nicht ausgewogen. Angenommen, Sie haben ein binäres Klassifizierungsmodell, das jeden Tag entweder Schnee oder keinen Schnee vorhersagen soll, aber jeden Tag einfach „kein Schnee“ vorhersagt. Dieses Modell ist sehr genau, hat aber keine Vorhersagekraft. In der folgenden Tabelle sind die Ergebnisse für ein Jahrhundert an Vorhersagen zusammengefasst:

Kategorie Zahl
RPE 0
TN 36499
FP 0
FNE 25

Die Genauigkeit dieses Modells ist daher:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (0 + 36499) / (0 + 36499 + 0 + 25) = 0.9993 = 99.93%

Obwohl eine Genauigkeit von 99,93% sehr beeindruckend erscheint, hat das Modell keine Vorhersagekraft.

Precision und Recall sind in der Regel nützlichere Messwerte als die Genauigkeit für die Bewertung von Modellen, die mit klassenunbalancierten Datasets trainiert wurden.


Weitere Informationen finden Sie im Machine Learning Crash Course unter Klassifizierung: Genauigkeit, Rückruf, Präzision und zugehörige Messwerte.

Fläche unter der PR-Kurve

#Messwert

Weitere Informationen finden Sie unter PR AUC (Fläche unter der PR-Kurve).

Fläche unter der ROC-Kurve

#Messwert

Weitere Informationen finden Sie unter AUC (Bereich unter der ROC-Kurve).

AUC (Bereich unter der ROC-Kurve)

#fundamentals
#Messwert

Eine Zahl zwischen 0,0 und 1,0, die angibt, wie gut ein binäres Klassifizierungsmodell positive Klassen von negativen Klassen unterscheiden kann. Je näher der AUC an 1,0 liegt, desto besser kann das Modell Klassen voneinander unterscheiden.

Die folgende Abbildung zeigt beispielsweise ein Klassifizierungsmodell, das positive Klassen (grüne Ovale) perfekt von negativen Klassen (violette Rechtecke) trennt. Dieses unrealistisch perfekte Modell hat einen AUC von 1,0:

Eine Zahlenlinie mit 8 positiven Beispielen auf der einen Seite und 9 negativen Beispielen auf der anderen Seite.

Die folgende Abbildung zeigt dagegen die Ergebnisse für ein Klassifizierungsmodell, das zufällige Ergebnisse generiert hat. Dieses Modell hat eine AUC von 0,5:

Eine Zahlenlinie mit 6 positiven und 6 negativen Beispielen.
          Die Abfolge der Beispiele ist positiv, negativ, positiv, negativ, positiv, negativ, positiv, negativ, positiv, negativ, positiv, negativ.

Ja, das vorherige Modell hat eine AUC von 0,5, nicht 0,0.

Die meisten Modelle liegen irgendwo zwischen den beiden Extremen. Das folgende Modell unterscheidet beispielsweise positiv und negativ etwas und hat daher einen AUC-Wert zwischen 0, 5 und 1, 0:

Eine Zahlenlinie mit 6 positiven und 6 negativen Beispielen.
          Die Abfolge der Beispiele lautet negativ, negativ, negativ, negativ, positiv, negativ, positiv, positiv, negativ, positiv, positiv, positiv.

Der AUC ignoriert alle Werte, die Sie für den Klassifizierungsgrenzwert festgelegt haben. Stattdessen werden bei der AUC alle möglichen Klassifizierungsschwellenwerte berücksichtigt.

Der AUC ist der Flächeninhalt unter einer ROC-Kurve. Die ROC-Kurve für ein Modell, das positive von negativen Ergebnissen perfekt trennt, sieht beispielsweise so aus:

Kartesisches Diagramm. X-Achse: Rate falsch positiver Ergebnisse; Y-Achse: Rate echt positiver Ergebnisse. Der Graph beginnt bei 0,0 und geht direkt nach oben zu 0,1 und dann direkt nach rechts zu 1,1.

Der AUC ist die Fläche des grauen Bereichs in der Abbildung oben. In diesem ungewöhnlichen Fall ist die Fläche einfach die Länge des grauen Bereichs (1,0) multipliziert mit der Breite des grauen Bereichs (1,0). Das Produkt von 1,0 und 1,0 ergibt also eine AUC von genau 1,0, was der höchstmöglichen AUC-Wert ist.

Umgekehrt sieht die ROC-Kurve für einen Klassifikator, der Klassen überhaupt nicht trennen kann, so aus: Die Fläche dieses grauen Bereichs beträgt 0,5.

Kartesisches Diagramm. X-Achse: Rate falsch positiver Ergebnisse; Y-Achse: Rate richtig positiver Ergebnisse. Der Graph beginnt bei 0,0 und verläuft diagonal zu 1,1.

Eine typischere ROC-Kurve sieht ungefähr so aus:

Kartesisches Diagramm. X-Achse: Rate falsch positiver Ergebnisse; Y-Achse: Rate richtig positiver Ergebnisse. Der Graph beginnt bei 0,0 und beschreibt einen unregelmäßigen Bogen zu 1,0.

Es wäre mühsam, die Fläche unter dieser Kurve manuell zu berechnen. Daher werden die meisten AUC-Werte in der Regel mit einem Programm berechnet.


Der AUC ist die Wahrscheinlichkeit, dass ein Klassifikator mit höherer Konfidenz davon ausgeht, dass ein zufällig ausgewähltes positives Beispiel tatsächlich positiv ist, als dass ein zufällig ausgewähltes negatives Beispiel positiv ist.


Weitere Informationen finden Sie im Machine Learning Crash Course unter Klassifizierung: ROC und AUC.

Durchschnittliche Precision bei k

#language
#Messwert

Ein Messwert, mit dem die Leistung eines Modells für einen einzelnen Prompt zusammengefasst wird, der sortierte Ergebnisse generiert, z. B. eine nummerierte Liste mit Buchempfehlungen. Die durchschnittliche Precision bei k ist der Durchschnitt der Precision bei k-Werte für jedes relevante Ergebnis. Die Formel für die durchschnittliche Precision bei k lautet daher:

average precision at k=1nni=1precision at k for each relevant item

Dabei gilt:

  • n ist die Anzahl der relevanten Elemente in der Liste.

Im Gegensatz zu recall at k.

Angenommen, einem Large Language Model wird die folgende Suchanfrage gestellt:

List the 6 funniest movies of all time in order.

Das Large Language Model gibt die folgende Liste zurück:

  1. Der General
  2. Mean Girls
  3. Platoon
  4. Brautalarm
  5. Citizen Kane
  6. Das ist Spinal Tap
Vier der Filme in der zurückgegebenen Liste sind sehr lustig (d. h. relevant), aber zwei Filme sind Dramen (nicht relevant). Die folgenden Tabellen enthalten Details zu den Ergebnissen:
Position Film Relevant? Precision bei k
1 Der General Ja 1.0
2 Mean Girls Ja 1.0
3 Platoon Nein nicht relevant
4 Brautalarm Ja 0,75
5 Citizen Kane Nein nicht relevant
6 Das ist Spinal Tap Ja 0,67

Die Anzahl der relevanten Ergebnisse beträgt 4. Die durchschnittliche Genauigkeit bei 6 lässt sich daher so berechnen:

average precision at 6=14(1.0 + 1.0 + 0.75 + 0.67) average precision at 6=~0.85

B

baseline

#Messwert

Ein Modell, das als Referenzpunkt dient, um die Leistung eines anderen Modells (in der Regel eines komplexeren) zu vergleichen. Ein logistisches Regressionsmodell kann beispielsweise als guter Vergleichswert für ein Deep Learning-Modell dienen.

Für ein bestimmtes Problem hilft die Baseline den Modellentwicklern, die minimale erwartete Leistung zu quantifizieren, die ein neues Modell erreichen muss, damit es nützlich ist.

C

Kosten

#Messwert

Synonym für Verlust.

Fairness unter kontrafaktischen Bedingungen

#fairness
#Messwert

Ein Fairness-Maß, mit dem geprüft wird, ob ein Klassifikator für eine Person dasselbe Ergebnis liefert wie für eine andere Person, die mit der ersten identisch ist, mit Ausnahme eines oder mehrerer sensibler Attribute. Die Bewertung eines Klassifikators auf kontrafaktische Fairness ist eine Methode, um potenzielle Quellen von Voreingenommenheit in einem Modell aufzudecken.

Weitere Informationen finden Sie unter den folgenden Links:

Kreuzentropie

#Messwert

Eine Verallgemeinerung des Log-Verlusts auf mehrklassige Klassifizierungsprobleme. Die Kreuzentropie quantifiziert den Unterschied zwischen zwei Wahrscheinlichkeitsverteilungen. Siehe auch Verwirrung.

Kumulative Verteilungsfunktion (CDF)

#Messwert

Eine Funktion, die die Häufigkeit von Samples definiert, die kleiner oder gleich einem Zielwert sind. Betrachten wir beispielsweise eine Normalverteilung kontinuierlicher Werte. Eine kumulative Verteilungsfunktion gibt an, dass etwa 50% der Stichproben kleiner oder gleich dem Mittelwert und etwa 84% der Stichproben kleiner oder gleich einer Standardabweichung über dem Mittelwert sein sollten.

D

demografische Parität

#fairness
#Messwert

Ein Fairness-Messwert, der erfüllt ist, wenn die Ergebnisse der Klassifizierung eines Modells nicht von einem bestimmten sensiblen Attribut abhängen.

Wenn sich beispielsweise sowohl Liliputaner als auch Brobdingnagier an der Glubbdubdrib University bewerben, ist die demografische Parität erreicht, wenn der Prozentsatz der aufgenommenen Liliputaner dem Prozentsatz der aufgenommenen Brobdingnagier entspricht, unabhängig davon, ob eine Gruppe im Durchschnitt besser qualifiziert ist als die andere.

Im Gegensatz dazu erlauben gleiche Chancen und Gleichbehandlung, dass Klassifizierungsergebnisse insgesamt von sensiblen Attributen abhängen, aber nicht, dass Klassifizierungsergebnisse für bestimmte Grundwahrheit-Labels von sensiblen Attributen abhängen. Im Artikel Diskriminierung durch intelligentes maschinelles Lernen finden Sie eine Visualisierung, in der die Kompromisse bei der Optimierung für die demografische Parität dargestellt werden.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Fairness: demografische Parität.

E

Erdbewegungsabstand (Earth Mover's Distance, EMD)

#Messwert

Ein Maß für die relative Ähnlichkeit von zwei Verteilungen. Je geringer die Entfernung des Erdverschiebers ist, desto ähnlicher sind die Verteilungen.

Edit Distance

#language
#Messwert

Ein Maß dafür, wie ähnlich sich zwei Textstrings sind. Im Bereich maschinelles Lernen ist die Edit-Distanz aus folgenden Gründen nützlich:

  • Die Edit-Distanz lässt sich leicht berechnen.
  • Mit der Edit-Distanz können zwei Strings verglichen werden, die bekanntlich ähnlich sind.
  • Mit der Edit-Distanz lässt sich bestimmen, inwiefern verschiedene Strings einem bestimmten String ähneln.

Es gibt mehrere Definitionen der Edit-Distanz, die jeweils unterschiedliche Stringoperationen verwenden. Ein Beispiel finden Sie unter Levenshtein-Distanz.

Empirische kumulative Verteilungsfunktion (eCDF oder EDF)

#Messwert

Eine kumulative Verteilungsfunktion, die auf empirischen Messungen aus einem echten Datensatz basiert. Der Wert der Funktion an einem beliebigen Punkt auf der X-Achse ist der Anteil der Beobachtungen im Datensatz, die kleiner oder gleich dem angegebenen Wert sind.

Entropie

#df
#Messwert

In der Informationstheorie beschreibt die Entropie, wie unvorhersehbar eine Wahrscheinlichkeitsverteilung ist. Alternativ wird die Entropie auch als Maß dafür definiert, wie viele Informationen jedes Beispiel enthält. Eine Verteilung hat die höchstmögliche Entropie, wenn alle Werte einer Zufallsvariablen gleich wahrscheinlich sind.

Die Entropie eines Satzes mit zwei möglichen Werten „0“ und „1“ (z. B. die Labels in einem binären Klassifizierungsproblem) hat die folgende Formel:

  H = −p log p − q log q = −p log p − (1−p) * log (1−p)

Dabei gilt:

  • H ist die Entropie.
  • p ist der Bruchteil der Beispiele mit „1“.
  • q ist der Anteil der Beispiele mit „0“. Beachten Sie, dass q = (1 – p) ist.
  • log ist in der Regel log2. In diesem Fall ist die Einheit der Entropie ein Bit.

Nehmen wir beispielsweise Folgendes an:

  • 100 Beispiele enthalten den Wert „1“.
  • 300 Beispiele enthalten den Wert „0“.

Der Entropiewert ist daher:

  • p = 0,25
  • q = 0,75
  • H = (–0,25) log2(0,25) − (0,75) log2(0,75) = 0,81 Bit pro Beispiel

Ein perfekt ausgewogener Satz (z. B. 200 Nullen und 200 Einsen) hat eine Entropie von 1, 0 Bit pro Beispiel. Je ausgeglichener ein Satz ist, desto näher liegt seine Entropie bei 0,0.

In Entscheidungsbäumen hilft die Entropie, den Informationsgewinn zu formulieren, damit der Spaltvorgang die Bedingungen beim Aufbau eines Klassifizierungsentscheidungsbaums auswählen kann.

Entropie mit folgenden Werten vergleichen:

Die Entropie wird oft als Shannon-Entropie bezeichnet.

Weitere Informationen finden Sie im Kurs zu Entscheidungsbäumen unter Exakte Trennlinie für binäre Klassifizierung mit numerischen Merkmalen.

Chancengleichheit

#fairness
#Messwert

Ein Fairness-Messwert, mit dem bewertet wird, ob ein Modell das gewünschte Ergebnis für alle Werte eines sensiblen Attributs gleich gut vorhersagt. Mit anderen Worten: Wenn das positive Ergebnis das gewünschte Ergebnis für ein Modell ist, sollte die Rate der echten positiven Ergebnisse für alle Gruppen gleich sein.

Chancengleichheit hängt mit ausgewogenen Chancen zusammen. Das bedeutet, dass sowohl die Rate der richtig positiven Ergebnisse als auch die Rate der falsch positiven Ergebnisse für alle Gruppen gleich sein müssen.

Angenommen, die Glubbdubdrib University nimmt sowohl Liliputaner als auch Brobdingnagier in ein anspruchsvolles Mathematikprogramm auf. Die weiterführenden Schulen der Liliputaner bieten ein umfangreiches Mathematikcurriculum an und die überwiegende Mehrheit der Schüler ist für das Universitätsprogramm qualifiziert. In den weiterführenden Schulen von Brobdingnag werden keine Mathematikkurse angeboten. Daher sind viel weniger Schüler qualifiziert. Die Chancengleichheit ist für das bevorzugte Label „Zugelassen“ in Bezug auf die Nationalität (Lilliputaner oder Brobdingnagier) gegeben, wenn qualifizierte Studierende unabhängig davon, ob sie Lilliputaner oder Brobdingnagier sind, mit gleicher Wahrscheinlichkeit zugelassen werden.

Angenommen, 100 Lilliputaner und 100 Brobdingnagier bewerben sich an der Glubbdubdrib University und die Zulassungsentscheidungen werden so getroffen:

Tabelle 1. Lilliputaner (90% sind qualifiziert)

  Qualifiziert Unqualifiziert
Zugelassen 45 3
Abgelehnt 45 7
Gesamt 90 10
Prozentsatz der zugelassenen qualifizierten Schüler: 45/90 = 50%
Prozentsatz der abgelehnten nicht qualifizierten Schüler: 7/10 = 70%
Gesamtprozentsatz der zugelassenen Schüler aus Liliput: (45 + 3)/100 = 48%

 

Tabelle 2 Brobdingnagian-Bewerber (10% sind qualifiziert):

  Qualifiziert Unqualifiziert
Zugelassen 5 9
Abgelehnt 5 81
Gesamt 10 90
Prozentsatz der zugelassenen qualifizierten Studenten: 5/10 = 50%
Prozentsatz der abgelehnten nicht qualifizierten Studenten: 81/90 = 90%
Gesamtprozentsatz der zugelassenen Brobdingnag-Studenten: (5 + 9)/100 = 14%

In den vorangegangenen Beispielen wird die Chancengleichheit für die Zulassung qualifizierter Schüler und Studenten gewahrt, da sowohl qualifizierte Lilliputaner als auch Brobdingnagier eine 50-prozentige Chance auf Zulassung haben.

Die Chancengleichheit ist zwar gegeben, die folgenden beiden Fairnessmesswerte sind jedoch nicht erfüllt:

  • Demografische Parität: Lilliputaner und Brobdingnagier werden in unterschiedlichem Maße an der Universität zugelassen. 48% der Lilliputaner werden zugelassen, aber nur 14% der Brobdingnagier.
  • Gleiche Chancen: Qualifizierte Lilliputaner und Brobdingnagier haben zwar die gleiche Chance, aufgenommen zu werden, aber die zusätzliche Einschränkung, dass unqualifizierte Lilliputaner und Brobdingnagier die gleiche Chance haben, abgelehnt zu werden, ist nicht erfüllt. Ungeeignete Liliputaner haben eine Ablehnungsrate von 70 %, während ungeeignete Brobdingnagier eine Ablehnungsrate von 90% haben.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Fairness: Chancengleichheit.

ausgeglichene Chancen

#fairness
#Messwert

Ein Fairness-Messwert, mit dem beurteilt wird, ob ein Modell die Ergebnisse für alle Werte eines sensiblen Attributs sowohl für die positive Klasse als auch für die negative Klasse gleich gut vorhersagt – nicht nur für eine oder die andere Klasse. Mit anderen Worten: Sowohl die Richtig-Positiv-Rate als auch die Falsch-Negativ-Rate sollten für alle Gruppen gleich sein.

Die Chancenausgleichung ist mit der Chancengleichheit verwandt, bei der nur die Fehlerraten für eine einzelne Klasse (positiv oder negativ) berücksichtigt werden.

Angenommen, die Glubbdubdrib University nimmt sowohl Liliputaner als auch Brobdingnagier in ein anspruchsvolles Mathematikprogramm auf. Die weiterführenden Schulen der Lilliputaner bieten ein umfangreiches Mathematikcurriculum und die überwiegende Mehrheit der Schüler ist für das Universitätsprogramm qualifiziert. In den weiterführenden Schulen von Brobdingnag werden keine Mathematikkurse angeboten. Daher sind viel weniger Schüler und Studenten qualifiziert. Die Chancengleichheit ist gegeben, wenn unabhängig davon, ob ein Bewerber ein Liliputaner oder ein Riese ist, seine Chancen, in das Programm aufgenommen zu werden, gleich hoch sind, wenn er qualifiziert ist, und seine Chancen, abgelehnt zu werden, gleich hoch sind, wenn er nicht qualifiziert ist.

Angenommen, 100 Lilliputaner und 100 Brobdingnagier bewerben sich an der Glubbdubdrib-Universität und die Zulassungsentscheidungen werden so getroffen:

Tabelle 3 Lilliputaner (90% sind qualifiziert)

  Qualifiziert Unqualifiziert
Zugelassen 45 2
Abgelehnt 45 8
Gesamt 90 10
Prozentsatz der zugelassenen qualifizierten Schüler: 45/90 = 50%
Prozentsatz der abgelehnten nicht qualifizierten Schüler: 8/10 = 80%
Gesamtprozentsatz der zugelassenen Schüler aus Liliput: (45 + 2)/100 = 47%

 

Tabelle 4 Brobdingnagian-Bewerber (10% sind qualifiziert):

  Qualifiziert Unqualifiziert
Zugelassen 5 18
Abgelehnt 5 72
Gesamt 10 90
Prozentsatz der zugelassenen qualifizierten Studenten: 5/10 = 50%
Prozentsatz der abgelehnten nicht qualifizierten Studenten: 72/90 = 80%
Gesamtprozentsatz der zugelassenen Brobdingnag-Studenten: (5 + 18)/100 = 23%

Die Chancen sind ausgeglichen, da qualifizierte Lilliputaner und Brobdingnagische Studenten jeweils eine 50-prozentige Chance haben, zugelassen zu werden, und unqualifizierte Lilliputaner und Brobdingnagische Studenten eine 80-prozentige Chance haben, abgelehnt zu werden.

Der Begriff „gleiche Chancen“ wird in „Gleichbehandlung bei der Chancengerechtigkeit im Supervised Learning“ wie folgt definiert: „Der Prädiktor Ŷ erfüllt die Gleichbehandlung der Chancen in Bezug auf das geschützte Attribut A und das Ergebnis Y, wenn Ŷ und A unabhängig sind, bedingt durch Y.“

evals

#language
#generativeAI
#Messwert

Wird hauptsächlich als Abkürzung für LLM-Bewertungen verwendet. Im weiteren Sinne ist evals eine Abkürzung für jede Form der Bewertung.

Evaluierung

#language
#generativeAI
#Messwert

Prozess, bei dem die Qualität eines Modells gemessen oder verschiedene Modelle miteinander verglichen werden.

Um ein Modell für beaufsichtigtes maschinelles Lernen zu bewerten, wird es in der Regel anhand eines Validierungs-Sets und eines Test-Sets beurteilt. Die Bewertung eines LLM umfassen in der Regel umfassendere Qualität- und Sicherheitsbewertungen.

F

F1

#Messwert

Ein zusammengefasster Messwert für die binäre Klassifizierung, der sowohl auf Precision als auch auf Recall basiert. Hier ist die Formel:

F1=2 * precision * recallprecision + recall

Angenommen, Genauigkeit und Trefferquote haben die folgenden Werte:

  • precision = 0.6
  • recall = 0.4

F1 wird so berechnet:

F1=2 * 0.6 * 0.40.6 + 0.4=0.48

Wenn Genauigkeit und Trefferquote ziemlich ähnlich sind (wie im vorherigen Beispiel), liegt der F1 nahe an ihrem Mittelwert. Wenn sich Precision und Recall deutlich unterscheiden, liegt der F1-Wert näher am niedrigeren Wert. Beispiel:

  • precision = 0.9
  • recall = 0.1
F1=2 * 0.9 * 0.10.9 + 0.1=0.18

Fairnessmesswert

#fairness
#Messwert

Eine mathematische Definition von „Fairness“, die messbar ist. Zu den gängigen Fairnessmesswerten gehören:

Viele Fairnessmesswerte schließen sich gegenseitig aus. Weitere Informationen finden Sie unter Inkompatibilität von Fairnessmesswerten.

Falsch negativ (FN)

#fundamentals
#Messwert

Ein Beispiel, in dem das Modell fälschlicherweise die negative Klasse vorhersagt. Angenommen, das Modell sagt vorher, dass eine bestimmte E-Mail kein Spam (die negative Klasse) ist, aber diese E-Mail ist tatsächlich Spam.

Rate falsch negativer Ergebnisse

#Messwert

Der Anteil der tatsächlich positiven Beispiele, für die das Modell fälschlicherweise die negative Klasse vorhergesagt hat. Mit der folgenden Formel wird die Rate für falsch-negative Ergebnisse berechnet:

false negative rate=false negativesfalse negatives+true positives

Weitere Informationen finden Sie im Machine Learning Crash Course unter Grenzwerte und die Fehlermatrix.

Falsch positiv (FP)

#fundamentals
#Messwert

Ein Beispiel, in dem das Modell fälschlicherweise die positive Klasse vorhersagt. Angenommen, das Modell sagt vorher, dass eine bestimmte E-Mail-Nachricht Spam (die positive Klasse) ist, sie ist aber eigentlich kein Spam.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Grenzwerte und die Fehlermatrix.

Rate falsch positiver Ergebnisse (False Positive Rate, FPR)

#fundamentals
#Messwert

Der Anteil der tatsächlich negativen Beispiele, für die das Modell fälschlicherweise die positive Klasse vorhergesagt hat. Mit der folgenden Formel wird die Rate der Falsch-Positiv-Ergebnisse berechnet:

false positive rate=false positivesfalse positives+true negatives

Die Rate falsch positiver Ergebnisse ist die x-Achse einer ROC-Kurve.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Klassifizierung: ROC und AUC.

Featurewichtigkeiten

#df
#Messwert

Synonym für Variablenbewertungen.

Anteil der positiven Ergebnisse

#generativeAI
#Messwert

Ein Messwert zur Bewertung des generierten Texts eines ML-Modells. Der Anteil der erfolgreichen Ergebnisse ist die Anzahl der „erfolgreichen“ generierten Textausgaben geteilt durch die Gesamtzahl der generierten Textausgaben. Wenn ein Large Language Model beispielsweise 10 Codeblöcke generiert, von denen fünf erfolgreich waren, beträgt der Anteil der erfolgreichen Blöcke 50%.

Obwohl der Anteil der Erfolge in der Statistik allgemein nützlich ist, ist dieser Messwert in der ML hauptsächlich für die Messung überprüfbarer Aufgaben wie Codegenerierung oder Mathematikprobleme geeignet.

G

Gini-Impurität

#df
#Messwert

Ein Messwert, der der Entropie ähnelt. Splitter verwenden Werte, die entweder aus der Gini-Unreinheit oder der Entropie abgeleitet wurden, um Bedingungen für die Klassifizierung in Entscheidungsbäumen zu erstellen. Der Informationsgewinn leitet sich von der Entropie ab. Es gibt keinen allgemein akzeptierten Begriff für den Messwert, der aus der Gini-Unreinheit abgeleitet wird. Dieser unbenannte Messwert ist jedoch genauso wichtig wie der Informationsgewinn.

Die Gini-Unreinheit wird auch als Gini-Index oder einfach Gini bezeichnet.

Die Gini-Unreinheit ist die Wahrscheinlichkeit, dass ein neues Datenelement aus derselben Verteilung falsch klassifiziert wird. Die Gini-Unreinheit eines Satzes mit zwei möglichen Werten „0“ und „1“ (z. B. die Labels in einem binären Klassifizierungsproblem) wird anhand der folgenden Formel berechnet:

   I = 1 – (p2 + q2) = 1 – (p2 + (1 – p)2)

Dabei gilt:

  • I ist die Gini-Unreinheit.
  • p ist der Bruchteil der Beispiele mit „1“.
  • q ist der Anteil der Beispiele mit „0“. Beachten Sie, dass q = 1-p

Betrachten Sie beispielsweise den folgenden Datensatz:

  • 100 Labels (0,25 des Datenbestands) enthalten den Wert „1“.
  • 300 Labels (0,75 des Datensatzes) enthalten den Wert „0“.

Daher ist die Gini-Unreinheit:

  • p = 0,25
  • q = 0,75
  • I = 1 − (0,25 × 2 + 0,75 × 2) = 0,375

Folglich besteht für ein zufälliges Label aus demselben Datensatz eine Wahrscheinlichkeit von 37,5 %, dass es falsch klassifiziert wird, und eine Wahrscheinlichkeit von 62,5 %, dass es richtig klassifiziert wird.

Ein perfekt ausgewogenes Label (z. B. 200 „0“ und 200 „1“) hat eine Gini-Unreinheit von 0, 5. Ein Label mit stark ungleicher Verteilung hat eine Gini-Unreinheit nahe 0,0.


H

Scharnierverlust

#Messwert

Eine Familie von Verlustfunktionen für die Klassifizierung, die entwickelt wurden, um die Entscheidungsgrenze so weit wie möglich von jedem Trainingsbeispiel entfernt zu finden und so den Abstand zwischen den Beispielen und der Grenze zu maximieren. KSVMs verwenden den Scharnierverlust (oder eine ähnliche Funktion wie den quadratischen Scharnierverlust). Für die binäre Klassifizierung ist die Scharnierverlustfunktion so definiert:

loss=max(0,1(yy))

wobei y das wahre Label ist, entweder -1 oder +1, und y' die Rohausgabe des Klassifizierungsmodells:

y=b+w1x1+w2x2+wnxn

Daher sieht ein Diagramm mit dem Achsenabstand im Vergleich zu (y * y') so aus:

Ein kartesisches Diagramm aus zwei verbundenen Liniensegmenten. Das erste Liniensegment beginnt bei (-3, 4) und endet bei (1, 0). Das zweite Liniensegment beginnt bei (1, 0) und verläuft mit einer Steigung von 0 endlos weiter.

I

Inkompatibilität von Fairnessmesswerten

#fairness
#Messwert

Die Vorstellung, dass einige Vorstellungen von Fairness sich gegenseitig ausschließen und nicht gleichzeitig erfüllt werden können. Daher gibt es keinen einzigen universellen Messwert zur Quantifizierung von Fairness, der auf alle ML-Probleme angewendet werden kann.

Das mag entmutigend erscheinen, aber die Inkompatibilität von Fairnessmesswerten bedeutet nicht, dass Bemühungen um Fairness vergeblich sind. Stattdessen wird vorgeschlagen, dass Fairness für ein bestimmtes ML-Problem kontextbezogen definiert werden muss, um Schäden zu vermeiden, die für die Anwendungsfälle spezifisch sind.

Eine ausführlichere Erläuterung der Inkompatibilität von Fairness-Messwerten finden Sie unter On the (im)possibility of fairness (Zur (Un-)Möglichkeit von Fairness).

Fairness für Einzelpersonen

#fairness
#Messwert

Ein Fairness-Messwert, der prüft, ob ähnliche Personen ähnlich klassifiziert werden. Die Brobdingnagian Academy möchte beispielsweise für individuelle Fairness sorgen, indem sie dafür sorgt, dass zwei Schüler mit identischen Noten und standardisierten Testergebnissen mit gleicher Wahrscheinlichkeit eine Zulassung erhalten.

Die individuelle Fairness hängt vollständig davon ab, wie Sie „Ähnlichkeit“ definieren (in diesem Fall Noten und Testergebnisse). Wenn Ihr Ähnlichkeitsmesswert wichtige Informationen (z. B. den Grad der Strenge des Lehrplans eines Schülers) nicht berücksichtigt, besteht die Gefahr, dass neue Fairnessprobleme auftreten.

Eine ausführlichere Erläuterung der individuellen Fairness finden Sie unter Fairness durch Transparenz.

Informationsgewinn

#df
#Messwert

In Entscheidungswäldern ist dies der Unterschied zwischen der Entropie eines Knotens und der gewichteten (nach Anzahl der Beispiele) Summe der Entropie seiner untergeordneten Knoten. Die Entropie eines Knotens ist die Entropie der Beispiele in diesem Knoten.

Betrachten Sie beispielsweise die folgenden Entropiewerte:

  • Entropie des übergeordneten Knotens = 0,6
  • Entropie eines untergeordneten Knotens mit 16 relevanten Beispielen = 0,2
  • Entropie eines anderen untergeordneten Knotens mit 24 relevanten Beispielen = 0,1

40% der Beispiele befinden sich also in einem untergeordneten Knoten und 60% im anderen untergeordneten Knoten. Beispiele:

  • Gewichtete Entropiesumme der untergeordneten Knoten = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Der Informationsgewinn ist also:

  • Informationsgewinn = Entropie des übergeordneten Knotens – gewichtete Entropiesumme der untergeordneten Knoten
  • Informationsgewinn = 0,6 − 0,14 = 0,46

Die meisten Splitter sollen Bedingungen schaffen, die den Informationsgewinn maximieren.

Interrater-Übereinstimmung

#Messwert

Eine Messung, wie oft menschliche Bewerter bei einer Aufgabe übereinstimmen. Wenn sich die Bewerter nicht einig sind, müssen die Aufgabenanweisungen möglicherweise verbessert werden. Wird auch als Übereinstimmung zwischen den Bearbeitern oder Reliabilität zwischen den Bearbeitern bezeichnet. Siehe auch Cohens Kappa, eine der beliebtesten Maßzahlen für die Übereinstimmung zwischen mehreren Bewertern.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Kategorische Daten: Häufige Probleme.

L

L1-Verlust

#fundamentals
#Messwert

Eine Verlustfunktion, die den absoluten Wert der Differenz zwischen den tatsächlichen Label-Werten und den Werten berechnet, die von einem Modell vorhergesagt werden. Hier ist beispielsweise die Berechnung der L1-Verlustfunktion für einen Batch mit fünf Beispielen:

Tatsächlicher Wert des Beispiels Der prognostizierte Wert des Modells Absolutwert von Delta
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = Niederlage 1

Der L1-Verlust ist weniger empfindlich gegenüber Ausreißern als der L2-Verlust.

Der mittlere absolute Fehler ist der durchschnittliche L1-Verlust pro Beispiel.

L1loss=ni=0|yiˆyi|

Dabei gilt:
  • n ist die Anzahl der Beispiele.
  • „y“ ist der tatsächliche Wert des Labels.
  • ˆy ist der Wert, den das Modell für y vorhersagt.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Lineare Regression: Verlustfunktion.

L2-Verlust

#fundamentals
#Messwert

Eine Verlustfunktion, die das Quadrat der Differenz zwischen den tatsächlichen Label-Werten und den Werten berechnet, die von einem Modell vorhergesagt werden. Hier ist beispielsweise die Berechnung der L2-Verlustfunktion für einen Batch mit fünf Beispielen:

Tatsächlicher Wert des Beispiels Der prognostizierte Wert des Modells Quadrat von Delta
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = L2 – Niederlage

Durch die Quadratwurzel wird der Einfluss von Ausreißern durch L2-Verlust verstärkt. Das heißt, der L2-Verlust reagiert stärker auf schlechte Vorhersagen als der L1-Verlust. Beispielsweise würde der L1-Verlust für den vorherigen Batch 8 statt 16 betragen. Beachten Sie, dass ein einzelner Ausreißer 9 der 16 Werte ausmacht.

Bei Regressionsmodellen wird in der Regel die L2-Verlustfunktion als Verlustfunktion verwendet.

Der mittlere quadratische Fehler ist der durchschnittliche L2-Verlust pro Beispiel. Quadratischer Verlust ist ein anderer Name für den L2-Verlust.

L2loss=ni=0(yiˆyi)2

Dabei gilt:
  • n ist die Anzahl der Beispiele.
  • „y“ ist der tatsächliche Wert des Labels.
  • ˆy ist der Wert, den das Modell für y vorhersagt.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Logistische Regression: Verlustfunktion und Regularisierung.

LLM-Bewertungen (evals)

#language
#generativeAI
#Messwert

Eine Reihe von Messwerten und Benchmarks zur Bewertung der Leistung von Large Language Models (LLMs). LLM-Bewertungen bieten folgende Vorteile:

  • Sie helfen Forschern, Bereiche zu identifizieren, in denen LLMs verbessert werden müssen.
  • Sie sind nützlich, um verschiedene LLMs zu vergleichen und das beste LLM für eine bestimmte Aufgabe zu ermitteln.
  • Sie tragen dazu bei, dass LLMs sicher und ethisch eingesetzt werden.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Large Language Models (LLMs).

Niederlage

#fundamentals
#Messwert

Während des Trainings eines überwachten Modells gibt an, wie weit die Vorhersage eines Modells von seinem Label entfernt ist.

Mit einer Verlustfunktion wird der Verlust berechnet.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Lineare Regression: Verlustfunktion.

Verlustfunktion

#fundamentals
#Messwert

Eine mathematische Funktion, die während des Trainings oder Tests den Verlust für einen Batch von Beispielen berechnet. Eine Verlustfunktion gibt für Modelle, die gute Vorhersagen treffen, einen geringeren Verlust zurück als für Modelle, die schlechte Vorhersagen treffen.

Das Ziel des Trainings besteht in der Regel darin, den Verlust zu minimieren, der von einer Verlustfunktion zurückgegeben wird.

Es gibt viele verschiedene Arten von Verlustfunktionen. Wählen Sie die geeignete Verlustfunktion für die Art des Modells aus, das Sie erstellen. Beispiel:

M

Mittlerer absoluter Fehler (MAE)

#Messwert

Der durchschnittliche Verlust pro Beispiel bei Verwendung von L1-Verlust. So berechnen Sie den mittleren absoluten Fehler:

  1. L1-Verlust für einen Batch berechnen
  2. Teilen Sie den L1-Verlust durch die Anzahl der Beispiele im Batch.

Mean Absolute Error=1nni=0|yiˆyi|

Dabei gilt:

  • n ist die Anzahl der Beispiele.
  • „y“ ist der tatsächliche Wert des Labels.
  • ˆy ist der Wert, den das Modell für y vorhersagt.

Betrachten Sie beispielsweise die Berechnung des L1-Verlusts für die folgenden fünf Beispiele:

Tatsächlicher Wert des Beispiels Der prognostizierte Wert des Modells Verlust (Differenz zwischen tatsächlichem und prognostiziertem Wert)
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = Niederlage 1

Der L1-Verlust ist also 8 und die Anzahl der Beispiele ist 5. Der mittlere absolute Fehler ist daher:

Mean Absolute Error = L1 loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

Vergleichen Sie den mittleren absoluten Fehler mit der mittleren quadratischen Abweichung und der Wurzel der mittleren Fehlerquadratsumme.

Mittlere durchschnittliche Precision bei k (mAP@k)

#language
#generativeAI
#Messwert

Der statistische Mittelwert aller durchschnittlichen Precision bei k-Werte in einem Validierungsdatensatz. Die mittlere durchschnittliche Präzision bei k kann beispielsweise verwendet werden, um die Qualität der Empfehlungen zu beurteilen, die von einem Empfehlungssystem generiert werden.

Auch wenn der Ausdruck „durchschnittlicher Mittelwert“ redundant klingt, ist der Name des Messwerts angemessen. Schließlich wird mit diesem Messwert der Mittelwert mehrerer durchschnittlicher Precision bei k berechnet.

Angenommen, Sie erstellen ein Empfehlungssystem, das für jeden Nutzer eine personalisierte Liste mit empfohlenen Romanen generiert. Anhand des Feedbacks ausgewählter Nutzer berechnen Sie die folgenden fünf durchschnittlichen Präzisierungen bei K-Werten (ein Wert pro Nutzer):

  • 0,73
  • 0,77
  • 0,67
  • 0,82
  • 0,76

Die durchschnittliche durchschnittliche Precision bei K ist daher:

mean =0.73 + 0.77 + 0.67 + 0.82 + 0.765=0.75

Mittlere quadratische Abweichung (MSE)

#Messwert

Der durchschnittliche Verlust pro Beispiel bei Verwendung von L2-Verlust. Berechnen Sie die mittlere quadratische Abweichung so:

  1. L2-Verlust für einen Batch berechnen
  2. Dividieren Sie den L2-Verlust durch die Anzahl der Beispiele im Batch.
Mean Squared Error=1nni=0(yiˆyi)2 wobei:
  • n ist die Anzahl der Beispiele.
  • „y“ ist der tatsächliche Wert des Labels.
  • ˆy ist die Vorhersage des Modells für y.

Betrachten Sie beispielsweise den Verlust für die folgenden fünf Beispiele:

Tatsächlicher Wert Modellvorhersage Verlust Quadratische Abweichung
7 6 1 1
5 4 1 1
8 11 3 9
4 6 2 4
9 8 1 1
16 = L2 – Niederlage

Die mittlere quadratische Abweichung ist daher:

Mean Squared Error = L2 loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

Der mittlere quadratische Fehler ist ein beliebter Optimierungsalgorithmus, insbesondere für die lineare Regression.

Vergleichen Sie die mittlere quadratische Abweichung mit dem mittleren absoluten Fehler und der Wurzel der mittleren Fehlerquadratsumme.

Im TensorFlow Playground werden Verlustwerte anhand der mittleren Fehlerquadratsumme berechnet.

Außerhalb der Norm liegende Werte beeinflussen die mittlere quadratische Abweichung stark. Ein Verlust von 1 entspricht beispielsweise einem quadrierten Verlust von 1, während ein Verlust von 3 einem quadrierten Verlust von 9 entspricht. In der Tabelle oben macht das Beispiel mit einem Verlust von 3 etwa 56% des durchschnittlichen quadratischen Fehlers aus, während jedes der Beispiele mit einem Verlust von 1 nur 6% des durchschnittlichen quadratischen Fehlers ausmacht.

Ausreißer wirken sich auf den mittleren absoluten Fehler nicht so stark aus wie auf den mittleren quadratischen Fehler. Ein Verlust von drei Konten macht beispielsweise nur etwa 38% des mittleren absoluten Fehlers aus.

Mit dem Ausbschneiden können Sie verhindern, dass extreme Ausreißer die Vorhersagefähigkeit Ihres Modells beeinträchtigen.


Messwert

#TensorFlow
#Messwert

Eine Statistik, die Ihnen wichtig ist.

Ein Ziel ist ein Messwert, den ein System für maschinelles Lernen zu optimieren versucht.

Metrics API (tf.metrics)

#Messwert

Eine TensorFlow API zum Bewerten von Modellen. Mit tf.metrics.accuracy wird beispielsweise ermittelt, wie oft die Vorhersagen eines Modells mit Labels übereinstimmen.

Minimax-Verlust

#Messwert

Eine Verlustfunktion für generative Adversarial Networks, die auf der Kreuzentropie zwischen der Verteilung der generierten Daten und der der tatsächlichen Daten basiert.

Der Minimax-Verlust wird im ersten Artikel zur Beschreibung generativer Adversarial Networks verwendet.

Weitere Informationen finden Sie im Kurs „Generative Adversarial Networks“ unter Verlustfunktionen.

Modellkapazität

#Messwert

Die Komplexität der Probleme, die ein Modell lernen kann. Je komplexer die Probleme sind, die ein Modell lernen kann, desto höher ist die Kapazität des Modells. Die Kapazität eines Modells steigt in der Regel mit der Anzahl der Modellparameter. Eine formale Definition der Klassifikatorkapazität finden Sie unter VC-Dimension.

N

Negative Klasse

#fundamentals
#Messwert

Bei der binären Klassifizierung wird eine Klasse als positiv und die andere als negativ bezeichnet. Die positive Klasse ist das Objekt oder Ereignis, auf das das Modell getestet wird, und die negative Klasse ist die andere Möglichkeit. Beispiel:

  • Die negative Klasse in einem medizinischen Test könnte „kein Tumor“ sein.
  • Die negative Klasse in einem E-Mail-Klassifikator könnte „Kein Spam“ sein.

Im Gegensatz zur positiven Klasse.

O

Ziel

#Messwert

Ein Messwert, den Ihr Algorithmus optimieren soll.

Zielfunktion

#Messwert

Die mathematische Formel oder der Messwert, der mit einem Modell optimiert werden soll. Die Zielfunktion für die lineare Regression ist beispielsweise in der Regel der mittlere quadratische Verlust. Beim Training eines linearen Regressionsmodells wird daher der mittlere quadratische Verlust minimiert.

In einigen Fällen besteht das Ziel darin, die Zielfunktion zu maximieren. Wenn die Zielfunktion beispielsweise die Genauigkeit ist, besteht das Ziel darin, die Genauigkeit zu maximieren.

Siehe auch Verlust.

P

pass at k (pass@k)

#Messwert

Ein Messwert zur Bestimmung der Qualität von Code (z. B. Python), der von einem Large Language Model generiert wird. Genauer gesagt gibt „Pass bei k“ an, wie wahrscheinlich es ist, dass mindestens ein generierter Codeblock von k generierten Codeblöcken alle Einheitentests besteht.

Large Language Models haben oft Schwierigkeiten, guten Code für komplexe Programmierprobleme zu generieren. Softwareentwickler reagieren auf dieses Problem, indem sie das Large Language Model auffordern, mehrere (k) Lösungen für dasselbe Problem zu generieren. Anschließend testen Softwareentwickler jede der Lösungen mithilfe von Unit-Tests. Die Berechnung von „pass“ bei k hängt vom Ergebnis der Unit-Tests ab:

  • Wenn eine oder mehrere dieser Lösungen den Unit-Test bestehen, besteht der LLM diese Codegenerierungsaufgabe.
  • Wenn keine der Lösungen den Unit-Test besteht, scheitert der LLM bei dieser Codegenerierungsaufgabe.

Die Formel für den Durchgang bei k lautet:

pass at k=total number of passestotal number of challenges

Im Allgemeinen führen höhere Werte von k zu höheren „bei k“-Werten. Höhere Werte von k erfordern jedoch mehr Ressourcen für Large Language Models und Unit-Tests.

Angenommen, ein Softwareentwickler bittet ein Large Language Model, k=10 Lösungen für n=50 anspruchsvolle Programmierprobleme zu generieren. Das sind die Ergebnisse:

  • 30 Karten/Tickets
  • 20 Fehler

Die bestandene Punktzahl bei 10 Punkten ist daher:

pass at 10=3050=0.6

Leistung

#Messwert

Überladener Begriff mit den folgenden Bedeutungen:

  • Die Standardbedeutung im Softwareentwicklungsprozess. Konkret: Wie schnell (oder effizient) läuft diese Software?
  • Die Bedeutung im Zusammenhang mit maschinellem Lernen. Hier beantwortet die Leistung die folgende Frage: Wie korrekt ist dieses Modell? Das heißt: Wie gut sind die Vorhersagen des Modells?

Bewertung von Variablen durch Permutation

#df
#Messwert

Eine Art der Variablenbewertung, bei der die Zunahme des Vorhersagefehlers eines Modells nach der Permutation der Werte des Features bewertet wird. Die Permutationsvariablenbewertung ist ein modellunabhängiger Messwert.

Perplexity

#Messwert

Ein Maß dafür, wie gut ein Modell seine Aufgabe erfüllt. Angenommen, Sie sollen die ersten Buchstaben eines Wortes lesen, das ein Nutzer auf der Tastatur eines Smartphones eingibt, und eine Liste mit möglichen Wortvervollständigungen anbieten. Die Unklarheit, P, für diese Aufgabe entspricht ungefähr der Anzahl der Vermutungen, die Sie angeben müssen, damit Ihre Liste das tatsächliche Wort enthält, das der Nutzer eingeben möchte.

Die Unklarheit hängt so mit der Kreuzentropie zusammen:

P=2cross entropy

Positive Klasse

#fundamentals
#Messwert

Die Klasse, für die Sie testen.

Die positive Klasse in einem Krebsmodell könnte beispielsweise „Tumor“ sein. Die positive Klasse in einem E-Mail-Klassifikator könnte „Spam“ sein.

Im Gegensatz zur negativen Klasse.

Der Begriff positive Klasse kann verwirrend sein, da das „positive“ Ergebnis vieler Tests oft ein unerwünschtes Ergebnis ist. Die positive Klasse in vielen medizinischen Tests entspricht beispielsweise Tumoren oder Krankheiten. Im Allgemeinen möchten Sie, dass ein Arzt Ihnen sagt: „Herzlichen Glückwunsch! Ihre Testergebnisse waren negativ.“ Unabhängig davon ist die positive Klasse das Ereignis, das mit dem Test gefunden werden soll.

Zugegeben, Sie testen gleichzeitig sowohl die positiven als auch die negativen Klassen.


PR AUC (Fläche unter der PR-Kurve)

#Messwert

Fläche unter der interpolierten Genauigkeits-/Trefferquotenkurve, die durch Zeichnen von Punkten (Trefferquote, Genauigkeit) für verschiedene Werte des Klassifizierungsgrenzwerts ermittelt wird.

Precision

#Messwert

Messwert für Klassifizierungsmodelle, der die folgende Frage beantwortet:

Wie hoch war der Prozentsatz der korrekten Vorhersagen, als das Modell die positive Klasse vorhersagte?

Hier ist die Formel:

Precision=true positivestrue positives+false positives

Dabei gilt:

  • „Richtig positiv“ bedeutet, dass das Modell die positive Klasse richtig vorhergesagt hat.
  • „Falsch positiv“ bedeutet, dass das Modell die positive Klasse fälschlicherweise vorhergesagt hat.

Angenommen, ein Modell hat 200 positive Vorhersagen getroffen. Von diesen 200 positiven Vorhersagen:

  • 150 waren richtig positiv.
  • 50 davon waren falsch positive Ergebnisse.

In diesem Fall gilt:

Precision=150150+50=0.75

Im Gegensatz zu Genauigkeit und Recall.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Klassifizierung: Genauigkeit, Rückruf, Präzision und zugehörige Messwerte.

Precision bei k (precision@k)

#language
#Messwert

Ein Messwert zur Auswertung einer sortierten (geordneten) Liste von Elementen. Die Genauigkeit bei k gibt den Anteil der ersten k Elemente in dieser Liste an, die „relevant“ sind. Das bedeutet:

precision at k=relevant items in first k items of the listk

Der Wert von k muss kleiner oder gleich der Länge der zurückgegebenen Liste sein. Die Länge der zurückgegebenen Liste ist nicht Teil der Berechnung.

Die Relevanz ist oft subjektiv. Selbst menschliche Prüfer sind sich oft nicht einig, welche Elemente relevant sind.

Vergleichen mit:

Angenommen, einem Large Language Model wird die folgende Suchanfrage gestellt:

List the 6 funniest movies of all time in order.

Das Large Language Model gibt die Liste zurück, die in den ersten beiden Spalten der folgenden Tabelle zu sehen ist:

Position Film Relevant?
1 Der General Ja
2 Mean Girls Ja
3 Platoon Nein
4 Brautalarm Ja
5 Citizen Kane Nein
6 Das ist Spinal Tap Ja

Zwei der ersten drei Filme sind relevant. Die Genauigkeit bei 3 ist daher:

precision at 3=23=0.67

Vier der ersten fünf Filme sind sehr lustig. Die Genauigkeit bei 5 ist daher:

precision at 5=45=0.8

Precision-/Recall-Kurve

#Messwert

Eine Kurve der Genauigkeit im Vergleich zur Trefferquote bei verschiedenen Klassifizierungsgrenzwerten.

Prognosefehler

#Messwert

Ein Wert, der angibt, wie weit der Durchschnitt der Vorhersagen vom Durchschnitt der Labels im Datensatz abweicht.

Nicht zu verwechseln mit dem Begriff „Bias“ in Machine-Learning-Modellen oder mit Voreingenommenheit in Bezug auf Ethik und Fairness.

Prognoseparität

#fairness
#Messwert

Ein Fairness-Messwert, mit dem geprüft wird, ob die Genauigkeitsraten für einen bestimmten Klassifikator für die betrachteten Untergruppen gleich sind.

Ein Modell, das die Zulassung an einer Hochschule vorhersagt, erfüllt beispielsweise die Vorhersageparität für die Nationalität, wenn die Präzision für Lilliputaner und Brobdingnagier gleich ist.

Die Prognoseparität wird manchmal auch als Prognosepreisparität bezeichnet.

Eine ausführlichere Erläuterung der Vorhersageparität finden Sie unter Definitionen von Fairness (Abschnitt 3.2.1).

Prognosebasierte Preisparität

#fairness
#Messwert

Ein anderer Name für vorhersagende Parität.

Wahrscheinlichkeitsdichtefunktion

#Messwert

Eine Funktion, mit der die Häufigkeit von Datenstichproben ermittelt wird, die genau einen bestimmten Wert haben. Wenn die Werte eines Datensatzes kontinuierliche Gleitkommazahlen sind, kommt es selten zu genauen Übereinstimmungen. Wenn Sie jedoch eine Wahrscheinlichkeitsdichtefunktion von Wert x bis Wert y integrieren, erhalten Sie die erwartete Häufigkeit von Datenstichproben zwischen x und y.

Angenommen, Sie haben eine Normalverteilung mit einem Mittelwert von 200 und einer Standardabweichung von 30. Um die erwartete Häufigkeit von Stichproben im Bereich von 211,4 bis 218,7 zu bestimmen, können Sie die Wahrscheinlichkeitsdichtefunktion für eine Normalverteilung von 211,4 bis 218,7 integrieren.

R

Rückruf

#Messwert

Messwert für Klassifizierungsmodelle, der die folgende Frage beantwortet:

Wenn die Grundwahrheit die positive Klasse war, welcher Prozentsatz der Vorhersagen wurde vom Modell korrekt als positive Klasse identifiziert?

Hier ist die Formel:

Recall=true positivestrue positives+false negatives

Dabei gilt:

  • „Richtig positiv“ bedeutet, dass das Modell die positive Klasse richtig vorhergesagt hat.
  • „Falsch negativ“ bedeutet, dass das Modell fälschlicherweise die negative Klasse vorhergesagt hat.

Angenommen, Ihr Modell hat 200 Vorhersagen für Beispiele gemacht, bei denen die Grundwahrheit die positive Klasse war. Von diesen 200 Vorhersagen:

  • 180 waren richtig positiv.
  • 20 waren falsch negativ.

In diesem Fall gilt:

Recall=180180+20=0.9

Der Rückruf ist besonders nützlich, um die Vorhersagekraft von Klassifizierungsmodellen zu bestimmen, bei denen die positive Klasse selten ist. Angenommen, Sie haben einen ungleichgewichtigen Datensatz, in dem die positive Klasse für eine bestimmte Krankheit nur bei 10 von einer Million Patienten auftritt. Angenommen, Ihr Modell trifft fünf Millionen Vorhersagen, die zu den folgenden Ergebnissen führen:

  • 30 richtig positive Ergebnisse
  • 20 falsch negative Ergebnisse
  • 4.999.000 richtig negative Ergebnisse
  • 950 Falsch positive Ergebnisse

Die Rückrufquote dieses Modells beträgt daher:

recall = TP / (TP + FN)
recall = 30 / (30 + 20) = 0.6 = 60%
Die Genauigkeit dieses Modells ist dagegen:
accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (30 + 4,999,000) / (30 + 4,999,000 + 950 + 20) = 99.98%

Dieser hohe Wert für die Genauigkeit sieht beeindruckend aus, ist aber im Grunde bedeutungslos. Die Trefferquote ist für Datensätze mit ungleicher Klassenverteilung ein viel nützlicherer Messwert als die Genauigkeit.


Weitere Informationen finden Sie unter Klassifizierung: Genauigkeit, Recall, Precision und zugehörige Messwerte.

Recall bei k (recall@k)

#language
#Messwert

Ein Messwert zur Bewertung von Systemen, die eine sortierte (geordnete) Liste von Elementen ausgeben. Der Recall bei k gibt den Anteil der relevanten Elemente in den ersten k Elementen dieser Liste an, bezogen auf die Gesamtzahl der zurückgegebenen relevanten Elemente.

recall at k=relevant items in first k items of the listtotal number of relevant items in the list

Im Gegensatz zur Precision bei k.

Angenommen, einem Large Language Model wird die folgende Abfrage gestellt:

List the 10 funniest movies of all time in order.

Das Large Language Model gibt die Liste in den ersten beiden Spalten zurück:

Position Film Relevant?
1 Der General Ja
2 Mean Girls Ja
3 Platoon Nein
4 Brautalarm Ja
5 Das ist Spinal Tap Ja
6 Flugzeug! Ja
7 Groundhog Day Ja
8 Die Ritter der KokosnußJa
9 Oppenheimer Nein
10 Clueless – Was sonst! Ja

Acht der Filme in der Liste oben sind sehr lustig und gehören daher zu den „relevanten Elementen in der Liste“. Daher ist 8 der Nenner bei allen Berechnungen der Wiedererkennung bei k. Was ist mit dem Nenner? Nun, 3 der ersten 4 Elemente sind relevant. Daher lautet die Antwort bei 4:

recall at 4=38=0.375

Sieben der ersten acht Filme sind sehr lustig. Denken Sie also bei 8 an:

recall at 8=78=0.875

ROC-Kurve (Receiver Operating Curve)

#fundamentals
#Messwert

Ein Diagramm der Rate richtig positiver Ergebnisse im Vergleich zur Rate falsch positiver Ergebnisse für verschiedene Klassifizierungsschwellenwerte bei der binären Klassifizierung.

Die Form einer ROC-Kurve gibt Aufschluss darüber, wie gut ein binäres Klassifizierungsmodell positive Klassen von negativen Klassen unterscheiden kann. Angenommen, ein binäres Klassifizierungsmodell trennt alle negativen Klassen perfekt von allen positiven Klassen:

Eine Zahlenlinie mit 8 positiven Beispielen auf der rechten Seite und 7 negativen Beispielen auf der linken Seite.

Die ROC-Kurve für das vorherige Modell sieht so aus:

Eine ROC-Kurve. Die X-Achse ist die Rate falsch positiver Ergebnisse und die Y-Achse die Rate richtig positiver Ergebnisse. Die Kurve hat die Form eines umgekehrten L. Die Kurve beginnt bei (0.0,0.0) und geht direkt nach oben zu (0.0,1.0). Die Kurve verläuft dann von (0.0,1.0) nach (1.0,1.0).

Im Gegensatz dazu zeigt die folgende Abbildung die Rohwerte der logistischen Regression für ein schlechtes Modell, das negative Klassen überhaupt nicht von positiven Klassen unterscheiden kann:

Eine Zahlenlinie, auf der positive Beispiele und negative Klassen vollständig vermischt sind.

Die ROC-Kurve für dieses Modell sieht so aus:

Eine ROC-Kurve, die eigentlich eine Gerade von (0,0,0) nach (1,0,1) ist.

In der Praxis trennen die meisten binären Klassifizierungsmodelle positive und negative Klassen zwar in gewissem Maße, aber in der Regel nicht perfekt. Eine typische ROC-Kurve liegt also irgendwo zwischen den beiden Extremen:

Eine ROC-Kurve. Die X-Achse ist die Rate falsch positiver Ergebnisse und die Y-Achse die Rate richtig positiver Ergebnisse. Die ROC-Kurve nähert sich einem wackeligen Bogen, der die Kompasspunkte von Westen nach Norden durchläuft.

Der Punkt auf einer ROC-Kurve, der (0,0; 1,0) am nächsten ist, identifiziert theoretisch den idealen Klassifizierungsgrenzwert. Es gibt jedoch mehrere andere reale Probleme, die die Auswahl des idealen Klassifizierungsgrenzwerts beeinflussen. Vielleicht sind falsch negative Ergebnisse beispielsweise viel schlimmer als falsch positive.

Mit dem numerischen Messwert AUC wird die ROC-Kurve in einem einzigen Gleitkommawert zusammengefasst.

Wurzel der mittleren Fehlerquadratsumme (RMSE)

#fundamentals
#Messwert

Die Quadratwurzel der mittleren quadratischen Abweichung.

ROUGE (Recall-Oriented Understudy for Gisting Evaluation)

#language
#Messwert

Eine Reihe von Messwerten zur Bewertung von Modellen für automatische Zusammenfassungen und maschinelle Übersetzung. Mit ROUGE-Messwerten wird der Grad bestimmt, in dem ein Referenztext mit dem generierten Text eines ML-Modells übereinstimmt. Jedes Mitglied der ROUGE-Familie misst Überschneidungen auf unterschiedliche Weise. Je höher der ROUGE-Wert, desto ähnlicher sind der Referenztext und der generierte Text.

Für jedes Mitglied der ROUGE-Familie werden in der Regel die folgenden Messwerte generiert:

  • Precision
  • Recall
  • F1

Weitere Informationen und Beispiele finden Sie unter:

ROUGE-L

#language
#Messwert

Ein Mitglied der ROUGE-Familie, das sich auf die Länge der längsten gemeinsamen Untersequenz im Referenztext und generierten Text konzentriert. Mit den folgenden Formeln werden Recall und Precision für ROUGE-L berechnet:

ROUGE-L recall=longest common sequencenumber of words in the reference text
ROUGE-L precision=longest common sequencenumber of words in the generated text

Mit F1 können Sie die ROUGE-L-Trefferquote und die ROUGE-L-Genauigkeit in einem einzigen Messwert zusammenfassen:

ROUGE-L F1=2ROUGE-L recallROUGE-L precisionROUGE-L recall+ROUGE-L precision
Sehen Sie sich den folgenden Referenztext und den generierten Text an.
Kategorie Wer hat das Video produziert? Text
Referenztext Menschlicher Übersetzer Ich möchte viele verschiedene Dinge verstehen.
Generierter Text ML-Modell Ich möchte viele Dinge lernen.
Daher gilt:
  • Die längste gemeinsame Teilfolge ist 5 (I want to of things).
  • Der Referenztext enthält 9 Wörter.
  • Die Anzahl der Wörter im generierten Text beträgt 7.
Folglich:
ROUGE-L recall=59=0.56
ROUGE-L precision=57=0.71
ROUGE-L F1=20.560.710.56+0.71=0.63

Bei ROUGE-L werden alle Zeilenumbrüche im Referenztext und im generierten Text ignoriert. Die längste gemeinsame Untersequenz kann also mehrere Sätze umfassen. Wenn der Referenztext und der generierte Text mehrere Sätze enthalten, ist eine Variante von ROUGE-L namens ROUGE-Lsum in der Regel ein besserer Messwert. Bei ROUGE-Lsum wird die längste gemeinsame Untersequenz für jeden Satz in einem Abschnitt ermittelt und dann der Mittelwert dieser längsten gemeinsamen Untersequenzen berechnet.

Sehen Sie sich den folgenden Referenztext und den generierten Text an.
Kategorie Wer hat das Video produziert? Text
Referenztext Menschlicher Übersetzer Die Oberfläche des Mars ist trocken. Fast das gesamte Wasser befindet sich tief unter der Erde.
Generierter Text ML-Modell Der Mars hat eine trockene Oberfläche. Der Großteil des Wassers befindet sich jedoch unter der Erde.
Beispiele:
Erster Satz Zweiter Satz
Längste gemeinsame Sequenz2 (Mars trocken) 3 (Wasser ist unterirdisch)
Satzlänge des Referenztexts 6 7
Satzlänge des generierten Texts 5 8
Dies hat folgende Konsequenzen:
recall of first sentence=26=0.33
recall of second sentence=37=0.43
ROUGE-Lsum recall=0.33+0.432=0.38
precision of first sentence=25=0.4
precision of second sentence=38=0.38
ROUGE-Lsum precision=0.4+0.382=0.39
ROUGE-Lsum F1=20.380.390.38+0.39=0.38

ROUGE-N

#language
#Messwert

Eine Reihe von Messwerten innerhalb der ROUGE-Familie, mit denen die gemeinsamen N-Gramme einer bestimmten Größe im Referenztext und im generierten Text verglichen werden. Beispiel:

  • ROUGE-1 misst die Anzahl der gemeinsamen Tokens im Referenztext und im generierten Text.
  • ROUGE-2 misst die Anzahl der gemeinsamen Bigramme (2-Gramme) im Referenztext und im generierten Text.
  • ROUGE-3 misst die Anzahl der gemeinsamen Trigramme (3-Gramme) im Referenztext und im generierten Text.

Mit den folgenden Formeln können Sie die ROUGE-N-Wiedererkennungsrate und die ROUGE-N-Genauigkeit für jedes Mitglied der ROUGE-N-Familie berechnen:

ROUGE-N recall=number of matching N-gramsnumber of N-grams in the reference text
ROUGE-N precision=number of matching N-gramsnumber of N-grams in the generated text

Mit F1 können Sie die ROUGE-N-Trefferquote und die ROUGE-N-Genauigkeit in einem einzigen Messwert zusammenfassen:

ROUGE-N F1=2ROUGE-N recallROUGE-N precisionROUGE-N recall+ROUGE-N precision
Angenommen, Sie möchten mit ROUGE-2 die Effektivität der Übersetzung eines ML-Modells im Vergleich zu der eines menschlichen Übersetzers messen.
Kategorie Wer hat das Video produziert? Text Bigram
Referenztext Menschlicher Übersetzer Ich möchte viele verschiedene Dinge verstehen. Ich möchte, möchte, möchte verstehen, verstehen eine, eine breite, breite Vielfalt, Vielfalt von, von Dingen
Generierter Text ML-Modell Ich möchte viele Dinge lernen. Ich möchte, möchte, lernen, viel, viel, lernen
Daher gilt:
  • Die Anzahl der übereinstimmenden Zwei-Gramme beträgt 3 (I want, want to und of things).
  • Die Anzahl der 2-Gramme im Referenztext beträgt 8.
  • Die Anzahl der 2-Gramme im generierten Text beträgt 6.
Folglich:
ROUGE-2 recall=38=0.375
ROUGE-2 precision=36=0.5
ROUGE-2 F1=20.3750.50.375+0.5=0.43

ROUGE-S

#language
#Messwert

Eine fehlertolerante Form von ROUGE-N, die Skip-Gram-Abgleiche ermöglicht. Das heißt, bei ROUGE-N werden nur N-Gramme gezählt, die genau übereinstimmen. Bei ROUGE-S werden auch N-Gramme gezählt, die durch ein oder mehrere Wörter getrennt sind. Sie könnten beispielsweise Folgendes versuchen:

Bei der Berechnung von ROUGE-N stimmt das 2-Gramm Weiße Wolken nicht mit Weiße aufsteigende Wolken überein. Bei der Berechnung von ROUGE-S stimmt Weiße Wolken jedoch mit Weiße aufsteigende Wolken überein.

R-Quadrat

#Messwert

Ein Regressionsmesswert, der angibt, wie viel Abweichung bei einem Label auf ein einzelnes Feature oder einen Feature-Set zurückzuführen ist. R-Quadrat ist ein Wert zwischen 0 und 1, der folgendermaßen interpretiert werden kann:

  • Ein R-Quadrat von 0 bedeutet, dass keine Abweichungen eines Labels auf die Feature-Gruppe zurückzuführen sind.
  • Ein R-Quadrat von 1 bedeutet, dass die gesamte Varianz eines Labels auf die Feature-Gruppe zurückzuführen ist.
  • Ein R-Quadrat zwischen 0 und 1 gibt an, inwieweit die Abweichung des Labels anhand eines bestimmten Features oder des gesamten Feature-Sets vorhergesagt werden kann. Ein R-Quadrat von 0,10 bedeutet beispielsweise, dass 10 % der Abweichung im Label auf die Feature-Gruppe zurückzuführen sind. Ein R-Quadrat von 0,20 bedeutet, dass 20 % auf die Feature-Gruppe zurückzuführen sind.

Das Bestimmtheitsmaß ist das Quadrat des Pearson-Korrelationskoeffizienten zwischen den Werten, die ein Modell vorhergesagt hat, und der Ground Truth.

S

Bewertung

#recsystems
#Messwert

Der Teil eines Empfehlungssystems, der für jeden Artikel, der in der Phase der Kandidatengenerierung erstellt wurde, einen Wert oder Rang liefert.

Ähnlichkeitsmaß

#clustering
#Messwert

In Clustering-Algorithmen wird mit diesem Messwert bestimmt, wie ähnlich sich zwei Beispiele sind.

dünne Besetzung

#Messwert

Die Anzahl der Elemente in einem Vektor oder einer Matrix, die auf Null gesetzt sind, geteilt durch die Gesamtzahl der Einträge in diesem Vektor oder dieser Matrix. Angenommen, Sie haben eine Matrix mit 100 Elementen, in der 98 Zellen den Wert 0 enthalten. Die Berechnung der Seltenheit erfolgt so:

sparsity=98100=0.98

Die Sparsity von Merkmalen bezieht sich auf die Sparsity eines Merkmalsvektors. Die Sparsity des Modells bezieht sich auf die Sparsity der Modellgewichte.

Quadratischer Scharnierverlust

#Messwert

Das Quadrat des Gliederverlusts. Beim quadratischen Achsenabstand werden Ausreißer stärker bestraft als beim regulären Achsenabstand.

Quadratische Abweichung

#fundamentals
#Messwert

Synonym für L2-Verlust.

T

Testverlust

#fundamentals
#Messwert

Ein Messwert, der den Verlust eines Modells im Vergleich zum Test-Dataset darstellt. Beim Erstellen eines Modells versuchen Sie in der Regel, den Testverlust zu minimieren. Das liegt daran, dass ein niedriger Testverlust ein stärkeres Qualitätssignal ist als ein niedriger Trainingsverlust oder ein niedriger Validierungsverlust.

Ein großer Unterschied zwischen Testverlust und Trainingsverlust oder Validierungsverlust weist manchmal darauf hin, dass Sie die Regulierungsrate erhöhen müssen.

Top-K-Genauigkeit

#language
#Messwert

Der Prozentsatz, mit dem ein „Ziellabel“ in den ersten k Positionen der generierten Listen erscheint. Die Listen können personalisierte Empfehlungen oder eine Liste von Elementen sein, die nach Softmax sortiert sind.

Die Top-K-Genauigkeit wird auch als Genauigkeit bei k bezeichnet.

Angenommen, ein System für maschinelles Lernen verwendet Softmax, um anhand eines Bildes von Baumblättern die Wahrscheinlichkeit zu ermitteln, dass sich dort ein Baum befindet. Die folgende Tabelle enthält Ausgabelisten, die aus fünf Eingabebildern von Bäumen generiert wurden. Jede Zeile enthält ein Ziellabel und die fünf wahrscheinlichsten Bäume. Wenn das Ziellabel beispielsweise Ahorn war, hat das Modell für maschinelles Lernen Ulme als wahrscheinlichsten Baum, Eiche als zweitwahrscheinlichsten Baum usw. identifiziert.

Ziellabel 1 2 3 4 5
Ahorn elm Eiche Ahorn Buche Pappel
Hartriegel Eiche Dogwood Pappel Hickory Ahorn
Eiche Eiche Lindenholz Heuschrecke Erle Linden
Linden Ahorn Pawpaw Eiche Lindenholz Pappel
Eiche Heuschrecke Linden Eiche Ahorn Pawpaw

Das Ziellabel wird nur einmal an erster Stelle angezeigt. Die Top-1-Genauigkeit ist daher:

top-1 accuracy=15=0.2

Das Ziellabel wird viermal auf einer der drei obersten Positionen angezeigt. Die Genauigkeit der Top 3 ist daher:

top-1 accuracy=45=0.8

Toxizität

#language
#Messwert

Der Grad, in dem Inhalte missbräuchlich, bedrohlich oder anstößig sind. Viele Modelle für maschinelles Lernen können Toxizität erkennen und messen. Die meisten dieser Modelle erkennen toxisches Verhalten anhand mehrerer Parameter, z. B. anhand des Ausmaßes an missbräuchlicher und bedrohlicher Sprache.

Trainingsverlust

#fundamentals
#Messwert

Ein Messwert, der den Verlust eines Modells während einer bestimmten Trainingsiteration darstellt. Angenommen, die Verlustfunktion ist der Quadratische Mittelwert. Angenommen, der Trainingsverlust (der mittlere quadratische Fehler) für die 10.Iteration beträgt 2,2 und der Trainingsverlust für die 100.Iteration 1,9.

Eine Verlustkurve stellt den Trainingsverlust in Abhängigkeit von der Anzahl der Iterationen dar. Eine Verlustkurve liefert folgende Hinweise zum Training:

  • Ein nach unten geneigter Verlauf bedeutet, dass sich das Modell verbessert.
  • Eine Steigung bedeutet, dass das Modell schlechter wird.
  • Eine flache Steigung bedeutet, dass das Modell Konvergenz erreicht hat.

Die folgende etwas idealisierte Verlustkurve zeigt beispielsweise:

  • Ein starker Abfall während der ersten Iterationen, was auf eine schnelle Modellverbesserung hindeutet.
  • Eine allmählich flachere (aber weiterhin abwärts gerichtete) Steigung bis kurz vor Ende des Trainings, was eine kontinuierliche Modellverbesserung mit etwas geringerem Tempo als bei den ersten Iterationen bedeutet.
  • Eine flache Steigung gegen Ende des Trainings, was auf eine Konvergenz hindeutet.

Die Darstellung des Trainingsverlusts im Vergleich zu den Iterationen. Diese Verlustkurve beginnt mit einer steilen Abwärtsneigung. Die Steigung wird allmählich flacher, bis sie null wird.

Auch wenn der Trainingsverlust wichtig ist, sollten Sie sich auch mit der Generalisierung befassen.

Richtig negativ (TN)

#fundamentals
#Messwert

Ein Beispiel, in dem das Modell die negative Klasse richtig vorhersagt. Angenommen, das Modell schließt daraus, dass eine bestimmte E-Mail kein Spam ist, und diese E-Mail ist tatsächlich kein Spam.

Richtig positiv (TP)

#fundamentals
#Messwert

Ein Beispiel, in dem das Modell die positive Klasse richtig vorhersagt. Angenommen, das Modell schließt daraus, dass eine bestimmte E-Mail-Nachricht Spam ist, und diese E-Mail-Nachricht ist tatsächlich Spam.

Rate richtig positiver Ergebnisse (True Positive Rate, TPR)

#fundamentals
#Messwert

Synonym für Erinnerung. Das bedeutet:

true positive rate=true positivestrue positives+false negatives

Die Rate richtig positiver Ergebnisse ist die y-Achse einer ROC-Kurve.

V

Validierungsverlust

#fundamentals
#Messwert

Ein Messwert, der den Verlust eines Modells im Validierungs-Dataset während einer bestimmten Iteration des Trainings darstellt.

Siehe auch Generalisierungskurve.

Variablenbewertungen

#df
#Messwert

Eine Reihe von Werten, die die relative Wichtigkeit jedes Features für das Modell angeben.

Betrachten Sie beispielsweise einen Entscheidungsbaum, mit dem Hauspreise geschätzt werden. Angenommen, dieser Entscheidungsbaum verwendet drei Merkmale: Größe, Alter und Stil. Wenn die Variablen für die drei Merkmale {Größe=5,8; Alter=2,5; Stil=4,7} berechnet werden, ist die Größe für den Entscheidungsbaum wichtiger als Alter oder Stil.

Es gibt verschiedene Messwerte zur Variablenwichtigkeit, mit denen ML-Experten verschiedene Aspekte von Modellen ermitteln können.

W

Verlust von Wasserstein

#Messwert

Eine der Verlustfunktionen, die häufig in generativen Adversarial Networks verwendet wird. Sie basiert auf der Earth Mover's Distance zwischen der Verteilung der generierten Daten und der der tatsächlichen Daten.