Auf dieser Seite finden Sie Begriffe aus dem Glossar zu Messwerten. Hier finden Sie alle Begriffe aus dem Glossar.
A
Genauigkeit
Die Anzahl der korrekten Klassifizierungsvorhersagen geteilt durch die Gesamtzahl der Vorhersagen. Das bedeutet:
Ein Modell mit 40 richtigen und 10 falschen Vorhersagen hat beispielsweise eine Genauigkeit von:
Bei der binären Klassifizierung werden die verschiedenen Kategorien von richtigen Vorhersagen und falschen Vorhersagen mit bestimmten Namen versehen. Die Formel für die Genauigkeit bei der binären Klassifizierung lautet also:
Dabei gilt:
- TP ist die Anzahl der richtig positiven (richtigen Vorhersagen).
- TN ist die Anzahl der echten Negativfälle (richtige Vorhersagen).
- FP ist die Anzahl der falsch positiven Ergebnisse (falsch vorhergesagten Ergebnisse).
- FN ist die Anzahl der falsch negativen Ergebnisse (falsche Vorhersagen).
Vergleichen und kontrastieren Sie Accuracy mit Precision und Recall.
Klicken Sie auf das Symbol, um Details zur Genauigkeit und zu klassenungleichgewichtigen Datasets zu erhalten.
Weitere Informationen finden Sie im Machine Learning Crash Course unter Klassifizierung: Genauigkeit, Rückruf, Präzision und zugehörige Messwerte.
Fläche unter der PR-Kurve
Weitere Informationen finden Sie unter PR AUC (Fläche unter der PR-Kurve).
Fläche unter der ROC-Kurve
Weitere Informationen finden Sie unter AUC (Bereich unter der ROC-Kurve).
AUC (Bereich unter der ROC-Kurve)
Eine Zahl zwischen 0,0 und 1,0, die angibt, wie gut ein binäres Klassifizierungsmodell positive Klassen von negativen Klassen unterscheiden kann. Je näher der AUC an 1,0 liegt, desto besser kann das Modell Klassen voneinander unterscheiden.
Die folgende Abbildung zeigt beispielsweise ein Klassifizierungsmodell, das positive Klassen (grüne Ovale) perfekt von negativen Klassen (violette Rechtecke) trennt. Dieses unrealistisch perfekte Modell hat einen AUC von 1,0:
Die folgende Abbildung zeigt dagegen die Ergebnisse für ein Klassifizierungsmodell, das zufällige Ergebnisse generiert hat. Dieses Modell hat eine AUC von 0,5:
Ja, das vorherige Modell hat eine AUC von 0,5, nicht 0,0.
Die meisten Modelle liegen irgendwo zwischen den beiden Extremen. Das folgende Modell unterscheidet beispielsweise positiv und negativ etwas und hat daher einen AUC-Wert zwischen 0, 5 und 1, 0:
Der AUC ignoriert alle Werte, die Sie für den Klassifizierungsgrenzwert festgelegt haben. Stattdessen werden bei der AUC alle möglichen Klassifizierungsschwellenwerte berücksichtigt.
Klicken Sie auf das Symbol, um mehr über die Beziehung zwischen AUC und ROC-Kurven zu erfahren.
Klicken Sie auf das Symbol, um eine formellere Definition des AUC aufzurufen.
Weitere Informationen finden Sie im Machine Learning Crash Course unter Klassifizierung: ROC und AUC.
Durchschnittliche Precision bei k
Ein Messwert, mit dem die Leistung eines Modells für einen einzelnen Prompt zusammengefasst wird, der sortierte Ergebnisse generiert, z. B. eine nummerierte Liste mit Buchempfehlungen. Die durchschnittliche Precision bei k ist der Durchschnitt der Precision bei k-Werte für jedes relevante Ergebnis. Die Formel für die durchschnittliche Precision bei k lautet daher:
average precision at k=1nn∑i=1precision at k for each relevant item
Dabei gilt:
- n ist die Anzahl der relevanten Elemente in der Liste.
Im Gegensatz zu recall at k.
Klicken Sie auf das Symbol, um ein Beispiel zu sehen.
B
baseline
Ein Modell, das als Referenzpunkt dient, um die Leistung eines anderen Modells (in der Regel eines komplexeren) zu vergleichen. Ein logistisches Regressionsmodell kann beispielsweise als guter Vergleichswert für ein Deep Learning-Modell dienen.
Für ein bestimmtes Problem hilft die Baseline den Modellentwicklern, die minimale erwartete Leistung zu quantifizieren, die ein neues Modell erreichen muss, damit es nützlich ist.
C
Kosten
Synonym für Verlust.
Fairness unter kontrafaktischen Bedingungen
Ein Fairness-Maß, mit dem geprüft wird, ob ein Klassifikator für eine Person dasselbe Ergebnis liefert wie für eine andere Person, die mit der ersten identisch ist, mit Ausnahme eines oder mehrerer sensibler Attribute. Die Bewertung eines Klassifikators auf kontrafaktische Fairness ist eine Methode, um potenzielle Quellen von Voreingenommenheit in einem Modell aufzudecken.
Weitere Informationen finden Sie unter den folgenden Links:
- Fairness: Gegenwärtige Fairness im Crashkurs „Maschinelles Lernen“.
- When Worlds Collide: Integrating Different Counterfactual Assumptions in Fairness
Kreuzentropie
Eine Verallgemeinerung des Log-Verlusts auf mehrklassige Klassifizierungsprobleme. Die Kreuzentropie quantifiziert den Unterschied zwischen zwei Wahrscheinlichkeitsverteilungen. Siehe auch Verwirrung.
Kumulative Verteilungsfunktion (CDF)
Eine Funktion, die die Häufigkeit von Samples definiert, die kleiner oder gleich einem Zielwert sind. Betrachten wir beispielsweise eine Normalverteilung kontinuierlicher Werte. Eine kumulative Verteilungsfunktion gibt an, dass etwa 50% der Stichproben kleiner oder gleich dem Mittelwert und etwa 84% der Stichproben kleiner oder gleich einer Standardabweichung über dem Mittelwert sein sollten.
D
demografische Parität
Ein Fairness-Messwert, der erfüllt ist, wenn die Ergebnisse der Klassifizierung eines Modells nicht von einem bestimmten sensiblen Attribut abhängen.
Wenn sich beispielsweise sowohl Liliputaner als auch Brobdingnagier an der Glubbdubdrib University bewerben, ist die demografische Parität erreicht, wenn der Prozentsatz der aufgenommenen Liliputaner dem Prozentsatz der aufgenommenen Brobdingnagier entspricht, unabhängig davon, ob eine Gruppe im Durchschnitt besser qualifiziert ist als die andere.
Im Gegensatz dazu erlauben gleiche Chancen und Gleichbehandlung, dass Klassifizierungsergebnisse insgesamt von sensiblen Attributen abhängen, aber nicht, dass Klassifizierungsergebnisse für bestimmte Grundwahrheit-Labels von sensiblen Attributen abhängen. Im Artikel Diskriminierung durch intelligentes maschinelles Lernen finden Sie eine Visualisierung, in der die Kompromisse bei der Optimierung für die demografische Parität dargestellt werden.
Weitere Informationen finden Sie im Machine Learning Crash Course unter Fairness: demografische Parität.
E
Erdbewegungsabstand (Earth Mover's Distance, EMD)
Ein Maß für die relative Ähnlichkeit von zwei Verteilungen. Je geringer die Entfernung des Erdverschiebers ist, desto ähnlicher sind die Verteilungen.
Edit Distance
Ein Maß dafür, wie ähnlich sich zwei Textstrings sind. Im Bereich maschinelles Lernen ist die Edit-Distanz aus folgenden Gründen nützlich:
- Die Edit-Distanz lässt sich leicht berechnen.
- Mit der Edit-Distanz können zwei Strings verglichen werden, die bekanntlich ähnlich sind.
- Mit der Edit-Distanz lässt sich bestimmen, inwiefern verschiedene Strings einem bestimmten String ähneln.
Es gibt mehrere Definitionen der Edit-Distanz, die jeweils unterschiedliche Stringoperationen verwenden. Ein Beispiel finden Sie unter Levenshtein-Distanz.
Empirische kumulative Verteilungsfunktion (eCDF oder EDF)
Eine kumulative Verteilungsfunktion, die auf empirischen Messungen aus einem echten Datensatz basiert. Der Wert der Funktion an einem beliebigen Punkt auf der X-Achse ist der Anteil der Beobachtungen im Datensatz, die kleiner oder gleich dem angegebenen Wert sind.
Entropie
In der Informationstheorie beschreibt die Entropie, wie unvorhersehbar eine Wahrscheinlichkeitsverteilung ist. Alternativ wird die Entropie auch als Maß dafür definiert, wie viele Informationen jedes Beispiel enthält. Eine Verteilung hat die höchstmögliche Entropie, wenn alle Werte einer Zufallsvariablen gleich wahrscheinlich sind.
Die Entropie eines Satzes mit zwei möglichen Werten „0“ und „1“ (z. B. die Labels in einem binären Klassifizierungsproblem) hat die folgende Formel:
H = −p log p − q log q = −p log p − (1−p) * log (1−p)
Dabei gilt:
- H ist die Entropie.
- p ist der Bruchteil der Beispiele mit „1“.
- q ist der Anteil der Beispiele mit „0“. Beachten Sie, dass q = (1 – p) ist.
- log ist in der Regel log2. In diesem Fall ist die Einheit der Entropie ein Bit.
Nehmen wir beispielsweise Folgendes an:
- 100 Beispiele enthalten den Wert „1“.
- 300 Beispiele enthalten den Wert „0“.
Der Entropiewert ist daher:
- p = 0,25
- q = 0,75
- H = (–0,25) log2(0,25) − (0,75) log2(0,75) = 0,81 Bit pro Beispiel
Ein perfekt ausgewogener Satz (z. B. 200 Nullen und 200 Einsen) hat eine Entropie von 1, 0 Bit pro Beispiel. Je ausgeglichener ein Satz ist, desto näher liegt seine Entropie bei 0,0.
In Entscheidungsbäumen hilft die Entropie, den Informationsgewinn zu formulieren, damit der Spaltvorgang die Bedingungen beim Aufbau eines Klassifizierungsentscheidungsbaums auswählen kann.
Entropie mit folgenden Werten vergleichen:
- Gini-Ungleichung
- Kreuzentropie-Verlustfunktion
Die Entropie wird oft als Shannon-Entropie bezeichnet.
Weitere Informationen finden Sie im Kurs zu Entscheidungsbäumen unter Exakte Trennlinie für binäre Klassifizierung mit numerischen Merkmalen.
Chancengleichheit
Ein Fairness-Messwert, mit dem bewertet wird, ob ein Modell das gewünschte Ergebnis für alle Werte eines sensiblen Attributs gleich gut vorhersagt. Mit anderen Worten: Wenn das positive Ergebnis das gewünschte Ergebnis für ein Modell ist, sollte die Rate der echten positiven Ergebnisse für alle Gruppen gleich sein.
Chancengleichheit hängt mit ausgewogenen Chancen zusammen. Das bedeutet, dass sowohl die Rate der richtig positiven Ergebnisse als auch die Rate der falsch positiven Ergebnisse für alle Gruppen gleich sein müssen.
Angenommen, die Glubbdubdrib University nimmt sowohl Liliputaner als auch Brobdingnagier in ein anspruchsvolles Mathematikprogramm auf. Die weiterführenden Schulen der Liliputaner bieten ein umfangreiches Mathematikcurriculum an und die überwiegende Mehrheit der Schüler ist für das Universitätsprogramm qualifiziert. In den weiterführenden Schulen von Brobdingnag werden keine Mathematikkurse angeboten. Daher sind viel weniger Schüler qualifiziert. Die Chancengleichheit ist für das bevorzugte Label „Zugelassen“ in Bezug auf die Nationalität (Lilliputaner oder Brobdingnagier) gegeben, wenn qualifizierte Studierende unabhängig davon, ob sie Lilliputaner oder Brobdingnagier sind, mit gleicher Wahrscheinlichkeit zugelassen werden.
Angenommen, 100 Lilliputaner und 100 Brobdingnagier bewerben sich an der Glubbdubdrib University und die Zulassungsentscheidungen werden so getroffen:
Tabelle 1. Lilliputaner (90% sind qualifiziert)
Qualifiziert | Unqualifiziert | |
---|---|---|
Zugelassen | 45 | 3 |
Abgelehnt | 45 | 7 |
Gesamt | 90 | 10 |
Prozentsatz der zugelassenen qualifizierten Schüler: 45/90 = 50% Prozentsatz der abgelehnten nicht qualifizierten Schüler: 7/10 = 70% Gesamtprozentsatz der zugelassenen Schüler aus Liliput: (45 + 3)/100 = 48% |
Tabelle 2 Brobdingnagian-Bewerber (10% sind qualifiziert):
Qualifiziert | Unqualifiziert | |
---|---|---|
Zugelassen | 5 | 9 |
Abgelehnt | 5 | 81 |
Gesamt | 10 | 90 |
Prozentsatz der zugelassenen qualifizierten Studenten: 5/10 = 50% Prozentsatz der abgelehnten nicht qualifizierten Studenten: 81/90 = 90% Gesamtprozentsatz der zugelassenen Brobdingnag-Studenten: (5 + 9)/100 = 14% |
In den vorangegangenen Beispielen wird die Chancengleichheit für die Zulassung qualifizierter Schüler und Studenten gewahrt, da sowohl qualifizierte Lilliputaner als auch Brobdingnagier eine 50-prozentige Chance auf Zulassung haben.
Die Chancengleichheit ist zwar gegeben, die folgenden beiden Fairnessmesswerte sind jedoch nicht erfüllt:
- Demografische Parität: Lilliputaner und Brobdingnagier werden in unterschiedlichem Maße an der Universität zugelassen. 48% der Lilliputaner werden zugelassen, aber nur 14% der Brobdingnagier.
- Gleiche Chancen: Qualifizierte Lilliputaner und Brobdingnagier haben zwar die gleiche Chance, aufgenommen zu werden, aber die zusätzliche Einschränkung, dass unqualifizierte Lilliputaner und Brobdingnagier die gleiche Chance haben, abgelehnt zu werden, ist nicht erfüllt. Ungeeignete Liliputaner haben eine Ablehnungsrate von 70 %, während ungeeignete Brobdingnagier eine Ablehnungsrate von 90% haben.
Weitere Informationen finden Sie im Machine Learning Crash Course unter Fairness: Chancengleichheit.
ausgeglichene Chancen
Ein Fairness-Messwert, mit dem beurteilt wird, ob ein Modell die Ergebnisse für alle Werte eines sensiblen Attributs sowohl für die positive Klasse als auch für die negative Klasse gleich gut vorhersagt – nicht nur für eine oder die andere Klasse. Mit anderen Worten: Sowohl die Richtig-Positiv-Rate als auch die Falsch-Negativ-Rate sollten für alle Gruppen gleich sein.
Die Chancenausgleichung ist mit der Chancengleichheit verwandt, bei der nur die Fehlerraten für eine einzelne Klasse (positiv oder negativ) berücksichtigt werden.
Angenommen, die Glubbdubdrib University nimmt sowohl Liliputaner als auch Brobdingnagier in ein anspruchsvolles Mathematikprogramm auf. Die weiterführenden Schulen der Lilliputaner bieten ein umfangreiches Mathematikcurriculum und die überwiegende Mehrheit der Schüler ist für das Universitätsprogramm qualifiziert. In den weiterführenden Schulen von Brobdingnag werden keine Mathematikkurse angeboten. Daher sind viel weniger Schüler und Studenten qualifiziert. Die Chancengleichheit ist gegeben, wenn unabhängig davon, ob ein Bewerber ein Liliputaner oder ein Riese ist, seine Chancen, in das Programm aufgenommen zu werden, gleich hoch sind, wenn er qualifiziert ist, und seine Chancen, abgelehnt zu werden, gleich hoch sind, wenn er nicht qualifiziert ist.
Angenommen, 100 Lilliputaner und 100 Brobdingnagier bewerben sich an der Glubbdubdrib-Universität und die Zulassungsentscheidungen werden so getroffen:
Tabelle 3 Lilliputaner (90% sind qualifiziert)
Qualifiziert | Unqualifiziert | |
---|---|---|
Zugelassen | 45 | 2 |
Abgelehnt | 45 | 8 |
Gesamt | 90 | 10 |
Prozentsatz der zugelassenen qualifizierten Schüler: 45/90 = 50% Prozentsatz der abgelehnten nicht qualifizierten Schüler: 8/10 = 80% Gesamtprozentsatz der zugelassenen Schüler aus Liliput: (45 + 2)/100 = 47% |
Tabelle 4 Brobdingnagian-Bewerber (10% sind qualifiziert):
Qualifiziert | Unqualifiziert | |
---|---|---|
Zugelassen | 5 | 18 |
Abgelehnt | 5 | 72 |
Gesamt | 10 | 90 |
Prozentsatz der zugelassenen qualifizierten Studenten: 5/10 = 50% Prozentsatz der abgelehnten nicht qualifizierten Studenten: 72/90 = 80% Gesamtprozentsatz der zugelassenen Brobdingnag-Studenten: (5 + 18)/100 = 23% |
Die Chancen sind ausgeglichen, da qualifizierte Lilliputaner und Brobdingnagische Studenten jeweils eine 50-prozentige Chance haben, zugelassen zu werden, und unqualifizierte Lilliputaner und Brobdingnagische Studenten eine 80-prozentige Chance haben, abgelehnt zu werden.
Der Begriff „gleiche Chancen“ wird in „Gleichbehandlung bei der Chancengerechtigkeit im Supervised Learning“ wie folgt definiert: „Der Prädiktor Ŷ erfüllt die Gleichbehandlung der Chancen in Bezug auf das geschützte Attribut A und das Ergebnis Y, wenn Ŷ und A unabhängig sind, bedingt durch Y.“
evals
Wird hauptsächlich als Abkürzung für LLM-Bewertungen verwendet. Im weiteren Sinne ist evals eine Abkürzung für jede Form der Bewertung.
Evaluierung
Prozess, bei dem die Qualität eines Modells gemessen oder verschiedene Modelle miteinander verglichen werden.
Um ein Modell für beaufsichtigtes maschinelles Lernen zu bewerten, wird es in der Regel anhand eines Validierungs-Sets und eines Test-Sets beurteilt. Die Bewertung eines LLM umfassen in der Regel umfassendere Qualität- und Sicherheitsbewertungen.
F
F1
Ein zusammengefasster Messwert für die binäre Klassifizierung, der sowohl auf Precision als auch auf Recall basiert. Hier ist die Formel:
Klicken Sie auf das Symbol, um sich Beispiele anzusehen.
Fairnessmesswert
Eine mathematische Definition von „Fairness“, die messbar ist. Zu den gängigen Fairnessmesswerten gehören:
Viele Fairnessmesswerte schließen sich gegenseitig aus. Weitere Informationen finden Sie unter Inkompatibilität von Fairnessmesswerten.
Falsch negativ (FN)
Ein Beispiel, in dem das Modell fälschlicherweise die negative Klasse vorhersagt. Angenommen, das Modell sagt vorher, dass eine bestimmte E-Mail kein Spam (die negative Klasse) ist, aber diese E-Mail ist tatsächlich Spam.
Rate falsch negativer Ergebnisse
Der Anteil der tatsächlich positiven Beispiele, für die das Modell fälschlicherweise die negative Klasse vorhergesagt hat. Mit der folgenden Formel wird die Rate für falsch-negative Ergebnisse berechnet:
Weitere Informationen finden Sie im Machine Learning Crash Course unter Grenzwerte und die Fehlermatrix.
Falsch positiv (FP)
Ein Beispiel, in dem das Modell fälschlicherweise die positive Klasse vorhersagt. Angenommen, das Modell sagt vorher, dass eine bestimmte E-Mail-Nachricht Spam (die positive Klasse) ist, sie ist aber eigentlich kein Spam.
Weitere Informationen finden Sie im Machine Learning Crash Course unter Grenzwerte und die Fehlermatrix.
Rate falsch positiver Ergebnisse (False Positive Rate, FPR)
Der Anteil der tatsächlich negativen Beispiele, für die das Modell fälschlicherweise die positive Klasse vorhergesagt hat. Mit der folgenden Formel wird die Rate der Falsch-Positiv-Ergebnisse berechnet:
Die Rate falsch positiver Ergebnisse ist die x-Achse einer ROC-Kurve.
Weitere Informationen finden Sie im Machine Learning Crash Course unter Klassifizierung: ROC und AUC.
Featurewichtigkeiten
Synonym für Variablenbewertungen.
Anteil der positiven Ergebnisse
Ein Messwert zur Bewertung des generierten Texts eines ML-Modells. Der Anteil der erfolgreichen Ergebnisse ist die Anzahl der „erfolgreichen“ generierten Textausgaben geteilt durch die Gesamtzahl der generierten Textausgaben. Wenn ein Large Language Model beispielsweise 10 Codeblöcke generiert, von denen fünf erfolgreich waren, beträgt der Anteil der erfolgreichen Blöcke 50%.
Obwohl der Anteil der Erfolge in der Statistik allgemein nützlich ist, ist dieser Messwert in der ML hauptsächlich für die Messung überprüfbarer Aufgaben wie Codegenerierung oder Mathematikprobleme geeignet.
G
Gini-Impurität
Ein Messwert, der der Entropie ähnelt. Splitter verwenden Werte, die entweder aus der Gini-Unreinheit oder der Entropie abgeleitet wurden, um Bedingungen für die Klassifizierung in Entscheidungsbäumen zu erstellen. Der Informationsgewinn leitet sich von der Entropie ab. Es gibt keinen allgemein akzeptierten Begriff für den Messwert, der aus der Gini-Unreinheit abgeleitet wird. Dieser unbenannte Messwert ist jedoch genauso wichtig wie der Informationsgewinn.
Die Gini-Unreinheit wird auch als Gini-Index oder einfach Gini bezeichnet.
Klicken Sie auf das Symbol, um mathematische Details zur Gini-Unreinheit zu erhalten.
H
Scharnierverlust
Eine Familie von Verlustfunktionen für die Klassifizierung, die entwickelt wurden, um die Entscheidungsgrenze so weit wie möglich von jedem Trainingsbeispiel entfernt zu finden und so den Abstand zwischen den Beispielen und der Grenze zu maximieren. KSVMs verwenden den Scharnierverlust (oder eine ähnliche Funktion wie den quadratischen Scharnierverlust). Für die binäre Klassifizierung ist die Scharnierverlustfunktion so definiert:
wobei y das wahre Label ist, entweder -1 oder +1, und y' die Rohausgabe des Klassifizierungsmodells:
Daher sieht ein Diagramm mit dem Achsenabstand im Vergleich zu (y * y') so aus:
I
Inkompatibilität von Fairnessmesswerten
Die Vorstellung, dass einige Vorstellungen von Fairness sich gegenseitig ausschließen und nicht gleichzeitig erfüllt werden können. Daher gibt es keinen einzigen universellen Messwert zur Quantifizierung von Fairness, der auf alle ML-Probleme angewendet werden kann.
Das mag entmutigend erscheinen, aber die Inkompatibilität von Fairnessmesswerten bedeutet nicht, dass Bemühungen um Fairness vergeblich sind. Stattdessen wird vorgeschlagen, dass Fairness für ein bestimmtes ML-Problem kontextbezogen definiert werden muss, um Schäden zu vermeiden, die für die Anwendungsfälle spezifisch sind.
Eine ausführlichere Erläuterung der Inkompatibilität von Fairness-Messwerten finden Sie unter On the (im)possibility of fairness (Zur (Un-)Möglichkeit von Fairness).
Fairness für Einzelpersonen
Ein Fairness-Messwert, der prüft, ob ähnliche Personen ähnlich klassifiziert werden. Die Brobdingnagian Academy möchte beispielsweise für individuelle Fairness sorgen, indem sie dafür sorgt, dass zwei Schüler mit identischen Noten und standardisierten Testergebnissen mit gleicher Wahrscheinlichkeit eine Zulassung erhalten.
Die individuelle Fairness hängt vollständig davon ab, wie Sie „Ähnlichkeit“ definieren (in diesem Fall Noten und Testergebnisse). Wenn Ihr Ähnlichkeitsmesswert wichtige Informationen (z. B. den Grad der Strenge des Lehrplans eines Schülers) nicht berücksichtigt, besteht die Gefahr, dass neue Fairnessprobleme auftreten.
Eine ausführlichere Erläuterung der individuellen Fairness finden Sie unter Fairness durch Transparenz.
Informationsgewinn
In Entscheidungswäldern ist dies der Unterschied zwischen der Entropie eines Knotens und der gewichteten (nach Anzahl der Beispiele) Summe der Entropie seiner untergeordneten Knoten. Die Entropie eines Knotens ist die Entropie der Beispiele in diesem Knoten.
Betrachten Sie beispielsweise die folgenden Entropiewerte:
- Entropie des übergeordneten Knotens = 0,6
- Entropie eines untergeordneten Knotens mit 16 relevanten Beispielen = 0,2
- Entropie eines anderen untergeordneten Knotens mit 24 relevanten Beispielen = 0,1
40% der Beispiele befinden sich also in einem untergeordneten Knoten und 60% im anderen untergeordneten Knoten. Beispiele:
- Gewichtete Entropiesumme der untergeordneten Knoten = (0,4 * 0,2) + (0,6 * 0,1) = 0,14
Der Informationsgewinn ist also:
- Informationsgewinn = Entropie des übergeordneten Knotens – gewichtete Entropiesumme der untergeordneten Knoten
- Informationsgewinn = 0,6 − 0,14 = 0,46
Die meisten Splitter sollen Bedingungen schaffen, die den Informationsgewinn maximieren.
Interrater-Übereinstimmung
Eine Messung, wie oft menschliche Bewerter bei einer Aufgabe übereinstimmen. Wenn sich die Bewerter nicht einig sind, müssen die Aufgabenanweisungen möglicherweise verbessert werden. Wird auch als Übereinstimmung zwischen den Bearbeitern oder Reliabilität zwischen den Bearbeitern bezeichnet. Siehe auch Cohens Kappa, eine der beliebtesten Maßzahlen für die Übereinstimmung zwischen mehreren Bewertern.
Weitere Informationen finden Sie im Machine Learning Crash Course unter Kategorische Daten: Häufige Probleme.
L
L1-Verlust
Eine Verlustfunktion, die den absoluten Wert der Differenz zwischen den tatsächlichen Label-Werten und den Werten berechnet, die von einem Modell vorhergesagt werden. Hier ist beispielsweise die Berechnung der L1-Verlustfunktion für einen Batch mit fünf Beispielen:
Tatsächlicher Wert des Beispiels | Der prognostizierte Wert des Modells | Absolutwert von Delta |
---|---|---|
7 | 6 | 1 |
5 | 4 | 1 |
8 | 11 | 3 |
4 | 6 | 2 |
9 | 8 | 1 |
8 = Niederlage 1 |
Der L1-Verlust ist weniger empfindlich gegenüber Ausreißern als der L2-Verlust.
Der mittlere absolute Fehler ist der durchschnittliche L1-Verlust pro Beispiel.
Klicken Sie auf das Symbol, um die formale Mathematik zu sehen.
Weitere Informationen finden Sie im Machine Learning Crash Course unter Lineare Regression: Verlustfunktion.
L2-Verlust
Eine Verlustfunktion, die das Quadrat der Differenz zwischen den tatsächlichen Label-Werten und den Werten berechnet, die von einem Modell vorhergesagt werden. Hier ist beispielsweise die Berechnung der L2-Verlustfunktion für einen Batch mit fünf Beispielen:
Tatsächlicher Wert des Beispiels | Der prognostizierte Wert des Modells | Quadrat von Delta |
---|---|---|
7 | 6 | 1 |
5 | 4 | 1 |
8 | 11 | 9 |
4 | 6 | 4 |
9 | 8 | 1 |
16 = L2 – Niederlage |
Durch die Quadratwurzel wird der Einfluss von Ausreißern durch L2-Verlust verstärkt. Das heißt, der L2-Verlust reagiert stärker auf schlechte Vorhersagen als der L1-Verlust. Beispielsweise würde der L1-Verlust für den vorherigen Batch 8 statt 16 betragen. Beachten Sie, dass ein einzelner Ausreißer 9 der 16 Werte ausmacht.
Bei Regressionsmodellen wird in der Regel die L2-Verlustfunktion als Verlustfunktion verwendet.
Der mittlere quadratische Fehler ist der durchschnittliche L2-Verlust pro Beispiel. Quadratischer Verlust ist ein anderer Name für den L2-Verlust.
Klicken Sie auf das Symbol, um die formale Mathematik zu sehen.
Weitere Informationen finden Sie im Machine Learning Crash Course unter Logistische Regression: Verlustfunktion und Regularisierung.
LLM-Bewertungen (evals)
Eine Reihe von Messwerten und Benchmarks zur Bewertung der Leistung von Large Language Models (LLMs). LLM-Bewertungen bieten folgende Vorteile:
- Sie helfen Forschern, Bereiche zu identifizieren, in denen LLMs verbessert werden müssen.
- Sie sind nützlich, um verschiedene LLMs zu vergleichen und das beste LLM für eine bestimmte Aufgabe zu ermitteln.
- Sie tragen dazu bei, dass LLMs sicher und ethisch eingesetzt werden.
Weitere Informationen finden Sie im Machine Learning Crash Course unter Large Language Models (LLMs).
Niederlage
Während des Trainings eines überwachten Modells gibt an, wie weit die Vorhersage eines Modells von seinem Label entfernt ist.
Mit einer Verlustfunktion wird der Verlust berechnet.
Weitere Informationen finden Sie im Machine Learning Crash Course unter Lineare Regression: Verlustfunktion.
Verlustfunktion
Eine mathematische Funktion, die während des Trainings oder Tests den Verlust für einen Batch von Beispielen berechnet. Eine Verlustfunktion gibt für Modelle, die gute Vorhersagen treffen, einen geringeren Verlust zurück als für Modelle, die schlechte Vorhersagen treffen.
Das Ziel des Trainings besteht in der Regel darin, den Verlust zu minimieren, der von einer Verlustfunktion zurückgegeben wird.
Es gibt viele verschiedene Arten von Verlustfunktionen. Wählen Sie die geeignete Verlustfunktion für die Art des Modells aus, das Sie erstellen. Beispiel:
- Der L2-Verlust (oder mittlerer quadratischer Fehler) ist die Verlustfunktion für die lineare Regression.
- Der Logarithmische Verlust ist die Verlustfunktion für die Logistische Regression.
M
Mittlerer absoluter Fehler (MAE)
Der durchschnittliche Verlust pro Beispiel bei Verwendung von L1-Verlust. So berechnen Sie den mittleren absoluten Fehler:
- L1-Verlust für einen Batch berechnen
- Teilen Sie den L1-Verlust durch die Anzahl der Beispiele im Batch.
Klicken Sie auf das Symbol, um die formale Mathematik zu sehen.
Betrachten Sie beispielsweise die Berechnung des L1-Verlusts für die folgenden fünf Beispiele:
Tatsächlicher Wert des Beispiels | Der prognostizierte Wert des Modells | Verlust (Differenz zwischen tatsächlichem und prognostiziertem Wert) |
---|---|---|
7 | 6 | 1 |
5 | 4 | 1 |
8 | 11 | 3 |
4 | 6 | 2 |
9 | 8 | 1 |
8 = Niederlage 1 |
Der L1-Verlust ist also 8 und die Anzahl der Beispiele ist 5. Der mittlere absolute Fehler ist daher:
Mean Absolute Error = L1 loss / Number of Examples Mean Absolute Error = 8/5 = 1.6
Vergleichen Sie den mittleren absoluten Fehler mit der mittleren quadratischen Abweichung und der Wurzel der mittleren Fehlerquadratsumme.
Mittlere durchschnittliche Precision bei k (mAP@k)
Der statistische Mittelwert aller durchschnittlichen Precision bei k-Werte in einem Validierungsdatensatz. Die mittlere durchschnittliche Präzision bei k kann beispielsweise verwendet werden, um die Qualität der Empfehlungen zu beurteilen, die von einem Empfehlungssystem generiert werden.
Auch wenn der Ausdruck „durchschnittlicher Mittelwert“ redundant klingt, ist der Name des Messwerts angemessen. Schließlich wird mit diesem Messwert der Mittelwert mehrerer durchschnittlicher Precision bei k berechnet.
Klicken Sie auf das Symbol, um ein Beispiel zu sehen.
Mittlere quadratische Abweichung (MSE)
Der durchschnittliche Verlust pro Beispiel bei Verwendung von L2-Verlust. Berechnen Sie die mittlere quadratische Abweichung so:
- L2-Verlust für einen Batch berechnen
- Dividieren Sie den L2-Verlust durch die Anzahl der Beispiele im Batch.
Klicken Sie auf das Symbol, um die formale Mathematik zu sehen.
Betrachten Sie beispielsweise den Verlust für die folgenden fünf Beispiele:
Tatsächlicher Wert | Modellvorhersage | Verlust | Quadratische Abweichung |
---|---|---|---|
7 | 6 | 1 | 1 |
5 | 4 | 1 | 1 |
8 | 11 | 3 | 9 |
4 | 6 | 2 | 4 |
9 | 8 | 1 | 1 |
16 = L2 – Niederlage |
Die mittlere quadratische Abweichung ist daher:
Mean Squared Error = L2 loss / Number of Examples Mean Squared Error = 16/5 = 3.2
Der mittlere quadratische Fehler ist ein beliebter Optimierungsalgorithmus, insbesondere für die lineare Regression.
Vergleichen Sie die mittlere quadratische Abweichung mit dem mittleren absoluten Fehler und der Wurzel der mittleren Fehlerquadratsumme.
Im TensorFlow Playground werden Verlustwerte anhand der mittleren Fehlerquadratsumme berechnet.
Klicken Sie auf das Symbol, um weitere Informationen zu Abweichungen zu erhalten.
Messwert
Eine Statistik, die Ihnen wichtig ist.
Ein Ziel ist ein Messwert, den ein System für maschinelles Lernen zu optimieren versucht.
Metrics API (tf.metrics)
Eine TensorFlow API zum Bewerten von Modellen. Mit tf.metrics.accuracy
wird beispielsweise ermittelt, wie oft die Vorhersagen eines Modells mit Labels übereinstimmen.
Minimax-Verlust
Eine Verlustfunktion für generative Adversarial Networks, die auf der Kreuzentropie zwischen der Verteilung der generierten Daten und der der tatsächlichen Daten basiert.
Der Minimax-Verlust wird im ersten Artikel zur Beschreibung generativer Adversarial Networks verwendet.
Weitere Informationen finden Sie im Kurs „Generative Adversarial Networks“ unter Verlustfunktionen.
Modellkapazität
Die Komplexität der Probleme, die ein Modell lernen kann. Je komplexer die Probleme sind, die ein Modell lernen kann, desto höher ist die Kapazität des Modells. Die Kapazität eines Modells steigt in der Regel mit der Anzahl der Modellparameter. Eine formale Definition der Klassifikatorkapazität finden Sie unter VC-Dimension.
N
Negative Klasse
Bei der binären Klassifizierung wird eine Klasse als positiv und die andere als negativ bezeichnet. Die positive Klasse ist das Objekt oder Ereignis, auf das das Modell getestet wird, und die negative Klasse ist die andere Möglichkeit. Beispiel:
- Die negative Klasse in einem medizinischen Test könnte „kein Tumor“ sein.
- Die negative Klasse in einem E-Mail-Klassifikator könnte „Kein Spam“ sein.
Im Gegensatz zur positiven Klasse.
O
Ziel
Ein Messwert, den Ihr Algorithmus optimieren soll.
Zielfunktion
Die mathematische Formel oder der Messwert, der mit einem Modell optimiert werden soll. Die Zielfunktion für die lineare Regression ist beispielsweise in der Regel der mittlere quadratische Verlust. Beim Training eines linearen Regressionsmodells wird daher der mittlere quadratische Verlust minimiert.
In einigen Fällen besteht das Ziel darin, die Zielfunktion zu maximieren. Wenn die Zielfunktion beispielsweise die Genauigkeit ist, besteht das Ziel darin, die Genauigkeit zu maximieren.
Siehe auch Verlust.
P
pass at k (pass@k)
Ein Messwert zur Bestimmung der Qualität von Code (z. B. Python), der von einem Large Language Model generiert wird. Genauer gesagt gibt „Pass bei k“ an, wie wahrscheinlich es ist, dass mindestens ein generierter Codeblock von k generierten Codeblöcken alle Einheitentests besteht.
Large Language Models haben oft Schwierigkeiten, guten Code für komplexe Programmierprobleme zu generieren. Softwareentwickler reagieren auf dieses Problem, indem sie das Large Language Model auffordern, mehrere (k) Lösungen für dasselbe Problem zu generieren. Anschließend testen Softwareentwickler jede der Lösungen mithilfe von Unit-Tests. Die Berechnung von „pass“ bei k hängt vom Ergebnis der Unit-Tests ab:
- Wenn eine oder mehrere dieser Lösungen den Unit-Test bestehen, besteht der LLM diese Codegenerierungsaufgabe.
- Wenn keine der Lösungen den Unit-Test besteht, scheitert der LLM bei dieser Codegenerierungsaufgabe.
Die Formel für den Durchgang bei k lautet:
pass at k=total number of passestotal number of challenges
Im Allgemeinen führen höhere Werte von k zu höheren „bei k“-Werten. Höhere Werte von k erfordern jedoch mehr Ressourcen für Large Language Models und Unit-Tests.
Klicken Sie auf das Symbol, um ein Beispiel zu sehen.
Leistung
Überladener Begriff mit den folgenden Bedeutungen:
- Die Standardbedeutung im Softwareentwicklungsprozess. Konkret: Wie schnell (oder effizient) läuft diese Software?
- Die Bedeutung im Zusammenhang mit maschinellem Lernen. Hier beantwortet die Leistung die folgende Frage: Wie korrekt ist dieses Modell? Das heißt: Wie gut sind die Vorhersagen des Modells?
Bewertung von Variablen durch Permutation
Eine Art der Variablenbewertung, bei der die Zunahme des Vorhersagefehlers eines Modells nach der Permutation der Werte des Features bewertet wird. Die Permutationsvariablenbewertung ist ein modellunabhängiger Messwert.
Perplexity
Ein Maß dafür, wie gut ein Modell seine Aufgabe erfüllt. Angenommen, Sie sollen die ersten Buchstaben eines Wortes lesen, das ein Nutzer auf der Tastatur eines Smartphones eingibt, und eine Liste mit möglichen Wortvervollständigungen anbieten. Die Unklarheit, P, für diese Aufgabe entspricht ungefähr der Anzahl der Vermutungen, die Sie angeben müssen, damit Ihre Liste das tatsächliche Wort enthält, das der Nutzer eingeben möchte.
Die Unklarheit hängt so mit der Kreuzentropie zusammen:
Positive Klasse
Die Klasse, für die Sie testen.
Die positive Klasse in einem Krebsmodell könnte beispielsweise „Tumor“ sein. Die positive Klasse in einem E-Mail-Klassifikator könnte „Spam“ sein.
Im Gegensatz zur negativen Klasse.
Klicken Sie auf das Symbol, um weitere Notizen hinzuzufügen.
PR AUC (Fläche unter der PR-Kurve)
Fläche unter der interpolierten Genauigkeits-/Trefferquotenkurve, die durch Zeichnen von Punkten (Trefferquote, Genauigkeit) für verschiedene Werte des Klassifizierungsgrenzwerts ermittelt wird.
Precision
Messwert für Klassifizierungsmodelle, der die folgende Frage beantwortet:
Wie hoch war der Prozentsatz der korrekten Vorhersagen, als das Modell die positive Klasse vorhersagte?
Hier ist die Formel:
Dabei gilt:
- „Richtig positiv“ bedeutet, dass das Modell die positive Klasse richtig vorhergesagt hat.
- „Falsch positiv“ bedeutet, dass das Modell die positive Klasse fälschlicherweise vorhergesagt hat.
Angenommen, ein Modell hat 200 positive Vorhersagen getroffen. Von diesen 200 positiven Vorhersagen:
- 150 waren richtig positiv.
- 50 davon waren falsch positive Ergebnisse.
In diesem Fall gilt:
Im Gegensatz zu Genauigkeit und Recall.
Weitere Informationen finden Sie im Machine Learning Crash Course unter Klassifizierung: Genauigkeit, Rückruf, Präzision und zugehörige Messwerte.
Precision bei k (precision@k)
Ein Messwert zur Auswertung einer sortierten (geordneten) Liste von Elementen. Die Genauigkeit bei k gibt den Anteil der ersten k Elemente in dieser Liste an, die „relevant“ sind. Das bedeutet:
precision at k=relevant items in first k items of the listk
Der Wert von k muss kleiner oder gleich der Länge der zurückgegebenen Liste sein. Die Länge der zurückgegebenen Liste ist nicht Teil der Berechnung.
Die Relevanz ist oft subjektiv. Selbst menschliche Prüfer sind sich oft nicht einig, welche Elemente relevant sind.
Vergleichen mit:
Klicken Sie auf das Symbol, um ein Beispiel zu sehen.
Precision-/Recall-Kurve
Eine Kurve der Genauigkeit im Vergleich zur Trefferquote bei verschiedenen Klassifizierungsgrenzwerten.
Prognosefehler
Ein Wert, der angibt, wie weit der Durchschnitt der Vorhersagen vom Durchschnitt der Labels im Datensatz abweicht.
Nicht zu verwechseln mit dem Begriff „Bias“ in Machine-Learning-Modellen oder mit Voreingenommenheit in Bezug auf Ethik und Fairness.
Prognoseparität
Ein Fairness-Messwert, mit dem geprüft wird, ob die Genauigkeitsraten für einen bestimmten Klassifikator für die betrachteten Untergruppen gleich sind.
Ein Modell, das die Zulassung an einer Hochschule vorhersagt, erfüllt beispielsweise die Vorhersageparität für die Nationalität, wenn die Präzision für Lilliputaner und Brobdingnagier gleich ist.
Die Prognoseparität wird manchmal auch als Prognosepreisparität bezeichnet.
Eine ausführlichere Erläuterung der Vorhersageparität finden Sie unter Definitionen von Fairness (Abschnitt 3.2.1).
Prognosebasierte Preisparität
Ein anderer Name für vorhersagende Parität.
Wahrscheinlichkeitsdichtefunktion
Eine Funktion, mit der die Häufigkeit von Datenstichproben ermittelt wird, die genau einen bestimmten Wert haben. Wenn die Werte eines Datensatzes kontinuierliche Gleitkommazahlen sind, kommt es selten zu genauen Übereinstimmungen. Wenn Sie jedoch eine Wahrscheinlichkeitsdichtefunktion von Wert x
bis Wert y
integrieren, erhalten Sie die erwartete Häufigkeit von Datenstichproben zwischen x
und y
.
Angenommen, Sie haben eine Normalverteilung mit einem Mittelwert von 200 und einer Standardabweichung von 30. Um die erwartete Häufigkeit von Stichproben im Bereich von 211,4 bis 218,7 zu bestimmen, können Sie die Wahrscheinlichkeitsdichtefunktion für eine Normalverteilung von 211,4 bis 218,7 integrieren.
R
Rückruf
Messwert für Klassifizierungsmodelle, der die folgende Frage beantwortet:
Wenn die Grundwahrheit die positive Klasse war, welcher Prozentsatz der Vorhersagen wurde vom Modell korrekt als positive Klasse identifiziert?
Hier ist die Formel:
Recall=true positivestrue positives+false negatives
Dabei gilt:
- „Richtig positiv“ bedeutet, dass das Modell die positive Klasse richtig vorhergesagt hat.
- „Falsch negativ“ bedeutet, dass das Modell fälschlicherweise die negative Klasse vorhergesagt hat.
Angenommen, Ihr Modell hat 200 Vorhersagen für Beispiele gemacht, bei denen die Grundwahrheit die positive Klasse war. Von diesen 200 Vorhersagen:
- 180 waren richtig positiv.
- 20 waren falsch negativ.
In diesem Fall gilt:
Recall=180180+20=0.9
Klicken Sie auf das Symbol, um Hinweise zu klassenunbalancierten Datasets aufzurufen.
Weitere Informationen finden Sie unter Klassifizierung: Genauigkeit, Recall, Precision und zugehörige Messwerte.
Recall bei k (recall@k)
Ein Messwert zur Bewertung von Systemen, die eine sortierte (geordnete) Liste von Elementen ausgeben. Der Recall bei k gibt den Anteil der relevanten Elemente in den ersten k Elementen dieser Liste an, bezogen auf die Gesamtzahl der zurückgegebenen relevanten Elemente.
recall at k=relevant items in first k items of the listtotal number of relevant items in the list
Im Gegensatz zur Precision bei k.
Klicken Sie auf das Symbol, um ein Beispiel zu sehen.
ROC-Kurve (Receiver Operating Curve)
Ein Diagramm der Rate richtig positiver Ergebnisse im Vergleich zur Rate falsch positiver Ergebnisse für verschiedene Klassifizierungsschwellenwerte bei der binären Klassifizierung.
Die Form einer ROC-Kurve gibt Aufschluss darüber, wie gut ein binäres Klassifizierungsmodell positive Klassen von negativen Klassen unterscheiden kann. Angenommen, ein binäres Klassifizierungsmodell trennt alle negativen Klassen perfekt von allen positiven Klassen:
Die ROC-Kurve für das vorherige Modell sieht so aus:
Im Gegensatz dazu zeigt die folgende Abbildung die Rohwerte der logistischen Regression für ein schlechtes Modell, das negative Klassen überhaupt nicht von positiven Klassen unterscheiden kann:
Die ROC-Kurve für dieses Modell sieht so aus:
In der Praxis trennen die meisten binären Klassifizierungsmodelle positive und negative Klassen zwar in gewissem Maße, aber in der Regel nicht perfekt. Eine typische ROC-Kurve liegt also irgendwo zwischen den beiden Extremen:
Der Punkt auf einer ROC-Kurve, der (0,0; 1,0) am nächsten ist, identifiziert theoretisch den idealen Klassifizierungsgrenzwert. Es gibt jedoch mehrere andere reale Probleme, die die Auswahl des idealen Klassifizierungsgrenzwerts beeinflussen. Vielleicht sind falsch negative Ergebnisse beispielsweise viel schlimmer als falsch positive.
Mit dem numerischen Messwert AUC wird die ROC-Kurve in einem einzigen Gleitkommawert zusammengefasst.
Wurzel der mittleren Fehlerquadratsumme (RMSE)
Die Quadratwurzel der mittleren quadratischen Abweichung.
ROUGE (Recall-Oriented Understudy for Gisting Evaluation)
Eine Reihe von Messwerten zur Bewertung von Modellen für automatische Zusammenfassungen und maschinelle Übersetzung. Mit ROUGE-Messwerten wird der Grad bestimmt, in dem ein Referenztext mit dem generierten Text eines ML-Modells übereinstimmt. Jedes Mitglied der ROUGE-Familie misst Überschneidungen auf unterschiedliche Weise. Je höher der ROUGE-Wert, desto ähnlicher sind der Referenztext und der generierte Text.
Für jedes Mitglied der ROUGE-Familie werden in der Regel die folgenden Messwerte generiert:
- Precision
- Recall
- F1
Weitere Informationen und Beispiele finden Sie unter:
ROUGE-L
Ein Mitglied der ROUGE-Familie, das sich auf die Länge der längsten gemeinsamen Untersequenz im Referenztext und generierten Text konzentriert. Mit den folgenden Formeln werden Recall und Precision für ROUGE-L berechnet:
Mit F1 können Sie die ROUGE-L-Trefferquote und die ROUGE-L-Genauigkeit in einem einzigen Messwert zusammenfassen:
Klicken Sie auf das Symbol, um ein Beispiel für die Berechnung von ROUGE-L zu sehen.
Bei ROUGE-L werden alle Zeilenumbrüche im Referenztext und im generierten Text ignoriert. Die längste gemeinsame Untersequenz kann also mehrere Sätze umfassen. Wenn der Referenztext und der generierte Text mehrere Sätze enthalten, ist eine Variante von ROUGE-L namens ROUGE-Lsum in der Regel ein besserer Messwert. Bei ROUGE-Lsum wird die längste gemeinsame Untersequenz für jeden Satz in einem Abschnitt ermittelt und dann der Mittelwert dieser längsten gemeinsamen Untersequenzen berechnet.
Klicken Sie auf das Symbol, um ein Beispiel für die Berechnung von ROUGE-Lsum zu sehen.
ROUGE-N
Eine Reihe von Messwerten innerhalb der ROUGE-Familie, mit denen die gemeinsamen N-Gramme einer bestimmten Größe im Referenztext und im generierten Text verglichen werden. Beispiel:
- ROUGE-1 misst die Anzahl der gemeinsamen Tokens im Referenztext und im generierten Text.
- ROUGE-2 misst die Anzahl der gemeinsamen Bigramme (2-Gramme) im Referenztext und im generierten Text.
- ROUGE-3 misst die Anzahl der gemeinsamen Trigramme (3-Gramme) im Referenztext und im generierten Text.
Mit den folgenden Formeln können Sie die ROUGE-N-Wiedererkennungsrate und die ROUGE-N-Genauigkeit für jedes Mitglied der ROUGE-N-Familie berechnen:
Mit F1 können Sie die ROUGE-N-Trefferquote und die ROUGE-N-Genauigkeit in einem einzigen Messwert zusammenfassen:
Klicken Sie auf das Symbol, um ein Beispiel zu sehen.
ROUGE-S
Eine fehlertolerante Form von ROUGE-N, die Skip-Gram-Abgleiche ermöglicht. Das heißt, bei ROUGE-N werden nur N-Gramme gezählt, die genau übereinstimmen. Bei ROUGE-S werden auch N-Gramme gezählt, die durch ein oder mehrere Wörter getrennt sind. Sie könnten beispielsweise Folgendes versuchen:
- Referenztext: Weiße Wolken
- generierter Text: Weiße auftürmende Wolken
Bei der Berechnung von ROUGE-N stimmt das 2-Gramm Weiße Wolken nicht mit Weiße aufsteigende Wolken überein. Bei der Berechnung von ROUGE-S stimmt Weiße Wolken jedoch mit Weiße aufsteigende Wolken überein.
R-Quadrat
Ein Regressionsmesswert, der angibt, wie viel Abweichung bei einem Label auf ein einzelnes Feature oder einen Feature-Set zurückzuführen ist. R-Quadrat ist ein Wert zwischen 0 und 1, der folgendermaßen interpretiert werden kann:
- Ein R-Quadrat von 0 bedeutet, dass keine Abweichungen eines Labels auf die Feature-Gruppe zurückzuführen sind.
- Ein R-Quadrat von 1 bedeutet, dass die gesamte Varianz eines Labels auf die Feature-Gruppe zurückzuführen ist.
- Ein R-Quadrat zwischen 0 und 1 gibt an, inwieweit die Abweichung des Labels anhand eines bestimmten Features oder des gesamten Feature-Sets vorhergesagt werden kann. Ein R-Quadrat von 0,10 bedeutet beispielsweise, dass 10 % der Abweichung im Label auf die Feature-Gruppe zurückzuführen sind. Ein R-Quadrat von 0,20 bedeutet, dass 20 % auf die Feature-Gruppe zurückzuführen sind.
Das Bestimmtheitsmaß ist das Quadrat des Pearson-Korrelationskoeffizienten zwischen den Werten, die ein Modell vorhergesagt hat, und der Ground Truth.
S
Bewertung
Der Teil eines Empfehlungssystems, der für jeden Artikel, der in der Phase der Kandidatengenerierung erstellt wurde, einen Wert oder Rang liefert.
Ähnlichkeitsmaß
In Clustering-Algorithmen wird mit diesem Messwert bestimmt, wie ähnlich sich zwei Beispiele sind.
dünne Besetzung
Die Anzahl der Elemente in einem Vektor oder einer Matrix, die auf Null gesetzt sind, geteilt durch die Gesamtzahl der Einträge in diesem Vektor oder dieser Matrix. Angenommen, Sie haben eine Matrix mit 100 Elementen, in der 98 Zellen den Wert 0 enthalten. Die Berechnung der Seltenheit erfolgt so:
Die Sparsity von Merkmalen bezieht sich auf die Sparsity eines Merkmalsvektors. Die Sparsity des Modells bezieht sich auf die Sparsity der Modellgewichte.
Quadratischer Scharnierverlust
Das Quadrat des Gliederverlusts. Beim quadratischen Achsenabstand werden Ausreißer stärker bestraft als beim regulären Achsenabstand.
Quadratische Abweichung
Synonym für L2-Verlust.
T
Testverlust
Ein Messwert, der den Verlust eines Modells im Vergleich zum Test-Dataset darstellt. Beim Erstellen eines Modells versuchen Sie in der Regel, den Testverlust zu minimieren. Das liegt daran, dass ein niedriger Testverlust ein stärkeres Qualitätssignal ist als ein niedriger Trainingsverlust oder ein niedriger Validierungsverlust.
Ein großer Unterschied zwischen Testverlust und Trainingsverlust oder Validierungsverlust weist manchmal darauf hin, dass Sie die Regulierungsrate erhöhen müssen.
Top-K-Genauigkeit
Der Prozentsatz, mit dem ein „Ziellabel“ in den ersten k Positionen der generierten Listen erscheint. Die Listen können personalisierte Empfehlungen oder eine Liste von Elementen sein, die nach Softmax sortiert sind.
Die Top-K-Genauigkeit wird auch als Genauigkeit bei k bezeichnet.
Klicken Sie auf das Symbol, um ein Beispiel zu sehen.
Toxizität
Der Grad, in dem Inhalte missbräuchlich, bedrohlich oder anstößig sind. Viele Modelle für maschinelles Lernen können Toxizität erkennen und messen. Die meisten dieser Modelle erkennen toxisches Verhalten anhand mehrerer Parameter, z. B. anhand des Ausmaßes an missbräuchlicher und bedrohlicher Sprache.
Trainingsverlust
Ein Messwert, der den Verlust eines Modells während einer bestimmten Trainingsiteration darstellt. Angenommen, die Verlustfunktion ist der Quadratische Mittelwert. Angenommen, der Trainingsverlust (der mittlere quadratische Fehler) für die 10.Iteration beträgt 2,2 und der Trainingsverlust für die 100.Iteration 1,9.
Eine Verlustkurve stellt den Trainingsverlust in Abhängigkeit von der Anzahl der Iterationen dar. Eine Verlustkurve liefert folgende Hinweise zum Training:
- Ein nach unten geneigter Verlauf bedeutet, dass sich das Modell verbessert.
- Eine Steigung bedeutet, dass das Modell schlechter wird.
- Eine flache Steigung bedeutet, dass das Modell Konvergenz erreicht hat.
Die folgende etwas idealisierte Verlustkurve zeigt beispielsweise:
- Ein starker Abfall während der ersten Iterationen, was auf eine schnelle Modellverbesserung hindeutet.
- Eine allmählich flachere (aber weiterhin abwärts gerichtete) Steigung bis kurz vor Ende des Trainings, was eine kontinuierliche Modellverbesserung mit etwas geringerem Tempo als bei den ersten Iterationen bedeutet.
- Eine flache Steigung gegen Ende des Trainings, was auf eine Konvergenz hindeutet.
Auch wenn der Trainingsverlust wichtig ist, sollten Sie sich auch mit der Generalisierung befassen.
Richtig negativ (TN)
Ein Beispiel, in dem das Modell die negative Klasse richtig vorhersagt. Angenommen, das Modell schließt daraus, dass eine bestimmte E-Mail kein Spam ist, und diese E-Mail ist tatsächlich kein Spam.
Richtig positiv (TP)
Ein Beispiel, in dem das Modell die positive Klasse richtig vorhersagt. Angenommen, das Modell schließt daraus, dass eine bestimmte E-Mail-Nachricht Spam ist, und diese E-Mail-Nachricht ist tatsächlich Spam.
Rate richtig positiver Ergebnisse (True Positive Rate, TPR)
Synonym für Erinnerung. Das bedeutet:
Die Rate richtig positiver Ergebnisse ist die y-Achse einer ROC-Kurve.
V
Validierungsverlust
Ein Messwert, der den Verlust eines Modells im Validierungs-Dataset während einer bestimmten Iteration des Trainings darstellt.
Siehe auch Generalisierungskurve.
Variablenbewertungen
Eine Reihe von Werten, die die relative Wichtigkeit jedes Features für das Modell angeben.
Betrachten Sie beispielsweise einen Entscheidungsbaum, mit dem Hauspreise geschätzt werden. Angenommen, dieser Entscheidungsbaum verwendet drei Merkmale: Größe, Alter und Stil. Wenn die Variablen für die drei Merkmale {Größe=5,8; Alter=2,5; Stil=4,7} berechnet werden, ist die Größe für den Entscheidungsbaum wichtiger als Alter oder Stil.
Es gibt verschiedene Messwerte zur Variablenwichtigkeit, mit denen ML-Experten verschiedene Aspekte von Modellen ermitteln können.
W
Verlust von Wasserstein
Eine der Verlustfunktionen, die häufig in generativen Adversarial Networks verwendet wird. Sie basiert auf der Earth Mover's Distance zwischen der Verteilung der generierten Daten und der der tatsächlichen Daten.