Diese Seite wurde von der Cloud Translation API übersetzt.

Glossar zum Thema maschinelles Lernen: Messwerte

Auf dieser Seite finden Sie Begriffe aus dem Glossar für Messwerte. Hier finden Sie alle Glossarbegriffe.

A

Genauigkeit

#fundamentals

#Messwert

Die Anzahl der richtigen Klassifizierungsvorhersagen, dividiert durch die Gesamtzahl der Vorhersagen. Das bedeutet:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Ein Modell, das beispielsweise 40 korrekte und 10 falsche Vorhersagen getroffen hat, hätte eine Genauigkeit von:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

Bei der binären Klassifizierung werden bestimmte Namen für die verschiedenen Kategorien von richtigen Vorhersagen und falschen Vorhersagen verwendet. Die Formel für die Genauigkeit bei der binären Klassifizierung lautet also:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

Dabei gilt:

TP ist die Anzahl der richtig positiven Ergebnisse (richtige Vorhersagen).
TN ist die Anzahl der richtig negativen Ergebnisse (richtige Vorhersagen).
FP ist die Anzahl der falsch positiven Ergebnisse (falsche Vorhersagen).
FN ist die Anzahl der falsch negativen Ergebnisse (falsche Vorhersagen).

Vergleichen Sie die Genauigkeit mit der Präzision und der Trefferquote.

Klicken Sie auf das Symbol, um Details zur Genauigkeit und zu Datasets mit ungleichmäßiger Klassenverteilung zu erhalten.

Die Genauigkeit ist zwar in einigen Situationen ein nützlicher Messwert, kann aber in anderen Fällen sehr irreführend sein. Die Genauigkeit ist in der Regel ein schlechter Messwert für die Bewertung von Klassifizierungsmodellen, die Datasets mit ungleichmäßiger Klassenverteilung verarbeiten.

Angenommen, in einer bestimmten subtropischen Stadt schneit es nur 25 Tage pro Jahrhundert. Da es in dieser Stadt viel mehr Tage ohne Schnee (die negative Klasse) als Tage mit Schnee (die positive Klasse) gibt, ist das Dataset für Schnee klassenungleichgewichtig. Stellen Sie sich ein binäres Klassifizierungsmodell vor, das jeden Tag entweder Schnee oder keinen Schnee vorhersagen soll, aber einfach jeden Tag „kein Schnee“ vorhersagt. Dieses Modell ist sehr genau, hat aber keine Vorhersagekraft. In der folgenden Tabelle sind die Ergebnisse für ein Jahrhundert von Vorhersagen zusammengefasst:

Kategorie	Zahl
RPE	0
TN	36499
FP	0
FNE	25

Die Genauigkeit dieses Modells ist also:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (0 + 36499) / (0 + 36499 + 0 + 25) = 0.9993 = 99.93%

Obwohl 99,93% Genauigkeit ein sehr beeindruckender Prozentsatz zu sein scheinen, hat das Modell tatsächlich keine Vorhersagekraft.

Precision und Recall sind in der Regel nützlichere Messwerte als Accuracy, um Modelle zu bewerten, die mit klassenungleichgewichteten Datasets trainiert wurden.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Klassifizierung: Genauigkeit, Trefferquote, Präzision und zugehörige Messwerte.

Bereich unter der PR-Kurve

#Messwert

Weitere Informationen finden Sie unter PR AUC (Area under the PR Curve).

Bereich unter der ROC-Kurve

#Messwert

Weitere Informationen finden Sie unter AUC (Area under the ROC curve).

AUC (Area Under the ROC Curve, Bereich unter der ROC-Kurve)

#fundamentals

#Messwert

Eine Zahl zwischen 0,0 und 1,0, die angibt, wie gut ein binäres Klassifizierungsmodell positive Klassen von negativen Klassen trennen kann. Je näher die AUC an 1,0 liegt, desto besser kann das Modell Klassen voneinander trennen.

Die folgende Abbildung zeigt beispielsweise ein Klassifikationsmodell, das positive Klassen (grüne Ovale) perfekt von negativen Klassen (lila Rechtecke) trennt. Dieses unrealistisch perfekte Modell hat einen AUC-Wert von 1,0:

Ein Zahlenstrahl mit 8 positiven Beispielen auf der einen Seite und 9 negativen Beispielen auf der anderen Seite.

Die folgende Abbildung zeigt dagegen die Ergebnisse für ein Klassifizierungsmodell, das zufällige Ergebnisse generiert hat. Dieses Modell hat einen AUC-Wert von 0,5:

Ein Zahlenstrahl mit 6 positiven und 6 negativen Beispielen.
Die Reihenfolge der Beispiele ist positiv, negativ, positiv, negativ, positiv, negativ, positiv, negativ, positiv, negativ, positiv, negativ.

Ja, das vorherige Modell hat einen AUC-Wert von 0,5, nicht 0,0.

Die meisten Modelle liegen irgendwo zwischen den beiden Extremen. Im folgenden Modell werden beispielsweise positive und negative Ergebnisse einigermaßen getrennt. Daher liegt die AUC zwischen 0, 5 und 1, 0:

Ein Zahlenstrahl mit 6 positiven und 6 negativen Beispielen.
Die Reihenfolge der Beispiele ist negativ, negativ, negativ, negativ,
positiv, negativ, positiv, positiv, negativ, positiv, positiv,
positiv.

Bei der AUC wird jeder Wert ignoriert, den Sie für Klassifizierungsschwellenwert festlegen. Stattdessen werden bei der AUC alle möglichen Klassifizierungsschwellenwerte berücksichtigt.

Klicken Sie auf das Symbol, um mehr über die Beziehung zwischen AUC und ROC-Kurven zu erfahren.

AUC steht für den Bereich unter einer ROC-Kurve. Die ROC-Kurve für ein Modell, das positive und negative Werte perfekt trennt, sieht beispielsweise so aus:

AUC ist die Fläche des grauen Bereichs in der Abbildung oben. In diesem ungewöhnlichen Fall ist die Fläche einfach die Länge des grauen Bereichs (1,0) multipliziert mit der Breite des grauen Bereichs (1,0). Das Produkt von 1,0 und 1,0 ergibt also eine AUC von genau 1,0, was der höchstmögliche AUC-Wert ist.

Die ROC-Kurve für ein Klassifikationsmodell, das Klassen überhaupt nicht trennen kann, sieht so aus: Die Fläche dieses grauen Bereichs beträgt 0,5.

Eine typischere ROC-Kurve sieht ungefähr so aus:

Die Fläche unter dieser Kurve manuell zu berechnen, wäre mühsam. Daher werden die meisten AUC-Werte in der Regel von einem Programm berechnet.

Klicken Sie auf das Symbol, um eine formellere Definition von AUC zu erhalten.

Die AUC ist die Wahrscheinlichkeit, dass ein Klassifikationsmodell mit höherer Konfidenz davon ausgeht, dass ein zufällig ausgewähltes positives Beispiel tatsächlich positiv ist, als dass ein zufällig ausgewähltes negatives Beispiel positiv ist.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Klassifizierung: ROC und AUC.

Durchschnittliche Precision bei k

#Messwert

Ein Messwert zur Zusammenfassung der Leistung eines Modells bei einem einzelnen Prompt, der sortierte Ergebnisse generiert, z. B. eine nummerierte Liste mit Buchempfehlungen. Die durchschnittliche Precision bei k ist der Durchschnitt der Precision bei k-Werte für jedes relevante Ergebnis. Die Formel für die durchschnittliche Precision bei k lautet daher:

\[{\text{average precision at k}} = \frac{1}{n} \sum_{i=1}^n {\text{precision at k for each relevant item} } \]

Dabei gilt:

$n$ ist die Anzahl der relevanten Elemente in der Liste.

Kontrast zu Recall at k.

Klicken Sie auf das Symbol für ein Beispiel.

Angenommen, ein Large Language Model erhält die folgende Anfrage:

List the 6 funniest movies of all time in order.

Das Large Language Model gibt die folgende Liste zurück:

The General
Mean Girls
Platoon
Brautalarm
Citizen Kane
This is Spinal Tap

Vier der Filme in der zurückgegebenen Liste sind sehr lustig (d. h. sie sind relevant), aber zwei Filme sind Dramen (nicht relevant). Die Ergebnisse sind in der folgenden Tabelle aufgeführt:

Position	Film	Relevant?	Precision bei k
1	The General	Ja	1.0
2	Mean Girls	Ja	1.0
3	Platoon	Nein	nicht relevant
4	Brautalarm	Ja	0,75
5	Citizen Kane	Nein	nicht relevant
6	This is Spinal Tap	Ja	0,67

Die Anzahl der relevanten Ergebnisse beträgt 4. Daher können Sie die durchschnittliche Precision bei 6 so berechnen:

$${\text{average precision at 6}} = \frac{1}{4} {\text{(1.0 + 1.0 + 0.75 + 0.67)} } $$ $${\text{average precision at 6}} = {\text{~0.85} } $$

B

baseline

#Messwert

Ein Modell, das als Referenzpunkt für den Vergleich der Leistung eines anderen Modells (in der Regel eines komplexeren) verwendet wird. Ein logistisches Regressionsmodell kann beispielsweise als gute Baseline für ein Deep-Learning-Modell dienen.

Für ein bestimmtes Problem hilft die Baseline den Modellentwicklern, die minimale erwartete Leistung zu quantifizieren, die ein neues Modell erreichen muss, damit es nützlich ist.

C

Kosten

#Messwert

Synonym für Verlust.

Kontrafaktische Fairness

#responsible

#Messwert

Eine Fairness-Messwert, mit dem geprüft wird, ob ein Klassifizierungsmodell für eine Person das gleiche Ergebnis liefert wie für eine andere Person, die mit der ersten identisch ist, mit Ausnahme von einem oder mehreren vertraulichen Attributen. Die Bewertung eines Klassifizierungsmodells hinsichtlich kontrafaktischer Fairness ist eine Methode, um potenzielle Quellen für Bias in einem Modell aufzudecken.

Weitere Informationen finden Sie hier:

Fairness: Kontrafaktische Fairness im Crashkurs „Maschinelles Lernen“
When Worlds Collide: Integrating Different Counterfactual Assumptions in Fairness

Cross-Entropy

#Messwert

Eine Verallgemeinerung des Log-Verlusts für Klassifizierungsprobleme mit mehreren Klassen. Die Kreuzentropie quantifiziert den Unterschied zwischen zwei Wahrscheinlichkeitsverteilungen. Siehe auch Perplexity.

Verteilungsfunktion

#Messwert

Eine Funktion, die die Häufigkeit von Stichproben definiert, die kleiner oder gleich einem Zielwert sind. Betrachten wir beispielsweise eine Normalverteilung von kontinuierlichen Werten. Eine kumulative Verteilungsfunktion gibt an, dass etwa 50% der Stichproben kleiner oder gleich dem Mittelwert sein sollten und etwa 84% der Stichproben kleiner oder gleich einer Standardabweichung über dem Mittelwert sein sollten.

D

demografische Parität

#responsible

#Messwert

Ein Fairness-Messwert, der erfüllt ist, wenn die Ergebnisse der Klassifizierung eines Modells nicht von einem bestimmten sensiblen Attribut abhängen.

Wenn sich beispielsweise sowohl Lilliputaner als auch Brobdingnagianer an der Glubbdubdrib University bewerben, wird demografische Parität erreicht, wenn der Prozentsatz der zugelassenen Lilliputaner dem Prozentsatz der zugelassenen Brobdingnagianer entspricht, unabhängig davon, ob eine Gruppe im Durchschnitt qualifizierter ist als die andere.

Im Gegensatz dazu erlauben Equalized Odds und Equality of Opportunity, dass Klassifizierungsergebnisse insgesamt von sensiblen Attributen abhängen, aber nicht, dass Klassifizierungsergebnisse für bestimmte angegebene Grundwahrheitslabels von sensiblen Attributen abhängen. Im Google Research-Blogpost zum Thema „Diskriminierung durch intelligentes maschinelles Lernen“ finden Sie eine Visualisierung, in der die Kompromisse bei der Optimierung für demografische Parität dargestellt werden.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Fairness: demographic parity.

E

Earth Mover’s Distance (EMD)

#Messwert

Ein Maß für die relative Ähnlichkeit zweier Verteilungen. Je geringer die Earth Mover’s Distance, desto ähnlicher sind die Verteilungen.

Bearbeitungsdistanz

#Messwert

Ein Maß dafür, wie ähnlich sich zwei Textstrings sind. Im maschinellen Lernen ist die Bearbeitungsdistanz aus folgenden Gründen nützlich:

Die Distanz lässt sich leicht berechnen.
Mit der Edit-Distanz können zwei Strings verglichen werden, die sich ähneln.
Mit der Edit-Distanz lässt sich ermitteln, wie ähnlich verschiedene Strings einem bestimmten String sind.

Es gibt verschiedene Definitionen von „Edit Distance“, bei denen jeweils unterschiedliche String-Operationen verwendet werden. Ein Beispiel finden Sie unter Levenshtein-Distanz.

Empirische Verteilungsfunktion (eCDF oder EDF)

#Messwert

Eine kumulative Verteilungsfunktion, die auf empirischen Messungen aus einem realen Datensatz basiert. Der Wert der Funktion an einem beliebigen Punkt entlang der x-Achse ist der Anteil der Beobachtungen im Dataset, die kleiner oder gleich dem angegebenen Wert sind.

Entropie

#df

#Messwert

In der Informationstheorie wird die Unvorhersehbarkeit einer Wahrscheinlichkeitsverteilung beschrieben. Alternativ wird die Entropie auch als die Menge an Informationen definiert, die jedes Beispiel enthält. Eine Verteilung hat die höchstmögliche Entropie, wenn alle Werte einer Zufallsvariablen gleich wahrscheinlich sind.

Die Entropie einer Menge mit zwei möglichen Werten „0“ und „1“ (z. B. die Labels in einem binären Klassifizierungsproblem) wird mit der folgenden Formel berechnet:

H = -p log p - q log q = -p log p - (1-p) * log (1-p)

Dabei gilt:

H ist die Entropie.
p ist der Anteil der Beispiele mit dem Wert „1“.
q ist der Anteil der Beispiele mit dem Wert „0“. Hinweis: q = (1 – p)
log ist im Allgemeinen log₂. In diesem Fall ist die Entropieeinheit ein Bit.

Nehmen wir beispielsweise Folgendes an:

100 Beispiele enthalten den Wert „1“.
300 Beispiele enthalten den Wert „0“

Der Entropiewert ist also:

p = 0,25
q = 0,75
H = (-0,25)log₂(0,25) – (0,75)log₂(0,75) = 0,81 Bit pro Beispiel

Ein perfekt ausgeglichener Satz (z. B. 200 „0“ und 200 „1“) hätte eine Entropie von 1, 0 Bit pro Beispiel. Je unausgewogener ein Set ist, desto mehr nähert sich seine Entropie dem Wert 0,0 an.

In Entscheidungsbäumen wird mit Entropie der Informationsgewinn formuliert, damit der Splitter beim Erstellen eines Klassifizierungsentscheidungsbaums die Bedingungen auswählen kann.

Entropie vergleichen mit:

Gini-Unreinheit
Kreuzentropie-Verlustfunktion

Entropie wird oft als Shannon-Entropie bezeichnet.

Weitere Informationen finden Sie im Kurs „Entscheidungsbäume“ unter Exact splitter for binary classification with numerical features (Genaue Aufteilung für die binäre Klassifizierung mit numerischen Features).

Chancengleichheit

#responsible

#Messwert

Ein Fairness-Messwert, um zu bewerten, ob ein Modell das gewünschte Ergebnis für alle Werte eines sensiblen Attributs gleich gut vorhersagt. Wenn das gewünschte Ergebnis für ein Modell die positive Klasse ist, sollte die Rate der richtig positiven Ergebnisse für alle Gruppen gleich sein.

Die Chancengleichheit hängt mit gleichberechtigten Chancen zusammen, bei denen sowohl die Richtig-Positiv-Raten als auch die Falsch-Positiv-Raten für alle Gruppen gleich sein müssen.

Angenommen, die Glubbdubdrib University nimmt sowohl Lilliputaner als auch Brobdingnagianer in ein anspruchsvolles Mathematikprogramm auf. Die weiterführenden Schulen der Lilliputaner bieten einen soliden Lehrplan für Mathematik, und die überwiegende Mehrheit der Schüler ist für das Universitätsprogramm qualifiziert. Die weiterführenden Schulen in Brobdingnag bieten überhaupt keine Mathematikunterricht an, weshalb viel weniger Schüler qualifiziert sind. Chancengleichheit für das bevorzugte Label „zugelassen“ in Bezug auf die Nationalität (Lilliputaner oder Brobdingnagianer) ist gegeben, wenn qualifizierte Studierende unabhängig davon, ob sie Lilliputaner oder Brobdingnagianer sind, mit gleicher Wahrscheinlichkeit zugelassen werden.

Nehmen wir beispielsweise an, dass sich 100 Lilliputaner und 100 Brobdingnagianer für die Glubbdubdrib University bewerben und die Zulassungsentscheidungen wie folgt getroffen werden:

Tabelle 1. Lilliputian-Bewerber (90% sind qualifiziert)

	Qualifiziert	Unqualifiziert
Zugelassen	45	3
Abgelehnt	45	7
Gesamt	90	10
Prozentsatz der zugelassenen qualifizierten Studenten: 45/90 = 50% Prozentsatz der abgelehnten nicht qualifizierten Studenten: 7/10 = 70% Gesamtprozentsatz der zugelassenen Lilliputian-Studenten: (45+3)/100 = 48%

Tabelle 2 Brobdingnagian-Bewerber (10% sind qualifiziert):

	Qualifiziert	Unqualifiziert
Zugelassen	5	9
Abgelehnt	5	81
Gesamt	10	90
Prozentsatz der zugelassenen qualifizierten Studenten: 5/10 = 50% Prozentsatz der abgelehnten nicht qualifizierten Studenten: 81/90 = 90% Gesamtprozentsatz der zugelassenen Brobdingnagian-Studenten: (5+9)/100 = 14%

Die vorherigen Beispiele erfüllen die Chancengleichheit für die Aufnahme qualifizierter Studierender, da sowohl qualifizierte Lilliputianer als auch Brobdingnagianer eine 50-prozentige Chance haben, aufgenommen zu werden.

Die Gleichheit der Chancen ist erfüllt, die folgenden beiden Fairnessmesswerte jedoch nicht:

Demografische Parität: Lilliputaner und Brobdingnagianer werden mit unterschiedlichen Raten an der Universität zugelassen. 48% der Lilliputaner werden zugelassen, aber nur 14% der Brobdingnagianer.
Gleiche Chancen: Qualifizierte Lilliputian- und Brobdingnagian-Studenten haben zwar die gleiche Chance, zugelassen zu werden, die zusätzliche Einschränkung, dass nicht qualifizierte Lilliputian- und Brobdingnagian-Studenten die gleiche Chance haben, abgelehnt zu werden, wird jedoch nicht erfüllt. Bei nicht qualifizierten Lilliput-Kandidaten liegt die Ablehnungsrate bei 70 %, bei nicht qualifizierten Brobdingnag-Kandidaten bei 90 %.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Fairness: Equality of opportunity.

ausgeglichene Chancen

#responsible

#Messwert

Ein Fairness-Messwert, mit dem bewertet wird, ob ein Modell Ergebnisse für alle Werte eines sensiblen Attributs in Bezug auf die positive Klasse und die negative Klasse gleichermaßen gut vorhersagt. Mit anderen Worten: Sowohl die Richtig-Positiv-Rate als auch die Falsch-Negativ-Rate sollten für alle Gruppen gleich sein.

Die gleichberechtigten Chancen hängen mit der Chancengleichheit zusammen, die sich nur auf Fehlerraten für eine einzelne Klasse (positiv oder negativ) konzentriert.

Angenommen, die Glubbdubdrib University nimmt sowohl Lilliputaner als auch Brobdingnagianer in ein anspruchsvolles Mathematikprogramm auf. Die weiterführenden Schulen von Lilliput bieten einen umfassenden Lehrplan für Mathematik, und die überwiegende Mehrheit der Schüler ist für das Universitätsprogramm qualifiziert. Die weiterführenden Schulen in Brobdingnag bieten überhaupt keine Mathematikunterricht an, weshalb viel weniger Schüler qualifiziert sind. Die Bedingung „Equalized Odds“ ist erfüllt, wenn ein Bewerber, unabhängig davon, ob er ein Lilliputaner oder ein Brobdingnagianer ist, bei entsprechender Qualifikation mit gleicher Wahrscheinlichkeit für das Programm zugelassen wird und bei fehlender Qualifikation mit gleicher Wahrscheinlichkeit abgelehnt wird.

Angenommen, 100 Lilliputaner und 100 Brobdingnagianer bewerben sich an der Glubbdubdrib University und die Zulassungsentscheidungen werden so getroffen:

Tabelle 3 Lilliputian-Bewerber (90% sind qualifiziert)

	Qualifiziert	Unqualifiziert
Zugelassen	45	2
Abgelehnt	45	8
Gesamt	90	10
Prozentsatz der zugelassenen qualifizierten Schüler: 45/90 = 50% Prozentsatz der abgelehnten nicht qualifizierten Schüler: 8/10 = 80% Gesamtprozentsatz der zugelassenen Lilliputian-Schüler: (45+2)/100 = 47%

Tabelle 4. Brobdingnagian-Bewerber (10% sind qualifiziert):

	Qualifiziert	Unqualifiziert
Zugelassen	5	18
Abgelehnt	5	72
Gesamt	10	90
Prozentsatz der zugelassenen qualifizierten Studenten: 5/10 = 50% Prozentsatz der abgelehnten nicht qualifizierten Studenten: 72/90 = 80% Gesamtprozentsatz der zugelassenen Brobdingnagian-Studenten: (5+18)/100 = 23%

Die Bedingung „Equalized Odds“ ist erfüllt, da qualifizierte Lilliputaner und Brobdingnagianer beide eine 50-prozentige Chance haben, zugelassen zu werden, und nicht qualifizierte Lilliputaner und Brobdingnagianer eine 80-prozentige Chance haben, abgelehnt zu werden.

„Equalized Odds“ wird in „Equality of Opportunity in Supervised Learning“ formal so definiert: „Der Vorhersagewert Ŷ erfüllt die Bedingung ‚Equalized Odds‘ in Bezug auf das geschützte Attribut A und das Ergebnis Y, wenn Ŷ und A unabhängig sind, bedingt durch Y.“

evals

#generativeAI

#Messwert

Wird hauptsächlich als Abkürzung für LLM-Bewertungen verwendet. Im Allgemeinen ist Evals eine Abkürzung für jede Form von Bewertung.

Evaluierung

#generativeAI

#Messwert

Der Prozess, bei dem die Qualität eines Modells gemessen oder verschiedene Modelle miteinander verglichen werden.

Um ein Modell für beaufsichtigtes maschinelles Lernen zu bewerten, vergleichen Sie es in der Regel mit einem Validierungsset und einem Testset. Bewertung eines LLM: Hier werden in der Regel umfassendere Qualitäts- und Sicherheitsbewertungen durchgeführt.

F

F₁

#Messwert

Ein Messwert für die binäre Klassifizierung, der sowohl auf Precision als auch auf Recall basiert. Hier ist die Formel:

$$F{_1} = \frac{\text{2 * precision * recall}} {\text{precision + recall}}$$

Klicken Sie auf das Symbol, um Beispiele zu sehen.

Angenommen, Genauigkeit und Trefferquote haben die folgenden Werte:

precision = 0,6
recall = 0.4

F₁ wird so berechnet:

$$F{_1} = \frac{\text{2 * 0.6 * 0.4}} {\text{0.6 + 0.4}} = 0.48$$

Wenn Genauigkeit und Trefferquote relativ ähnlich sind (wie im vorherigen Beispiel), liegt der F₁-Wert nahe an ihrem Mittelwert. Wenn sich Precision und Recall deutlich unterscheiden, liegt der _F1-Wert näher am niedrigeren Wert. Beispiel:

precision = 0,9
recall = 0.1

$$F{_1} = \frac{\text{2 * 0.9 * 0.1}} {\text{0.9 + 0.1}} = 0.18$$

Fairnessmesswert

#responsible

#Messwert

Eine messbare mathematische Definition von „Fairness“. Häufig verwendete Fairness-Messwerte sind:

Ausgeglichene Chancen
Vorhersageparität
Kontrafaktische Fairness
Demografische Parität

Viele Fairnessmesswerte schließen sich gegenseitig aus. Weitere Informationen finden Sie unter Inkompatibilität von Fairnessmesswerten.

falsch negativ (FN)

#fundamentals

#Messwert

Ein Beispiel, in dem das Modell fälschlicherweise die negative Klasse vorhersagt. Das Modell sagt beispielsweise voraus, dass eine bestimmte E‑Mail-Nachricht kein Spam (die negative Klasse) ist, aber diese E‑Mail-Nachricht ist tatsächlich Spam.

Rate falsch negativer Ergebnisse

#Messwert

Der Anteil der tatsächlich positiven Beispiele, für die das Modell fälschlicherweise die negative Klasse vorhergesagt hat. Die Falsch-Negativ-Rate wird mit der folgenden Formel berechnet:

$$\text{false negative rate} = \frac{\text{false negatives}}{\text{false negatives} + \text{true positives}}$$

Weitere Informationen finden Sie im Machine Learning Crash Course unter Schwellenwerte und die Konfusionsmatrix.

falsch positiv (FP)

#fundamentals

#Messwert

Ein Beispiel, in dem das Modell fälschlicherweise die positive Klasse vorhersagt. Das Modell sagt beispielsweise voraus, dass eine bestimmte E‑Mail-Nachricht Spam (die positive Klasse) ist, aber diese E‑Mail-Nachricht ist tatsächlich kein Spam.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Schwellenwerte und die Konfusionsmatrix.

Rate falsch positiver Ergebnisse (False Positive Rate, FPR)

#fundamentals

#Messwert

Der Anteil der tatsächlich negativen Beispiele, für die das Modell fälschlicherweise die positive Klasse vorhergesagt hat. Die Falsch-positiv-Rate wird mit der folgenden Formel berechnet:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

Die Rate falsch positiver Ergebnisse ist die x-Achse in einer ROC-Kurve.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Klassifizierung: ROC und AUC.

Featurewichtigkeiten

#df

#Messwert

Synonym für Variablenwichtigkeit.

Foundation Model

#generativeAI

#Messwert

Ein sehr großes vortrainiertes Modell, das mit einem enormen und vielfältigen Trainingsset trainiert wurde. Ein Foundation Model kann beides:

Auf eine Vielzahl von Anfragen gut reagieren.
Als Basismodell für zusätzliches Feinabstimmung oder andere Anpassungen dienen.

Ein Foundation Model ist also bereits sehr leistungsfähig, kann aber weiter angepasst werden, um für eine bestimmte Aufgabe noch nützlicher zu sein.

Anteil der Erfolge

#generativeAI

#Messwert

Eine Messgröße zur Bewertung des generierten Texts eines ML-Modells. Der Anteil der Erfolge ist die Anzahl der „erfolgreichen“ generierten Textausgaben geteilt durch die Gesamtzahl der generierten Textausgaben. Wenn beispielsweise ein Large Language Model 10 Codeblöcke generiert hat, von denen fünf erfolgreich waren, beträgt der Anteil der Erfolge 50%.

Der Anteil der Erfolge ist in der Statistik allgemein nützlich. Im Bereich des maschinellen Lernens ist er jedoch in erster Linie für die Messung überprüfbarer Aufgaben wie der Code-Generierung oder mathematischer Probleme geeignet.

G

Gini-Unreinheit

#df

#Messwert

Ein Messwert ähnlich der Entropie. Splitter verwenden Werte, die entweder aus der Gini-Unreinheit oder der Entropie abgeleitet werden, um Bedingungen für die Klassifizierung Entscheidungsbäume zu erstellen. Information Gain wird aus der Entropie abgeleitet. Es gibt keinen allgemein akzeptierten Begriff für den Messwert, der aus der Gini-Unreinheit abgeleitet wird. Dieser unbenannte Messwert ist jedoch genauso wichtig wie der Informationsgewinn.

Die Gini-Unreinheit wird auch als Gini-Index oder einfach als Gini bezeichnet.

Klicken Sie auf das Symbol, um mathematische Details zur Gini-Unreinheit zu sehen.

Die Gini-Unreinheit ist die Wahrscheinlichkeit, dass ein neuer Datensatz aus derselben Verteilung falsch klassifiziert wird. Die Gini-Unreinheit einer Menge mit zwei möglichen Werten „0“ und „1“ (z. B. die Labels in einem binären Klassifizierungsproblem) wird mit der folgenden Formel berechnet:

I = 1 – (p² + q²) = 1 – (p² + (1–p)²)

Dabei gilt:

I ist die Gini-Unreinheit.
p ist der Anteil der Beispiele mit dem Wert „1“.
q ist der Anteil der Beispiele mit dem Wert „0“. q = 1–p

Betrachten Sie beispielsweise das folgende Dataset:

100 Labels (0,25 % des Datasets) enthalten den Wert „1“.
300 Labels (0,75 des Datasets) enthalten den Wert „0“.

Daher ist die Gini-Unreinheit:

p = 0,25
q = 0,75
I = 1 – (0,25² + 0,75²) = 0,375

Folglich hätte ein zufälliges Label aus demselben Dataset eine Wahrscheinlichkeit von 37,5 %, falsch klassifiziert zu werden, und eine Wahrscheinlichkeit von 62,5 %, richtig klassifiziert zu werden.

Ein perfekt ausgeglichenes Label (z. B. 200 „0“-Werte und 200 „1“-Werte) hätte eine Gini-Unreinheit von 0, 5. Ein stark unausgewogenes Label hätte eine Gini-Unreinheit nahe 0,0.

H

Hinge-Verlust

#Messwert

Eine Familie von Verlustfunktionen für die Klassifizierung, die darauf ausgelegt sind, die Entscheidungsgrenze so weit wie möglich von jedem Trainingsbeispiel entfernt zu finden und so den Abstand zwischen Beispielen und der Grenze zu maximieren. KSVMs verwenden Hinge-Loss (oder eine ähnliche Funktion wie Squared Hinge-Loss). Bei der binären Klassifizierung wird die Hinge-Verlustfunktion so definiert:

$$\text{loss} = \text{max}(0, 1 - (y * y'))$$

Dabei ist y das tatsächliche Label (-1 oder +1) und y' die Rohausgabe des Klassifizierungsmodells:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Daher sieht ein Diagramm des Hinge-Verlusts im Vergleich zu (y * y') so aus:

Ein kartesisches Diagramm, das aus zwei verbundenen Liniensegmenten besteht. Das erste Liniensegment beginnt bei (-3, 4) und endet bei (1, 0). Das zweite Liniensegment beginnt bei (1, 0) und setzt sich unendlich mit einer Steigung von 0 fort.

I

Inkompatibilität von Fairnessmesswerten

#responsible

#Messwert

Die Idee, dass einige Fairnesskonzepte sich gegenseitig ausschließen und nicht gleichzeitig erfüllt werden können. Daher gibt es keinen einzelnen universellen Messwert zur Quantifizierung von Fairness, der auf alle ML-Probleme angewendet werden kann.

Das mag entmutigend klingen, aber die Inkompatibilität von Fairnessmesswerten bedeutet nicht, dass Bemühungen um Fairness vergeblich sind. Stattdessen wird vorgeschlagen, dass Fairness für ein bestimmtes ML-Problem kontextbezogen definiert werden muss, um Schäden zu vermeiden, die für die Anwendungsfälle spezifisch sind.

Eine detailliertere Erläuterung der Inkompatibilität von Fairness-Messwerten finden Sie unter On the (im)possibility of fairness.

Individuelle Fairness

#responsible

#Messwert

Ein Fairness-Messwert, der prüft, ob ähnliche Personen ähnlich klassifiziert werden. Die Brobdingnagian Academy möchte beispielsweise die individuelle Fairness gewährleisten, indem sie dafür sorgt, dass zwei Schüler mit identischen Noten und standardisierten Testergebnissen die gleiche Wahrscheinlichkeit haben, zugelassen zu werden.

Die individuelle Fairness hängt ganz davon ab, wie Sie „Ähnlichkeit“ definieren (in diesem Fall Noten und Testergebnisse). Es besteht das Risiko, dass neue Fairnessprobleme entstehen, wenn Ihr Ähnlichkeitsmesswert wichtige Informationen (z. B. die Strenge des Lehrplans eines Schülers) nicht berücksichtigt.

Eine detailliertere Erläuterung von individueller Fairness finden Sie unter Fairness Through Awareness.

Informationsgewinn

#df

#Messwert

In Entscheidungsbäumen ist das die Differenz zwischen der Entropie eines Knotens und der gewichteten (nach Anzahl der Beispiele) Summe der Entropie seiner untergeordneten Knoten. Die Entropie eines Knotens ist die Entropie der Beispiele in diesem Knoten.

Sehen wir uns zum Beispiel die folgenden Entropiewerte an:

Entropie des übergeordneten Knotens = 0,6
Entropie eines untergeordneten Knotens mit 16 relevanten Beispielen = 0,2
Entropie eines anderen untergeordneten Knotens mit 24 relevanten Beispielen = 0,1

40% der Beispiele befinden sich also in einem untergeordneten Knoten und 60% im anderen. Beispiele:

Gewichtete Entropiesumme der untergeordneten Knoten = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Der Informationsgewinn ist also:

Informationsgewinn = Entropie des übergeordneten Knotens – gewichtete Entropiesumme der untergeordneten Knoten
Information Gain = 0,6 – 0,14 = 0,46

Die meisten Splitter versuchen, Bedingungen zu erstellen, die den Informationsgewinn maximieren.

Übereinstimmung zwischen Ratern

#Messwert

Ein Maß dafür, wie oft menschliche Bewerter bei der Erledigung einer Aufgabe übereinstimmen. Wenn sich die Rater nicht einig sind, müssen die Aufgabenanweisungen möglicherweise verbessert werden. Wird auch als Übereinstimmung zwischen Annotatoren oder Interrater-Reliabilität bezeichnet. Siehe auch Cohens Kappa, eine der beliebtesten Messungen der Interrater-Übereinstimmung.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Categorical data: Common issues.

L

L₁-Verlust

#fundamentals

#Messwert

Eine Verlustfunktion, die den absoluten Wert der Differenz zwischen den tatsächlichen Label-Werten und den Werten berechnet, die ein Modell vorhersagt. Hier ist beispielsweise die Berechnung des L₁-Verlusts für einen Batch mit fünf Beispielen:

Tatsächlicher Wert des Beispiels	Vom Modell prognostizierter Wert	Absoluter Wert des Deltas
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
		8 = L₁-Verlust

Der _{L₁-Verlust reagiert weniger empfindlich auf Ausreißer als der L2}-Verlust.

Der mittlere absolute Fehler ist der durchschnittliche L₁-Verlust pro Beispiel.

Klicken Sie auf das Symbol, um die formale Mathematik zu sehen.

$$ L_1 loss = \sum_{i=0}^n | y_i - \hat{y}_i |$$

Dabei gilt:

$n$ ist die Anzahl der Beispiele.
$y$ ist der tatsächliche Wert des Labels.
$\hat{y}$ ist der Wert, den das Modell für $y$ vorhersagt.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Lineare Regression: Verlust.

L₂-Verlust

#fundamentals

#Messwert

Eine Verlustfunktion, die das Quadrat der Differenz zwischen den tatsächlichen Label-Werten und den Werten berechnet, die ein Modell vorhersagt. Hier ist beispielsweise die Berechnung des L₂-Verlusts für einen Batch mit fünf Beispielen:

Tatsächlicher Wert des Beispiels	Vom Modell prognostizierter Wert	Quadrat des Delta
7	6	1
5	4	1
8	11	9
4	6	4
9	8	1
		16 = L₂-Verlust

Durch die Quadrierung verstärkt der L₂-Verlust den Einfluss von Ausreißern. Das bedeutet, dass der L₂-Verlust stärker auf schlechte Vorhersagen reagiert als der L₁-Verlust. Der L₁-Verlust für den vorherigen Batch wäre beispielsweise 8 statt 16. Ein einzelner Ausreißer macht 9 der 16 Einträge aus.

In Regressionsmodellen wird in der Regel der L₂-Verlust als Verlustfunktion verwendet.

Der mittlere quadratische Fehler ist der durchschnittliche L₂-Verlust pro Beispiel. Quadratischer Verlust ist ein anderer Name für den L₂-Verlust.

Klicken Sie auf das Symbol, um die formale Mathematik zu sehen.

$$ L_2 loss = \sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$

Dabei gilt:

$n$ ist die Anzahl der Beispiele.
$y$ ist der tatsächliche Wert des Labels.
$\hat{y}$ ist der Wert, den das Modell für $y$ vorhersagt.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Logistische Regression: Verlust und Regularisierung.

LLM-Bewertungen

#generativeAI

#Messwert

Eine Reihe von Messwerten und Benchmarks zur Bewertung der Leistung von Large Language Models (LLMs). Auf hoher Ebene:

Forschern helfen, Bereiche zu identifizieren, in denen LLMs verbessert werden müssen.
Sie sind nützlich, um verschiedene LLMs zu vergleichen und das beste LLM für eine bestimmte Aufgabe zu ermitteln.
Dazu beitragen, dass LLMs sicher und ethisch vertretbar sind.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Large Language Models (LLMs).

Niederlage

#fundamentals

#Messwert

Beim Training eines überwachten Modells wird gemessen, wie weit die Vorhersage eines Modells von seinem Label entfernt ist.

Mit einer Verlustfunktion wird der Verlust berechnet.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Lineare Regression: Verlust.

Verlustfunktion

#fundamentals

#Messwert

Während des Trainings oder Tests wird eine mathematische Funktion verwendet, mit der der Verlust für einen Batch von Beispielen berechnet wird. Eine Verlustfunktion gibt einen niedrigeren Verlust für Modelle zurück, die gute Vorhersagen treffen, als für Modelle, die schlechte Vorhersagen treffen.

Das Ziel des Trainings besteht in der Regel darin, den Verlust zu minimieren, der von einer Verlustfunktion zurückgegeben wird.

Es gibt viele verschiedene Arten von Verlustfunktionen. Wählen Sie die geeignete Verlustfunktion für den Typ des Modells aus, das Sie erstellen. Beispiel:

L₂-Verlust (oder mittlerer quadratischer Fehler) ist die Verlustfunktion für die lineare Regression.
Logarithmischer Verlust ist die Verlustfunktion für die logistische Regression.

M

Mittlerer absoluter Fehler (MAE)

#Messwert

Der durchschnittliche Verlust pro Beispiel, wenn der L₁-Verlust verwendet wird. So berechnen Sie den mittleren absoluten Fehler:

Berechnet den L₁-Verlust für einen Batch.
Teilen Sie den L₁-Verlust durch die Anzahl der Beispiele im Batch.

Klicken Sie auf das Symbol, um die formale Mathematik zu sehen.

$$\text{Mean Absolute Error} = \frac{1}{n}\sum_{i=0}^n | y_i - \hat{y}_i |$$

Dabei gilt:

$n$ ist die Anzahl der Beispiele.
$y$ ist der tatsächliche Wert des Labels.
$\hat{y}$ ist der Wert, den das Modell für $y$ vorhersagt.

Betrachten Sie beispielsweise die Berechnung des L₁-Verlusts für den folgenden Batch mit fünf Beispielen:

Tatsächlicher Wert des Beispiels	Vom Modell prognostizierter Wert	Verlust (Differenz zwischen tatsächlichem und vorhergesagtem Wert)
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
		8 = L₁-Verlust

Der L₁-Verlust beträgt also 8 und die Anzahl der Beispiele ist 5. Der mittlere absolute Fehler ist also:

Mean Absolute Error = L₁ loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

Stellen Sie den mittleren absoluten Fehler dem mittleren quadratischen Fehler und dem Wurzel der mittleren Fehlerquadratsumme gegenüber.

Mittlere durchschnittliche Precision bei k (mAP@k)

#generativeAI

#Messwert

Der statistische Mittelwert aller durchschnittlichen Precision bei k-Werte in einem Validierungsdatensatz. Mit der mittleren durchschnittlichen Präzision bei k lässt sich die Qualität von Empfehlungen beurteilen, die von einem Empfehlungssystem generiert werden.

Obwohl die Formulierung „Mittelwert“ redundant klingt, ist der Name des Messwerts angemessen. Dieser Messwert ist schließlich der Mittelwert mehrerer durchschnittliche Precision bei k-Werte.

Klicken Sie auf das Symbol, um ein Beispiel zu sehen.

Angenommen, Sie entwickeln ein Empfehlungssystem, das für jeden Nutzer eine personalisierte Liste mit empfohlenen Romanen generiert. Anhand des Feedbacks ausgewählter Nutzer berechnen Sie die folgenden fünf durchschnittlichen Präzisionswerte bei k (ein Wert pro Nutzer):

0,73
0,77
0,67
0,82
0,76

Die mittlere durchschnittliche Precision bei K ist also:

$$\text{mean } = \frac{\text{0.73 + 0.77 + 0.67 + 0.82 + 0.76}} {\text{5}} = \text{0.75}$$

Mittlere quadratische Abweichung (MSE)

#Messwert

Der durchschnittliche Verlust pro Beispiel, wenn der L₂-Verlust verwendet wird. So berechnen Sie die mittlere quadratische Abweichung:

Berechnet den L₂-Verlust für einen Batch.
Teilen Sie den L₂-Verlust durch die Anzahl der Beispiele im Batch.

Klicken Sie auf das Symbol, um die formale Mathematik zu sehen.

$$\text{Mean Squared Error} = \frac{1}{n}\sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$ Dabei gilt:

$n$ ist die Anzahl der Beispiele.
$y$ ist der tatsächliche Wert des Labels.
$\hat{y}$ ist die Vorhersage des Modells für $y$.

Betrachten Sie beispielsweise den Verlust für den folgenden Batch mit fünf Beispielen:

Tatsächlicher Wert	Vorhersage des Modells	Verlust	Quadratischer Verlust
7	6	1	1
5	4	1	1
8	11	3	9
4	6	2	4
9	8	1	1
			16 = L₂-Verlust

Die mittlere quadratische Abweichung ist also:

Mean Squared Error = L₂ loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

Die mittlere quadratische Abweichung ist ein beliebter Optimizer für das Training, insbesondere für die lineare Regression.

Vergleichen Sie die mittlere quadratische Abweichung mit dem mittleren absoluten Fehler und der Wurzel der mittleren Fehlerquadratsumme.

Im TensorFlow Playground wird der mittlere quadratische Fehler verwendet, um Verlustwerte zu berechnen.

Klicken Sie auf das Symbol, um weitere Informationen zu Ausreißern zu erhalten.

Ausreißer haben einen großen Einfluss auf die mittlere quadratische Abweichung. Ein Verlust von 1 entspricht beispielsweise einem quadratischen Verlust von 1, ein Verlust von 3 einem quadratischen Verlust von 9. In der Tabelle oben macht das Beispiel mit einem Verlust von 3 Einheiten etwa 56% des mittleren quadratischen Fehlers aus, während jedes der Beispiele mit einem Verlust von 1 Einheit nur 6% des mittleren quadratischen Fehlers ausmacht.

Ausreißer haben weniger Einfluss auf den mittleren absoluten Fehler als auf den mittleren quadratischen Fehler. Ein Verlust von 3 Konten macht beispielsweise nur etwa 38% des mittleren absoluten Fehlers aus.

Beschneiden ist eine Möglichkeit, zu verhindern, dass extreme Ausreißer die Vorhersagefähigkeit Ihres Modells beeinträchtigen.

Messwert

#TensorFlow

#Messwert

Eine Statistik, die Ihnen wichtig ist.

Ein Ziel ist ein Messwert, den ein System für maschinelles Lernen zu optimieren versucht.

Metrics API (tf.metrics)

#Messwert

Eine TensorFlow-API zum Bewerten von Modellen. Mit tf.metrics.accuracy wird beispielsweise festgelegt, wie oft die Vorhersagen eines Modells mit Labels übereinstimmen.

Minimax-Verlust

#Messwert

Eine Verlustfunktion für generative kontradiktorische Netzwerke, die auf der Kreuzentropie zwischen der Verteilung der generierten Daten und der tatsächlichen Daten basiert.

Der Minimax-Verlust wird im ersten Paper zur Beschreibung generativer kontradiktorischer Netzwerke verwendet.

Weitere Informationen finden Sie im Kurs zu generativen kontradiktorischen Netzwerken unter Verlustfunktionen.

Modellkapazität

#Messwert

Die Komplexität der Probleme, die ein Modell lernen kann. Je komplexer die Probleme sind, die ein Modell lernen kann, desto höher ist die Kapazität des Modells. Die Kapazität eines Modells steigt in der Regel mit der Anzahl der Modellparameter. Eine formale Definition der Kapazität von Klassifikationsmodellen finden Sie unter VC-Dimension.

N

negative Klasse

#fundamentals

#Messwert

Bei der binären Klassifizierung wird eine Klasse als positiv und die andere als negativ bezeichnet. Die positive Klasse ist das Ding oder Ereignis, auf das das Modell testet, und die negative Klasse ist die andere Möglichkeit. Beispiel:

Die negative Klasse in einem medizinischen Test könnte „kein Tumor“ sein.
Die negative Klasse in einem Klassifizierungsmodell für E‑Mails könnte „Kein Spam“ sein.

Kontrast zur positiven Klasse.

O

Ziel

#Messwert

Ein Messwert, den Ihr Algorithmus optimieren soll.

Zielfunktion

#Messwert

Die mathematische Formel oder der Messwert, die bzw. den ein Modell optimieren soll. Die Zielfunktion für die lineare Regression ist in der Regel der mittlere quadratische Verlust. Beim Trainieren eines linearen Regressionsmodells wird daher versucht, den mittleren quadratischen Verlust zu minimieren.

In einigen Fällen ist das Ziel, die Zielfunktion zu maximieren. Wenn die Zielfunktion beispielsweise die Genauigkeit ist, besteht das Ziel darin, die Genauigkeit zu maximieren.

Siehe auch Verlust.

P

Bestanden bei k (pass@k)

#Messwert

Eine Messgröße zur Bestimmung der Qualität von Code (z. B. Python), der von einem Large Language Model generiert wird. Genauer gesagt gibt „Bestanden bei k“ an, wie wahrscheinlich es ist, dass mindestens ein generierter Codeblock von k generierten Codeblöcken alle zugehörigen Einheitentests besteht.

Große Sprachmodelle haben oft Schwierigkeiten, guten Code für komplexe Programmierprobleme zu generieren. Softwareentwickler begegnen diesem Problem, indem sie das große Sprachmodell auffordern, mehrere (k) Lösungen für dasselbe Problem zu generieren. Anschließend testen Softwareentwickler jede der Lösungen mit Unittests. Die Berechnung von „Bestanden“ bei k hängt vom Ergebnis der Unit-Tests ab:

Wenn eine oder mehrere dieser Lösungen den Unittest bestehen, besteht das LLM diese Aufgabe zur Codeerstellung.
Wenn keine der Lösungen den Unittest besteht, besteht das LLM diese Aufgabe zur Codegenerierung nicht.

Die Formel für „Bestanden“ bei k lautet so:

\[\text{pass at k} = \frac{\text{total number of passes}} {\text{total number of challenges}}\]

Im Allgemeinen führen höhere Werte von k zu höheren „Pass at k“-Ergebnissen. Allerdings erfordern höhere Werte von k mehr Ressourcen für Large Language Models und Einheitentests.

Klicken Sie auf das Symbol für ein Beispiel.

Angenommen, ein Softwareentwickler bittet ein Large Language Model, k=10 Lösungen für n=50 anspruchsvolle Programmieraufgaben zu generieren. Hier sind die Ergebnisse:

30 Karten/Tickets
20 Fehler

Die Wahrscheinlichkeit, dass die Note „Bestanden“ bei einem Score von 10 erreicht wird, ist also:

$$\text{pass at 10} = \frac{\text{30}} {\text{50}} = 0.6$$

Leistung

#Messwert

Überladener Begriff mit den folgenden Bedeutungen:

Die Standardbedeutung in der Softwareentwicklung. Konkret: Wie schnell (oder effizient) wird diese Software ausgeführt?
Die Bedeutung im Zusammenhang mit maschinellem Lernen. Die Leistung beantwortet die folgende Frage: Wie korrekt ist dieses Modell? Wie gut sind die Vorhersagen des Modells?

Bewertung von Variablen durch Permutation

#df

#Messwert

Eine Art von Variablenwichtigkeit, die die Zunahme des Vorhersagefehlers eines Modells nach Permutation der Werte des Features bewertet. Die Permutationsvariablenwichtigkeit ist ein modellunabhängiger Messwert.

Perplexität

#Messwert

Ein Maß dafür, wie gut ein Modell seine Aufgabe erfüllt. Angenommen, Ihre Aufgabe besteht darin, die ersten Buchstaben eines Worts zu lesen, das ein Nutzer auf einer Smartphone-Tastatur eingibt, und eine Liste mit möglichen Vervollständigungswörtern anzubieten. Die Perplexität P für diese Aufgabe entspricht ungefähr der Anzahl der Vorschläge, die Sie machen müssen, damit Ihre Liste das tatsächliche Wort enthält, das der Nutzer eingeben möchte.

Die Perplexität hängt so mit der Kreuzentropie zusammen:

$$P= 2^{-\text{cross entropy}}$$

positive Klasse

#fundamentals

#Messwert

Die Klasse, die Sie testen.

Die positive Klasse in einem Krebsmodell könnte beispielsweise „Tumor“ sein. Die positive Klasse in einem E-Mail-Klassifizierungsmodell kann beispielsweise „Spam“ sein.

Kontrast zur negativen Klasse

Klicken Sie auf das Symbol, um zusätzliche Hinweise zu erhalten.

Der Begriff positive Klasse kann verwirrend sein, da das „positive“ Ergebnis vieler Tests oft ein unerwünschtes Ergebnis ist. In vielen medizinischen Tests entspricht die positive Klasse beispielsweise Tumoren oder Krankheiten. Im Allgemeinen möchten Sie, dass ein Arzt Ihnen sagt: „Herzlichen Glückwunsch! Ihr Testergebnis war negativ.“ Unabhängig davon ist die positive Klasse das Ereignis, das mit dem Test ermittelt werden soll.

Sie testen gleichzeitig sowohl für die positive als auch für die negative Klasse.

PR AUC (Bereich unter der PR-Kurve)

#Messwert

Die Fläche unter der interpolierten Genauigkeits-/Trefferquotenkurve, die durch das Darstellen von (Recall, Precision)-Punkten für verschiedene Werte des Klassifizierungsschwellenwerts ermittelt wird.

Precision

#fundamentals

#Messwert

Ein Messwert für Klassifizierungsmodelle, der die folgende Frage beantwortet:

Wenn das Modell die positive Klasse vorhergesagt hat, wie viel Prozent der Vorhersagen waren richtig?

Hier ist die Formel:

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

Dabei gilt:

„Richtig positiv“ bedeutet, dass das Modell die positive Klasse richtig vorhergesagt hat.
„Falsch positiv“ bedeutet, dass das Modell die positive Klasse fälschlicherweise vorhergesagt hat.

Angenommen, ein Modell hat 200 positive Vorhersagen getroffen. Von diesen 200 positiven Vorhersagen:

150 davon waren richtig positiv.
50 davon waren falsch positive Ergebnisse.

In diesem Fall gilt:

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

Im Gegensatz zu Genauigkeit und Trefferquote.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Klassifizierung: Genauigkeit, Trefferquote, Präzision und zugehörige Messwerte.

Precision bei k (precision@k)

#Messwert

Ein Messwert zur Bewertung einer sortierten Liste von Elementen. Die Genauigkeit bei k gibt den Anteil der ersten k Elemente in dieser Liste an, die „relevant“ sind. Das bedeutet:

\[\text{precision at k} = \frac{\text{relevant items in first k items of the list}} {\text{k}}\]

Der Wert von k muss kleiner oder gleich der Länge der zurückgegebenen Liste sein. Die Länge der zurückgegebenen Liste ist nicht Teil der Berechnung.

Die Relevanz ist oft subjektiv. Selbst menschliche Experten sind sich oft nicht einig, welche Elemente relevant sind.

Vergleichen mit:

Durchschnittliche Genauigkeit bei k
Mittlere durchschnittliche Precision bei k

Klicken Sie auf das Symbol, um ein Beispiel zu sehen.

Angenommen, ein Large Language Model erhält die folgende Anfrage:

List the 6 funniest movies of all time in order.

Das Large Language Model gibt die Liste zurück, die in den ersten beiden Spalten der folgenden Tabelle zu sehen ist:

Position	Film	Relevant?
1	The General	Ja
2	Mean Girls	Ja
3	Platoon	Nein
4	Brautalarm	Ja
5	Citizen Kane	Nein
6	This is Spinal Tap	Ja

Zwei der ersten drei Filme sind relevant. Die Genauigkeit bei 3 ist also:

$$\text{precision at 3} = \frac{\text{2}} {\text{3}} = 0.67$$

Drei der ersten fünf Filme sind sehr lustig. Die Präzision bei 5 ist also:

$$\text{precision at 5} = \frac{\text{3}} {\text{5}} = 0.6$$

Precision-/Recall-Kurve

#Messwert

Eine Kurve mit Genauigkeit im Vergleich zur Trefferquote bei verschiedenen Klassifizierungsschwellenwerten.

Vorhersage-Bias

#Messwert

Ein Wert, der angibt, wie weit der Durchschnitt der Vorhersagen vom Durchschnitt der Labels im Dataset entfernt ist.

Nicht zu verwechseln mit dem Bias-Term in Modellen für maschinelles Lernen oder mit Bias in Ethik und Fairness.

Prognoseparität

#responsible

#Messwert

Ein Fairness-Messwert, mit dem geprüft wird, ob die Präzisionsraten für die betrachteten Untergruppen für ein bestimmtes Klassifizierungsmodell gleich sind.

Ein Modell, das die Zulassung zum College vorhersagt, würde beispielsweise die Vorhersageparität für die Nationalität erfüllen, wenn die Precision-Rate für Lilliputaner und Brobdingnagianer gleich ist.

Die Vorhersageparität wird manchmal auch als Vorhersageratenparität bezeichnet.

Eine ausführlichere Erläuterung der Vorhersageparität finden Sie im Abschnitt 3.2.1 von Fairness Definitions Explained.

Prognostizierte Ratenparität

#responsible

#Messwert

Ein anderer Name für Vorhersageparität.

Wahrscheinlichkeitsdichtefunktion

#Messwert

Eine Funktion, mit der die Häufigkeit von Datenstichproben mit genau einem bestimmten Wert ermittelt wird. Wenn die Werte eines Datasets kontinuierliche Gleitkommazahlen sind, kommt es selten zu genauen Übereinstimmungen. Wenn Sie eine Wahrscheinlichkeitsdichtefunktion vom Wert x bis zum Wert y integrieren, erhalten Sie die erwartete Häufigkeit von Datenstichproben zwischen x und y.

Angenommen, Sie haben eine Normalverteilung mit einem Mittelwert von 200 und einer Standardabweichung von 30. Um die erwartete Häufigkeit von Datenstichproben im Bereich von 211,4 bis 218,7 zu ermitteln, können Sie die Wahrscheinlichkeitsdichtefunktion für eine Normalverteilung von 211,4 bis 218,7 integrieren.

R

Rückruf

#fundamentals

#Messwert

Ein Messwert für Klassifizierungsmodelle, der die folgende Frage beantwortet:

Wenn die Grundwahrheit die positive Klasse war, wie viel Prozent der Vorhersagen hat das Modell richtig als positive Klasse identifiziert?

Hier ist die Formel:

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

Dabei gilt:

„Richtig positiv“ bedeutet, dass das Modell die positive Klasse richtig vorhergesagt hat.
„Falsch negativ“ bedeutet, dass das Modell fälschlicherweise die negative Klasse vorhergesagt hat.

Angenommen, Ihr Modell hat 200 Vorhersagen für Beispiele getroffen, für die die Grundwahrheit die positive Klasse war. Von diesen 200 Vorhersagen:

180 Ergebnisse waren richtig positiv.
20 Ergebnisse waren falsch negativ.

In diesem Fall gilt:

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

Klicken Sie auf das Symbol für Hinweise zu Datasets mit unausgewogenen Klassen.

Der Recall ist besonders nützlich, um die Vorhersagekraft von Klassifikationsmodellen zu bestimmen, in denen die positive Klasse selten ist. Betrachten Sie beispielsweise einen Datensatz mit ungleichgewichtigen Klassen, in dem die positive Klasse für eine bestimmte Krankheit nur bei 10 von einer Million Patienten auftritt. Angenommen, Ihr Modell trifft fünf Millionen Vorhersagen, die zu den folgenden Ergebnissen führen:

30 richtig positive Ergebnisse
20 falsch negative Ergebnisse
4.999.000 richtig negative Ergebnisse
950 falsch positive Ergebnisse

Der Recall dieses Modells ist daher:

recall = TP / (TP + FN)
recall = 30 / (30 + 20) = 0.6 = 60%

Die Genauigkeit dieses Modells ist hingegen:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (30 + 4,999,000) / (30 + 4,999,000 + 950 + 20) = 99.98%

Dieser hohe Genauigkeitswert sieht beeindruckend aus, ist aber im Grunde bedeutungslos. Recall ist für Datasets mit unausgewogenen Klassen ein viel nützlicherer Messwert als die Genauigkeit.

Weitere Informationen

Recall bei k (recall@k)

#Messwert

Eine Messgröße zur Bewertung von Systemen, die eine sortierte Liste von Elementen ausgeben. Der Recall bei k gibt den Anteil der relevanten Elemente in den ersten k Elementen in dieser Liste im Verhältnis zur Gesamtzahl der zurückgegebenen relevanten Elemente an.

\[\text{recall at k} = \frac{\text{relevant items in first k items of the list}} {\text{total number of relevant items in the list}}\]

Kontrast zu Precision at k.

Klicken Sie auf das Symbol, um ein Beispiel zu sehen.

Angenommen, ein Large Language Model erhält die folgende Anfrage:

List the 10 funniest movies of all time in order.

Das Large Language Model gibt die Liste zurück, die in den ersten beiden Spalten zu sehen ist:

Position	Film	Relevant?
1	The General	Ja
2	Mean Girls	Ja
3	Platoon	Nein
4	Brautalarm	Ja
5	This is Spinal Tap	Ja
6	Flugzeug!	Ja
7	Murmeltiertag	Ja
8	Die Ritter der Kokosnuß	Ja
9	Oppenheimer	Nein
10	Clueless – Was sonst!	Ja

Acht der Filme in der obigen Liste sind sehr lustig. Sie sind also „relevante Elemente in der Liste“. Daher ist 8 der Nenner in allen Berechnungen des Rückrufs bei k. Was ist mit dem Zähler? Nun, 3 der ersten 4 Elemente sind relevant. Daher ist der Recall bei 4:

$$\text{recall at 4} = \frac{\text{3}} {\text{8}} = 0.375$$

7 der ersten 8 Filme sind sehr lustig. Der Recall bei 8 ist also:

$$\text{recall at 8} = \frac{\text{7}} {\text{8}} = 0.875$$

ROC-Kurve (Receiver Operating Characteristic)

#fundamentals

#Messwert

Ein Diagramm der Richtig-Positiv-Rate im Vergleich zur Falsch-Positiv-Rate für verschiedene Klassifizierungsschwellenwerte bei der binären Klassifizierung.

Die Form einer ROC-Kurve gibt Aufschluss darüber, wie gut ein binäres Klassifikationsmodell positive von negativen Klassen trennen kann. Angenommen, ein binäres Klassifizierungsmodell trennt alle negativen Klassen perfekt von allen positiven Klassen:

Ein Zahlenstrahl mit 8 positiven Beispielen auf der rechten Seite und 7 negativen Beispielen auf der linken Seite.

Die ROC-Kurve für das vorherige Modell sieht so aus:

Eine ROC-Kurve. Die X-Achse ist die Rate falsch positiver Ergebnisse und die Y-Achse die Rate richtig positiver Ergebnisse. Die Kurve hat eine umgekehrte L-Form. Die Kurve beginnt bei (0,0,0,0) und verläuft senkrecht nach oben bis (0,0,1,0). Die Kurve verläuft dann von (0,0,1,0) bis (1,0,1,0).

Im Gegensatz dazu zeigt die folgende Abbildung die Rohwerte der logistischen Regression für ein schlechtes Modell, das negative Klassen überhaupt nicht von positiven Klassen trennen kann:

Ein Zahlenstrahl mit positiven Beispielen und negativen Klassen, die sich vollständig vermischen.

Die ROC-Kurve für dieses Modell sieht so aus:

Eine ROC-Kurve, die eigentlich eine gerade Linie von (0,0) bis (1,1) ist.

In der realen Welt trennen die meisten binären Klassifizierungsmodelle positive und negative Klassen bis zu einem gewissen Grad, aber in der Regel nicht perfekt. Eine typische ROC-Kurve liegt also irgendwo zwischen den beiden Extremen:

Eine ROC-Kurve. Die X-Achse ist die Rate falsch positiver Ergebnisse und die Y-Achse die Rate richtig positiver Ergebnisse. Die ROC-Kurve ähnelt einem zittrigen Bogen, der die Himmelsrichtungen von West nach Nord durchläuft.

Der Punkt auf einer ROC-Kurve, der theoretisch am nächsten an (0,0,1,0) liegt, gibt den idealen Klassifizierungsschwellenwert an. Die Auswahl des idealen Klassifizierungsschwellenwerts wird jedoch von mehreren anderen realen Problemen beeinflusst. Falsch negative Ergebnisse verursachen beispielsweise möglicherweise viel mehr Probleme als falsch positive Ergebnisse.

Ein numerischer Messwert namens AUC fasst die ROC-Kurve in einem einzelnen Gleitkommawert zusammen.

Wurzel der mittleren Fehlerquadratsumme (RMSE)

#fundamentals

#Messwert

Die Quadratwurzel der mittleren quadratischen Abweichung.

ROUGE (Recall-Oriented Understudy for Gisting Evaluation)

#Messwert

Eine Reihe von Messwerten zur Bewertung von Modellen für die automatische Zusammenfassung und maschinelle Übersetzung. ROUGE-Messwerte geben an, inwieweit sich ein Referenztext mit dem generierten Text eines ML-Modells überschneidet. Jedes Mitglied der ROUGE-Familie misst die Überschneidung auf unterschiedliche Weise. Höhere ROUGE-Werte deuten auf eine größere Ähnlichkeit zwischen dem Referenztext und dem generierten Text hin als niedrigere ROUGE-Werte.

Für jedes Mitglied der ROUGE-Familie werden in der Regel die folgenden Messwerte generiert:

Precision
Recall
F₁

Weitere Informationen und Beispiele finden Sie unter:

ROUGE-L
ROUGE-N
ROUGE-S

ROUGE-L

#Messwert

Ein Mitglied der ROUGE-Familie, das sich auf die Länge der längsten gemeinsamen Untersequenz im Referenztext und generierten Text konzentriert. Mit den folgenden Formeln werden Recall und Precision für ROUGE-L berechnet:

$$\text{ROUGE-L recall} = \frac{\text{longest common sequence}} {\text{number of words in the reference text} }$$

$$\text{ROUGE-L precision} = \frac{\text{longest common sequence}} {\text{number of words in the generated text} }$$

Anschließend können Sie F₁ verwenden, um ROUGE-L-Trefferquote und ROUGE-L-Genauigkeit in einem einzigen Messwert zusammenzufassen:

$$\text{ROUGE-L F} {_1} = \frac{\text{2} * \text{ROUGE-L recall} * \text{ROUGE-L precision}} {\text{ROUGE-L recall} + \text{ROUGE-L precision} }$$

Klicken Sie auf das Symbol, um ein Beispiel für die Berechnung von ROUGE-L zu sehen.

Sehen Sie sich den folgenden Referenztext und den generierten Text an.

Kategorie	Wer hat das Video produziert?	Text
Referenztext	Menschlicher Übersetzer	Ich möchte viele verschiedene Dinge verstehen.
Generierter Text	ML-Modell	Ich möchte viel lernen.

Daher:

Die längste gemeinsame Teilfolge ist 5 (I want to of things).
Der Referenztext enthält 9 Wörter.
Der generierte Text enthält sieben Wörter.

Das hat folgende Konsequenzen:

$$\text{ROUGE-L recall} = \frac{\text{5}} {\text{9} } = 0.56$$

$$\text{ROUGE-L precision} = \frac{\text{5}} {\text{7} } = 0.71$$

$$\text{ROUGE-L F} {_1} = \frac{\text{2} * \text{0.56} * \text{0.71}} {\text{0.56} + \text{0.71} } = 0.63$$

Bei ROUGE-L werden alle Zeilenumbrüche im Referenztext und im generierten Text ignoriert. Die längste gemeinsame Untersequenz kann sich also über mehrere Sätze erstrecken. Wenn der Referenztext und der generierte Text mehrere Sätze umfassen, ist in der Regel eine Variante von ROUGE-L namens ROUGE-Lsum ein besserer Messwert. ROUGE-Lsum ermittelt die längste gemeinsame Teilsequenz für jeden Satz in einem Abschnitt und berechnet dann den Mittelwert dieser längsten gemeinsamen Teilsequenzen.

Klicken Sie auf das Symbol für ein Beispiel für die Berechnung von ROUGE-Lsum.

Sehen Sie sich den folgenden Referenztext und den generierten Text an.

Kategorie	Wer hat das Video produziert?	Text
Referenztext	Menschlicher Übersetzer	Die Oberfläche des Mars ist trocken. Fast das gesamte Wasser befindet sich tief unter der Erde.
Generierter Text	ML-Modell	Der Mars hat eine trockene Oberfläche. Der Großteil des Wassers befindet sich jedoch unter der Erde.

Beispiele:

	Erster Satz	Zweiter Satz
Längste gemeinsame Sequenz	2 (Mars trocken)	3 (Wasser befindet sich unter der Erde)
Satzlänge des Referenztexts	6	7
Satzlänge des generierten Texts	5	8

Dies hat folgende Konsequenzen:

$$\text{recall of first sentence} = \frac{\text{2}} {\text{6}} = 0.33 $$

$$\text{recall of second sentence} = \frac{\text{3}} {\text{7}} = 0.43 $$

$$\text{ROUGE-Lsum recall} = \frac{\text{0.33} + \text{0.43}} {\text{2}} = 0.38 $$

$$\text{precision of first sentence} = \frac{\text{2}} {\text{5}} = 0.4 $$

$$\text{precision of second sentence} = \frac{\text{3}} {\text{8}} = 0.38 $$

$$\text{ROUGE-Lsum precision} = \frac{\text{0.4} + \text{0.38}} {\text{2}} = 0.39 $$

$$\text{ROUGE-Lsum F}{_1} = \frac{\text{2} * \text{0.38} * \text{0.39}} {\text{0.38} + \text{0.39}} = 0.38 $$

ROUGE-N

#Messwert

Eine Reihe von Messwerten aus der ROUGE-Familie, mit denen die gemeinsamen N-Gramme einer bestimmten Größe im Referenztext und im generierten Text verglichen werden. Beispiel:

Mit ROUGE-1 wird die Anzahl der gemeinsamen Tokens im Referenztext und im generierten Text gemessen.
Mit ROUGE-2 wird die Anzahl der gemeinsamen Bigramme (2-Gramme) im Referenztext und im generierten Text gemessen.
Mit ROUGE-3 wird die Anzahl der gemeinsamen Trigramme (3 Gramm) im Referenztext und im generierten Text gemessen.

Mit den folgenden Formeln können Sie den ROUGE-N-Recall und die ROUGE-N-Präzision für ein beliebiges Mitglied der ROUGE-N-Familie berechnen:

$$\text{ROUGE-N recall} = \frac{\text{number of matching N-grams}} {\text{number of N-grams in the reference text} }$$

$$\text{ROUGE-N precision} = \frac{\text{number of matching N-grams}} {\text{number of N-grams in the generated text} }$$

Anschließend können Sie F₁ verwenden, um ROUGE-N-Trefferquote und ROUGE-N-Genauigkeit in einem einzigen Messwert zusammenzufassen:

$$\text{ROUGE-N F}{_1} = \frac{\text{2} * \text{ROUGE-N recall} * \text{ROUGE-N precision}} {\text{ROUGE-N recall} + \text{ROUGE-N precision} }$$

Klicken Sie auf das Symbol für ein Beispiel.

Angenommen, Sie möchten ROUGE-2 verwenden, um die Effektivität der Übersetzung eines ML-Modells im Vergleich zu der eines menschlichen Übersetzers zu messen.

Kategorie	Wer hat das Video produziert?	Text	Bigramme
Referenztext	Menschlicher Übersetzer	Ich möchte viele verschiedene Dinge verstehen.	Ich möchte, möchte, verstehen, verstehen, eine, eine breite, breite Vielfalt, Vielfalt von, von Dingen
Generierter Text	ML-Modell	Ich möchte viel lernen.	Ich möchte, möchte, lernen, lernen, viel, viel, viel

Daher:

Die Anzahl der übereinstimmenden 2‑Gramme ist 3 (I want, want to und of things).
Die Anzahl der 2‑Gramme im Referenztext beträgt 8.
Die Anzahl der 2-Gramme im generierten Text beträgt 6.

Das hat folgende Konsequenzen:

$$\text{ROUGE-2 recall} = \frac{\text{3}} {\text{8} } = 0.375$$

$$\text{ROUGE-2 precision} = \frac{\text{3}} {\text{6} } = 0.5$$

$$\text{ROUGE-2 F}{_1} = \frac{\text{2} * \text{0.375} * \text{0.5}} {\text{0.375} + \text{0.5} } = 0.43$$

ROUGE-S

#Messwert

Eine tolerantere Form von ROUGE-N, die den Abgleich von Skip-Grammen ermöglicht. ROUGE-N zählt nur N-Gramme, die genau übereinstimmen, während ROUGE-S auch N-Gramme zählt, die durch ein oder mehrere Wörter getrennt sind. Sie könnten beispielsweise Folgendes versuchen:

Referenztext: Weiße Wolken
Generierter Text: Weiße, bauschige Wolken

Bei der Berechnung von ROUGE-N stimmt das 2-Gramm White clouds nicht mit White billowing clouds überein. Bei der Berechnung von ROUGE-S wird White clouds jedoch mit White billowing clouds abgeglichen.

R-Quadrat

#Messwert

Ein Regressionsmesswert, der angibt, wie viel Variation in einem Label auf ein einzelnes Feature oder eine Gruppe von Features zurückzuführen ist. R-Quadrat ist ein Wert zwischen 0 und 1, den Sie so interpretieren können:

Ein R-Quadrat von 0 bedeutet, dass keine der Variationen eines Labels auf den Funktionssatz zurückzuführen ist.
Ein R-Quadrat von 1 bedeutet, dass die gesamte Variation eines Labels auf den Funktionssatz zurückzuführen ist.
Ein R-Quadrat zwischen 0 und 1 gibt an, inwieweit die Variation des Labels anhand eines bestimmten Merkmals oder der Merkmalsgruppe vorhergesagt werden kann. Ein R-Quadrat von 0,10 bedeutet beispielsweise, dass 10 % der Varianz des Labels auf die Feature-Gruppe zurückzuführen sind. Ein R-Quadrat von 0,20 bedeutet, dass 20 % auf die Feature-Gruppe zurückzuführen sind usw.

Das Bestimmtheitsmaß (R-Quadrat) ist das Quadrat des Pearson-Korrelationskoeffizienten zwischen den von einem Modell vorhergesagten Werten und der Ground Truth.

S

Bewertung

#Messwert

Der Teil eines Empfehlungssystems, der einen Wert oder ein Ranking für jedes Element liefert, das in der Phase der Kandidatengenerierung erstellt wird.

Ähnlichkeitsmaß

#clustering

#Messwert

In Clustering-Algorithmen wird mit diesem Messwert bestimmt, wie ähnlich sich zwei Beispiele sind.

dünne Besetzung

#Messwert

Die Anzahl der Elemente, die in einem Vektor oder einer Matrix auf null gesetzt wurden, geteilt durch die Gesamtzahl der Einträge in diesem Vektor oder dieser Matrix. Stellen Sie sich beispielsweise eine Matrix mit 100 Elementen vor, in der 98 Zellen den Wert 0 enthalten. Die Berechnung der Sparsity erfolgt so:

$$ {\text{sparsity}} = \frac{\text{98}} {\text{100}} = {\text{0.98}} $$

Feature-Sparsity bezieht sich auf die Sparsity eines Feature-Vektors, Modell-Sparsity auf die Sparsity der Modellgewichte.

Quadratischer Hinge-Verlust

#Messwert

Das Quadrat des Hinge-Verlusts. Der quadratische Hinge-Verlust bestraft Ausreißer stärker als der reguläre Hinge-Verlust.

Quadratischer Verlust

#fundamentals

#Messwert

Synonym für L₂-Verlust.

T

Testverlust

#fundamentals

#Messwert

Ein Messwert, der den Verlust eines Modells im Vergleich zum Test-Dataset darstellt. Beim Erstellen eines Modells versuchen Sie in der Regel, den Testverlust zu minimieren. Das liegt daran, dass ein geringer Testverlust ein stärkeres Qualitätssignal ist als ein geringer Trainingsverlust oder ein geringer Validierungsverlust.

Eine große Lücke zwischen dem Testverlust und dem Trainings- oder Validierungsverlust deutet manchmal darauf hin, dass Sie die Regularisierungsrate erhöhen müssen.

Top-K-Genauigkeit

#Messwert

Der Prozentsatz der Fälle, in denen ein „Ziellabel“ innerhalb der ersten k Positionen der generierten Listen erscheint. Die Listen können personalisierte Empfehlungen oder eine Liste von Elementen sein, die nach softmax sortiert sind.

Die Top‑k-Genauigkeit wird auch als Genauigkeit bei k bezeichnet.

Klicken Sie auf das Symbol für ein Beispiel.

Stellen Sie sich ein System für maschinelles Lernen vor, das Softmax verwendet, um die Wahrscheinlichkeiten für Bäume anhand eines Bildes von Baumblättern zu ermitteln. In der folgenden Tabelle sind Ausgabelisten zu sehen, die aus fünf Eingabebildern von Bäumen generiert wurden. Jede Zeile enthält ein Ziellabel und die fünf wahrscheinlichsten Bäume. Wenn das Ziellabel beispielsweise maple war, hat das ML-Modell elm als wahrscheinlichsten Baum, oak als zweitwahrscheinlichsten Baum usw. identifiziert.

Ziellabel	1	2	3	4	5
Ahorn	elm	Eiche	maple	Buche	Pappel
Hartriegel	Eiche	Hartriegel	Pappel	Hickory	Ahorn
Eiche	Eiche	Lindenholz	Heuschrecke	Erle	Linden
Linden	Ahorn	Papaya	Eiche	Lindenholz	Pappel
Eiche	Heuschrecke	Linden	Eiche	Ahorn	Papaya

Das Ziellabel wird nur einmal an der ersten Position angezeigt. Die Top-1-Genauigkeit ist also:

$$\text{top-1 accuracy} = \frac{\text{1}} {\text{5}} = 0.2$$

Das Ziellabel erscheint viermal auf einer der drei obersten Positionen. Die Top-3-Genauigkeit ist also:

$$\text{top-1 accuracy} = \frac{\text{4}} {\text{5}} = 0.8$$

Toxizität

#Messwert

Inwieweit Inhalte beleidigend, bedrohlich oder anstößig sind. Viele Modelle für maschinelles Lernen können toxische Inhalte erkennen und messen. Die meisten dieser Modelle erkennen toxische Inhalte anhand mehrerer Parameter, z. B. des Ausmaßes an beleidigender und bedrohlicher Sprache.

Trainingsverlust

#fundamentals

#Messwert

Ein Messwert, der den Verlust eines Modells während eines bestimmten Trainingsdurchlaufs darstellt. Angenommen, die Verlustfunktion ist Mean Squared Error. Vielleicht beträgt der Trainingsverlust (der mittlere quadratische Fehler) für die 10.Iteration 2,2 und der Trainingsverlust für die 100.Iteration 1,9.

In einer Verlustkurve wird der Trainingsverlust im Verhältnis zur Anzahl der Iterationen dargestellt. Eine Verlustkurve gibt folgende Hinweise zum Training:

Ein abwärts gerichteter Verlauf deutet darauf hin, dass sich das Modell verbessert.
Ein Aufwärtstrend bedeutet, dass sich das Modell verschlechtert.
Ein flacher Anstieg bedeutet, dass das Modell konvergiert ist.

Das folgende etwas idealisierte Verlustdiagramm zeigt beispielsweise:

Ein steiler Abwärtstrend in den ersten Iterationen, der auf eine schnelle Verbesserung des Modells hindeutet.
Ein allmählich abflachender (aber immer noch abwärts gerichteter) Verlauf bis kurz vor dem Ende des Trainings, was bedeutet, dass sich das Modell weiterhin verbessert, wenn auch etwas langsamer als in den ersten Iterationen.
Ein flacher Abfall gegen Ende des Trainings, der auf Konvergenz hindeutet.

Das Diagramm des Trainingsverlusts im Vergleich zu den Iterationen. Diese Verlustkurve beginnt mit einem steilen Abwärtstrend. Die Steigung flacht allmählich ab, bis sie null wird.

Der Trainingsverlust ist zwar wichtig, aber sehen Sie sich auch die Generalisierung an.

richtig negativ (RN)

#fundamentals

#Messwert

Ein Beispiel, in dem das Modell die negative Klasse richtig vorhersagt. Das Modell leitet beispielsweise ab, dass eine bestimmte E‑Mail-Nachricht kein Spam ist, und diese E‑Mail-Nachricht ist tatsächlich kein Spam.

Richtig positiv (TP)

#fundamentals

#Messwert

Ein Beispiel, in dem das Modell die positive Klasse richtig vorhersagt. Das Modell leitet beispielsweise ab, dass eine bestimmte E‑Mail-Nachricht Spam ist, und diese E‑Mail-Nachricht ist tatsächlich Spam.

Rate richtig positiver Ergebnisse (True Positive Rate, TPR)

#fundamentals

#Messwert

Synonym für Rückruf. Das bedeutet:

$$\text{true positive rate} = \frac {\text{true positives}} {\text{true positives} + \text{false negatives}}$$

Die Rate richtig positiver Ergebnisse ist die Y-Achse in einer ROC-Kurve.

V

Validierungsverlust

#fundamentals

#Messwert

Eine Messwert, die den Verlust eines Modells im Validierungs-Dataset während einer bestimmten Iteration des Trainings darstellt.

Siehe auch Verallgemeinerungskurve.

Variablenwichtigkeiten

#df

#Messwert

Eine Reihe von Werten, die die relative Wichtigkeit der einzelnen Features für das Modell angibt.

Betrachten Sie beispielsweise einen Entscheidungsbaum, der Hauspreise schätzt. Angenommen, in diesem Entscheidungsbaum werden drei Attribute verwendet: Größe, Alter und Stil. Wenn die Wichtigkeit der drei Variablen {size=5.8, age=2.5, style=4.7} ist, ist die Größe für den Entscheidungsbaum wichtiger als das Alter oder der Stil.

Es gibt verschiedene Messwerte für die Wichtigkeit von Variablen, die ML-Experten über unterschiedliche Aspekte von Modellen informieren können.

W

Wasserstein-Verlust

#Messwert

Eine der Verlustfunktionen, die häufig in generativen kontradiktorischen Netzwerken verwendet werden, basierend auf der Earth Mover-Distanz zwischen der Verteilung der generierten Daten und der realen Daten.

Glossar zum Thema maschinelles Lernen: Messwerte Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

A

Genauigkeit

Klicken Sie auf das Symbol, um Details zur Genauigkeit und zu Datasets mit ungleichmäßiger Klassenverteilung zu erhalten.

Bereich unter der PR-Kurve

Bereich unter der ROC-Kurve

AUC (Area Under the ROC Curve, Bereich unter der ROC-Kurve)

Klicken Sie auf das Symbol, um mehr über die Beziehung zwischen AUC und ROC-Kurven zu erfahren.

Klicken Sie auf das Symbol, um eine formellere Definition von AUC zu erhalten.

Durchschnittliche Precision bei k

Klicken Sie auf das Symbol für ein Beispiel.

B

baseline

C

Kosten

Kontrafaktische Fairness

Cross-Entropy

Verteilungsfunktion

D

demografische Parität

E

Earth Mover’s Distance (EMD)

Bearbeitungsdistanz

Empirische Verteilungsfunktion (eCDF oder EDF)

Entropie

Chancengleichheit

ausgeglichene Chancen

evals

Evaluierung

F

F1

Klicken Sie auf das Symbol, um Beispiele zu sehen.

Fairnessmesswert

falsch negativ (FN)

Rate falsch negativer Ergebnisse

falsch positiv (FP)

Rate falsch positiver Ergebnisse (False Positive Rate, FPR)

Featurewichtigkeiten

Foundation Model

Anteil der Erfolge

G

Gini-Unreinheit

Klicken Sie auf das Symbol, um mathematische Details zur Gini-Unreinheit zu sehen.

H

Hinge-Verlust

I

Inkompatibilität von Fairnessmesswerten

Individuelle Fairness

Informationsgewinn

Übereinstimmung zwischen Ratern

L

L1-Verlust

Klicken Sie auf das Symbol, um die formale Mathematik zu sehen.

L2-Verlust

Klicken Sie auf das Symbol, um die formale Mathematik zu sehen.

LLM-Bewertungen

Niederlage

Verlustfunktion

M

Mittlerer absoluter Fehler (MAE)

Klicken Sie auf das Symbol, um die formale Mathematik zu sehen.

Mittlere durchschnittliche Precision bei k (mAP@k)

Klicken Sie auf das Symbol, um ein Beispiel zu sehen.

Mittlere quadratische Abweichung (MSE)

Klicken Sie auf das Symbol, um die formale Mathematik zu sehen.

Klicken Sie auf das Symbol, um weitere Informationen zu Ausreißern zu erhalten.

Messwert

Metrics API (tf.metrics)

Minimax-Verlust

Modellkapazität

N

negative Klasse

O

Ziel

Zielfunktion

P

Bestanden bei k (pass@k)

Klicken Sie auf das Symbol für ein Beispiel.

Leistung

Bewertung von Variablen durch Permutation

Glossar zum Thema maschinelles Lernen: Messwerte

F₁

L₁-Verlust

L₂-Verlust