Modelle mithilfe von Messwerten bewerten

Das Debugging eines ML-Modells mag zunächst kompliziert erscheinen, aber mit den Modellmesswerten erfahren Sie, wo Sie anfangen sollen. In den folgenden Abschnitten wird erläutert, wie Sie die Leistung mithilfe von Messwerten auswerten.

Qualität mithilfe von Modellmesswerten bewerten

Gängige Messwerte zur Bewertung der Qualität Ihres Modells sind:

Informationen zum Interpretieren dieser Messwerte finden Sie in den verlinkten Inhalten aus dem Crash-Content für maschinelles Lernen. Weitere Informationen zu bestimmten Problemen finden Sie in der folgenden Tabelle.

Problem Qualitätsbewertung
Regression Reduzieren Sie nicht nur den absoluten mittleren quadratischen Fehler (MSE), sondern auch die Anzahl der MSE im Verhältnis zu den Labelwerten. Angenommen, Sie prognostizieren die Preise von zwei Artikeln mit einem mittleren Preis von 5 und 100. Nehmen wir in beiden Fällen an, dass der MSE-Wert 5 ist. Im ersten Fall beträgt der MSE 100% Ihres durchschnittlichen Preises, was eindeutig ein großer Fehler ist. Im zweiten Fall beträgt der MSE 5% Ihres durchschnittlichen Preises, was ein angemessener Fehler ist.
Klassifizierung mit mehreren Klassen Wenn Sie eine kleine Anzahl von Klassen vorhersagen möchten, sehen Sie sich die Messwerte pro Klasse einzeln an. Bei der Vorhersage vieler Klassen können Sie den Durchschnitt der einzelnen Klassenmesswerte ermitteln, um die Klassifizierungsmesswerte insgesamt zu verfolgen. Alternativ können Sie je nach Bedarf bestimmte Qualitätsziele priorisieren. Wenn Sie beispielsweise Objekte in Bildern klassifizieren, können Sie die Klassifizierungsqualität für Personen gegenüber anderen Objekten priorisieren.

Messwerte auf wichtige Datensegmente prüfen

Wenn Sie ein Modell von hoher Qualität haben, kann es sein, dass es für Teilmengen Ihrer Daten weiterhin eine schlechte Leistung erbringt. Zum Beispiel muss der Einhornvorhersage sowohl in der Sahara als auch in New York City und zu jeder Tageszeit gut vorhersagen. Sie haben jedoch weniger Trainingsdaten für die Wüste Sahara. Daher sollten Sie die Modellqualität speziell für die Wüste Sahara verfolgen. Solche Teilmengen, wie die der Wüste Sahara entsprechende, werden als Datensegmente bezeichnet. Sie sollten Datensegmente separat beobachten, bei denen die Leistung besonders wichtig ist oder in denen Ihr Modell schlecht abschneidet.

Nutzen Sie Ihr Verständnis der Daten, um relevante Datensegmente zu identifizieren. Vergleichen Sie dann Modellmesswerte für Datensegmente mit den Messwerten für Ihr gesamtes Dataset. Wenn Sie die Leistung Ihres Modells für alle Datensegmente prüfen, können Sie Verzerrungen entfernen. Weitere Informationen findest du unter Fairness: Bewertung für Voreingenommenheit.

Reale Messwerte verwenden

Modellmesswerte messen nicht unbedingt die tatsächlichen Auswirkungen Ihres Modells. Sie können beispielsweise einen Hyperparameter ändern und die AUC erhöhen. Aber wie hat sich die Änderung auf die Nutzererfahrung ausgewirkt? Wenn Sie die Auswirkungen in der Praxis messen möchten, müssen Sie separate Messwerte definieren. Sie können beispielsweise Nutzer befragen, die eine Einhorn-Vorstellung angezeigt haben, um zu prüfen, ob sie ein Einhorn gesehen haben. Die Messung der Auswirkungen in der realen Welt hilft dabei, die Qualität verschiedener Iterationen Ihres Modells zu vergleichen.