Wie kann ich Leistung messen?

Woran erkennen Sie, ob sich der Aufwand für Ihre ML-Implementierung gelohnt hat? Wann sollten Sie mit dem Feiern beginnen: direkt nachdem das Modell in die Produktion gegangen ist und die erste Vorhersage bereitgestellt wurde oder erst, wenn sich ein quantitativer Geschäftsmesswert in die richtige Richtung bewegt?

Vor Projektbeginn ist es entscheidend, Erfolgsmetriken zu definieren und Liefergegenstände Sie müssen die folgenden zwei Arten von Messwerten definieren und verfolgen:

Geschäftsmesswerte

Geschäftsmetriken sind die wichtigsten. Sie sind der Grund für den Einsatz von ML: Sie möchten das Geschäft verbessern.

Beginnen Sie mit quantifizierbaren Produkt- oder Geschäftsmetriken. Der Messwert sollte so detailliert und spezifisch wie möglich sein. Hier einige Beispiele für fokussierte, quantifizierbare Geschäftsmetriken:

  • Eine Reduzierung der monatlichen Stromkosten eines Rechenzentrums um 30 %
  • Den Umsatz aus Produktempfehlungen um 12 % steigern
  • Klickrate um 9 % steigern
  • Steigerung der Kundenstimmung aus Opt-in-Umfragen um 20 %
  • Die Zeit auf der Seite um 4 % erhöhen

Unternehmensmesswerte erfassen

Wenn Sie den Geschäftsmesswert, den Sie verbessern möchten, nicht erfassen, sollten Sie zuerst die entsprechende Infrastruktur implementieren. Ein Ziel zur Erhöhung der Klickrate um 15% ist nicht logisch, wenn Sie derzeit keine Klickraten messen.

Stellen Sie vor allem sicher, dass Sie den richtigen Messwert für Ihr Problem messen. Beispielsweise sollten Sie keine Zeit darauf verwenden, Instrumentierungen für die Verfolgung von Klickraten zu erstellen, wenn der Umsatz aus Empfehlungen der wichtigere Messwert sein könnte.

Im Verlauf des Projekts werden Sie feststellen, ob der Zielerfolgsmesswert tatsächlich ein realistisches Ziel ist. Manchmal stellen Sie fest, dass das Projekt angesichts der definierten Erfolgsmetriken nicht realisierbar ist.

Modellmesswerte

Wann sollte das Modell in der Produktion eingesetzt werden? Wenn der AUC einen bestimmten Wert hat? Wenn das Modell einen bestimmten F1-Wert erreicht? Die Antwort auf diese Frage hängt von der Art des zu lösenden Problems und der Vorhersagequalität ab, die Sie Ihrer Meinung nach zur Verbesserung des Geschäftsmesswerts benötigen.

Berücksichtigen Sie Folgendes, wenn Sie festlegen, anhand welcher Messwerte Ihr Modell bewertet werden soll:

  • Einen einzelnen zu optimierenden Messwert bestimmen: Klassifizierungsmodelle können beispielsweise anhand verschiedener Messwerte (AUC, AUC-PR usw.) bewertet werden. Die Auswahl des besten Modells kann schwierig sein, wenn verschiedene Messwerte unterschiedliche Modelle bevorzugen. Legen Sie daher zur Bewertung von Modellen einen einzigen Messwert fest.

  • Legen Sie Akzeptanzziele fest, die Sie erreichen möchten. Akzeptanzziele unterscheiden sich von Modellbewertungsmesswerten. Sie beziehen sich auf Ziele, die ein Modell erfüllen muss, um für einen vorgesehenen Anwendungsfall als akzeptabel zu gelten. Ein akzeptables Ziel könnte beispielsweise sein: „Die falsche Ausgabe liegt unter 0,1 %“ oder „Recall für die Top-5-Kategorien ist größer als 97 %“.

Angenommen, ein binäres Klassifizierungsmodell erkennt betrügerische Transaktionen. Sein Optimierungsmesswert kann die Erinnerung sein, während sein Akzeptanzziel möglicherweise Genauigkeit sein könnte. Mit anderen Worten: Wir würden die Rückruffunktion priorisieren (die meiste Zeit wird Betrug korrekt identifiziert), aber wir möchten, dass die Präzision bei einem bestimmten Wert oder darüber bleibt (die Identifizierung tatsächlicher betrügerischer Transaktionen).

Verbindung zwischen Modellmesswerten und Geschäftsmesswerten

Sie versuchen grundsätzlich, ein Modell zu entwickeln, dessen Vorhersagequalität kausal mit Ihrem Geschäftsmesswert zusammenhängt. Gute Modellmesswerte bedeuten nicht unbedingt, dass die Geschäftsmetriken verbessert werden. Ihr Team entwickelt möglicherweise ein Modell mit beeindruckenden Messwerten, aber die Vorhersagen des Modells verbessern möglicherweise den Geschäftsmesswert nicht.

Wenn Sie mit der Vorhersagequalität Ihres Modells zufrieden sind, versuchen Sie zu ermitteln, wie sich die Messwerte des Modells auf den Geschäftsmesswert auswirken. In der Regel stellen Teams das Modell für 1% der Nutzer bereit und überwachen dann den Geschäftsmesswert.

Angenommen, Ihr Team entwickelt ein Modell zur Umsatzsteigerung durch Vorhersage der Kundenabwanderung. Wenn Sie vorhersagen können, ob ein Kunde die Plattform wahrscheinlich verlässt, können Sie ihn theoretisch dazu ermutigen, zu bleiben.

Ihr Team erstellt ein Modell mit einer Vorhersagequalität von 95% und testet es an einer kleinen Stichprobe von Nutzern. Der Umsatz steigt jedoch nicht. Die Kundenabwanderung nimmt sogar zu. Hier sind einige mögliche Erklärungen:

  • Vorhersagen treten nicht früh genug auf, um umsetzbare Informationen zu erhalten. Das Modell kann die Abwanderung von Kunden nur innerhalb von sieben Tagen vorhersagen. Das ist nicht bald genug, um Anreize dafür zu bieten, dass sie auf der Plattform bleiben.

  • Unvollständige Funktionen: Vielleicht tragen andere Faktoren zur Kundenabwanderung bei, die nicht im Trainings-Dataset enthalten waren.

  • Der Schwellenwert ist nicht hoch genug. Das Modell muss möglicherweise eine Vorhersagequalität von 97% oder höher haben, damit es nützlich ist.

Dieses einfache Beispiel hebt die beiden Punkte hervor:

  • Es ist wichtig, frühzeitige Nutzertests durchzuführen, um den Zusammenhang zwischen den Messwerten des Modells und den Geschäftsmesswerten zu ermitteln (und zu verstehen).
  • Gute Modellmesswerte sind keine Garantie für verbesserte Geschäftsmesswerte.

Generative KI

Die Bewertung von generativer KI-Ausgabe ist mit besonderen Herausforderungen verbunden. In vielen Fällen, wie z. B. bei einer offenen oder kreativen Ausgabe, ist dies schwieriger als die Bewertung herkömmlicher ML-Ausgaben.

LLMs können anhand einer Vielzahl von Messwerten gemessen und ausgewertet werden. Welche Messwerte Sie für die Bewertung Ihres Modells verwenden sollten, hängt von Ihrem Anwendungsfall ab. Weitere Informationen finden Sie unter Einführung in die Bewertung von LLMs.

Wichtig

Verwechseln Sie den Modellerfolg nicht mit Geschäftserfolg. Mit anderen Worten: Ein Modell mit hervorragenden Messwerten garantiert keinen Geschäftserfolg.

Viele ausgebildete Entwickler können Modelle mit beeindruckenden Metriken erstellen. Das Training eines ausreichend ausreichenden Modells stellt normalerweise nicht das Problem. Es liegt vielmehr daran, dass das Modell die Geschäftsmetrik nicht verbessert. Ein ML-Projekt kann zum Scheitern aufgrund einer Abstimmung zwischen Geschäfts- und Modellmesswerten führen.

Wissensstand überprüfen