Wie kann ich Leistung messen?

Woran erkennen Sie, ob sich die Implementierung von ML gelohnt hat? Wann sollten Sie mit dem Feiern beginnen: direkt nach der Produktionsumstellung des Modells und der ersten Vorhersage oder erst, wenn sich ein quantitativer Unternehmensmesswert in die richtige Richtung entwickelt?

Bevor Sie ein Projekt starten, ist es wichtig, Ihre Erfolgsmesswerte zu definieren und sich auf die zu erbringenden Leistungen zu einigen. Sie müssen die folgenden beiden Arten von Messwerten definieren und erfassen:

  • Geschäftsmesswerte: Messwerte zur Quantifizierung der Unternehmensleistung, z. B. Umsatz, Klickrate oder Anzahl der Nutzer.

  • Modellmesswerte: Messwerte zur Quantifizierung der Modellqualität, z. B. RMSE, Precision oder Recall.

Unternehmenskennzahlen

Unternehmensmesswerte sind am wichtigsten. Sie sind der Grund, warum Sie ML verwenden: Sie möchten das Geschäft verbessern.

Beginnen Sie mit quantifizierbaren Produkt- oder Unternehmensmesswerten. Der Messwert sollte so detailliert und fokussiert wie möglich sein. Hier einige Beispiele für fokussierte, quantifizierbare Unternehmensmesswerte:

  • Senkung der monatlichen Stromkosten eines Rechenzentrums um 30 %.
  • Den Umsatz durch Produktempfehlungen um 12 % steigern.
  • Klickrate um 9 % steigern
  • Steigerung der Kundenzufriedenheit aus Opt-in-Umfragen um 20 %.
  • Die Zeit auf der Seite um 4 % erhöhen.

Unternehmenskennzahlen im Blick behalten

Wenn Sie die Geschäftskennzahl, die Sie verbessern möchten, nicht erfassen, müssen Sie zuerst die entsprechende Infrastruktur einrichten. Es ist nicht sinnvoll, sich das Ziel zu setzen, die Klickrate um 15% zu steigern, wenn Sie die Klickraten derzeit nicht messen.

Wichtig ist, dass Sie den richtigen Messwert für Ihr Problem erfassen. Verschwenden Sie beispielsweise keine Zeit mit dem Schreiben von Instrumentierungscode zum Erfassen von Klickraten, wenn der wichtigere Messwert möglicherweise der Umsatz aus Empfehlungen ist.

Im Laufe des Projekts werden Sie feststellen, ob die Ziel-Erfolgs-Messwert tatsächlich ein realistisches Ziel ist. In einigen Fällen stellen Sie möglicherweise fest, dass das Projekt angesichts der definierten Erfolgsmesswerte nicht realisierbar ist.

Modellmesswerte

Wann sollten Sie das Modell in die Produktion überführen? Wann liegt die AUC bei einem bestimmten Wert? Wann erreicht das Modell einen bestimmten F1-Wert? Die Antwort auf diese Frage hängt von der Art des Problems ab, das Sie lösen möchten, und von der Vorhersagequalität, die Sie benötigen, um den Geschäftsmesswert zu verbessern.

Berücksichtigen Sie bei der Auswahl der Messwerte, anhand derer Sie Ihr Modell bewerten, Folgendes:

  • Einen einzelnen Messwert für die Optimierung festlegen: Klassifikationsmodelle können beispielsweise anhand verschiedener Messwerte bewertet werden (AUC, AUC-PR usw.). Die Auswahl des besten Modells kann schwierig sein, wenn verschiedene Messwerte unterschiedliche Modelle bevorzugen. Legen Sie daher einen einzelnen Messwert fest, anhand dessen Sie die Modelle bewerten.

  • Akzeptanzziele festlegen: Akzeptanzziele unterscheiden sich von Messwerten für die Modellbewertung. Sie beziehen sich auf Ziele, die ein Modell erfüllen muss, um für einen bestimmten Anwendungsfall als akzeptabel zu gelten. Ein Beispiel für ein Akzeptanzziel ist „Falsche Ausgabe liegt unter 0,1 %“ oder „Der Recall für die fünf wichtigsten Kategorien liegt über 97 %“.

Angenommen, ein binäres Klassifizierungsmodell erkennt betrügerische Transaktionen. Der Optimierungsmesswert ist möglicherweise die Trefferquote, während das Akzeptanzziel die Präzision sein kann. Mit anderen Worten: Wir würden den Recall (Betrug in den meisten Fällen korrekt erkennen) priorisieren, während die Präzision auf oder über einem bestimmten Wert bleiben soll (tatsächliche betrügerische Transaktionen erkennen).

Verbindung zwischen Modellmesswerten und Geschäftsmesswerten

Im Grunde geht es darum, ein Modell zu entwickeln, dessen Vorhersagequalität kausal mit Ihrem Unternehmensmesswert zusammenhängt. Gute Modellmesswerte bedeuten nicht unbedingt bessere Geschäftsmesswerte. Ihr Team entwickelt möglicherweise ein Modell mit beeindruckenden Messwerten, aber die Vorhersagen des Modells führen möglicherweise nicht zu einer Verbesserung des Geschäftsmesswerts.

Wenn Sie mit der Vorhersagequalität Ihres Modells zufrieden sind, sollten Sie herausfinden, wie sich die Messwerte des Modells auf den Geschäftsmesswert auswirken. In der Regel stellen Teams das Modell für 1% der Nutzer bereit und beobachten dann die Geschäftsmetrik.

Angenommen, Ihr Team entwickelt ein Modell, um den Umsatz zu steigern, indem es die Kundenabwanderung vorhersagt. Wenn Sie vorhersagen können, ob ein Kunde die Plattform wahrscheinlich verlassen wird, können Sie ihn theoretisch dazu ermutigen, zu bleiben.

Ihr Team erstellt ein Modell mit einer Vorhersagequalität von 95% und testet es mit einer kleinen Stichprobe von Nutzern. Der Umsatz steigt jedoch nicht. Die Kundenabwanderung nimmt tatsächlich zu. Hier sind einige mögliche Erklärungen:

  • Prognosen werden nicht früh genug erstellt, um Maßnahmen zu ergreifen. Das Modell kann die Kundenabwanderung nur innerhalb eines Zeitrahmens von sieben Tagen vorhersagen. Das ist nicht früh genug, um Anreize zu bieten, damit die Kunden auf der Plattform bleiben.

  • Unvollständige Funktionen: Möglicherweise tragen andere Faktoren zur Kundenabwanderung bei, die nicht im Trainings-Dataset enthalten waren.

  • Der Grenzwert ist nicht hoch genug. Das Modell muss möglicherweise eine Vorhersagequalität von mindestens 97% haben, damit es nützlich ist.

Dieses einfache Beispiel veranschaulicht die beiden Punkte:

  • Es ist wichtig, frühzeitig Nutzertests durchzuführen, um die Verbindung zwischen den Modellmesswerten und den Geschäftsmesswerten zu belegen und zu verstehen.
  • Gute Modellmesswerte sind kein Garant für bessere Geschäftsmesswerte.

Generative KI

Die Bewertung von Ausgaben generativer KI birgt besondere Herausforderungen. In vielen Fällen, z. B. bei offenen oder kreativen Ausgaben, ist das schwieriger als bei herkömmlichen ML-Ausgaben.

LLMs können anhand verschiedener Messwerte gemessen und bewertet werden. Welche Messwerte Sie zur Bewertung Ihres Modells verwenden, hängt von Ihrem Anwendungsfall ab.

Hinweis

Verwechseln Sie den Erfolg des Modells nicht mit dem Erfolg des Unternehmens. Mit anderen Worten: Ein Modell mit hervorragenden Messwerten ist keine Garantie für den Geschäftserfolg.

Viele erfahrene Entwickler können Modelle mit beeindruckenden Messwerten erstellen. Das Training eines ausreichend guten Modells ist in der Regel nicht das Problem. Vielmehr wird die Geschäftsmetrik durch das Modell nicht verbessert. Ein ML-Projekt kann scheitern, wenn Geschäfts- und Modellmesswerte nicht aufeinander abgestimmt sind.

Wissen testen

Sie haben ein klares Geschäftsproblem und eine klar definierte Lösung für den Einsatz eines LLM als Kundensupport-Agenten. Wie sollten Sie messen, ob die Lösung erfolgreich ist?
Die Anzahl der gelösten Supportfälle, die menschliches Eingreifen erfordern, sinkt von 72% auf 50%.
Korrekt. Das ist ein quantifizierbarer Geschäftsmesswert, den Sie erfassen können.
Die Bewertungsmetriken des LLM sind durchgehend hoch.
Gute Modellmesswerte sind keine Garantie für bessere Geschäftsmesswerte.
Das Feedback aus den ersten Nutzungstests ist sehr positiv.
Frühes Nutzerfeedback ist in der Regel eher qualitativ als quantitativ. Sie müssen einen quantifizierbaren Unternehmensmesswert festlegen, um den Erfolg zu messen.