ML-Produktionssysteme: Fragen, die gestellt werden sollten

In dieser Lektion geht es um die Fragen, die Sie sich zu Ihren Daten und Ihrem Modell in Produktionssystemen stellen sollten.

Sind alle Funktionen hilfreich?

Sie sollten Ihr Modell kontinuierlich überwachen, um Funktionen zu entfernen, die nur wenig oder gar nicht zur Vorhersagefähigkeit des Modells beitragen. Wenn sich die Eingabedaten für diese Funktion plötzlich ändern, kann sich das Verhalten Ihres Modells ebenfalls plötzlich auf unerwünschte Weise ändern.

Berücksichtigen Sie auch die folgende ähnliche Frage:

  • Ist die Nützlichkeit der Funktion die Kosten wert?

Es ist immer verlockend, dem Modell weitere Funktionen hinzuzufügen. Angenommen, Sie finden eine neue Funktion, durch deren Hinzufügen die Vorhersagen Ihres Modells leicht verbessert werden. Etwas bessere Vorhersagen sind natürlich besser als etwas schlechtere. Die zusätzliche Funktion erhöht jedoch den Wartungsaufwand.

Ist Ihre Datenquelle zuverlässig?

Einige Fragen zur Zuverlässigkeit Ihrer Eingabedaten:

  • Ist das Signal immer verfügbar oder stammt es aus einer unzuverlässigen Quelle? Beispiel:
    • Stammt das Signal von einem Server, der bei hoher Auslastung abstürzt?
    • Stammt das Signal von Nutzern, die jeden August in den Urlaub fahren?
  • Ändert sich das System, das die Eingabedaten Ihres Modells berechnet, jemals? Falls ja:
    • Wie oft?
    • Woher wissen Sie, wann sich das System ändert?

Erstellen Sie eine eigene Kopie der Daten, die Sie aus dem vorgelagerten Prozess erhalten. Fahren Sie dann erst mit der nächsten Version der Upstream-Daten fort, wenn Sie sicher sind, dass dies ungefährlich ist.

Ist Ihr Modell Teil einer Feedbackschleife?

Manchmal kann sich ein Modell auf seine eigenen Trainingsdaten auswirken. So werden beispielsweise die Ergebnisse einiger Modelle wiederum (direkt oder indirekt) zu Eingabemerkmalen für dasselbe Modell.

Manchmal kann sich ein Modell auf ein anderes auswirken. Betrachten Sie beispielsweise zwei Modelle zur Vorhersage von Aktienkursen:

  • Modell A, ein schlechtes Prognosemodell.
  • Modell B

Da Modell A fehlerhaft ist, entscheidet es fälschlicherweise, Aktien von Aktie X zu kaufen. Diese Käufe treiben den Preis von Aktie X in die Höhe. Modell B verwendet den Preis von Aktie X als Eingabemerkmal. Daher kann Modell B zu falschen Schlussfolgerungen über den Wert von Aktie X kommen. Modell B könnte daher aufgrund des fehlerhaften Verhaltens von Modell A Aktien von Aktie X kaufen oder verkaufen. Das Verhalten von Modell B kann sich wiederum auf Modell A auswirken und möglicherweise eine Tulpenmanie oder einen Rückgang der Aktien von Unternehmen X auslösen.

Übung: Wissen testen

Bei welchen drei der folgenden Modelle besteht die Gefahr einer Feedbackschleife?
Ein Verkehrsprognosemodell, das Staus an Autobahnausfahrten in Strandnähe vorhersagt, wobei die Anzahl der Strandbesucher als eine der Funktionen verwendet wird.
Einige Strandbesucher werden ihre Pläne wahrscheinlich anhand der Besucherprognose festlegen. Wenn es am Strand sehr voll ist und der Verkehr voraussichtlich stark ist, machen viele Menschen möglicherweise alternative Pläne. Dies kann die Besucherzahlen am Strand senken, was zu einer geringeren Verkehrsprognose führt, was wiederum die Besucherzahlen erhöhen kann. Der Zyklus wiederholt sich.
Ein Buch-Empfehlungsmodell, das Nutzern Romane vorschlägt, die ihnen gefallen könnten, basierend auf ihrer Beliebtheit (d.h. der Häufigkeit, mit der die Bücher gekauft wurden).
Buchempfehlungen steigern wahrscheinlich die Anzahl der Käufe. Diese zusätzlichen Verkäufe werden als Eingabe in das Modell zurückgegeben, sodass diese Bücher in Zukunft mit höherer Wahrscheinlichkeit empfohlen werden.
Ein Hochschulranking-Modell, bei dem Hochschulen teilweise nach ihrer Selektivität bewertet werden – dem Prozentsatz der Bewerber, die aufgenommen wurden.
Die Rankings des Modells können das Interesse an den bestbewerteten Schulen steigern und so die Anzahl der Bewerbungen erhöhen. Wenn diese Hochschulen weiterhin die gleiche Anzahl von Studenten aufnehmen, steigt die Selektivität (der Prozentsatz der aufgenommenen Studenten sinkt). Das verbessert das Ranking dieser Schulen, was das Interesse potenzieller Schüler und Studenten weiter steigert usw.
Ein Wahlergebnismodell, das den Gewinner einer Bürgermeisterwahl vorhersagt, indem 2% der Wähler nach Schließung der Wahllokale befragt werden.
Wenn das Modell seine Prognose erst nach Schließung der Wahlurnen veröffentlicht, können seine Vorhersagen das Wahlverhalten nicht beeinflussen.
Ein Modell für den Immobilienwert, das Hauspreise anhand von Größe (Fläche in Quadratmetern), Anzahl der Schlafzimmer und geografischem Standort vorhersagt.
Es ist nicht möglich, den Standort, die Größe oder die Anzahl der Schlafzimmer eines Hauses schnell in Reaktion auf Preisprognosen zu ändern. Eine Feedbackschleife ist daher unwahrscheinlich. Es besteht jedoch möglicherweise ein Zusammenhang zwischen Größe und Anzahl der Schlafzimmer (größere Häuser haben wahrscheinlich mehr Zimmer), der möglicherweise geklärt werden muss.
Ein Modell für Gesichtsattribute, das erkennt, ob eine Person auf einem Foto lächelt. Es wird regelmäßig mit einer Datenbank mit Stockfotos trainiert, die monatlich automatisch aktualisiert wird.
Hier gibt es keine Feedbackschleife, da die Modellvorhersagen keine Auswirkungen auf die Fotodatenbank haben. Die Versionierung der Eingabedaten ist hier jedoch ein Problem, da diese monatlichen Aktualisierungen potenziell unvorhergesehene Auswirkungen auf das Modell haben können.