ML-Produktionssysteme: Fragen, die gestellt werden sollten
Mit Sammlungen den Überblick behalten
Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.
In dieser Lektion geht es um die Fragen, die Sie sich zu Ihren Daten und Ihrem Modell in Produktionssystemen stellen sollten.
Sind alle Funktionen hilfreich?
Sie sollten Ihr Modell kontinuierlich überwachen, um Funktionen zu entfernen, die nur wenig oder gar nicht zur Vorhersagefähigkeit des Modells beitragen. Wenn sich die Eingabedaten für diese Funktion plötzlich ändern, kann sich das Verhalten Ihres Modells ebenfalls plötzlich auf unerwünschte Weise ändern.
Berücksichtigen Sie auch die folgende ähnliche Frage:
- Ist die Nützlichkeit der Funktion die Kosten wert?
Es ist immer verlockend, dem Modell weitere Funktionen hinzuzufügen. Angenommen, Sie finden eine neue Funktion, durch deren Hinzufügen die Vorhersagen Ihres Modells leicht verbessert werden. Etwas bessere Vorhersagen sind natürlich besser als etwas schlechtere. Die zusätzliche Funktion erhöht jedoch den Wartungsaufwand.
Ist Ihre Datenquelle zuverlässig?
Einige Fragen zur Zuverlässigkeit Ihrer Eingabedaten:
- Ist das Signal immer verfügbar oder stammt es aus einer unzuverlässigen Quelle? Beispiel:
- Stammt das Signal von einem Server, der bei hoher Auslastung abstürzt?
- Stammt das Signal von Nutzern, die jeden August in den Urlaub fahren?
- Ändert sich das System, das die Eingabedaten Ihres Modells berechnet, jemals? Falls ja:
- Wie oft?
- Woher wissen Sie, wann sich das System ändert?
Erstellen Sie eine eigene Kopie der Daten, die Sie aus dem vorgelagerten Prozess erhalten. Fahren Sie dann erst mit der nächsten Version der Upstream-Daten fort, wenn Sie sicher sind, dass dies ungefährlich ist.
Ist Ihr Modell Teil einer Feedbackschleife?
Manchmal kann sich ein Modell auf seine eigenen Trainingsdaten auswirken. So werden beispielsweise die Ergebnisse einiger Modelle wiederum (direkt oder indirekt) zu Eingabemerkmalen für dasselbe Modell.
Manchmal kann sich ein Modell auf ein anderes auswirken. Betrachten Sie beispielsweise zwei Modelle zur Vorhersage von Aktienkursen:
- Modell A, ein schlechtes Prognosemodell.
- Modell B
Da Modell A fehlerhaft ist, entscheidet es fälschlicherweise, Aktien von Aktie X zu kaufen.
Diese Käufe treiben den Preis von Aktie X in die Höhe. Modell B verwendet den Preis von Aktie X als Eingabemerkmal. Daher kann Modell B zu falschen Schlussfolgerungen über den Wert von Aktie X kommen. Modell B könnte daher aufgrund des fehlerhaften Verhaltens von Modell A Aktien von Aktie X kaufen oder verkaufen.
Das Verhalten von Modell B kann sich wiederum auf Modell A auswirken und möglicherweise eine Tulpenmanie oder einen Rückgang der Aktien von Unternehmen X auslösen.
Übung: Wissen testen
Bei welchen drei der folgenden Modelle besteht die Gefahr einer Feedbackschleife?
Ein Verkehrsprognosemodell, das Staus an Autobahnausfahrten in Strandnähe vorhersagt, wobei die Anzahl der Strandbesucher als eine der Funktionen verwendet wird.
Einige Strandbesucher werden ihre Pläne wahrscheinlich anhand der Besucherprognose festlegen. Wenn es am Strand sehr voll ist und der Verkehr voraussichtlich stark ist, machen viele Menschen möglicherweise alternative Pläne. Dies kann die Besucherzahlen am Strand senken, was zu einer geringeren Verkehrsprognose führt, was wiederum die Besucherzahlen erhöhen kann. Der Zyklus wiederholt sich.
Ein Buch-Empfehlungsmodell, das Nutzern Romane vorschlägt, die ihnen gefallen könnten, basierend auf ihrer Beliebtheit (d.h. der Häufigkeit, mit der die Bücher gekauft wurden).
Buchempfehlungen steigern wahrscheinlich die Anzahl der Käufe. Diese zusätzlichen Verkäufe werden als Eingabe in das Modell zurückgegeben, sodass diese Bücher in Zukunft mit höherer Wahrscheinlichkeit empfohlen werden.
Ein Hochschulranking-Modell, bei dem Hochschulen teilweise nach ihrer Selektivität bewertet werden – dem Prozentsatz der Bewerber, die aufgenommen wurden.
Die Rankings des Modells können das Interesse an den bestbewerteten Schulen steigern und so die Anzahl der Bewerbungen erhöhen. Wenn diese Hochschulen weiterhin die gleiche Anzahl von Studenten aufnehmen, steigt die Selektivität (der Prozentsatz der aufgenommenen Studenten sinkt). Das verbessert das Ranking dieser Schulen, was das Interesse potenzieller Schüler und Studenten weiter steigert usw.
Ein Wahlergebnismodell, das den Gewinner einer Bürgermeisterwahl vorhersagt, indem 2% der Wähler nach Schließung der Wahllokale befragt werden.
Wenn das Modell seine Prognose erst nach Schließung der Wahlurnen veröffentlicht, können seine Vorhersagen das Wahlverhalten nicht beeinflussen.
Ein Modell für den Immobilienwert, das Hauspreise anhand von Größe (Fläche in Quadratmetern), Anzahl der Schlafzimmer und geografischem Standort vorhersagt.
Es ist nicht möglich, den Standort, die Größe oder die Anzahl der Schlafzimmer eines Hauses schnell in Reaktion auf Preisprognosen zu ändern. Eine Feedbackschleife ist daher unwahrscheinlich. Es besteht jedoch möglicherweise ein Zusammenhang zwischen Größe und Anzahl der Schlafzimmer (größere Häuser haben wahrscheinlich mehr Zimmer), der möglicherweise geklärt werden muss.
Ein Modell für Gesichtsattribute, das erkennt, ob eine Person auf einem Foto lächelt. Es wird regelmäßig mit einer Datenbank mit Stockfotos trainiert, die monatlich automatisch aktualisiert wird.
Hier gibt es keine Feedbackschleife, da die Modellvorhersagen keine Auswirkungen auf die Fotodatenbank haben. Die Versionierung der Eingabedaten ist hier jedoch ein Problem, da diese monatlichen Aktualisierungen potenziell unvorhergesehene Auswirkungen auf das Modell haben können.
Sofern nicht anders angegeben, sind die Inhalte dieser Seite unter der Creative Commons Attribution 4.0 License und Codebeispiele unter der Apache 2.0 License lizenziert. Weitere Informationen finden Sie in den Websiterichtlinien von Google Developers. Java ist eine eingetragene Marke von Oracle und/oder seinen Partnern.
Zuletzt aktualisiert: 2025-07-27 (UTC).
[null,null,["Zuletzt aktualisiert: 2025-07-27 (UTC)."],[[["\u003cp\u003eContinuously monitor models in production to evaluate feature importance and potentially remove unnecessary ones, ensuring prediction quality and resource efficiency.\u003c/p\u003e\n"],["\u003cp\u003eData reliability is crucial; consider data source stability, potential changes in upstream data processes, and create local data copies to control versioning and mitigate risks.\u003c/p\u003e\n"],["\u003cp\u003eBe aware of feedback loops where a model's predictions influence future input data, potentially leading to unexpected behavior or biased outcomes, especially in interconnected systems.\u003c/p\u003e\n"],["\u003cp\u003eRegularly assess your model by asking if features are truly helpful and if their value outweighs the costs of inclusion, aiming for a balance between prediction accuracy and maintainability.\u003c/p\u003e\n"],["\u003cp\u003eEvaluate if your model is susceptible to a feedback loop and take steps to isolate it if you find it is.\u003c/p\u003e\n"]]],[],null,["# Production ML systems: Questions to ask\n\nThis lesson focuses on the questions you should ask about your data\nand model in production systems.\n\nIs each feature helpful?\n------------------------\n\nYou should continuously monitor your model to remove features that contribute\nlittle or nothing to the model's predictive ability. If the input data for\nthat feature abruptly changes, your model's behavior might also abruptly\nchange in undesirable ways.\n\nAlso consider the following related question:\n\n- Does the usefulness of the feature justify the cost of including it?\n\nIt is always tempting to add more features to the model. For example,\nsuppose you find a new feature whose addition makes your model's predictions\nslightly better. Slightly better predictions certainly seem better than\nslightly worse predictions; however, the extra feature adds to your\nmaintenance burden.\n\nIs your data source reliable?\n-----------------------------\n\nSome questions to ask about the reliability of your input data:\n\n- Is the signal always going to be available or is it coming from an unreliable source? For example:\n - Is the signal coming from a server that crashes under heavy load?\n - Is the signal coming from humans that go on vacation every August?\n- Does the system that computes your model's input data ever change? If so:\n - How often?\n - How will you know when that system changes?\n\nConsider creating your own copy of the data you receive from the\nupstream process. Then, only advance to the next version of the upstream\ndata when you are certain that it is safe to do so.\n\nIs your model part of a feedback loop?\n--------------------------------------\n\nSometimes a model can affect its own training data. For example, the\nresults from some models, in turn, become (directly or indirectly) input\nfeatures to that same model.\n\nSometimes a model can affect another model. For example, consider two\nmodels for predicting stock prices:\n\n- Model A, which is a bad predictive model.\n- Model B.\n\nSince Model A is buggy, it mistakenly decides to buy stock in Stock X.\nThose purchases drive up the price of Stock X. Model B uses the price\nof Stock X as an input feature, so Model B can come to some false\nconclusions about the value of Stock X. Model B could, therefore,\nbuy or sell shares of Stock X based on the buggy behavior of Model A.\nModel B's behavior, in turn, can affect Model A, possibly triggering a\n[tulip mania](https://wikipedia.org/wiki/Tulip_mania) or a slide in\nCompany X's stock.\n\n### Exercise: Check your understanding\n\nWhich **three** of the following models are susceptible to a feedback loop? \nA traffic-forecasting model that predicts congestion at highway exits near the beach, using beach crowd size as one of its features. \nSome beachgoers are likely to base their plans on the traffic forecast. If there is a large beach crowd and traffic is forecast to be heavy, many people may make alternative plans. This may depress beach turnout, resulting in a lighter traffic forecast, which then may increase attendance, and the cycle repeats. \nA book-recommendation model that suggests novels its users may like based on their popularity (i.e., the number of times the books have been purchased). \nBook recommendations are likely to drive purchases, and these additional sales will be fed back into the model as input, making it more likely to recommend these same books in the future. \nA university-ranking model that rates schools in part by their selectivity---the percentage of students who applied that were admitted. \nThe model's rankings may drive additional interest to top-rated schools, increasing the number of applications they receive. If these schools continue to admit the same number of students, selectivity will increase (the percentage of students admitted will go down). This will boost these schools' rankings, which will further increase prospective student interest, and so on... \nAn election-results model that forecasts the winner of a mayoral race by surveying 2% of voters after the polls have closed. \nIf the model does not publish its forecast until after the polls have closed, it is not possible for its predictions to affect voter behavior. \nA housing-value model that predicts house prices, using size (area in square meters), number of bedrooms, and geographic location as features. \nIt is not possible to quickly change a house's location, size, or number of bedrooms in response to price forecasts, making a feedback loop unlikely. However, there is potentially a correlation between size and number of bedrooms (larger homes are likely to have more rooms) that may need to be teased apart. \nA face-attributes model that detects whether a person is smiling in a photo, which is regularly trained on a database of stock photography that is automatically updated monthly. \nThere is no feedback loop here, as model predictions don't have any impact on the photo database. However, versioning of the input data is a concern here, as these monthly updates could potentially have unforeseen effects on the model. \n[Help Center](https://support.google.com/machinelearningeducation)"]]