So bereiten Sie Ihre ML-Pipelines für die Produktion vor:
- Rechenressourcen für Ihre Pipelines bereitstellen
- Logging, Monitoring und Benachrichtigungen implementieren
Rechenressourcen bereitstellen
Für das Ausführen von ML-Pipelines sind Rechenressourcen wie RAM, CPUs und GPUs/TPUs erforderlich. Ohne eine ausreichende Rechenleistung können Sie Ihre Pipelines nicht ausführen. Stellen Sie daher sicher, um ein ausreichendes Kontingent zu erhalten, um die erforderlichen Ressourcen für Ihre Pipelines bereitzustellen die in der Produktion ausgeführt werden müssen.
Pipelines für Bereitstellung, Training und Validierung. Diese Pipelines erfordern TPUs, GPUs oder CPUs. Je nach Anwendungsfall könnten Sie oder dieselbe Hardware verwenden. Zum Beispiel könnte ein Training bei CPUs, aber für die Bereitstellung könnten TPUs verwendet werden oder umgekehrt. Im Allgemeinen wird oft auf größerer Hardware trainiert und dann auf kleinerer Hardware.
Bei der Auswahl von Hardware ist Folgendes zu beachten:
- Können Sie auf kostengünstigere Hardware trainieren?
- Würde ein Wechsel zu einer anderen Hardware die Leistung steigern?
- Welche Größe hat das Modell und welche Hardware optimiert die Leistung?
- Welche Hardware ist für die Architektur Ihres Modells ideal?
Datenpipelines: Datenpipelines erfordern ein Kontingent für RAM und CPU Sie müssen schätzen, das Ihre Pipeline zum Generieren von Trainings- und Test-Datasets benötigt.
Möglicherweise müssen Sie nicht für jede Pipeline ein Kontingent zuweisen. Stattdessen können Sie von Pipelines gemeinsam genutzten Kontingenten. Überprüfen Sie in solchen Fällen, haben Sie genug Kontingente, um alle Pipelines auszuführen, und richten Monitoring und um zu verhindern, dass eine einzelne, fehlerhafte Pipeline das gesamte Kontingent verbraucht.
Kontingent schätzen
Um das Kontingent zu schätzen, das Sie für die Daten- und Trainingspipelines benötigen, suchen Sie ähnliche Projekte erstellen, auf denen Ihre Schätzungen basieren sollen. Um das Bereitstellungskontingent zu schätzen, die Abfragen des Dienstes pro Sekunde vorhersagen. Diese Methoden dienen als Grundlage. Als Sie in der Testphase mit dem Prototyping einer Lösung beginnen, um eine genauere Kontingentschätzung zu erhalten.
Berücksichtigen Sie bei der Schätzung des Kontingents nicht nur das Kontingent für Ihre Produktions- Pipelines, sondern auch für laufende Experimente.
Wissenstest
Logging, Monitoring und Benachrichtigungen
Das Verhalten eines Produktionsmodells zu protokollieren und zu überwachen, ist entscheidend. Robust Monitoring-Infrastruktur stellt sicher, dass Ihre Modelle zuverlässig sind. hochwertige Vorhersagen zu erstellen.
Gute Logging- und Monitoring-Praktiken unterstützen die proaktive Identifizierung von Problemen in ML und die potenziellen Auswirkungen auf das Geschäft zu mindern. Wenn Probleme auftreten, werden Warnmeldungen Mitglieder Ihres Teams benachrichtigen, und umfassende Protokolle erleichtern die Diagnose der die Grundursache des Problems.
Sie sollten Logging und Monitoring implementieren, um die folgenden Probleme zu erkennen mit ML-Pipelines:
Pipeline | Überwachen |
---|---|
Wird ausgeliefert |
|
Daten |
|
Training |
|
Validierung |
|
Außerdem sollten Sie Logging, Monitoring und Benachrichtigungen für Folgendes benötigen:
- Latenz. Wie lange dauert es, bis eine Prognose geliefert wird?
- Ausfälle: Liefert das Modell keine Vorhersagen mehr?
Wissenstest
Modell bereitstellen
Für die Modellbereitstellung sollten Sie Folgendes dokumentieren:
- Genehmigungen erforderlich, um mit der Bereitstellung zu beginnen und die Einführung zu verlängern.
- Wie ein Modell in die Produktion gestellt wird.
- Wo das Modell bereitgestellt wird, z. B. bei Staging oder Canary Umgebungen.
- Vorgehensweise, wenn eine Bereitstellung fehlschlägt
- So führen Sie ein Rollback für ein Modell durch, das sich bereits in der Produktion befindet.
Nach der Automatisierung des Modelltrainings Validierung und Bereitstellung. Durch das Automatisieren von Bereitstellungen werden und verringert die Wahrscheinlichkeit, dass eine Bereitstellung durch einer einzigen Person. Es reduziert auch potenzielle Fehler, erhöht die Effizienz und Zuverlässigkeit und ermöglicht Bereitschaftsrotationen sowie SRE-Unterstützung.
In der Regel stellen Sie neue Modelle für eine Untergruppe von Nutzern bereit, um zu prüfen, ob das Modell wie erwartet verhalten. Wenn dies der Fall ist, fahren Sie mit der Bereitstellung fort. Ist dies nicht der Fall, führen Sie ein Rollback des Deployments durch und beginnen mit der Diagnose und Behebung der Probleme.