Produkcja

Aby przygotować potoki ML do środowiska produkcyjnego, musisz wykonać te czynności:

  • Udostępnianie zasobów obliczeniowych na potrzeby potoków
  • Wdrażanie logowania, monitorowania i tworzenia alertów

Udostępnianie zasobów obliczeniowych

Uruchamianie potoków ML wymaga zasobów obliczeniowych, takich jak pamięć RAM, procesory oraz GPU/TPU. Bez odpowiedniej mocy obliczeniowej nie możesz uruchamiać potoków. Dlatego upewnij się, aby uzyskać wystarczający limit, aby udostępnić wymagane zasoby potokom muszą działać w środowisku produkcyjnym.

  • Potoki udostępniania, trenowania i weryfikacji. Te potoki wymagają Procesory TPU, GPU lub CPU. W zależności od zastosowania możesz trenować i wyświetlać na różnych urządzeniach. Na przykład trenowanie może odbywa się na procesorach, ale wyświetlanie może korzystać z TPU lub na odwrót. Ogólnie rzecz biorąc, często trenują na większych urządzeniach, a później wyświetlają się na mniejszych urządzeniach.

    Wybierając sprzęt, weź pod uwagę te kwestie:

    • Czy można trenować na tańszym sprzęcie?
    • Czy przejście na inny sprzęt zwiększy wydajność?
    • Jaki jest rozmiar modelu i jaki sprzęt zoptymalizuje jego wydajność?
    • Jaki sprzęt jest idealny w zależności od architektury Twojego modelu?
  • Potoki danych. Potoki danych wymagają limitu pamięci RAM i procesora Aby określić, dużo limitu potrzebnego potokowi do generowania zbiorów danych do trenowania i testowania.

Możesz nie przydzielić limitu do każdego potoku. Zamiast tego możesz i przydzielaj limit wspólny dla potoków. W takich przypadkach sprawdź, czy masz wystarczający limit, aby uruchomić wszystkie potoki oraz skonfigurować monitorowanie zmiany, aby zapobiec wykorzystaniu całego limitu przez pojedynczy, błędny potok.

Szacuję limit

Aby oszacować limit związany z danymi i potokami trenowania, znajdź podobnych projektów, na których możesz oprzeć szacunki. Aby oszacować limit obsługi, spróbuj: aby umożliwić przewidywanie zapytań usługi na sekundę. Te metody dają punkt odniesienia. Jako w fazie eksperymentu chcesz utworzyć prototyp rozwiązania, aby uzyskać dokładniejsze oszacowanie limitu.

Podczas szacowania limitu pamiętaj, aby wziąć pod uwagę nie tylko limit dla środowiska produkcyjnego potoki, ale też w trwających eksperymentach.

Sprawdź swoją wiedzę

Wybierając sprzęt do wyświetlania prognoz, należy zawsze wydajniejszy sprzęt niż ten użyty do trenowania modelu.
Fałsz
Dobra odpowiedź. Zwykle trenowanie wymaga większego sprzętu niż obsługa.
Prawda

Logowanie, monitorowanie i alerty

Logowanie i monitorowanie zachowania modelu produkcyjnego ma kluczowe znaczenie. Robust oraz potwierdza, że modele działają niezawodnie, wysokiej jakości prognozy.

Sprawdzone metody logowania i monitorowania pomagają proaktywnie wykrywać problemy w systemach uczących się potoków i ograniczania potencjalnego wpływu na działalność. Gdy wystąpią problemy, alerty powiadamiać członków zespołu, a kompleksowe dzienniki ułatwiają diagnozowanie przyczyna problemu.

Wdróż logowanie i monitorowanie, aby wykrywać te problemy z potokami ML:

Potok Monitorowanie
Aktywna
  • Zniekształcenia lub dryfy w danych wyświetlanych w porównaniu z danymi treningowymi
  • Zniekształcenia lub dryfy w prognozach
  • Problemy z typami danych, np. brakujące lub uszkodzone wartości
  • Wykorzystanie limitu
  • Dane dotyczące jakości modelu
Dane
  • Zniekształcenia i dryfy wartości cech
  • Zniekształcenia i dryfy w wartościach etykiet
  • Problemy z typami danych, np. brakujące lub uszkodzone wartości
  • Wskaźnik wykorzystania limitu
  • Wkrótce zostanie osiągnięty limit przydziału
Szkolenia
  • Czas trenowania
  • Nieudane trenowanie
  • Wykorzystanie limitu
Weryfikacja
  • Zniekształcenie lub dryf w testowych zbiorach danych

Warto też skonfigurować logowanie, monitorowanie i alerty dotyczące:

  • Czas oczekiwania. Jak długo trwa dostarczanie prognozy?
  • Przerwy w działaniu usługi. Czy model przestał dostarczać prognozy?

Sprawdź swoją wiedzę

Jaka jest główna przyczyna logowania i monitorowania? w Twoich potokach ML?
Proaktywne wykrywanie problemów, zanim wpłyną na użytkowników
Monitorowanie limitu i wykorzystania zasobów
Identyfikowanie potencjalnych problemów z bezpieczeństwem
Wszystkie powyższe odpowiedzi
Dobra odpowiedź. Logowanie i monitorowanie potoków ML pomaga zapobiegać diagnozowania problemów, zanim staną się poważne.

Wdrażanie modelu

Na potrzeby wdrażania modeli warto udokumentować te kwestie:

  • Zatwierdzenia wymagane do rozpoczęcia wdrażania i jego zwiększania.
  • Jak wprowadzić model do produkcji.
  • Miejsce wdrażania modelu, na przykład w środowisku testowym lub do wczesnych testów w różnych środowiskach.
  • Co zrobić w przypadku niepowodzenia wdrożenia
  • Jak przywrócić model, który jest już w wersji produkcyjnej.

Po zakończeniu trenowania modelu warto zautomatyzować trenowanie, weryfikacji i wdrażania. Automatyzacja dystrybucji wdrożeń odpowiedzialnością i zmniejsza prawdopodobieństwo wąskiego gardła dla wdrożenia przez jedną osobę. Pozwala też ograniczyć potencjalne błędy, poprawić wydajność niezawodność, a także umożliwia rotację podczas rozmowy i obsługę SRE.

Zwykle wdrażasz nowe modele dla podzbioru użytkowników, aby sprawdzić, czy zachowanie zgodne z oczekiwaniami. Jeśli tak, kontynuuj wdrażanie. Jeśli nie, wycofasz wdrożenie i zaczniesz diagnozować oraz debugować problemy.