Produkcja

Aby przygotować potoki ML do środowiska produkcyjnego, musisz wykonać te czynności:

  • Udostępnianie zasobów obliczeniowych na potrzeby potoków
  • Wdrażanie logowania, monitorowania i tworzenia alertów

Udostępnianie zasobów obliczeniowych

Uruchamianie potoków ML wymaga zasobów obliczeniowych, takich jak pamięć RAM, procesory oraz GPU/TPU. Bez odpowiedniej mocy obliczeniowej nie możesz uruchamiać potoków. Dlatego upewnij się, aby uzyskać wystarczający limit, aby udostępnić wymagane zasoby potokom muszą działać w środowisku produkcyjnym.

  • Potoki udostępniania, trenowania i weryfikacji. Te potoki wymagają Procesory TPU, GPU lub CPU. W zależności od zastosowania możesz trenować i wyświetlać na różnych urządzeniach. Na przykład trenowanie może odbywa się na procesorach, ale wyświetlanie może korzystać z TPU lub na odwrót. Ogólnie rzecz biorąc, często trenują na większych urządzeniach, a później wyświetlają się na mniejszych urządzeniach.

    Wybierając sprzęt, weź pod uwagę te kwestie:

    • Czy można trenować na tańszym sprzęcie?
    • Czy przejście na inny sprzęt zwiększy wydajność?
    • Jaki jest rozmiar modelu i jaki sprzęt zoptymalizuje jego wydajność?
    • Jaki sprzęt jest idealny w zależności od architektury Twojego modelu?
  • Potoki danych. Potoki danych wymagają limitu pamięci RAM i procesora Aby określić, dużo limitu potrzebnego potokowi do generowania zbiorów danych do trenowania i testowania.

Możesz nie przydzielić limitu do każdego potoku. Zamiast tego możesz i przydzielaj limit wspólny dla potoków. W takich przypadkach sprawdź, czy masz wystarczający limit, aby uruchomić wszystkie potoki oraz skonfigurować monitorowanie zmiany, aby zapobiec wykorzystaniu całego limitu przez pojedynczy, błędny potok.

Szacuję limit

Aby oszacować limit związany z danymi i potokami trenowania, znajdź podobnych projektów, na których możesz oprzeć szacunki. Aby oszacować limit obsługi, spróbuj: aby umożliwić przewidywanie zapytań usługi na sekundę. Te metody dają punkt odniesienia. Jako w fazie eksperymentu chcesz utworzyć prototyp rozwiązania, aby uzyskać dokładniejsze oszacowanie limitu.

Podczas szacowania limitu pamiętaj, aby wziąć pod uwagę nie tylko limit dla środowiska produkcyjnego potoki, ale też w trwających eksperymentach.

Sprawdź swoją wiedzę

Wybierając sprzęt do wyświetlania prognoz, należy zawsze wydajniejszy sprzęt niż ten użyty do trenowania modelu.
Prawda
Fałsz

Logowanie, monitorowanie i alerty

Logowanie i monitorowanie zachowania modelu produkcyjnego ma kluczowe znaczenie. Robust oraz potwierdza, że modele działają niezawodnie, wysokiej jakości prognozy.

Sprawdzone metody logowania i monitorowania pomagają proaktywnie wykrywać problemy w systemach uczących się potoków i ograniczania potencjalnego wpływu na działalność. Gdy wystąpią problemy, alerty powiadamiać członków zespołu, a kompleksowe dzienniki ułatwiają diagnozowanie przyczyna problemu.

Wdróż logowanie i monitorowanie, aby wykrywać te problemy z potokami ML:

Potok Monitorowanie
Aktywna
  • Zniekształcenia lub dryfy w danych wyświetlanych w porównaniu z danymi treningowymi
  • Zniekształcenia lub dryfy w prognozach
  • Problemy z typami danych, np. brakujące lub uszkodzone wartości
  • Wykorzystanie limitu
  • Dane dotyczące jakości modelu
Dane
  • Zniekształcenia i dryfy wartości cech
  • Zniekształcenia i dryfy w wartościach etykiet
  • Problemy z typami danych, np. brakujące lub uszkodzone wartości
  • Wskaźnik wykorzystania limitu
  • Wkrótce zostanie osiągnięty limit przydziału
Szkolenia
  • Czas trenowania
  • Nieudane trenowanie
  • Wykorzystanie limitu
Weryfikacja
  • Zniekształcenie lub dryf w testowych zbiorach danych

Warto też skonfigurować logowanie, monitorowanie i alerty dotyczące:

  • Czas oczekiwania. Jak długo trwa dostarczanie prognozy?
  • Przerwy w działaniu usługi. Czy model przestał dostarczać prognozy?

Sprawdź swoją wiedzę

Jaka jest główna przyczyna logowania i monitorowania? w Twoich potokach ML?
Proaktywne wykrywanie problemów, zanim wpłyną na użytkowników
Monitorowanie limitu i wykorzystania zasobów
Identyfikowanie potencjalnych problemów z bezpieczeństwem
Wszystkie powyższe odpowiedzi

Wdrażanie modelu

Na potrzeby wdrażania modeli warto udokumentować te kwestie:

  • Zatwierdzenia wymagane do rozpoczęcia wdrażania i jego zwiększania.
  • Jak wprowadzić model do produkcji.
  • Miejsce wdrażania modelu, na przykład w środowisku testowym lub do wczesnych testów w różnych środowiskach.
  • Co zrobić w przypadku niepowodzenia wdrożenia
  • Jak przywrócić model, który jest już w wersji produkcyjnej.

Po zakończeniu trenowania modelu warto zautomatyzować trenowanie, weryfikacji i wdrażania. Automatyzacja dystrybucji wdrożeń odpowiedzialnością i zmniejsza prawdopodobieństwo wąskiego gardła dla wdrożenia przez jedną osobę. Pozwala też ograniczyć potencjalne błędy, poprawić wydajność niezawodność, a także umożliwia rotację podczas rozmowy i obsługę SRE.

Zwykle wdrażasz nowe modele dla podzbioru użytkowników, aby sprawdzić, czy zachowanie zgodne z oczekiwaniami. Jeśli tak, kontynuuj wdrażanie. Jeśli nie, wycofasz wdrożenie i zaczniesz diagnozować oraz debugować problemy.