Aby przygotować potoki ML do środowiska produkcyjnego, musisz wykonać te czynności:
- Udostępnianie zasobów obliczeniowych na potrzeby potoków
- Wdrażanie logowania, monitorowania i tworzenia alertów
Udostępnianie zasobów obliczeniowych
Uruchamianie potoków ML wymaga zasobów obliczeniowych, takich jak pamięć RAM, procesory oraz GPU/TPU. Bez odpowiedniej mocy obliczeniowej nie możesz uruchamiać potoków. Dlatego upewnij się, aby uzyskać wystarczający limit, aby udostępnić wymagane zasoby potokom muszą działać w środowisku produkcyjnym.
Potoki udostępniania, trenowania i weryfikacji. Te potoki wymagają Procesory TPU, GPU lub CPU. W zależności od zastosowania możesz trenować i wyświetlać na różnych urządzeniach. Na przykład trenowanie może odbywa się na procesorach, ale wyświetlanie może korzystać z TPU lub na odwrót. Ogólnie rzecz biorąc, często trenują na większych urządzeniach, a później wyświetlają się na mniejszych urządzeniach.
Wybierając sprzęt, weź pod uwagę te kwestie:
- Czy można trenować na tańszym sprzęcie?
- Czy przejście na inny sprzęt zwiększy wydajność?
- Jaki jest rozmiar modelu i jaki sprzęt zoptymalizuje jego wydajność?
- Jaki sprzęt jest idealny w zależności od architektury Twojego modelu?
Potoki danych. Potoki danych wymagają limitu pamięci RAM i procesora Aby określić, dużo limitu potrzebnego potokowi do generowania zbiorów danych do trenowania i testowania.
Możesz nie przydzielić limitu do każdego potoku. Zamiast tego możesz i przydzielaj limit wspólny dla potoków. W takich przypadkach sprawdź, czy masz wystarczający limit, aby uruchomić wszystkie potoki oraz skonfigurować monitorowanie zmiany, aby zapobiec wykorzystaniu całego limitu przez pojedynczy, błędny potok.
Szacuję limit
Aby oszacować limit związany z danymi i potokami trenowania, znajdź podobnych projektów, na których możesz oprzeć szacunki. Aby oszacować limit obsługi, spróbuj: aby umożliwić przewidywanie zapytań usługi na sekundę. Te metody dają punkt odniesienia. Jako w fazie eksperymentu chcesz utworzyć prototyp rozwiązania, aby uzyskać dokładniejsze oszacowanie limitu.
Podczas szacowania limitu pamiętaj, aby wziąć pod uwagę nie tylko limit dla środowiska produkcyjnego potoki, ale też w trwających eksperymentach.
Sprawdź swoją wiedzę
Logowanie, monitorowanie i alerty
Logowanie i monitorowanie zachowania modelu produkcyjnego ma kluczowe znaczenie. Robust oraz potwierdza, że modele działają niezawodnie, wysokiej jakości prognozy.
Sprawdzone metody logowania i monitorowania pomagają proaktywnie wykrywać problemy w systemach uczących się potoków i ograniczania potencjalnego wpływu na działalność. Gdy wystąpią problemy, alerty powiadamiać członków zespołu, a kompleksowe dzienniki ułatwiają diagnozowanie przyczyna problemu.
Wdróż logowanie i monitorowanie, aby wykrywać te problemy z potokami ML:
Potok | Monitorowanie |
---|---|
Aktywna |
|
Dane |
|
Szkolenia |
|
Weryfikacja |
|
Warto też skonfigurować logowanie, monitorowanie i alerty dotyczące:
- Czas oczekiwania. Jak długo trwa dostarczanie prognozy?
- Przerwy w działaniu usługi. Czy model przestał dostarczać prognozy?
Sprawdź swoją wiedzę
Wdrażanie modelu
Na potrzeby wdrażania modeli warto udokumentować te kwestie:
- Zatwierdzenia wymagane do rozpoczęcia wdrażania i jego zwiększania.
- Jak wprowadzić model do produkcji.
- Miejsce wdrażania modelu, na przykład w środowisku testowym lub do wczesnych testów w różnych środowiskach.
- Co zrobić w przypadku niepowodzenia wdrożenia
- Jak przywrócić model, który jest już w wersji produkcyjnej.
Po zakończeniu trenowania modelu warto zautomatyzować trenowanie, weryfikacji i wdrażania. Automatyzacja dystrybucji wdrożeń odpowiedzialnością i zmniejsza prawdopodobieństwo wąskiego gardła dla wdrożenia przez jedną osobę. Pozwala też ograniczyć potencjalne błędy, poprawić wydajność niezawodność, a także umożliwia rotację podczas rozmowy i obsługę SRE.
Zwykle wdrażasz nowe modele dla podzbioru użytkowników, aby sprawdzić, czy zachowanie zgodne z oczekiwaniami. Jeśli tak, kontynuuj wdrażanie. Jeśli nie, wycofasz wdrożenie i zaczniesz diagnozować oraz debugować problemy.