Produkcyjne systemy ML: pytania, które należy zadać

W tej lekcji skupiamy się na pytaniach, które należy zadać na temat danych i modelu w systemach produkcyjnych.

Czy każda funkcja jest przydatna?

Twój model powinien być stale monitorowany, aby usuwać z niego właściwości, które w mniejszym lub większym stopniu nie wpływają na jego zdolność przewidywania. Jeśli dane wejściowe dotyczące tej funkcji ulegną nagłej zmianie, zachowanie modelu może się też gwałtownie zmienić w niepożądany sposób.

Zapoznaj się też z tym powiązanym pytaniem:

  • Czy użyteczność funkcji uzasadnia koszt jej uwzględnienia?

Zawsze istnieje pokusa, aby dodać do modelu więcej funkcji. Załóżmy na przykład, że znajdziesz nową funkcję, która po dodaniu poprawia nieco trafność przewidywań Twojego modelu. Nieco lepsze prognozy z pewnością wydają się lepsze niż nieco gorsze prognozy, ale dodatkowa funkcja zwiększa nakład pracy związany z konserwacją.

Czy Twoje źródło danych jest wiarygodne?

Oto kilka pytań na temat niezawodności danych wejściowych:

  • Czy sygnał będzie zawsze dostępny, czy pochodzi z niewiarygodnego źródła? Na przykład:
    • Czy sygnał pochodzi z serwera, który ulega awarii pod wpływem dużego obciążenia?
    • Czy sygnał pochodzi od osób, które co roku w sierpniu wyjeżdżają na urlop?
  • Czy system, który oblicza dane wejściowe modelu, może się zmienić? Jeśli tak:
    • Jak często?
    • Jak dowiesz się o zmianach w tym systemie?

Utwórz własną kopię danych otrzymanych z procesu upstream. Następnie przejdź do następnej wersji danych źródłowych dopiero wtedy, gdy będziesz mieć pewność, że jest to bezpieczne.

Czy Twój model jest częścią pętli sprzężenia zwrotnego?

Czasami model może wpływać na własne dane treningowe. Na przykład wyniki z niektórychś modeli stają się (bezpośrednio lub pośrednio) wejściowymi cechami tego samego modelu.

Czasami jeden model może wpływać na inny. Rozważmy na przykład 2 modele do przewidywania cen akcji:

  • Model A, który jest złym modelem prognostycznym.
  • Model B.

Ponieważ Model A jest pełen błędów, błędnie decyduje się na zakup akcji X. Te zakupy podnoszą cenę akcji X. Model B używa ceny akcji X jako cechy wejściowej, więc może wyciągać błędne wnioski dotyczące wartości tej akcji. Model B może więc kupować lub sprzedawać akcje X na podstawie błędnego działania modelu A. Zachowanie modelu B może z kolei wpływać na model A, prawdopodobnie wywołując tulipanową manię lub spadek wartości akcji firmy X.

Ćwiczenie: sprawdź swoją wiedzę

Które 3 z tych modeli są podatne na sprzężenie zwrotne?
Model prognozowania natężenia ruchu, który przewiduje korki na drogach wylotowych w pobliżu plaży, korzystając z liczby osób na plaży jako jednej z cech.
Model wartości nieruchomości, który przewiduje ceny domów, wykorzystując jako cechy: wielkość (powierzchnię w metrach kwadratowych), liczbę sypialni i lokalizację geograficzną.
Model rekomendacji książek, który sugeruje użytkownikom powieści, które mogą im się spodobać, na podstawie ich popularności (czyli liczby zakupionych książek).
Model rankingu uniwersytetów, który ocenia szkoły częściowo na podstawie ich selektywności, czyli odsetka przyjętych kandydatów.
Model wyników wyborów, który prognozuje zwycięzcę w wyborach na burmistrza na podstawie ankiety przeprowadzonej wśród 2% wyborców po zamknięciu lokali wyborczych.
Model atrybutów twarzy, który wykrywa, czy osoba na zdjęciu się uśmiecha. Jest on regularnie trenowany na podstawie bazy danych fotografii stockowych, która jest automatycznie aktualizowana co miesiąc.