Produkcyjne systemy ML: pytania, które należy zadać

W tej lekcji skupiamy się na pytaniach, które należy zadać w związku z danymi i modelowanie w systemach produkcyjnych.

Czy każda z funkcji jest przydatna?

Należy stale monitorować model, aby usunąć cechy, które wpływają na jego działanie zdolności modelu do przewidywania. Jeśli dane wejściowe dla argumentu który cechuje się nagłą zmianą, zachowanie modelu może również niepożądane zmiany.

Rozważ też następujące powiązane pytanie:

  • Czy użyteczność tej funkcji uzasadnia koszty jej włączenia?

Zawsze warto dodać do modelu więcej funkcji. Przykład: załóżmy, że znajdujesz nową cechę, której dodanie sprawia, że prognozy Twojego modelu nieco lepsze. Nieco lepsze prognozy wydają się być lepsze niż nieco gorsze prognozy; Jednak ta dodatkowa funkcja zwiększy i pracochłonność.

Czy Twoje źródło danych jest wiarygodne?

Kilka pytań o wiarygodność danych wejściowych:

  • Czy sygnał będzie zawsze dostępny, czy będzie pochodził wiarygodne źródło? Na przykład:
    • Czy sygnał pochodzi z serwera, który ulega awarii przy dużym obciążeniu?
    • Czy sygnał pochodzi od ludzi, którzy co sierpień wyjeżdżają na urlop?
  • Czy system, który oblicza dane wejściowe Twojego modelu, kiedykolwiek się zmieni? Jeśli tak:
    • Jak często?
    • Skąd będziesz wiedzieć, że system się zmieni?

Rozważ utworzenie własnej kopii danych otrzymywanych z usługi procesem nadrzędnym. Następnie przejdź tylko do następnej wersji nadrzędnej wersji danych, gdy masz pewność, że jest to bezpieczne.

Czy Twój model jest częścią pętli informacji zwrotnych?

Czasami model może wpływać na własne dane treningowe. Na przykład parametr wyników z niektórych modeli stają się z kolei (bezpośrednio lub pośrednio) danymi wejściowymi dla tego samego modelu.

Czasami model może wpływać na inny model. Weźmy na przykład 2 modele: modele przewidywania cen akcji:

  • Model A, który jest niewłaściwym modelem prognozującym.
  • Model B.

Model A ma błędy, dlatego omyłkowo podejmuje decyzję o zakupie akcji w magazynie X. Te zakupy podnoszą cenę akcji X. Model B używa ceny wartości akcji X jako cechy wejściowej, więc model B może okazać się fałszywy i wniosków dotyczących wartości akcji X. Model B mógłby więc zakupu lub sprzedaży akcji X na podstawie błędnego zachowania modelu A. Z kolei zachowanie modelu B może wpłynąć na model A, potencjalnie aktywując tulipanowa mania lub wsunięcie się Akcje firmy X.

Ćwiczenie: sprawdź swoją wiedzę

Które 3 z tych modeli są podatne na w pętli informacji zwrotnych?
Model prognozowania natężenia ruchu, który prognozuje natężenie ruchu na zjeździe z autostrady w pobliżu plaży, z uwzględnieniem wielkości zatłoczenia.
Niektórzy plażowicze raczej opierają swoje plany na korkach prognozy. Jeśli na plaży jest duży ruch, a natężenie ruchu powinno być wiele osób może jednak podawać alternatywne plany. Może to spowodować obniżenie temperatury na plaży i w efekcie prognoza ruchu będzie mniejsza, a w efekcie Zwiększyć frekwencję, a cykl się powtarza.
Model rekomendacji książek, który sugeruje, które powieści mogą zainteresować użytkowników na podstawie ich popularności (tj. liczby wyświetleń książki zakupiona).
rekomendacje książek mogą zachęcać do zakupów, dodatkowe sprzedaże zostaną przekazane z powrotem do modelu jako dane wejściowe, przez co zwiększy prawdopodobieństwo polecania tych samych książek w przyszłości.
Model rankingu uniwersytetu, który ocenia szkoło częściowo według ich selektywność – odsetek uczniów, którzy się zgłosili, już się zgadza.
Rankingi modelu mogą wzbudzać dodatkowe zainteresowanie wśród najwyżej ocenianych szkole, zwiększając liczbę otrzymywanych podań. Jeśli że szkoły nadal przyjmują taką samą liczbę uczniów, selektywność wzrost (odsetek przyjmowanych uczniów będzie spadł). Ten przyczynią się do rozwoju tych szkół w rankingu, co jeszcze bardziej wpłynie potencjalne zainteresowania studentów i tak dalej...
Model wyników wyborów, który prognozuje zwycięzcę wyborców burmistrzów, ankietując 2% wyborców po zamknięciu lokali wyborczych.
Jeśli model nie opublikuje prognozy, dopóki sondy nie zostaną opublikowane jest zamknięta, jego prognozy nie mogą wpłynąć na wyborców zachowanie użytkownika.
Model wartości nieruchomości, który prognozuje ceny nieruchomości, wykorzystując wielkość (powierzchnia w metrach kwadratowych), liczba sypialni i lokalizacja geograficzna. jako funkcje.
Nie można szybko zmienić lokalizacji domu, rozmiar lub liczba sypialni w odpowiedzi na prognozy cenowe, przez co pętla informacji zwrotnych jest mało prawdopodobna. Potencjalnie jednak zależność między rozmiarem a liczbą sypialni (większe domy). mają więcej pokoi), które wymagają podziału.
Model atrybutów twarzy, który wykrywa, czy dana osoba się uśmiecha zdjęcia, które jest regularnie trenowane na bazie zdjęć licencjonowanych. która jest automatycznie aktualizowana co miesiąc.
Nie ma tu pętli informacji zwrotnych, ponieważ prognozy modelu nie mają na bazę danych zdjęć. Obsługa wersji danych wejściowych danych, ponieważ te miesięczne aktualizacje mogą potencjalnie mają nieprzewidziany wpływ na model.