W tej lekcji skupiamy się na pytaniach, które należy zadać w związku z danymi
i modelowanie
w systemach produkcyjnych.
Czy każda z funkcji jest przydatna?
Należy stale monitorować model, aby usunąć cechy, które wpływają na jego działanie
zdolności modelu do przewidywania. Jeśli dane wejściowe dla argumentu
który cechuje się nagłą zmianą, zachowanie modelu może również
niepożądane zmiany.
Rozważ też następujące powiązane pytanie:
- Czy użyteczność tej funkcji uzasadnia koszty jej włączenia?
Zawsze warto dodać do modelu więcej funkcji. Przykład:
załóżmy, że znajdujesz nową cechę, której dodanie sprawia, że prognozy Twojego modelu
nieco lepsze. Nieco lepsze prognozy wydają się być lepsze niż
nieco gorsze prognozy; Jednak ta dodatkowa funkcja zwiększy
i pracochłonność.
Czy Twoje źródło danych jest wiarygodne?
Kilka pytań o wiarygodność danych wejściowych:
- Czy sygnał będzie zawsze dostępny, czy będzie pochodził
wiarygodne źródło? Na przykład:
- Czy sygnał pochodzi z serwera, który ulega awarii przy dużym obciążeniu?
- Czy sygnał pochodzi od ludzi, którzy co sierpień wyjeżdżają na urlop?
- Czy system, który oblicza dane wejściowe Twojego modelu, kiedykolwiek się zmieni? Jeśli tak:
- Jak często?
- Skąd będziesz wiedzieć, że system się zmieni?
Rozważ utworzenie własnej kopii danych otrzymywanych z usługi
procesem nadrzędnym. Następnie przejdź tylko do następnej wersji nadrzędnej wersji
danych, gdy masz pewność, że jest to bezpieczne.
Czy Twój model jest częścią pętli informacji zwrotnych?
Czasami model może wpływać na własne dane treningowe. Na przykład parametr
wyników z niektórych modeli stają się z kolei (bezpośrednio lub pośrednio) danymi wejściowymi
dla tego samego modelu.
Czasami model może wpływać na inny model. Weźmy na przykład 2 modele:
modele przewidywania cen akcji:
- Model A, który jest niewłaściwym modelem prognozującym.
- Model B.
Model A ma błędy, dlatego omyłkowo podejmuje decyzję o zakupie akcji w magazynie X.
Te zakupy podnoszą cenę akcji X. Model B używa ceny
wartości akcji X jako cechy wejściowej, więc model B może okazać się fałszywy
i wniosków dotyczących wartości akcji X. Model B mógłby więc
zakupu lub sprzedaży akcji X na podstawie błędnego zachowania modelu A.
Z kolei zachowanie modelu B może wpłynąć na model A, potencjalnie aktywując
tulipanowa mania lub wsunięcie się
Akcje firmy X.
Ćwiczenie: sprawdź swoją wiedzę
Które 3 z tych modeli są podatne na
w pętli informacji zwrotnych?
Model prognozowania natężenia ruchu, który prognozuje natężenie ruchu na zjeździe z autostrady
w pobliżu plaży, z uwzględnieniem wielkości zatłoczenia.
Niektórzy plażowicze raczej opierają swoje plany na korkach
prognozy. Jeśli na plaży jest duży ruch, a natężenie ruchu powinno być
wiele osób może jednak
podawać alternatywne plany. Może to spowodować obniżenie temperatury na plaży
i w efekcie prognoza ruchu będzie mniejsza, a w efekcie
Zwiększyć frekwencję, a cykl się powtarza.
Model rekomendacji książek, który sugeruje, które powieści mogą zainteresować użytkowników
na podstawie ich popularności (tj. liczby wyświetleń książki
zakupiona).
rekomendacje książek mogą zachęcać do zakupów,
dodatkowe sprzedaże zostaną przekazane z powrotem do modelu jako dane wejściowe,
przez co zwiększy prawdopodobieństwo polecania tych samych książek
w przyszłości.
Model rankingu uniwersytetu, który ocenia szkoło częściowo według ich
selektywność – odsetek uczniów, którzy się zgłosili,
już się zgadza.
Rankingi modelu mogą wzbudzać dodatkowe zainteresowanie wśród najwyżej ocenianych
szkole, zwiększając liczbę otrzymywanych podań. Jeśli
że szkoły nadal przyjmują taką samą liczbę uczniów, selektywność
wzrost (odsetek przyjmowanych uczniów będzie spadł). Ten
przyczynią się do rozwoju tych szkół w rankingu, co jeszcze bardziej wpłynie
potencjalne zainteresowania studentów i tak dalej...
Model wyników wyborów, który prognozuje zwycięzcę
wyborców burmistrzów, ankietując 2% wyborców po zamknięciu lokali wyborczych.
Jeśli model nie opublikuje prognozy, dopóki sondy nie zostaną opublikowane
jest zamknięta, jego prognozy nie mogą wpłynąć na wyborców
zachowanie użytkownika.
Model wartości nieruchomości, który prognozuje ceny nieruchomości, wykorzystując
wielkość (powierzchnia w metrach kwadratowych), liczba sypialni i lokalizacja geograficzna.
jako funkcje.
Nie można szybko zmienić lokalizacji domu,
rozmiar lub liczba sypialni w odpowiedzi na prognozy cenowe,
przez co pętla informacji zwrotnych jest mało prawdopodobna. Potencjalnie jednak
zależność między rozmiarem a liczbą sypialni (większe domy).
mają więcej pokoi), które wymagają podziału.
Model atrybutów twarzy, który wykrywa, czy dana osoba się uśmiecha
zdjęcia, które jest regularnie trenowane na bazie zdjęć licencjonowanych.
która jest automatycznie aktualizowana co miesiąc.
Nie ma tu pętli informacji zwrotnych, ponieważ prognozy modelu nie mają
na bazę danych zdjęć. Obsługa wersji danych wejściowych
danych, ponieważ te miesięczne aktualizacje mogą potencjalnie
mają nieprzewidziany wpływ na model.