Reprezentacja

Model systemów uczących się nie jest w stanie bezpośrednio dostrzec, usłyszeć ani wyczuć przykładów wejściowych. Zamiast tego musisz utworzyć reprezentację danych, aby zapewnić modelowi przydatny punkt obserwacyjny na temat ich kluczowych cech. Oznacza to, że aby wytrenować model, musisz wybrać zbiór cech, które najlepiej reprezentują dane.

Reprezentacja

Chodzi o przypisanie każdej części wektora po lewej stronie do co najmniej jednego pola wektora cech po prawej stronie.

Nieprzetworzone dane są mapowane na wektor cech w procesie nazywanym inżynierią cech.
Przykład funkcji, którą można skopiować bezpośrednio z nieprzetworzonych danych
Przykład obiektu w postaci ciągu znaków (nazwy ulicy), którego nie można skopiować bezpośrednio z nieprzetworzonych danych
Mapowanie wartości ciągu (
  • Słownik mapuje nazwę każdej ulicy na liczbę całkowitą w ciągu {0, ...,V-1}
  • Przedstaw teraz wektor jednogorący powyżej jako <i>

Wartości cech powinny pojawiać się z wartością inną niż zero więcej niż kilka razy w zbiorze danych.

my_device_id:8SK982ZZ1242Z

device_model:galaxy_s6

Znaczenie cech powinny być zrozumiałe i jednoznaczne.

user_age:23

user_age:123456789

Cechy nie powinny przyjmować „magicznych” wartości

(użyj dodatkowej funkcji logicznej, takiej jak watch_time_is_defined!)

watch_time: -1.0

watch_time: 1.023

watch_time_is_defined: 1.0

Definicja cech nie powinna się z czasem zmieniać.

(Uważaj na inne systemy uczące się).

city_id:"br/sao_paulo"

inferred_city_cluster_id:219

Rozkład nie może zawierać skrajnych odchyleń

Najlepiej, gdyby wszystkie cechy zostały przekształcone w podobny zakres, np. (-1, 1) lub (0, 5).

Rozkład z wartościami odstającymi i rozkładem z limitem
Wykres przedstawiający rozkład z pasującą krzywą na podstawie lokalizacji
Wykres przedstawiający rozkład z pasującą krzywą na podstawie lokalizacji
  • Utwórz kilka kontenerów wartości logicznych, z których każde jest mapowane na nową unikalną cechę
  • Umożliwia dopasowanie modelu do innej wartości dla każdej przedziału

POZNAJ SWOJE DANE

  • Wizualizacja: narysuj histogramy w kolejności od najbardziej do najmniejszej.
  • Debugowanie: zduplikowane przykłady? Brakuje wartości? Wyniki odstające? Dane są zgodne z danymi w panelach? Czy dane do trenowania i walidacji są podobne?
  • Monitorowanie: kwantyle cech, liczba przykładów w czasie?