Model systemów uczących się nie jest w stanie bezpośrednio dostrzec, usłyszeć ani wyczuć przykładów wejściowych.
Zamiast tego musisz utworzyć reprezentację danych, aby zapewnić modelowi przydatny punkt obserwacyjny na temat ich kluczowych cech. Oznacza to, że aby wytrenować model, musisz wybrać zbiór cech, które najlepiej reprezentują dane.
Reprezentacja
Od nieprzetworzonych danych do funkcji
Chodzi o przypisanie każdej części wektora po lewej stronie do co najmniej jednego pola wektora cech po prawej stronie.
Od nieprzetworzonych danych do funkcji
Od nieprzetworzonych danych do funkcji
Od nieprzetworzonych danych do funkcji
Słownik mapuje nazwę każdej ulicy na liczbę całkowitą w ciągu {0, ...,V-1}
Przedstaw teraz wektor jednogorący powyżej jako <i>
Właściwości cechy dobrej
Wartości cech powinny pojawiać się z wartością inną niż zero więcej niż kilka razy w zbiorze danych.
my_device_id:8SK982ZZ1242Z
device_model:galaxy_s6
Właściwości cechy dobrej
Znaczenie cech powinny być zrozumiałe i jednoznaczne.
user_age:23
user_age:123456789
Właściwości cechy dobrej
Cechy nie powinny przyjmować „magicznych” wartości
(użyj dodatkowej funkcji logicznej, takiej jak watch_time_is_defined!)
watch_time: -1.0
watch_time: 1.023
watch_time_is_defined: 1.0
Właściwości cechy dobrej
Definicja cech nie powinna się z czasem zmieniać.
(Uważaj na inne systemy uczące się).
city_id:"br/sao_paulo"
inferred_city_cluster_id:219
Właściwości cechy dobrej
Rozkład nie może zawierać skrajnych odchyleń
Najlepiej, gdyby wszystkie cechy zostały przekształcone w podobny zakres, np. (-1, 1) lub (0, 5).
Sztuczna inteligencja
Sztuczna inteligencja
Utwórz kilka kontenerów wartości logicznych, z których każde jest mapowane na nową unikalną cechę
Umożliwia dopasowanie modelu do innej wartości dla każdej przedziału
Dobre nawyki
POZNAJ SWOJE DANE
Wizualizacja: narysuj histogramy w kolejności od najbardziej do najmniejszej.
Debugowanie: zduplikowane przykłady? Brakuje wartości? Wyniki odstające? Dane są zgodne z danymi w panelach? Czy dane do trenowania i walidacji są podobne?
Monitorowanie: kwantyle cech, liczba przykładów w czasie?