W tej części omówiliśmy sposoby mapowania nieprzetworzonych danych na odpowiednie wektory cech. Dobre cechy liczbowe mają takie same jakości opisanych w tej sekcji.
Wyraźna nazwa
Każda cecha powinna mieć jasne, rozsądne i oczywiste znaczenie dla każdego użytkownika nad projektem. Na przykład znaczenie tej wartości cechy to mylący:
Niezalecane
House_age: 851472000
Z kolei poniższa nazwa i wartość cechy są znacznie bardziej przejrzyste:
Zalecane
House_age_years: 27
Sprawdzone lub przetestowane przed trenowaniem
Chociaż ten moduł poświęcił dużo czasu
wartości odstające, temat to
na tyle ważne, by zasługiwać na jedną końcową wzmiankę. W niektórych przypadkach błędne dane
(a nie do złego doboru rozwiązań inżynieryjnych) powoduje niejasne wartości. Przykład:
następujący user_age_in_years
pochodzi ze źródła, które nie sprawdzało
odpowiednie wartości:
Niezalecane
user_age_in_years: 224
Jednak użytkownicy mogą mieć 24 lata:
Zalecane
user_age_in_years: 24
Sprawdź swoje dane
Rozsądne
„magiczna wartość” jest celową nieciągłością w
funkcji. Na przykład załóżmy, że obiekt ciągły o nazwie watch_time_in_seconds
może zawierać dowolną wartość zmiennoprzecinkową od 0 do 30, ale reprezentuje nieobecność
pomiaru z magiczną wartością -1:
Niezalecane
watch_time_in_seconds: –1
watch_time_in_seconds
o wartości -1 wymusza na modelu próbę określenia
co to znaczy oglądać film wstecz w czasie. Powstanie w ten sposób model
że prognozy nie są poprawne.
Lepszą metodą jest utworzenie osobnej funkcji logicznej, która wskazuje
czy watch_time_in_seconds
jest podana. Na przykład:
Zalecane
watch_time_in_seconds: 4,82
is_watch_time_in_seconds_defined=Truewatch_time_in_seconds: 0
is_watch_time_in_seconds_defined=False
Rozważmy dyskretne cecha liczbowa, której wartości muszą należeć do skończonego zbioru wartości. W tym jeśli brakuje wartości, oznacz ją, używając nowej wartości w argumencie do zbioru skończonego. W przypadku funkcji dyskretnej model nauczy się różnych wag dla każdej wartości, w tym pierwotną wagę brakujących cech.