Dane liczbowe: cechy dobrych funkcji liczbowych

W tej części omówiliśmy sposoby mapowania nieprzetworzonych danych na odpowiednie wektory cech. Dobre cechy liczbowe mają takie same jakości opisanych w tej sekcji.

Wyraźna nazwa

Każda cecha powinna mieć jasne, rozsądne i oczywiste znaczenie dla każdego użytkownika nad projektem. Na przykład znaczenie tej wartości cechy to mylący:

Niezalecane

House_age: 851472000

Z kolei poniższa nazwa i wartość cechy są znacznie bardziej przejrzyste:

Zalecane

House_age_years: 27

Sprawdzone lub przetestowane przed trenowaniem

Chociaż ten moduł poświęcił dużo czasu wartości odstające, temat to na tyle ważne, by zasługiwać na jedną końcową wzmiankę. W niektórych przypadkach błędne dane (a nie do złego doboru rozwiązań inżynieryjnych) powoduje niejasne wartości. Przykład: następujący user_age_in_years pochodzi ze źródła, które nie sprawdzało odpowiednie wartości:

Niezalecane

user_age_in_years: 224

Jednak użytkownicy mogą mieć 24 lata:

Zalecane

user_age_in_years: 24

Sprawdź swoje dane

Rozsądne

„magiczna wartość” jest celową nieciągłością w funkcji. Na przykład załóżmy, że obiekt ciągły o nazwie watch_time_in_seconds może zawierać dowolną wartość zmiennoprzecinkową od 0 do 30, ale reprezentuje nieobecność pomiaru z magiczną wartością -1:

Niezalecane

watch_time_in_seconds: –1

watch_time_in_seconds o wartości -1 wymusza na modelu próbę określenia co to znaczy oglądać film wstecz w czasie. Powstanie w ten sposób model że prognozy nie są poprawne.

Lepszą metodą jest utworzenie osobnej funkcji logicznej, która wskazuje czy watch_time_in_seconds jest podana. Na przykład:

Zalecane

watch_time_in_seconds: 4,82
is_watch_time_in_seconds_defined=True

watch_time_in_seconds: 0
is_watch_time_in_seconds_defined=False

Rozważmy dyskretne cecha liczbowa, której wartości muszą należeć do skończonego zbioru wartości. W tym jeśli brakuje wartości, oznacz ją, używając nowej wartości w argumencie do zbioru skończonego. W przypadku funkcji dyskretnej model nauczy się różnych wag dla każdej wartości, w tym pierwotną wagę brakujących cech.