Données numériques: qualités d'une bonne caractéristique numérique

Ce module a exploré les moyens de mapper des données brutes à des vecteurs de caractéristiques. Les bonnes caractéristiques numériques ont décrites dans cette section.

Nommé clairement

Chaque caractéristique doit avoir une signification claire, sensée et évidente pour tout humain le projet. Par exemple, la signification de la valeur de caractéristique suivante est déroutants:

Approche déconseillée

House_age: 851472000

En revanche, le nom et la valeur de la fonctionnalité suivants sont beaucoup plus clairs:

Recommandé

House_age_years: 27

Vérifié ou testé avant l'entraînement

Bien que ce module ait consacré beaucoup de temps anomalies, le sujet est suffisamment importante pour mériter une dernière mention. Dans certains cas, les mauvaises données (et non de mauvais choix d'ingénierie) entraîne des valeurs peu claires. Par exemple, les éléments user_age_in_years suivants proviennent d'une source pour laquelle aucune vérification n'a été effectuée les valeurs appropriées:

Approche déconseillée

user_age_in_years: 224

Toutefois, les utilisateurs peuvent avoir 24 ans:

Recommandé

user_age_in_years: 24

Vérifiez vos données !

Sensible

Une "valeur magique" est une discontinuité délibérée dans un environnement . Par exemple, supposons une caractéristique continue nommée watch_time_in_seconds peut contenir n'importe quelle valeur à virgule flottante comprise entre 0 et 30, mais représente l'absence d'une mesure avec la valeur magique -1:

Approche déconseillée

Watch_time_in_seconds: -1 (durée de visionnage en secondes)

Une watch_time_in_seconds de -1 obligerait le modèle à essayer de comprendre découvrir ce que signifie regarder un film à l'envers. Le modèle qui en résulterait de ne pas faire de bonnes prédictions.

Une meilleure technique consiste à créer une caractéristique booléenne distincte qui indique qu'il s'agisse ou non d'un watch_time_in_seconds est fournie. Exemple :

Recommandé

watch_time_in_seconds: 4,82
(durée de visionnage en secondes) is_watch_time_in_seconds_defined=True

watch_time_in_seconds: 0
(durée de visionnage en secondes) is_watch_time_in_seconds_defined=False

Imaginez maintenant un pipeline discret caractéristique numérique dont les valeurs doivent appartenir à un ensemble fini de valeurs. Dans ce Lorsqu'une valeur est manquante, cela signifie que cette valeur manquante est utilisée à l'aide d'une nouvelle valeur dans l'ensemble fini. Avec une caractéristique discrète, le modèle apprend différentes pondérations pour chaque valeur, y compris les pondérations d'origine des caractéristiques manquantes.