Ce module a exploré les moyens de mapper des données brutes à des vecteurs de caractéristiques. Les bonnes caractéristiques numériques ont décrites dans cette section.
Nommé clairement
Chaque caractéristique doit avoir une signification claire, sensée et évidente pour tout humain le projet. Par exemple, la signification de la valeur de caractéristique suivante est déroutants:
Approche déconseillée
House_age: 851472000
En revanche, le nom et la valeur de la fonctionnalité suivants sont beaucoup plus clairs:
Recommandé
House_age_years: 27
Vérifié ou testé avant l'entraînement
Bien que ce module ait consacré beaucoup de temps
anomalies, le sujet est
suffisamment importante pour mériter
une dernière mention. Dans certains cas, les mauvaises données
(et non de mauvais choix d'ingénierie) entraîne des valeurs peu claires. Par exemple,
les éléments user_age_in_years
suivants proviennent d'une source pour laquelle aucune vérification n'a été effectuée
les valeurs appropriées:
Approche déconseillée
user_age_in_years: 224
Toutefois, les utilisateurs peuvent avoir 24 ans:
Recommandé
user_age_in_years: 24
Vérifiez vos données !
Sensible
Une "valeur magique" est une discontinuité délibérée dans un environnement
. Par exemple, supposons une caractéristique continue nommée watch_time_in_seconds
peut contenir n'importe quelle valeur à virgule flottante comprise entre 0 et 30, mais représente l'absence
d'une mesure avec la valeur magique -1:
Approche déconseillée
Watch_time_in_seconds: -1 (durée de visionnage en secondes)
Une watch_time_in_seconds
de -1 obligerait le modèle à essayer de comprendre
découvrir ce que signifie regarder
un film à l'envers. Le modèle qui en résulterait
de ne pas faire de bonnes prédictions.
Une meilleure technique consiste à créer une caractéristique booléenne distincte qui indique
qu'il s'agisse ou non d'un watch_time_in_seconds
est fournie. Exemple :
Recommandé
watch_time_in_seconds: 4,82
(durée de visionnage en secondes) is_watch_time_in_seconds_defined=Truewatch_time_in_seconds: 0
(durée de visionnage en secondes) is_watch_time_in_seconds_defined=False
Imaginez maintenant un pipeline discret caractéristique numérique dont les valeurs doivent appartenir à un ensemble fini de valeurs. Dans ce Lorsqu'une valeur est manquante, cela signifie que cette valeur manquante est utilisée à l'aide d'une nouvelle valeur dans l'ensemble fini. Avec une caractéristique discrète, le modèle apprend différentes pondérations pour chaque valeur, y compris les pondérations d'origine des caractéristiques manquantes.