In questa unità abbiamo esplorato i modi per mappare i dati non elaborati vettori di caratteristiche. Le buone caratteristiche numeriche condividono descritte in questa sezione.
Nome chiaro
Ogni funzionalità deve avere un significato chiaro, sensato e evidente per qualsiasi essere umano del progetto. Ad esempio, il significato del seguente valore di caratteristica è confusione:
Sconsigliato
house_age: 851472000
Al contrario, il nome e il valore della caratteristica riportati di seguito sono molto più chiari:
Consigliato
house_age_years: 27
Controllata o testata prima dell'addestramento
Sebbene questo modulo abbia dedicato molto tempo
outlier, l'argomento è
abbastanza importanti da meritare
un'ultima menzione. In alcuni casi, i dati non validi
(piuttosto che scelte ingegneristiche scorrette) causa valori poco chiari. Ad esempio:
il seguente user_age_in_years
proviene da una fonte che non ha verificato la presenza di
valori appropriati:
Sconsigliato
user_age_in_years: 224
Tuttavia, le persone possono avere 24 anni:
Consigliato
user_age_in_years: 24
Controlla i tuoi dati.
Sensibile
Un "valore magico" una discontinuità intenzionale in un processo altrimenti continuo
funzionalità. Ad esempio, supponiamo che una caratteristica continua denominata watch_time_in_seconds
può contenere qualsiasi valore con virgola mobile compreso tra 0 e 30, ma rappresenta l'assenza
di una misurazione con il valore magico -1:
Sconsigliato
tempo_di_visualizzazione_in_secondi: -1
Un valore watch_time_in_seconds
pari a -1 costringe il modello a provare a calcolare
cosa significa guardare un film indietro nel tempo. Il modello risultante
probabilmente non fa previsioni positive.
Una tecnica migliore è creare una caratteristica booleana separata che indichi
con o senza un watch_time_in_seconds
viene specificato un valore. Ad esempio:
Consigliato
tempo_di_visualizzazione_in_secondi: 4,82
is_watch_time_in_seconds_defined=Truetempo_di_visualizzazione_in_secondi: 0
is_watch_time_in_seconds_defined=False
Consideriamo ora una strategia discreta caratteristica numerica i cui valori devono appartenere a un insieme finito di valori. In questo Se manca un valore, significa che il valore mancante è stato utilizzato con un nuovo valore l'insieme finito. Con una caratteristica discreta, il modello apprenderà pesi diversi per ogni valore, inclusi i pesi originali per le caratteristiche mancanti.