Dati numerici: qualità di caratteristiche numeriche efficaci

In questa unità abbiamo esplorato i modi per mappare i dati non elaborati vettori di caratteristiche. Le buone caratteristiche numeriche condividono descritte in questa sezione.

Nome chiaro

Ogni funzionalità deve avere un significato chiaro, sensato e evidente per qualsiasi essere umano del progetto. Ad esempio, il significato del seguente valore di caratteristica è confusione:

Sconsigliato

house_age: 851472000

Al contrario, il nome e il valore della caratteristica riportati di seguito sono molto più chiari:

Consigliato

house_age_years: 27

Controllata o testata prima dell'addestramento

Sebbene questo modulo abbia dedicato molto tempo outlier, l'argomento è abbastanza importanti da meritare un'ultima menzione. In alcuni casi, i dati non validi (piuttosto che scelte ingegneristiche scorrette) causa valori poco chiari. Ad esempio: il seguente user_age_in_years proviene da una fonte che non ha verificato la presenza di valori appropriati:

Sconsigliato

user_age_in_years: 224

Tuttavia, le persone possono avere 24 anni:

Consigliato

user_age_in_years: 24

Controlla i tuoi dati.

Sensibile

Un "valore magico" una discontinuità intenzionale in un processo altrimenti continuo funzionalità. Ad esempio, supponiamo che una caratteristica continua denominata watch_time_in_seconds può contenere qualsiasi valore con virgola mobile compreso tra 0 e 30, ma rappresenta l'assenza di una misurazione con il valore magico -1:

Sconsigliato

tempo_di_visualizzazione_in_secondi: -1

Un valore watch_time_in_seconds pari a -1 costringe il modello a provare a calcolare cosa significa guardare un film indietro nel tempo. Il modello risultante probabilmente non fa previsioni positive.

Una tecnica migliore è creare una caratteristica booleana separata che indichi con o senza un watch_time_in_seconds viene specificato un valore. Ad esempio:

Consigliato

tempo_di_visualizzazione_in_secondi: 4,82
is_watch_time_in_seconds_defined=True

tempo_di_visualizzazione_in_secondi: 0
is_watch_time_in_seconds_defined=False

Consideriamo ora una strategia discreta caratteristica numerica i cui valori devono appartenere a un insieme finito di valori. In questo Se manca un valore, significa che il valore mancante è stato utilizzato con un nuovo valore l'insieme finito. Con una caratteristica discreta, il modello apprenderà pesi diversi per ogni valore, inclusi i pesi originali per le caratteristiche mancanti.