Datos numéricos: Cualidades de los buenos atributos numéricos

En esta unidad, se exploró formas de asignar datos sin procesar a datos vectores de atributos Los atributos numéricos buenos comparten el cualidades descritas en esta sección.

Nombrado claramente

Cada atributo debe tener un significado claro, razonable y obvio para cualquier humano en el proyecto. Por ejemplo, el significado del siguiente valor de atributo es confuso:

No recomendado

edad_de_la_casa: 851472000

Por el contrario, el nombre y el valor del atributo a continuación son mucho más claros:

Recomendado

años_de_edad_de_la_casa: 27

Verificado o probado antes del entrenamiento

Aunque en este módulo se dedicó mucho tiempo valores atípicos, el tema es lo suficientemente importante como para justificar una última mención. En algunos casos, los datos incorrectos (en lugar de malas elecciones de ingeniería) causa valores poco claros. Por ejemplo: los siguientes user_age_in_years provienen de una fuente que no verificó valores adecuados:

No recomendado

user_age_in_years: 224

Sin embargo, las personas pueden tener 24 años:

Recomendado

user_age_in_years: 24 años

Verifica tus datos

Sensible

Un "valor mágico" es una discontinuidad intencionada en un entorno . Por ejemplo, supongamos un atributo continuo llamado watch_time_in_seconds. Puede contener cualquier valor de punto flotante entre 0 y 30, pero representa la ausencia. de una medición con el valor mágico -1:

No recomendado

tiempo de reproducción en segundos: -1

Una watch_time_in_seconds de -1 forzaría al modelo a tratar de determinar qué significa ver una película al revés. El modelo resultante no hacer buenas predicciones.

Una mejor técnica es crear un atributo booleano independiente que indique si es un watch_time_in_seconds si se indica un valor predeterminado. Por ejemplo:

Recomendado

watch_time_in_seconds: 4.82
is_watch_time_in_seconds_defined=True

watch_time_in_seconds: 0
is_watch_time_in_seconds_defined=False

Ahora, considera un segmento discreto atributo numérico cuyos valores deben pertenecer a un conjunto finito de valores. En este caso, cuando falta un valor, significa que falta un valor utilizando un nuevo valor en el conjunto finito. Con un atributo discreto, el modelo aprenderá diferentes pesos para cada valor, incluidas las ponderaciones originales de los atributos faltantes.