En esta unidad, se exploró formas de asignar datos sin procesar a datos vectores de atributos Los atributos numéricos buenos comparten el cualidades descritas en esta sección.
Nombrado claramente
Cada atributo debe tener un significado claro, razonable y obvio para cualquier humano en el proyecto. Por ejemplo, el significado del siguiente valor de atributo es confuso:
No recomendado
edad_de_la_casa: 851472000
Por el contrario, el nombre y el valor del atributo a continuación son mucho más claros:
Recomendado
años_de_edad_de_la_casa: 27
Verificado o probado antes del entrenamiento
Aunque en este módulo se dedicó mucho tiempo
valores atípicos, el tema es
lo suficientemente importante como para justificar una última mención. En algunos casos, los datos incorrectos
(en lugar de malas elecciones de ingeniería) causa valores poco claros. Por ejemplo:
los siguientes user_age_in_years
provienen de una fuente que no verificó
valores adecuados:
No recomendado
user_age_in_years: 224
Sin embargo, las personas pueden tener 24 años:
Recomendado
user_age_in_years: 24 años
Verifica tus datos
Sensible
Un "valor mágico" es una discontinuidad intencionada en un entorno
. Por ejemplo, supongamos un atributo continuo llamado watch_time_in_seconds
.
Puede contener cualquier valor de punto flotante entre 0 y 30, pero representa la ausencia.
de una medición con el valor mágico -1:
No recomendado
tiempo de reproducción en segundos: -1
Una watch_time_in_seconds
de -1 forzaría al modelo a tratar de determinar
qué significa ver una película al revés. El modelo resultante
no hacer buenas predicciones.
Una mejor técnica es crear un atributo booleano independiente que indique
si es un watch_time_in_seconds
si se indica un valor predeterminado. Por ejemplo:
Recomendado
watch_time_in_seconds: 4.82
is_watch_time_in_seconds_defined=Truewatch_time_in_seconds: 0
is_watch_time_in_seconds_defined=False
Ahora, considera un segmento discreto atributo numérico cuyos valores deben pertenecer a un conjunto finito de valores. En este caso, cuando falta un valor, significa que falta un valor utilizando un nuevo valor en el conjunto finito. Con un atributo discreto, el modelo aprenderá diferentes pesos para cada valor, incluidas las ponderaciones originales de los atributos faltantes.