Un modelo de aprendizaje automático no puede ver, escuchar ni percibir los ejemplos de entrada de forma directa.
En su lugar, debes crear una representación de los datos para proporcionarle al modelo un punto de vista útil sobre las cualidades clave de los datos. Es decir, para entrenar un modelo, debes elegir el conjunto de atributos que mejor represente los datos.
Representación
De datos sin procesar a atributos
La idea es asignar cada parte del vector de la izquierda a uno o más campos en el vector de atributos de la derecha.
De datos sin procesar a atributos
De datos sin procesar a atributos
De datos sin procesar a atributos
El diccionario asigna cada nombre de calle a un int en {0, ...,V-1}.
Ahora, representa el vector one-hot arriba como <i>
Propiedades de un buen atributo
Los valores de los atributos deben aparecer con un valor distinto de cero varias veces en el conjunto de datos.
my_device_id:8SK982ZZ1242Z
device_model:galaxy_s6
Propiedades de un buen atributo
Los atributos deben tener un significado claro y evidente.
user_age:23
user_age:123456789
Propiedades de un buen atributo
Los atributos no deben basarse en valores “mágicos”.
(en su lugar, usa un atributo booleano adicional como watch_time_is_defined).
watch_time: -1.0
watch_time: 1.023
watch_time_is_defined: 1.0
Propiedades de un buen atributo
La definición de un atributo no debe cambiar con el tiempo.
(ten cuidado con la dependencia de otros sistemas de AA).
city_id:"br/sao_paulo"
inferred_city_cluster_id:219
Propiedades de un buen atributo
La distribución no debe tener valores atípicos extremos
Idealmente, todos los atributos se transforman en un rango similar, como (-1, 1) o (0, 5).
El truco de la discretización
El truco de la discretización
Crear varios intervalos booleanos, cada uno asignado a un nuevo atributo único
Permite que el modelo ajuste un valor diferente para cada discretización.
Hábitos positivos
CONOCE TUS DATOS
Visualización: Traza histogramas, ordenados del más al menos común.
Depuración: ¿Hay ejemplos duplicados? ¿Faltan valores? ¿Valores atípicos? ¿Los datos coinciden con los paneles? ¿Los datos de entrenamiento y validación son similares?
Supervisión: ¿Cuantiles de atributos, cantidad de ejemplos a lo largo del tiempo?