En agosto de 2024, se lanzará una versión nueva y mejorada del Curso intensivo de aprendizaje automático. ¡No te pierdas ninguna novedad!

Se usó la API de Cloud Translation para traducir esta página.

Representación

Un modelo de aprendizaje automático no puede ver, escuchar ni percibir los ejemplos de entrada de forma directa. En su lugar, debes crear una representación de los datos para proporcionarle al modelo un punto de vista útil sobre las cualidades clave de los datos. Es decir, para entrenar un modelo, debes elegir el conjunto de atributos que mejor represente los datos.

Representación

De datos sin procesar a atributos

La idea es asignar cada parte del vector de la izquierda a uno o más campos en el vector de atributos de la derecha.

Los datos sin procesar se asignan a un vector de atributos a través de un proceso llamado ingeniería de atributos.

De datos sin procesar a atributos

Un ejemplo de un atributo que se puede copiar directamente de los datos sin procesar

De datos sin procesar a atributos

Ejemplo de un atributo de cadena (nombre de la calle) que no se puede copiar directamente de los datos sin procesar

De datos sin procesar a atributos

El diccionario asigna cada nombre de calle a un int en {0, ...,V-1}.
Ahora, representa el vector one-hot arriba como <i>

Propiedades de un buen atributo

Los valores de los atributos deben aparecer con un valor distinto de cero varias veces en el conjunto de datos.

my_device_id:8SK982ZZ1242Z

device_model:galaxy_s6

Propiedades de un buen atributo

Los atributos deben tener un significado claro y evidente.

user_age:23

user_age:123456789

Propiedades de un buen atributo

Los atributos no deben basarse en valores “mágicos”.

(en su lugar, usa un atributo booleano adicional como watch_time_is_defined).

watch_time: -1.0

watch_time: 1.023

watch_time_is_defined: 1.0

Propiedades de un buen atributo

La definición de un atributo no debe cambiar con el tiempo.

(ten cuidado con la dependencia de otros sistemas de AA).

city_id:"br/sao_paulo"

inferred_city_cluster_id:219

Propiedades de un buen atributo

La distribución no debe tener valores atípicos extremos

Idealmente, todos los atributos se transforman en un rango similar, como (-1, 1) o (0, 5).

Distribución con valores atípicos y una distribución con un límite

El truco de la discretización

Gráfico que muestra una distribución con una curva de ajuste según la ubicación

El truco de la discretización

Crear varios intervalos booleanos, cada uno asignado a un nuevo atributo único
Permite que el modelo ajuste un valor diferente para cada discretización.

Hábitos positivos

CONOCE TUS DATOS

Visualización: Traza histogramas, ordenados del más al menos común.
Depuración: ¿Hay ejemplos duplicados? ¿Faltan valores? ¿Valores atípicos? ¿Los datos coinciden con los paneles? ¿Los datos de entrenamiento y validación son similares?
Supervisión: ¿Cuantiles de atributos, cantidad de ejemplos a lo largo del tiempo?

Ejercicio de programación

Ingeniería de atributos