Conjuntos de datos: Características de los datos

Un conjunto de datos es una colección de ejemplos.

Muchos conjuntos de datos almacenan datos en tablas (cuadrículas), por ejemplo, como valores separados por comas (CSV) o directamente desde hojas de cálculo o tablas de bases de datos. Las tablas son un formato de entrada intuitivo para los modelos de aprendizaje automático. Puedes imaginar cada fila de la tabla como un ejemplo y cada columna como un atributo o una etiqueta potenciales. Dicho esto, los conjuntos de datos también pueden derivarse de otros formatos, incluidos los archivos de registro y los búferes de protocolo.

Independientemente del formato, la calidad de tu modelo de AA depende de los datos con los que se entrena. En esta sección, se examinan las características clave de los datos.

Tipos de datos

Un conjunto de datos puede contener muchos tipos de datos, incluidos, entre otros, los siguientes:

  • datos numéricos, que se abordan en una unidad distinta
  • datos categóricos, que se abordan en una unidad distinta
  • lenguaje humano, incluidas palabras y oraciones individuales, hasta documentos de texto completos
  • multimedia (como imágenes, videos y archivos de audio)
  • resultados de otros sistemas de AA
  • vectores de incorporación, que se tratan en una unidad posterior

Cantidad de datos

Como regla general, tu modelo debe entrenarse con al menos un orden de magnitud (o dos) más de ejemplos que los parámetros entrenables. Sin embargo, los buenos modelos suelen entrenarse con muchos más ejemplos que eso.

Los modelos entrenados con grandes conjuntos de datos con pocas características suelen tener un mejor rendimiento que los modelos entrenados con conjuntos de datos pequeños con muchas características. Históricamente, Google ha tenido mucho éxito entrenando modelos simples en grandes conjuntos de datos.

Los diferentes conjuntos de datos para diferentes programas de aprendizaje automático pueden requerir cantidades muy diferentes de ejemplos para crear un modelo útil. Para algunos problemas relativamente simples, unas pocas docenas de ejemplos pueden ser suficientes. Para otros problemas, un billón de ejemplos podría no ser suficiente.

Es posible obtener buenos resultados a partir de un conjunto de datos pequeño si adaptas un modelo existente que ya se entrenó con grandes cantidades de datos del mismo esquema.

Calidad y confiabilidad de los datos

Todos prefieren la alta calidad a la baja calidad, pero la calidad es un concepto tan ambiguo que se puede definir de muchas maneras diferentes. En este curso, se define la calidad de manera pragmática:

Un conjunto de datos de alta calidad ayuda a tu modelo a lograr su objetivo. Un conjunto de datos de baja calidad impide que tu modelo alcance su objetivo.

Por lo general, un conjunto de datos de alta calidad también es confiable. La confiabilidad se refiere al grado en que puedes confiar en tus datos. Es más probable que un modelo entrenado en un conjunto de datos confiable genere predicciones útiles que un modelo entrenado en datos poco confiables.

Para medir la confiabilidad, debes determinar lo siguiente:

  • ¿Qué tan comunes son los errores de etiquetado? Por ejemplo, si tus datos los etiquetan personas, ¿con qué frecuencia cometen errores?
  • ¿Tus atributos tienen ruido? Es decir, ¿los valores de tus atributos contienen errores? Sé realista: no puedes borrar todo el ruido de tu conjunto de datos. Es normal que haya un poco de ruido. Por ejemplo, las mediciones del GPS de cualquier ubicación siempre fluctúan un poco de una semana a otra.
  • ¿Los datos se filtraron correctamente para tu problema? Por ejemplo, ¿tu conjunto de datos debe incluir búsquedas de bots? Si estás compilando un sistema de detección de spam, es probable que la respuesta sea sí. Sin embargo, si intentas mejorar los resultados de la búsqueda para las personas, la respuesta es no.

A continuación, se incluyen las causas comunes de datos poco confiables en los conjuntos de datos:

  • Valores omitidos. Por ejemplo, una persona olvidó ingresar un valor para la antigüedad de una casa.
  • Ejemplos duplicados. Por ejemplo, un servidor subió por error las mismas entradas de registro dos veces.
  • Valores de atributos incorrectos. Por ejemplo, alguien escribió un dígito de más o un termómetro quedó al sol.
  • Etiquetas incorrectas. Por ejemplo, una persona etiquetó por error una imagen de un roble como un arce.
  • Secciones de datos incorrectas. Por ejemplo, una función es muy confiable, excepto por ese día en que la red falló constantemente.

Te recomendamos que uses la automatización para marcar los datos poco confiables. Por ejemplo, las pruebas de unidades que definen o dependen de un esquema de datos formal externo pueden marcar valores que se encuentran fuera de un rango definido.

Ejemplos completos y ejemplos incompletos

En un mundo ideal, cada ejemplo es completo, es decir, cada ejemplo contiene un valor para cada atributo.

Figura 1: Un ejemplo que contiene valores para sus cinco atributos.
Figura 1: Un ejemplo completo.

 

Lamentablemente, los ejemplos del mundo real suelen ser incompletos, lo que significa que falta al menos un valor de atributo.

Figura 2: Un ejemplo que contiene valores para cuatro de sus cinco
            atributos. Falta una función.
Figura 2: Un ejemplo incompleto.

 

No entrenes un modelo con ejemplos incompletos. En su lugar, corrige o elimina los ejemplos incompletos haciendo una de las siguientes acciones:

  • Borra los ejemplos incompletos.
  • Impute valores faltantes; es decir, convertir el ejemplo incompleto en uno completo proporcionando conjeturas bien fundamentadas para los valores faltantes.
Figura 3: Un conjunto de datos que contiene tres ejemplos, dos de los cuales son

            ejemplos incompletos. Alguien borró estos dos ejemplos incompletos
            del conjunto de datos.
Figura 3. Borrar ejemplos incompletos del conjunto de datos

 

Figura 4: Un conjunto de datos que contiene tres ejemplos, dos de los cuales son ejemplos incompletos que contienen datos faltantes. Una entidad (una persona o un software de imputación) imputó valores que reemplazaron los datos faltantes.
Figura 4: Asignación de valores faltantes para ejemplos incompletos

 

Si el conjunto de datos contiene suficientes ejemplos completos para entrenar un modelo útil, considera borrar los ejemplos incompletos. Del mismo modo, si a un solo atributo le falta una cantidad significativa de datos y es probable que no pueda ayudar mucho al modelo, considera borrarlo de las entradas del modelo y ver cuánta calidad se pierde cuando se quita. Si el modelo funciona igual o casi igual sin él, es excelente. Por el contrario, si no tienes suficientes ejemplos completos para entrenar un modelo útil, puedes considerar imputar los valores faltantes.

Está bien borrar ejemplos inútiles o redundantes, pero no es bueno borrar ejemplos importantes. Lamentablemente, puede ser difícil diferenciar entre ejemplos inútiles y útiles. Si no puedes decidir si borrar o imputar, considera crear dos conjuntos de datos: uno formado por la eliminación de ejemplos incompletos y el otro por la imputación. Luego, determina qué conjunto de datos entrena el mejor modelo.


Un algoritmo común es usar la media o la mediana como el valor imputado. En consecuencia, cuando representas un atributo numérico con puntajes Z, el valor imputado suele ser 0 (porque 0 suele ser el promedio de los puntajes Z).

Ejercicio: Comprueba tu comprensión

Estas son dos columnas de un conjunto de datos ordenado por Timestamp.

Marca de tiempo Temperatura
8 de junio de 2023 09:00 12
8 de junio de 2023, 10:00 18
8 de junio de 2023, 11:00 faltante
8 de junio de 2023 a las 12:00 24
8 de junio de 2023 13:00 38

¿Cuál de las siguientes opciones sería un valor razonable para imputar el valor faltante de Temperature?

23
Probablemente. 23 es la media de los valores adyacentes (12, 18, 24 y 38). Sin embargo, no vemos el resto del conjunto de datos, por lo que es posible que 23 sea un valor atípico para las 11:00 en otros días.
31
Es poco probable. La parte limitada del conjunto de datos que podemos ver sugiere que 31 es demasiado alto para la Temperatura de las 11:00. Sin embargo, no podemos estar seguros sin basar la imputación en una mayor cantidad de ejemplos.
51
Es muy poco probable. 51 es mucho más alto que cualquiera de los valores que se muestran (y, por lo tanto, mucho más alto que la media).