Conjuntos de datos: Características de los datos

Un conjunto de datos es una colección ejemplos.

Muchos conjuntos de datos almacenan datos en tablas (cuadrículas), por ejemplo, como valores separados por comas (CSV) o directamente desde hojas de cálculo o tablas de bases de datos. Las tablas son un formato de entrada intuitivo modelos de aprendizaje. Puedes imaginar cada fila de la tabla como ejemplo y cada columna como un posible atributo o etiqueta. Dicho esto, los conjuntos de datos también pueden derivar de otros formatos, como archivos de registro y búferes de protocolo.

Sin importar el formato, tu modelo de AA será tan bueno como con los que se entrena. En esta sección, se examinan las características clave de los datos.

Tipos de datos

Un conjunto de datos puede contener muchos tipos de datos, incluso no se limita a lo siguiente:

  • los datos numéricos, que se incluyen en una página unidad
  • datos categóricos, que se cubren en una página unidad
  • el lenguaje humano, incluidas las palabras y oraciones individuales, hasta documentos de texto completos
  • multimedia (como imágenes, videos y archivos de audio)
  • resultados de otros sistemas de AA
  • vectores de incorporación, que son que abordaremos en una unidad posterior

Los tipos de datos anteriores se pueden subdividir mucho más. Los módulos posteriores de este curso, como el curso Categorical Data: detalles y subcategorizar estos tipos de datos.

Cantidad de datos

Como regla general, tu modelo debe entrenarse con al menos un pedido. de magnitud (o dos) más que los parámetros entrenables. Sin embargo, una buena idea En general, los modelos se entrenan con más ejemplos de manera sustancial.

Los modelos entrenados en conjuntos de datos grandes con pocos funciones generalmente superan a los modelos entrenados con conjuntos de datos pequeños muchas funciones. Históricamente, Google ha tenido mucho éxito entrenando modelos simples en grandes conjuntos de datos.

Diferentes conjuntos de datos para diferentes programas de aprendizaje automático pueden requerir cantidades diferentes de ejemplos para crear un modelo útil. Para algunos relativamente problemas simples, unas pocas docenas de ejemplos podrían ser suficientes. Para otros problemas, un billón de ejemplos puede no ser suficiente.

Es posible obtener buenos resultados a partir de un conjunto de datos pequeño si te estás adaptando un modelo existente ya entrenado con grandes cantidades de datos mismo esquema.

Calidad y confiabilidad de los datos

Todos prefieren la alta calidad a la baja, pero la calidad es poco clara que se podrían definir de muchas formas diferentes. Este curso define calidad de manera pragmática:

Un conjunto de datos de alta calidad ayuda a que el modelo logre su objetivo. Un conjunto de datos de baja calidad impide que el modelo logre su objetivo.

Un conjunto de datos de alta calidad suele ser confiable. La confiabilidad se refiere al grado en el que puedes confiar en tus datos. Un modelo entrenado con un conjunto de datos confiable tiene más probabilidades de ser útil que un modelo entrenado con datos poco confiables.

En la medición de la confiabilidad, debes determinar lo siguiente:

  • ¿Qué tan comunes son los errores de etiquetas? Por ejemplo, si tus datos están etiquetadas por humanos, ¿con qué frecuencia cometen errores los evaluadores humanos?
  • ¿Tus funciones son ruidosas? Es decir, ¿los valores en los atributos contienen errores? Sé realista: no puedes borrar definitivamente tu conjunto de datos de todo el ruido. Algunos ruidos son normales. por ejemplo, las mediciones GPS de cualquier según su ubicación fluctúan un poco cada semana.
  • ¿Los datos se filtraron adecuadamente para tu problema? Por ejemplo: ¿deberías incluir búsquedas de bots en tu conjunto de datos? Si estás creando un sistema de detección de spam, probablemente la respuesta sea sí. Sin embargo, si intentas mejorar los resultados de la búsqueda para seres humanos, no.

Las siguientes son causas comunes de datos poco confiables en los conjuntos de datos:

  • Valores omitidos. Por ejemplo, una persona olvidó ingresar el valor de una la antigüedad de la casa.
  • Ejemplos duplicados. Por ejemplo, un servidor subió por error el mismo las entradas de registro dos veces.
  • Atributos con valores incorrectos. Por ejemplo, alguien escribió un dígito de más o termómetro quedó al sol.
  • Etiquetas incorrectas. Por ejemplo, una persona etiquetó erróneamente una imagen de un como un roble.
  • Secciones erróneas de datos. Por ejemplo, un atributo es muy confiable salvo aquel en el que la red sigue fallando.

Recomendamos usar la automatización para marcar los datos poco confiables. Por ejemplo: las pruebas de unidades que definen un esquema de datos formal externo o se basan en uno puede valores de marcas que están fuera de un rango definido.

Ejemplos completos e incompletos

En un mundo perfecto, cada ejemplo es completo; es decir, cada ejemplo contiene un valor para cada atributo.

Figura 1: Un ejemplo que contiene valores para los cinco de sus
       atributos.
Figura 1: Un ejemplo completo.

 

Lamentablemente, los ejemplos del mundo real a menudo están incompletos, lo que significa que, al falta al menos un valor de atributo.

Figura 2: Un ejemplo que contiene valores para cuatro de sus cinco
            atributos. Hay un elemento marcado como faltante.
Figura 2: Un ejemplo incompleto.

 

No entrenes un modelo con ejemplos incompletos. En cambio, corrige o elimina ejemplos incompletos realizando una de las siguientes acciones:

  • Borra los ejemplos incompletos.
  • Impute los valores faltantes. es decir, convierte el ejemplo incompleto en uno completo proporcionando suposiciones bien razonadas sobre los valores faltantes.
Figura 3: Conjunto de datos que contiene tres ejemplos, dos de los cuales son
            ejemplos incompletos. Alguien ha afectado a estos dos incompletos
            del conjunto de datos.
Figura 3. Borrar ejemplos incompletos del conjunto de datos

 

Figura 4: Un conjunto de datos que contiene tres ejemplos, dos de los cuales
            ejemplos incompletos con datos faltantes. Una entidad (una persona
            o software de asignación) tiene valores imputados que reemplazaron el
            que faltan datos.
Figura 4: Imponer valores faltantes para ejemplos incompletos

 

Si el conjunto de datos contiene ejemplos completos suficientes para entrenar un modelo útil, considera borrar los ejemplos incompletos. Del mismo modo, si a un solo atributo le falta una cantidad significativa de datos y ese un atributo probablemente no pueda ayudar mucho al modelo, entonces considera borrar a partir de las entradas del modelo y ver cuánta calidad se pierde eliminar. Si el modelo funciona igual o casi tan bien sin él, está bien. Por el contrario, si no tienes suficientes ejemplos completos para entrenar un modelo útil, deberías considerar imputar valores faltantes.

Está bien borrar ejemplos inútiles o redundantes, pero también ejemplos importantes. Por desgracia, puede ser difícil diferenciar entre ejemplos inútiles y útiles. Si no puedes decidir para borrar o imputar, considera crear dos conjuntos de datos: uno formado por la eliminación los ejemplos incompletos y los otros por imputación. Luego, determina qué conjunto de datos entrena al mejor modelo.


Un algoritmo común es usar la media o la mediana como valor asignado. Por lo tanto, cuando representas un atributo numérico con Puntuaciones Z y, luego, por lo general, se le asigna 0 (porque 0 es generalmente la puntuación Z media).

Ejercicio: Comprueba tus conocimientos

Estas son dos columnas de un conjunto de datos ordenado por Timestamp.

Marca de tiempo Temperatura
8 de junio de 2023 09:00 12
8 de junio de 2023, 10:00 18
8 de junio de 2023, 11:00 faltante
8 de junio de 2023, 12:00 24
8 de junio de 2023, 13:00 38

¿Cuál de los siguientes sería un valor razonable para imputar? para el valor faltante de la Temperatura?

23
Probablemente. 23 es la media de los valores adyacentes (12, 18, 24 y 38). Sin embargo, no vemos el resto del conjunto de datos, por lo que es posible que 23 sería un valor atípico para las 11:00 en otros días.
31
Improbable. La parte limitada del conjunto de datos que podemos ver sugiere ese 31 es demasiado alto para la Temperatura de las 11:00. Sin embargo, No podemos estar seguros sin basar la imputación en un número mayor de ejemplos.
51
Muy improbable. 51 es mucho más alto que cualquiera de los valores mostrados (y, por lo tanto, mucho mayor que la media).