Datos numéricos: arrastre

Los manzanos producen una mezcla de grandes frutas y gusanos. Aun así, las manzanas en las tiendas refinadas de alimentos muestran una fruta 100% perfecta. Entre la huerta y el supermercado, alguien dedica mucho tiempo a eliminar las manzanas en mal estado o rociar un poco de cera sobre las que se pueden recuperar. Como ingeniero de AA, pasarás una gran cantidad de tiempo desechar los malos ejemplos y limpiar los que se pueden recuperar. Incluso unas pocas manzanas erróneas pueden arruinar un conjunto de datos grande.

Muchos ejemplos de los conjuntos de datos no son confiables debido a uno o más de los los siguientes problemas:

Categoría del problema Ejemplo
Valores omitidos Quien realiza un censo no registra la edad de los residentes.
Ejemplos duplicados Un servidor sube los mismos registros dos veces.
Valores de atributo fuera de rango Un ser humano escribe un dígito de más por accidente.
Etiquetas incorrectas Un evaluador humano etiqueta incorrectamente una imagen de un roble como la arce.

Puedes escribir un programa o una secuencia de comandos para detectar cualquiera de los siguientes problemas:

  • Valores omitidos
  • Ejemplos duplicados
  • Valores de atributos fuera de rango

Por ejemplo, el siguiente conjunto de datos contiene seis valores repetidos:

Figura 15: Los primeros seis valores se repiten. Los ocho finales
            no lo son.
Figura 15: Los primeros seis valores se repiten.

Como otro ejemplo, supongamos que el rango de temperatura de una función determinada debe estar entre 10 y 30 grados inclusive. Pero ocurren accidentes, quizás un el termómetro se expone temporalmente al sol, lo que provoca un valor atípico grave. El programa o la secuencia de comandos debe identificar valores de temperatura inferiores a 10 o superiores. por más de 30:

Figura 16. Diecinueve valores dentro del rango y un valor fuera de rango
Figura 16: Un valor fuera de rango.

Cuando varias personas generan etiquetas, recomendamos estadísticamente determinar si cada evaluador generó conjuntos de etiquetas equivalentes. Quizás un evaluador fue más estricto que los otros evaluadores o usó un conjunto diferente de criterios de calificación?

Por lo general, una vez detectado, “corregir” ejemplos con atributos no válidos o incorrectas, ya que las quitas del conjunto de datos o les asignas sus valores. Para obtener más información, consulta la Características de los datos sección de la Conjuntos de datos, generalización y sobreajuste módulo.