Los manzanos producen una mezcla de grandes frutas y gusanos. Aun así, las manzanas en las tiendas refinadas de alimentos muestran una fruta 100% perfecta. Entre la huerta y el supermercado, alguien dedica mucho tiempo a eliminar las manzanas en mal estado o rociar un poco de cera sobre las que se pueden recuperar. Como ingeniero de AA, pasarás una gran cantidad de tiempo desechar los malos ejemplos y limpiar los que se pueden recuperar. Incluso unas pocas manzanas erróneas pueden arruinar un conjunto de datos grande.
Muchos ejemplos de los conjuntos de datos no son confiables debido a uno o más de los los siguientes problemas:
Categoría del problema | Ejemplo |
---|---|
Valores omitidos | Quien realiza un censo no registra la edad de los residentes. |
Ejemplos duplicados | Un servidor sube los mismos registros dos veces. |
Valores de atributo fuera de rango | Un ser humano escribe un dígito de más por accidente. |
Etiquetas incorrectas | Un evaluador humano etiqueta incorrectamente una imagen de un roble como la arce. |
Puedes escribir un programa o una secuencia de comandos para detectar cualquiera de los siguientes problemas:
- Valores omitidos
- Ejemplos duplicados
- Valores de atributos fuera de rango
Por ejemplo, el siguiente conjunto de datos contiene seis valores repetidos:
Como otro ejemplo, supongamos que el rango de temperatura de una función determinada debe estar entre 10 y 30 grados inclusive. Pero ocurren accidentes, quizás un el termómetro se expone temporalmente al sol, lo que provoca un valor atípico grave. El programa o la secuencia de comandos debe identificar valores de temperatura inferiores a 10 o superiores. por más de 30:
Cuando varias personas generan etiquetas, recomendamos estadísticamente determinar si cada evaluador generó conjuntos de etiquetas equivalentes. Quizás un evaluador fue más estricto que los otros evaluadores o usó un conjunto diferente de criterios de calificación?
Por lo general, una vez detectado, “corregir” ejemplos con atributos no válidos o incorrectas, ya que las quitas del conjunto de datos o les asignas sus valores. Para obtener más información, consulta la Características de los datos sección de la Conjuntos de datos, generalización y sobreajuste módulo.