Datos categóricos: Problemas habituales

Los datos numéricos suelen registrarse con instrumentos científicos o las mediciones automatizadas. Los datos categóricos, por otro lado, a menudo son categorizados por seres humanos o modelos de aprendizaje automático (AA). Quién decide sobre categorías y etiquetas, y la forma en que toman esas decisiones afecta el y la utilidad de esos datos.

Evaluadores humanos

Los datos que las personas etiquetan de forma manual suelen denominarse etiquetas doradas. y se considera más conveniente que los datos etiquetados automáticamente para los modelos de entrenamiento, debido a una mejor calidad de los datos.

Esto no significa necesariamente que cualquier conjunto de datos etiquetados por humanos sea de gran calidad. En este punto, se pueden presentar errores humanos, sesgos y malicia. de la recopilación de datos o durante la limpieza y el procesamiento de los datos. Consúltalas antes del entrenamiento.

Dos seres humanos pueden etiquetar el mismo ejemplo de manera diferente. Diferencias entre los evaluadores humanos decisiones se denomina intercalificador acuerdo. Puedes tener una idea de la variación en la calificación opiniones mediante varios evaluadores por ejemplo y para medir el acuerdo entre evaluadores.

Calificadores de máquinas

Datos etiquetados automáticamente, en los que las categorías se determinan automáticamente según uno o más modelos de clasificación, suele denominarse etiquetas de plata. La calidad de los datos etiquetados por máquinas puede variar ampliamente. No solo hay que comprobar su precisión. y sesgos, sino también por infracciones del sentido común, la realidad y la intención. Para ejemplo, si un modelo de visión artificial etiqueta incorrectamente una foto de una chihuahua como un muffin o una foto de un muffin como chihuahua, los modelos entrenados con esos datos etiquetados ser de menor calidad.

De forma similar, un analizador de opiniones que califica palabras neutras como -0.25, cuando 0.0 es el valor neutro, podría ser calificar todas las palabras con un sesgo negativo adicional que no está realmente presente en los datos. Un detector de toxicidad demasiado sensible puede marcar erróneamente muchas declaraciones neutrales como tóxicas. Intenta hacerte una idea del la calidad y los sesgos de las etiquetas y anotaciones de la máquina en tus datos antes para entrenarlo.

Alta dimensionalidad

Los datos categóricos tienden a producir vectores de atributos de alta dimensión. es decir, vectores de atributos que tienen una gran cantidad de elementos. La alta dimensionalidad aumenta los costos de entrenamiento y hace que el entrenamiento sea más difícil. Por estas razones, los expertos en AA suelen buscar formas de reducir de dimensiones antes del entrenamiento.

Para los datos en lenguaje natural, el principal método para reducir la dimensionalidad es para convertir vectores de atributos en vectores de incorporación. Esto se analiza en el Módulo de incorporaciones más adelante en este curso.