Los datos numéricos suelen registrarse con instrumentos científicos o medidas automatizadas. Por otro lado, los datos categóricos suelen categorizarse por seres humanos o por modelos de aprendizaje automático (AA). Quién decide sobre las categorías y las etiquetas, y cómo toma esas decisiones, afecta la confiabilidad y la utilidad de esos datos.
Evaluadores humanos
Los datos etiquetados de forma manual por seres humanos a menudo se denominan etiquetas de oro y se consideran más convenientes que los datos etiquetados por máquinas para el entrenamiento de modelos, debido a que tienen una calidad de datos relativamente mejor.
Esto no significa necesariamente que cualquier conjunto de datos etiquetados por humanos sea de alta calidad. Los errores humanos, los sesgos y la malicia pueden introducirse en el momento de la recopilación de datos o durante la limpieza y el procesamiento de datos. Verifica si los tienes antes del entrenamiento.
Cualquier ser humano puede etiquetar el mismo ejemplo de manera diferente. La diferencia entre las decisiones de los evaluadores humanos se denomina acuerdo entre evaluadores. Puedes obtener una idea de la variación en las opiniones de los evaluadores si usas varios evaluadores por ejemplo y mides el acuerdo entre evaluadores.
Calificadores de máquinas
Los datos etiquetados por máquinas, en los que uno o más modelos de clasificación determinan automáticamente las categorías, a menudo se denominan etiquetas plateadas. La calidad de los datos etiquetados por máquinas puede variar mucho. Verifica no solo la precisión y los sesgos, sino también para detectar infracciones del sentido común, la realidad y la intención. Por ejemplo, si un modelo de visión artificial etiqueta erróneamente una foto de un chihuahua como un panecillo o una foto de un panecillo como un chihuahua, los modelos entrenados con esos datos etiquetados serán de menor calidad.
Del mismo modo, un analizador de opinión que califica las palabras neutrales como -0.25, cuando 0.0 es el valor neutral, podría asignar una puntuación a todas las palabras con un sesgo negativo adicional que no está presente en los datos. Un detector de toxicidad demasiado sensible puede marcar falsamente muchas afirmaciones neutrales como tóxicas. Intenta obtener una idea de la calidad y los sesgos de las etiquetas y anotaciones de máquinas en tus datos antes de entrenarlos.
Alta dimensionalidad
Los datos categóricos suelen producir vectores de atributos de alta dimensión, es decir, que tienen una gran cantidad de elementos. La alta dimensionalidad aumenta los costos de entrenamiento y dificulta el entrenamiento. Por estos motivos, los expertos en AA suelen buscar formas de reducir la cantidad de dimensiones antes del entrenamiento.
En el caso de los datos de lenguaje natural, el método principal para reducir la dimensionalidad es convertir los vectores de atributos en vectores de incorporación. Esto se analiza en el módulo de incorporaciones más adelante en este curso.