Conjuntos de datos: etiquetas

En esta sección, nos enfocaremos en las etiquetas.

Comparación entre etiquetas directas y de proxy

Considera dos tipos diferentes de etiquetas:

Etiquetas directas, que son etiquetas idénticas a la predicción que tu modelo intenta realizar. Es decir, la predicción que tu modelo intenta realizar está presente exactamente como una columna en tu conjunto de datos. Por ejemplo, una columna llamada bicycle owner sería una etiqueta directa para un modelo de clasificación binaria que predice si una persona tiene o no una bicicleta.
Etiquetas proxy, que son etiquetas similares, pero no idénticas, a la predicción que tu modelo intenta realizar Por ejemplo, una persona que se suscribe a la revista Bicycle Bizarre probablemente tenga una bicicleta, pero no es seguro.

En general, las etiquetas directas son mejores que las etiquetas de proxy. Si tu conjunto de datos proporciona una etiqueta directa posible, probablemente deberías usarla. Sin embargo, a menudo, las etiquetas directas no están disponibles.

Las etiquetas de proxy siempre son un compromiso, una aproximación imperfecta de una etiqueta directa. Sin embargo, algunas etiquetas de proxy son aproximaciones lo suficientemente cercanas como para ser útiles. Los modelos que usan etiquetas de proxy solo son tan útiles como la conexión entre la etiqueta de proxy y la predicción.

Recuerda que cada etiqueta debe representarse como un número de punto flotante, similar al vector de atributos (porque el aprendizaje automático es, fundamentalmente, una colección de operaciones matemáticas). A veces, existe una etiqueta directa, pero no se puede representar fácilmente como un número de punto flotante. En este caso, usa una etiqueta de proxy.

Ejercicio: Comprueba tus conocimientos

Tu empresa quiere hacer lo siguiente:

Enviar cupones por correo electrónico ("Obtén un 15% de descuento en un casco de bicicleta nuevo") a los propietarios de bicicletas

Por lo tanto, tu modelo debe hacer lo siguiente:

Predecir qué personas tienen una bicicleta

Lamentablemente, el conjunto de datos no contiene una columna llamada bike owner. Sin embargo, el conjunto de datos sí contiene una columna llamada recently bought a bicycle.

¿recently bought a bicycle sería una buena o mala etiqueta de proxy para este modelo?

Etiqueta de proxy adecuada

La columna recently bought a bicycle es una etiqueta proxy relativamente buena. Después de todo, la mayoría de las personas que compran bicicletas ahora tienen bicicletas. Sin embargo, como todas las etiquetas de proxy, incluso las muy buenas,

recently bought a
            bicycle

es imperfecta. Después de todo, la persona que compra un artículo no siempre es la que lo usa (o posee). Por ejemplo, a veces las personas compran bicicletas como regalo.

Etiqueta de proxy deficiente

Al igual que todas las etiquetas de proxy, recently bought a bicycle es imperfecta (algunas bicicletas se compran como regalos y se entregan a otras personas). Sin embargo, recently bought a bicycle sigue siendo un indicador relativamente bueno de que alguien tiene una bicicleta.

Datos generados por humanos

Algunos datos son generados por humanos, es decir, una o más personas examinan cierta información y proporcionan un valor, por lo general, para la etiqueta. Por ejemplo, uno o más meteorólogos podrían examinar imágenes del cielo e identificar los tipos de nubes.

Como alternativa, algunos datos se generan automáticamente. Es decir, el software (posiblemente, otro modelo de aprendizaje automático) determina el valor. Por ejemplo, un modelo de aprendizaje automático podría examinar imágenes del cielo y, luego, identificar automáticamente los tipos de nubes.

En esta sección, se exploran las ventajas y desventajas de los datos generados por humanos.

Ventajas

Los evaluadores humanos pueden realizar una amplia variedad de tareas que incluso los modelos de aprendizaje automático sofisticados pueden tener dificultades para completar.
El proceso obliga al propietario del conjunto de datos a desarrollar criterios claros y coherentes.

Desventajas

Por lo general, se les paga a los evaluadores humanos, por lo que los datos generados por humanos pueden ser costosos.
Errar es humano. Por lo tanto, es posible que varios evaluadores humanos deban evaluar los mismos datos.

Piensa en estas preguntas para determinar tus necesidades:

¿Qué tan capacitados deben ser tus evaluadores? (Por ejemplo, ¿los evaluadores deben saber un idioma específico? ¿Necesitas lingüistas para aplicaciones de diálogo o PNL?
¿Cuántos ejemplos etiquetados necesitas? ¿Qué tan pronto los necesitas?
¿Cuál es tu presupuesto?

Siempre verifica a tus evaluadores humanos. Por ejemplo, etiqueta 1, 000 ejemplos por tu cuenta y observa cómo tus resultados coinciden con los de otros evaluadores. Si surgen discrepancias, no supongas que tus calificaciones son las correctas, en especial si se trata de un juicio de valor. Si los evaluadores humanos introdujeron errores, considera agregar instrucciones para ayudarlos y vuelve a intentarlo.

Haz clic en el ícono de signo más para obtener más información sobre los datos generados por humanos.

Revisar tus datos de forma manual es un buen ejercicio, independientemente de cómo los hayas obtenido. Andrej Karpathy hizo esto en ImageNet y escribió sobre la experiencia.

Los modelos se pueden entrenar con una combinación de etiquetas generadas automáticamente y por personas. Sin embargo, para la mayoría de los modelos, un conjunto adicional de etiquetas generadas por humanos (que pueden quedar obsoletas) no suele valer la pena por la complejidad y el mantenimiento adicionales. Dicho esto, a veces las etiquetas generadas por humanos pueden proporcionar información adicional que no está disponible en las etiquetas automáticas.

Características de los datos (10 min)

Conjuntos de datos desequilibrados (10 min)