Conjuntos de datos: etiquetas

En esta sección, nos enfocaremos en las etiquetas.

Comparación entre etiquetas directas y de proxy

Considera dos tipos diferentes de etiquetas:

  • Etiquetas directas, que son etiquetas idénticas a la predicción que tu modelo intenta realizar. Es decir, la predicción que tu modelo intenta realizar está presente exactamente como una columna en tu conjunto de datos. Por ejemplo, una columna llamada bicycle owner sería una etiqueta directa para un modelo de clasificación binaria que predice si una persona tiene o no una bicicleta.
  • Etiquetas proxy, que son etiquetas similares, pero no idénticas, a la predicción que tu modelo intenta realizar Por ejemplo, es probable que una persona que se suscribe a la revista Bicycle Bizarre tenga una bicicleta, pero no es seguro.

En general, las etiquetas directas son mejores que las etiquetas de proxy. Si tu conjunto de datos proporciona una etiqueta directa posible, probablemente deberías usarla. Sin embargo, a menudo, las etiquetas directas no están disponibles.

Las etiquetas de proxy siempre son un compromiso, una aproximación imperfecta de una etiqueta directa. Sin embargo, algunas etiquetas de proxy son aproximaciones lo suficientemente cercanas como para ser útiles. Los modelos que usan etiquetas de proxy solo son tan útiles como la conexión entre la etiqueta de proxy y la predicción.

Recuerda que cada etiqueta debe representarse como un número de punto flotante en el vector de atributos (porque el aprendizaje automático es, fundamentalmente, una enorme amalgama de operaciones matemáticas). A veces, existe una etiqueta directa, pero no se puede representar fácilmente como un número de punto flotante en el vector de atributos. En este caso, usa una etiqueta de proxy.

Ejercicio: Comprueba tus conocimientos

Tu empresa quiere hacer lo siguiente:

Enviar cupones por correo electrónico ("Obtén un 15% de descuento en un casco de bicicleta nuevo") a los propietarios de bicicletas

Por lo tanto, tu modelo debe hacer lo siguiente:

Predecir qué personas tienen una bicicleta

Lamentablemente, el conjunto de datos no contiene una columna llamada bike owner. Sin embargo, el conjunto de datos sí contiene una columna llamada recently bought a bicycle.

¿recently bought a bicycle sería una buena o mala etiqueta de proxy para este modelo?
Etiqueta de proxy adecuada
La columna recently bought a bicycle es una etiqueta proxy relativamente buena. Después de todo, la mayoría de las personas que compran bicicletas ahora tienen bicicletas. Sin embargo, como todas las etiquetas de proxy, incluso las muy buenas, recently bought a bicycle es imperfecta. Después de todo, la persona que compra un artículo no siempre es la que lo usa (o posee). Por ejemplo, a veces las personas compran bicicletas como regalo.
Etiqueta de proxy deficiente
Al igual que todas las etiquetas de proxy, recently bought a bicycle es imperfecta (algunas bicicletas se compran como regalos y se entregan a otras personas). Sin embargo, recently bought a bicycle sigue siendo un indicador relativamente bueno de que alguien tiene una bicicleta.

Datos generados por humanos

Algunos datos son generados por humanos, es decir, una o más personas examinan cierta información y proporcionan un valor, por lo general, para la etiqueta. Por ejemplo, uno o más meteorólogos podrían examinar imágenes del cielo e identificar los tipos de nubes.

Como alternativa, algunos datos se generan automáticamente. Es decir, el software (posiblemente, otro modelo de aprendizaje automático) determina el valor. Por ejemplo, un modelo de aprendizaje automático podría examinar imágenes del cielo y, luego, identificar automáticamente los tipos de nubes.

En esta sección, se exploran las ventajas y desventajas de los datos generados por humanos.

Ventajas

  • Los evaluadores humanos pueden realizar una amplia variedad de tareas que incluso los modelos de aprendizaje automático sofisticados pueden tener dificultades para completar.
  • El proceso obliga al propietario del conjunto de datos a desarrollar criterios claros y coherentes.

Desventajas

  • Por lo general, se les paga a los evaluadores humanos, por lo que los datos generados por humanos pueden ser costosos.
  • Errar es humano. Por lo tanto, es posible que varios evaluadores humanos deban evaluar los mismos datos.

Piensa en estas preguntas para determinar tus necesidades:

  • ¿Qué tan capacitados deben estar tus evaluadores? (Por ejemplo, ¿los evaluadores deben saber un idioma específico? ¿Necesitas lingüistas para aplicaciones de diálogo o PNL?
  • ¿Cuántos ejemplos etiquetados necesitas? ¿Qué tan pronto los necesitas?
  • ¿Cuál es tu presupuesto?

Siempre verifica a tus evaluadores humanos. Por ejemplo, etiqueta 1, 000 ejemplos por tu cuenta y observa cómo tus resultados coinciden con los de otros evaluadores. Si surgen discrepancias, no supongas que tus calificaciones son las correctas, en especial si se trata de un juicio de valor. Si los evaluadores humanos introdujeron errores, considera agregar instrucciones para ayudarlos y vuelve a intentarlo.