Conjuntos de datos: etiquetas

En esta sección, se describen las etiquetas.

Comparación entre etiquetas directas y de proxy

Considera dos tipos diferentes de etiquetas:

  • Etiquetas directas, que son etiquetas idénticas a la predicción que intenta hacer tu modelo. Es decir, la predicción que intenta hacer tu modelo está presente exactamente como una columna en tu conjunto de datos. Por ejemplo, una columna llamada bicycle owner sería una etiqueta directa para un modelo de clasificación binaria que predice si una persona posee o no una bicicleta.
  • Etiquetas de proxy, que son etiquetas similares, pero no idénticas, a la predicción que intenta hacer tu modelo. Por ejemplo, es probable que una persona que se suscriba a la revista Bicycle Bizarre tenga una bicicleta, pero no es seguro.

Por lo general, las etiquetas directas son mejores que las de proxy. Si tu conjunto de datos proporciona una posible etiqueta directa, es probable que debas usarla. Sin embargo, a menudo, las etiquetas directas no están disponibles.

Las etiquetas de proxy siempre son un compromiso, una aproximación imperfecta de una etiqueta directa. Sin embargo, algunas etiquetas de proxy son aproximaciones lo suficientemente cercanas para ser útiles. Los modelos que usan etiquetas de proxy son tan útiles como la conexión entre la etiqueta de proxy y la predicción.

Recuerda que cada etiqueta debe representarse como un número de punto flotante en el vector de características (porque el aprendizaje automático es, en esencia, solo una gran amalgama de operaciones matemáticas). A veces, existe una etiqueta directa, pero no se puede representar fácilmente como un número de punto flotante en el vector de atributos. En este caso, usa una etiqueta de proxy.

Ejercicio: Comprueba tu comprensión

Tu empresa quiere hacer lo siguiente:

Envía cupones por correo ("Intercambia tu bicicleta anterior por un 15% de descuento en una bicicleta nueva") a los propietarios de bicicletas.

Por lo tanto, tu modelo debe hacer lo siguiente:

Predecir qué personas tienen una bicicleta

Lamentablemente, el conjunto de datos no contiene una columna llamada bike owner. Sin embargo, el conjunto de datos contiene una columna llamada recently bought a bicycle.

¿recently bought a bicycle sería una buena etiqueta de proxy o una mala etiqueta de proxy para este modelo?
Etiqueta de proxy correcta
La columna recently bought a bicycle es una etiqueta de proxy relativamente buena. Después de todo, la mayoría de las personas que compran bicicletas ya las tienen. Sin embargo, al igual que todas las etiquetas de proxy, incluso las muy buenas, recently bought a bicycle es imperfecta. Después de todo, la persona que compra un artículo no siempre es la que lo usa (o es su propietaria). Por ejemplo, a veces las personas compran bicicletas como regalo.
Etiqueta de proxy deficiente
Al igual que todas las etiquetas de proxy, recently bought a bicycle es imperfecta (algunas bicicletas se compran como regalos y se regalan a otras personas). Sin embargo, recently bought a bicycle sigue siendo un indicador relativamente bueno de que alguien posee una bicicleta.

Datos generados por humanos

Algunos datos son generado por humanos, es decir, una o más personas examinan cierta información y proporcionan un valor, por lo general, para la etiqueta. Por ejemplo, una o más personas que trabajan en meteorología podrían examinar imágenes del cielo y así identificar los tipos de nubes.

Como alternativa, algunos datos se generan automáticamente. Es decir, el software (posiblemente, otro modelo de aprendizaje automático) determina el valor. Por ejemplo, un modelo de aprendizaje automático podría examinar imágenes del cielo e identificar automáticamente los tipos de nubes.

En esta sección, se exploran las ventajas y desventajas de los datos generados por humanos.

Ventajas

  • Los evaluadores humanos pueden realizar una amplia variedad de tareas que incluso los modelos de aprendizaje automático sofisticados pueden encontrar difíciles.
  • El proceso obliga al propietario del conjunto de datos a desarrollar criterios claros y confiables.

Desventajas

  • Por lo general, pagas a los evaluadores humanos, por lo que los datos generados por humanos pueden ser costosos.
  • Errar es humano. Por lo tanto, es posible que varios evaluadores humanos tengan que evaluar los mismos datos.

Reflexiona sobre estas preguntas para determinar tus necesidades:

  • ¿Qué nivel de habilidad deben tener tus calificadores? (por ejemplo, ¿los evaluadores deben conocer un idioma específico? ¿Necesitas lingüistas para aplicaciones de diálogo o PLN?
  • ¿Cuántos ejemplos etiquetados necesitas? ¿Qué tan pronto los necesitas?
  • ¿Cuál es tu presupuesto?

Siempre verifica a los evaluadores humanos. Por ejemplo, etiqueta 1, 000 ejemplos por tu cuenta y observa cómo tus resultados coinciden con los de otros calificadores. Si surgen discrepancias, no des por sentado que tus calificaciones son las correctas, sobre todo si se trata de un juicio de valor. Si los evaluadores humanos cometieron errores, considera agregar instrucciones para ayudarlos y vuelve a intentarlo.