Conjuntos de datos: etiquetas

Esta sección se enfoca en las etiquetas.

Comparación entre las etiquetas directas y las de proxy

Considera dos tipos diferentes de etiquetas:

  • Etiquetas directas, que son etiquetas idénticas a la predicción de tu modelo está tratando de hacer. Es decir, la predicción que tu modelo intenta hacer es están presentes exactamente como una columna en tu conjunto de datos. Por ejemplo, una columna llamada bicycle owner sería una etiqueta directa para un de clasificación binaria que predice si una persona posee o no una bicicleta.
  • Las etiquetas de proxy, que son etiquetas similares, pero no idénticos, a la predicción que tu modelo intenta hacer. Por ejemplo, una persona que se suscribe a la revista Bicycle Bizarre probablemente, pero no definitivamente, tenga una bicicleta.

Por lo general, las etiquetas directas son mejores que las etiquetas de proxy. Si tu conjunto de datos proporciona una posible etiqueta directa, probablemente deberías usarla. Sin embargo, a menudo, las etiquetas directas no están disponibles.

Las etiquetas de proxy siempre son un compromiso, una aproximación imperfecta de una etiqueta directa. Sin embargo, algunas etiquetas de proxy son aproximaciones lo suficientemente cercanas sean útiles. Los modelos que usan etiquetas de proxy son tan útiles como las entre la etiqueta del proxy y la predicción.

Recuerda que cada etiqueta debe representarse como un número de punto flotante. en el vector de atributos (porque el aprendizaje automático es, en esencia, una enorme amalgama de operaciones). A veces, existe una etiqueta directa, pero no se puede representar fácilmente como un número de punto flotante en el vector de atributos. En este caso, usa una etiqueta de proxy.

Ejercicio: Comprueba tus conocimientos

Tu empresa quiere hacer lo siguiente:

Envía cupones por correo ("Intercambia tu bicicleta vieja por un 15% de descuento en bicicletas nuevas") a los propietarios de bicicletas.

Por lo tanto, tu modelo debe hacer lo siguiente:

Predice qué personas tienen una bicicleta.

Por desgracia, el conjunto de datos no contiene una columna llamada bike owner. Sin embargo, el conjunto de datos contiene una columna llamada recently bought a bicycle.

¿recently bought a bicycle sería una buena etiqueta de proxy? o una etiqueta de proxy deficiente para este modelo?
Etiqueta de proxy buena
La columna recently bought a bicycle es un una etiqueta de proxy relativamente buena. Después de todo, la mayoría de las personas que compran bicicletas ahora tienen bicicletas. Sin embargo, como todas etiquetas de proxy, incluso las muy buenas, recently bought a bicycle es imperfecto. Después de todo, la persona que compra un elemento no siempre es la persona que lo usa (o que es el propietario). Por ejemplo, a veces las personas compran bicicletas como regalo.
Etiqueta de proxy deficiente
Como todas las etiquetas de proxy, recently bought a bicycle es imperfecta (algunas bicicletas se compran como regalo y se dan a otras). Sin embargo, recently bought a bicycle es sigue siendo un indicador relativamente bueno de que alguien posee un bicicleta.

Datos generados por humanos

Algunos datos son generados por humanos. es decir, uno o más humanos examinan información y proporcionan un valor, generalmente para la etiqueta. Por ejemplo: uno o más meteorólogos podrían examinar imágenes del cielo e identificar tipos de nubes.

De manera alternativa, algunos datos se generan automáticamente. Es decir, el software (posiblemente, otro modelo de aprendizaje automático) determina el valor. Por ejemplo, un de aprendizaje automático podría examinar imágenes del cielo e identificar tipos de nubes.

En esta sección, se exploran las ventajas y desventajas de los datos generados por humanos.

Ventajas

  • Los evaluadores humanos pueden realizar una amplia gama de tareas que incluso a los modelos de aprendizaje automático pueden ser difíciles.
  • El proceso obliga al propietario del conjunto de datos a desarrollar conjuntos criterios coherentes.

Desventajas

  • Por lo general, pagas a evaluadores humanos, por lo que los datos generados por humanos pueden ser costosos.
  • Errar es humano. Por lo tanto, es posible que varios evaluadores humanos deban evaluar el con los mismos datos.

Piensa en estas preguntas para determinar tus necesidades:

  • ¿Qué habilidades deben tener los evaluadores? Por ejemplo, ¿deben los evaluadores saben un idioma específico? ¿Necesitas lingüistas para el diálogo o el PLN? aplicaciones?)
  • ¿Cuántos ejemplos etiquetados necesitas? ¿Qué tan pronto los necesita?
  • ¿Cuál es tu presupuesto?

Siempre vuelve a verificar a los evaluadores manuales. Por ejemplo, etiqueta 1,000 ejemplos y descubre si tus resultados coinciden con los de otros evaluadores resultados. Si aparecen discrepancias, no supongas que tus calificaciones son las correctas. especialmente si involucra un juicio de valor. Si los evaluadores humanos introdujeron considera agregar instrucciones útiles y vuelve a intentarlo.