Esta sección se enfoca en las etiquetas.
Comparación entre las etiquetas directas y las de proxy
Considera dos tipos diferentes de etiquetas:
- Etiquetas directas, que son etiquetas idénticas a la predicción de tu modelo
está tratando de hacer. Es decir, la predicción que tu modelo intenta hacer es
están presentes exactamente como
una columna en tu conjunto de datos.
Por ejemplo, una columna llamada
bicycle owner
sería una etiqueta directa para un de clasificación binaria que predice si una persona posee o no una bicicleta. - Las etiquetas de proxy, que son etiquetas similares, pero no idénticos, a la predicción que tu modelo intenta hacer. Por ejemplo, una persona que se suscribe a la revista Bicycle Bizarre probablemente, pero no definitivamente, tenga una bicicleta.
Por lo general, las etiquetas directas son mejores que las etiquetas de proxy. Si tu conjunto de datos proporciona una posible etiqueta directa, probablemente deberías usarla. Sin embargo, a menudo, las etiquetas directas no están disponibles.
Las etiquetas de proxy siempre son un compromiso, una aproximación imperfecta de una etiqueta directa. Sin embargo, algunas etiquetas de proxy son aproximaciones lo suficientemente cercanas sean útiles. Los modelos que usan etiquetas de proxy son tan útiles como las entre la etiqueta del proxy y la predicción.
Recuerda que cada etiqueta debe representarse como un número de punto flotante. en el vector de atributos (porque el aprendizaje automático es, en esencia, una enorme amalgama de operaciones). A veces, existe una etiqueta directa, pero no se puede representar fácilmente como un número de punto flotante en el vector de atributos. En este caso, usa una etiqueta de proxy.
Ejercicio: Comprueba tus conocimientos
Tu empresa quiere hacer lo siguiente:
Envía cupones por correo ("Intercambia tu bicicleta vieja por un 15% de descuento en bicicletas nuevas") a los propietarios de bicicletas.
Por lo tanto, tu modelo debe hacer lo siguiente:
Predice qué personas tienen una bicicleta.
Por desgracia, el conjunto de datos no contiene una columna llamada bike owner
.
Sin embargo, el conjunto de datos contiene una columna llamada recently bought a bicycle
.
recently bought a bicycle
sería una buena etiqueta de proxy?
o una etiqueta de proxy deficiente para este modelo?recently bought a bicycle
es un
una etiqueta de proxy relativamente buena. Después de todo, la mayoría de las personas
que compran bicicletas ahora tienen bicicletas. Sin embargo, como todas
etiquetas de proxy, incluso las muy buenas, recently bought a
bicycle
es imperfecto. Después de todo, la persona que compra
un elemento no siempre es la persona que lo usa (o que es el propietario).
Por ejemplo, a veces las personas compran bicicletas como regalo.recently bought a bicycle
es imperfecta (algunas bicicletas se compran como regalo y se dan a
otras). Sin embargo, recently bought a bicycle
es
sigue siendo un indicador relativamente bueno de que alguien posee un
bicicleta.Datos generados por humanos
Algunos datos son generados por humanos. es decir, uno o más humanos examinan información y proporcionan un valor, generalmente para la etiqueta. Por ejemplo: uno o más meteorólogos podrían examinar imágenes del cielo e identificar tipos de nubes.
De manera alternativa, algunos datos se generan automáticamente. Es decir, el software (posiblemente, otro modelo de aprendizaje automático) determina el valor. Por ejemplo, un de aprendizaje automático podría examinar imágenes del cielo e identificar tipos de nubes.
En esta sección, se exploran las ventajas y desventajas de los datos generados por humanos.
Ventajas
- Los evaluadores humanos pueden realizar una amplia gama de tareas que incluso a los modelos de aprendizaje automático pueden ser difíciles.
- El proceso obliga al propietario del conjunto de datos a desarrollar conjuntos criterios coherentes.
Desventajas
- Por lo general, pagas a evaluadores humanos, por lo que los datos generados por humanos pueden ser costosos.
- Errar es humano. Por lo tanto, es posible que varios evaluadores humanos deban evaluar el con los mismos datos.
Piensa en estas preguntas para determinar tus necesidades:
- ¿Qué habilidades deben tener los evaluadores? Por ejemplo, ¿deben los evaluadores saben un idioma específico? ¿Necesitas lingüistas para el diálogo o el PLN? aplicaciones?)
- ¿Cuántos ejemplos etiquetados necesitas? ¿Qué tan pronto los necesita?
- ¿Cuál es tu presupuesto?
Siempre vuelve a verificar a los evaluadores manuales. Por ejemplo, etiqueta 1,000 ejemplos y descubre si tus resultados coinciden con los de otros evaluadores resultados. Si aparecen discrepancias, no supongas que tus calificaciones son las correctas. especialmente si involucra un juicio de valor. Si los evaluadores humanos introdujeron considera agregar instrucciones útiles y vuelve a intentarlo.