Set di dati: etichette

Questa sezione è incentrata sulle etichette.

Etichette dirette e proxy

Prendi in considerazione due tipi diversi di etichette:

  • Etichette dirette, ovvero etichette identiche alla previsione che il tuo modello sta cercando di fare. In altre parole, la previsione che il modello sta cercando di fare è presente esattamente come colonna nel set di dati. Ad esempio, una colonna denominata bicycle owner sarebbe un'etichetta diretta per un modello di classificazione binaria che prevede se una persona possiede o meno una bicicletta.
  • Etichette proxy, ovvero etichette simili, ma non identiche, alla previsione che il modello sta tentando di fare. Ad esempio, una persona che si abbona alla rivista Bicycle Bizarre probabilmente, ma non necessariamente, possiede una bicicletta.

In genere, le etichette dirette sono migliori di quelle proxy. Se il tuo set di dati fornisce una possibile etichetta diretta, ti consigliamo di utilizzarla. Tuttavia, spesso le etichette dirette non sono disponibili.

Le etichette proxy sono sempre un compromesso, un'approssimazione imperfetta di un'etichetta diretta. Tuttavia, alcune etichette proxy sono approssimazioni sufficientemente vicine per essere utili. I modelli che utilizzano etichette proxy sono utili solo in base al collegamento tra l'etichetta proxy e la previsione.

Ricorda che ogni etichetta deve essere rappresentata come numero a virgola mobile nel vettore di caratteristiche (in quanto il machine learning è fondamentalmente solo un'enorme amalgama di operazioni matematiche). A volte esiste un'etichetta diretta, ma non può essere rappresentata facilmente come un numero in virgola mobile nel vettore di caratteristiche. In questo caso, utilizza un'etichetta proxy.

Esercizio: verifica di aver compreso

La tua azienda vuole:

Invia coupon ("Permuta la tua vecchia bicicletta per avere il 15% di sconto su una nuova bicicletta") ai proprietari di biciclette.

Pertanto, il modello deve:

Prevedere quali persone possiedono una bicicletta.

Purtroppo, il set di dati non contiene una colonna denominata bike owner. Tuttavia, il set di dati contiene una colonna denominata recently bought a bicycle.

recently bought a bicycle sarebbe un'etichetta proxy buona o cattiva per questo modello?
Etichetta proxy di buona qualità
La colonna recently bought a bicycle è un'etichetta proxy relativamente buona. Dopotutto, la maggior parte delle persone che acquistano biciclette ora ne possiede una. Tuttavia, come tutte le etichette proxy, anche quelle molto buone, recently bought a bicycle è imperfetta. Dopo tutto, la persona che acquista un articolo non è sempre quella che lo utilizza (o lo possiede). Ad esempio, a volte le persone acquistano biciclette come regalo.
Etichetta proxy scadente
Come tutte le etichette proxy, recently bought a bicycle è imperfetta (alcune biciclette vengono acquistate come regali e donate ad altre persone). Tuttavia, recently bought a bicycle è ancora un indicatore relativamente buono che indica che qualcuno possiede una bicicletta.

Dati generati da persone

Alcuni dati sono generati da persone, ovvero una o più persone esaminano alcune informazioni e forniscono un valore, in genere per l'etichetta. Ad esempio, uno o più meteorologi potrebbero esaminare le foto del cielo e identificare i tipi di nuvole.

In alternativa, alcuni dati vengono generati automaticamente. In altre parole, il software (eventualmente un altro modello di machine learning) determina il valore. Ad esempio, un modello di machine learning potrebbe esaminare le foto del cielo e identificare automaticamente i tipi di nuvole.

Questa sezione illustra i vantaggi e gli svantaggi dei dati generati dagli utenti.

Vantaggi

  • I valutatori umani possono svolgere un'ampia gamma di attività che anche i modelli di machine learning sofisticati potrebbero trovare difficili.
  • Il processo costringe il proprietario del set di dati a sviluppare criteri chiari e coerenti.

Svantaggi

  • In genere, paghi i classificatori umani, quindi i dati generati da persone possono essere costosi.
  • Sbagliare è umano. Pertanto, più valutatori umani potrebbero dover valutare gli stessi dati.

Rispondi a queste domande per determinare le tue esigenze:

  • Qual è il livello di competenza richiesto ai valutatori? Ad esempio, gli valutatori devono conoscere una lingua specifica? Hai bisogno di linguisti per applicazioni di dialogo o NLP?
  • Quanti esempi etichettati ti servono? Quando ti servono?
  • Qual è il tuo budget?

Ricontrolla sempre le valutazioni da parte di persone fisiche. Ad esempio, etichetta autonomamente 1000 esempi e controlla in che modo i tuoi risultati corrispondono a quelli di altri valutatori. Se si verificano discrepanze, non dare per scontato che le tue valutazioni siano corrette, soprattutto se è coinvolto un giudizio di valore. Se i valutatori umani hanno introdotto errori, valuta la possibilità di aggiungere istruzioni per aiutarli e riprova.