Set di dati: etichette

Questa sezione è incentrata sulle etichette.

Etichette dirette e proxy

Prendi in considerazione due tipi diversi di etichette:

  • Etichette dirette, ovvero etichette identiche alla previsione che il modello sta cercando di fare. ovvero la previsione che il modello sta cercando di fare è esattamente presente come colonna nel set di dati. Ad esempio, una colonna denominata bicycle owner sarebbe un'etichetta diretta per un modello di classificazione binaria che prevede se una persona possiede una bicicletta.
  • Etichette proxy, ovvero etichette simili, ma non identiche, alla previsione che il modello sta cercando di fare. Ad esempio, una persona che si abbona alla rivista Bicycle Bizarre probabilmente, ma non sicuramente, possiede una bicicletta.

Le etichette dirette sono generalmente migliori delle etichette proxy. Se il tuo set di dati fornisce un'etichetta diretta possibile, probabilmente dovresti utilizzarla. Tuttavia, spesso le etichette dirette non sono disponibili.

Le etichette proxy sono sempre un compromesso, un'approssimazione imperfetta di un'etichetta diretta. Tuttavia, alcune etichette proxy sono approssimazioni sufficientemente vicine per essere utili. I modelli che utilizzano etichette proxy sono utili solo quanto la connessione tra l'etichetta proxy e la previsione.

Ricorda che ogni etichetta deve essere rappresentata come un numero in virgola mobile nel vettore delle caratteristiche (perché il machine learning è fondamentalmente un enorme insieme di operazioni matematiche). A volte esiste un'etichetta diretta, ma non può essere facilmente rappresentata come un numero in virgola mobile nel vettore delle caratteristiche. In questo caso, utilizza un'etichetta proxy.

Esercizio: verifica la tua comprensione

La tua azienda vuole fare quanto segue:

Invia coupon ("Ottieni il 15% di sconto su un nuovo casco da bicicletta") ai proprietari di biciclette.

Pertanto, il modello deve:

Prevedere quali persone possiedono una bicicletta.

Purtroppo, il set di dati non contiene una colonna denominata bike owner. Tuttavia, il set di dati contiene una colonna denominata recently bought a bicycle.

recently bought a bicycle sarebbe una buona etichetta proxy o una scarsa etichetta proxy per questo modello?
Etichetta proxy valida
La colonna recently bought a bicycle è un'etichetta proxy relativamente buona. Dopo tutto, la maggior parte delle persone che acquistano biciclette ora ne possiedono una. Tuttavia, come tutte le etichette proxy, anche quelle molto buone, recently bought a bicycle non è perfetta. Dopo tutto, la persona che acquista un articolo non è sempre la persona che lo utilizza (o lo possiede). Ad esempio, a volte le persone acquistano biciclette come regalo.
Etichetta proxy di scarsa qualità
Come tutte le etichette proxy, recently bought a bicycle è imperfetta (alcune biciclette vengono acquistate come regali e date ad altre persone). Tuttavia, recently bought a bicycle è ancora un indicatore relativamente buono che una persona possiede una bicicletta.

Dati generati da persone

Alcuni dati sono generati da persone, ovvero una o più persone esaminano alcune informazioni e forniscono un valore, di solito per l'etichetta. Ad esempio, uno o più meteorologi potrebbero esaminare le immagini del cielo e identificare i tipi di nuvole.

In alternativa, alcuni dati vengono generati automaticamente. ovvero il software (possibilmente un altro modello di machine learning) determina il valore. Ad esempio, un modello di machine learning potrebbe esaminare le immagini del cielo e identificare automaticamente i tipi di nuvole.

Questa sezione esplora i vantaggi e gli svantaggi dei dati generati da persone.

Vantaggi

  • I valutatori umani possono svolgere un'ampia gamma di attività che anche i modelli di machine learning sofisticati potrebbero trovare difficili.
  • La procedura impone al proprietario del set di dati di sviluppare criteri chiari e coerenti.

Svantaggi

  • In genere paghi i classificatori umani, quindi i dati generati da persone possono essere costosi.
  • Sbagliare è umano. Pertanto, più valutatori umani potrebbero dover valutare gli stessi dati.

Rispondi a queste domande per determinare le tue esigenze:

  • Quali competenze devono avere i valutatori? Ad esempio, i valutatori devono conoscere una lingua specifica? Hai bisogno di linguisti per applicazioni di dialoghi o NLP?
  • Di quanti esempi etichettati hai bisogno? Quando ti servono?
  • Qual è il tuo budget?

Controlla sempre i tuoi revisori umani. Ad esempio, etichetta 1000 esempi e verifica la corrispondenza dei tuoi risultati con quelli di altri valutatori. Se emergono discrepanze, non dare per scontato che le tue valutazioni siano quelle corrette, soprattutto se è coinvolto un giudizio di valore. Se i revisori umani hanno introdotto errori, valuta la possibilità di aggiungere istruzioni per aiutarli e riprova.