Set di dati: etichette

Questa sezione è incentrata sulle etichette.

Etichette dirette e proxy

Prendi in considerazione due tipi diversi di etichette:

  • Etichette dirette, ovvero etichette identiche alla previsione che il tuo modello sta cercando di fare. In altre parole, la previsione che il modello sta cercando di fare è presente esattamente come colonna nel set di dati. Ad esempio, una colonna denominata bicycle owner sarebbe un'etichetta diretta per un modello di classificazione binaria che prevede se una persona possiede o meno una bicicletta.
  • Etichette proxy, ovvero etichette simili, ma non identiche, alla previsione che il modello sta tentando di fare. Ad esempio, una persona che si abbona alla rivista Bicycle Bizarre probabilmente, ma non necessariamente, possiede una bicicletta.

In genere, le etichette dirette sono migliori di quelle proxy. Se il tuo set di dati fornisce una possibile etichetta diretta, ti consigliamo di utilizzarla. Tuttavia, spesso le etichette dirette non sono disponibili.

Le etichette proxy sono sempre un compromesso, un'approssimazione imperfetta di un'etichetta diretta. Tuttavia, alcune etichette proxy sono approssimazioni sufficientemente vicine per essere utili. I modelli che utilizzano etichette proxy sono utili solo in base al collegamento tra l'etichetta proxy e la previsione.

Ricorda che ogni etichetta deve essere rappresentata come numero a virgola mobile nel vettore di caratteristiche (in quanto il machine learning è fondamentalmente solo un'enorme amalgama di operazioni matematiche). A volte esiste un'etichetta diretta, ma non può essere rappresentata facilmente come un numero in virgola mobile nel vettore di caratteristiche. In questo caso, utilizza un'etichetta proxy.

Esercizio: verifica di aver compreso

La tua azienda vuole:

Invia coupon ("Permuta la tua vecchia bicicletta per avere il 15% di sconto su una nuova bicicletta") ai proprietari di biciclette.

Pertanto, il modello deve:

Prevedere quali persone possiedono una bicicletta.

Purtroppo, il set di dati non contiene una colonna denominata bike owner. Tuttavia, il set di dati contiene una colonna denominata recently bought a bicycle.

recently bought a bicycle sarebbe un'etichetta proxy buona o cattiva per questo modello?
Etichetta proxy di buona qualità
Etichetta proxy scadente

Dati generati da persone

Alcuni dati sono generati da persone, ovvero una o più persone esaminano alcune informazioni e forniscono un valore, in genere per l'etichetta. Ad esempio, uno o più meteorologi potrebbero esaminare le foto del cielo e identificare i tipi di nuvole.

In alternativa, alcuni dati vengono generati automaticamente. In altre parole, il software (eventualmente un altro modello di machine learning) determina il valore. Ad esempio, un modello di machine learning potrebbe esaminare le foto del cielo e identificare automaticamente i tipi di nuvole.

Questa sezione illustra i vantaggi e gli svantaggi dei dati generati dagli utenti.

Vantaggi

  • I valutatori umani possono svolgere un'ampia gamma di attività che anche i modelli di machine learning sofisticati potrebbero trovare difficili.
  • Il processo costringe il proprietario del set di dati a sviluppare criteri chiari e coerenti.

Svantaggi

  • In genere, paghi i classificatori umani, quindi i dati generati da persone possono essere costosi.
  • Sbagliare è umano. Pertanto, più valutatori umani potrebbero dover valutare gli stessi dati.

Rispondi a queste domande per determinare le tue esigenze:

  • Qual è il livello di competenza richiesto ai valutatori? Ad esempio, gli valutatori devono conoscere una lingua specifica? Hai bisogno di linguisti per applicazioni di dialogo o NLP?
  • Quanti esempi etichettati ti servono? Quando ti servono?
  • Qual è il tuo budget?

Ricontrolla sempre le valutazioni da parte di persone fisiche. Ad esempio, etichetta autonomamente 1000 esempi e controlla in che modo i tuoi risultati corrispondono a quelli di altri valutatori. Se si verificano discrepanze, non dare per scontato che le tue valutazioni siano corrette, soprattutto se è coinvolto un giudizio di valore. Se i valutatori umani hanno introdotto errori, valuta la possibilità di aggiungere istruzioni per aiutarli e riprova.

Esaminare i dati manualmente è un buon esercizio, indipendentemente da come li hai ottenuti. Andrej Karpathy ha fatto questo su ImageNet e ha scritto dell'esperienza.

I modelli possono essere addestrati con una combinazione di etichette automatiche e generate da persone. Tuttavia, per la maggior parte dei modelli, un insieme aggiuntivo di etichette create da persone (che possono diventare obsolete) in genere non vale la complessità e la manutenzione aggiuntive. Detto questo, a volte le etichette create da persone possono fornire informazioni aggiuntive non disponibili nelle etichette automatiche.