Set di dati: etichette

Questa sezione è incentrata sulle etichette.

Etichette dirette e proxy

Prendi in considerazione due tipi diversi di etichette:

Etichette dirette, ovvero etichette identiche alla previsione che il modello sta cercando di fare. ovvero la previsione che il modello sta cercando di fare è esattamente presente come colonna nel set di dati. Ad esempio, una colonna denominata bicycle owner sarebbe un'etichetta diretta per un modello di classificazione binaria che prevede se una persona possiede una bicicletta.
Etichette proxy, ovvero etichette simili, ma non identiche, alla previsione che il modello sta cercando di fare. Ad esempio, una persona che si abbona alla rivista Bicycle Bizarre probabilmente, ma non sicuramente, possiede una bicicletta.

Le etichette dirette sono generalmente migliori delle etichette proxy. Se il tuo set di dati fornisce un'etichetta diretta possibile, probabilmente dovresti utilizzarla. Tuttavia, spesso le etichette dirette non sono disponibili.

Le etichette proxy sono sempre un compromesso, un'approssimazione imperfetta di un'etichetta diretta. Tuttavia, alcune etichette proxy sono approssimazioni sufficientemente vicine per essere utili. I modelli che utilizzano etichette proxy sono utili solo quanto la connessione tra l'etichetta proxy e la previsione.

Ricorda che ogni etichetta deve essere rappresentata come un numero in virgola mobile, simile al vettore delle caratteristiche (perché il machine learning è fondamentalmente solo un insieme di operazioni matematiche). A volte esiste un'etichetta diretta, ma non può essere rappresentata facilmente come un numero in virgola mobile. In questo caso, utilizza un'etichetta proxy.

Esercizio: verifica la comprensione

La tua azienda vuole fare quanto segue:

Invia coupon ("Ottieni il 15% di sconto su un nuovo casco da bicicletta") ai proprietari di biciclette.

Pertanto, il modello deve:

Prevedere quali persone possiedono una bicicletta.

Purtroppo, il set di dati non contiene una colonna denominata bike owner. Tuttavia, il set di dati contiene una colonna denominata recently bought a bicycle.

recently bought a bicycle sarebbe una buona etichetta proxy o una scarsa etichetta proxy per questo modello?

Etichetta proxy valida

La colonna recently bought a bicycle è un'etichetta proxy relativamente buona. Dopo tutto, la maggior parte delle persone che acquistano biciclette ora ne possiedono una. Tuttavia, come tutte le etichette proxy, anche quelle molto buone,

recently bought a
            bicycle

non è perfetta. Dopo tutto, la persona che acquista un articolo non è sempre la persona che lo utilizza (o lo possiede). Ad esempio, a volte le persone acquistano biciclette come regalo.

Etichetta proxy di scarsa qualità

Come tutte le etichette proxy, recently bought a bicycle è imperfetta (alcune biciclette vengono acquistate come regali e date ad altre persone). Tuttavia, recently bought a bicycle è ancora un indicatore relativamente buono che qualcuno possieda una bicicletta.

Dati generati da persone

Alcuni dati sono generati da persone, ovvero una o più persone esaminano alcune informazioni e forniscono un valore, di solito per l'etichetta. Ad esempio, uno o più meteorologi potrebbero esaminare le immagini del cielo e identificare i tipi di nuvole.

In alternativa, alcuni dati vengono generati automaticamente. ovvero il software (possibilmente un altro modello di machine learning) determina il valore. Ad esempio, un modello di machine learning potrebbe esaminare le immagini del cielo e identificare automaticamente i tipi di nuvole.

Questa sezione esplora i vantaggi e gli svantaggi dei dati generati da persone.

Vantaggi

I valutatori umani possono svolgere un'ampia gamma di attività che anche i modelli di machine learning sofisticati potrebbero trovare difficili.
La procedura impone al proprietario del set di dati di sviluppare criteri chiari e coerenti.

Svantaggi

In genere paghi i classificatori umani, quindi i dati generati da persone possono essere costosi.
Sbagliare è umano. Pertanto, più valutatori umani potrebbero dover valutare gli stessi dati.

Rispondi a queste domande per determinare le tue esigenze:

Quali competenze devono avere i valutatori? Ad esempio, i valutatori devono conoscere una lingua specifica? Hai bisogno di linguisti per applicazioni di dialoghi o NLP?
Di quanti esempi etichettati hai bisogno? Quando ti servono?
Qual è il tuo budget?

Controlla sempre i tuoi revisori umani. Ad esempio, etichetta 1000 esempi e verifica la corrispondenza dei tuoi risultati con quelli di altri valutatori. Se emergono discrepanze, non dare per scontato che le tue valutazioni siano quelle corrette, soprattutto se è coinvolto un giudizio di valore. Se i revisori umani hanno introdotto errori, valuta la possibilità di aggiungere istruzioni per aiutarli e riprova.

Fai clic sull'icona Più per scoprire di più sui dati generati da persone.

Esaminare manualmente i dati è un buon esercizio, indipendentemente da come li hai ottenuti. Andrej Karpathy lo ha fatto su ImageNet e ha scritto un articolo sull'esperienza.

I modelli possono essere addestrati su un mix di etichette generate automaticamente e da persone. Tuttavia, per la maggior parte dei modelli, un set aggiuntivo di etichette generate da operatori (che possono diventare obsolete) in genere non vale la pena della complessità e della manutenzione aggiuntive. Detto questo, a volte le etichette generate da persone possono fornire informazioni aggiuntive non disponibili nelle etichette automatiche.

Indietro

Caratteristiche dei dati (10 min)

Avanti

Set di dati sbilanciati (10 min)