Set di dati: etichette

Questa sezione è incentrata sulle etichette.

Etichette dirette ed etichette proxy

Prendi in considerazione due diversi tipi di etichette:

  • Etichette dirette, che sono etichette identiche alla previsione del modello sta cercando di realizzare. In altre parole, la previsione che il modello sta cercando di fare esattamente come una colonna nel set di dati. Ad esempio, una colonna denominata bicycle owner sarà un'etichetta diretta per una di classificazione binaria che prevede se una persona possiede o meno in bicicletta.
  • Etichette proxy, che sono etichette simili, ma non identica, alla previsione che il modello sta cercando di fare. Ad esempio, un utente che si iscrive alla rivista "Biciclette Bizarre" probabilmente (ma non sicuramente) possiede una bicicletta.

Le etichette dirette sono generalmente migliori delle etichette proxy. Se il tuo set di dati fornisce una possibile etichetta diretta, probabilmente la useresti. Spesso, però, le etichette dirette non sono disponibili.

Le etichette del proxy sono sempre in grado di compromettere: un'approssimazione imperfetta un'etichetta diretta. Tuttavia, alcune etichette proxy sono approssimazioni sufficientemente simili. sia utile. I modelli che utilizzano etichette proxy sono utili solo quanto connessione tra l'etichetta del proxy e la previsione.

Ricorda che ogni etichetta deve essere rappresentata come un numero in virgola mobile. nel vettore di caratteristiche (perché il machine learning è fondamentalmente solo un enorme amalgama di concetti matematici operazioni). A volte, un'etichetta diretta esiste, ma non può essere facilmente rappresentata come un numero in virgola mobile nel vettore di caratteristiche. In questo caso, utilizza un'etichetta proxy.

Allenamento: verifica le tue conoscenze

La tua azienda vuole effettuare le seguenti operazioni:

I coupon per posta ("Permuta la tua vecchia bicicletta a 15% di sconto su una bicicletta nuova") per i proprietari di biciclette.

Il modello deve quindi fare quanto segue:

Prevedi quali persone possiedono una bicicletta.

Purtroppo il set di dati non contiene una colonna denominata bike owner. Tuttavia, il set di dati contiene una colonna denominata recently bought a bicycle.

recently bought a bicycle sarebbe un'etichetta proxy valida o un'etichetta proxy scadente per questo modello?
Etichetta proxy valida
La colonna recently bought a bicycle è una un'etichetta proxy relativamente buona. Dopotutto, la maggior parte delle persone che acquistano biciclette ora possiedono biciclette. Tuttavia, come tutti etichette proxy, anche quelle molto buone, recently bought a bicycle è imperfetta. Dopotutto, la persona che acquista non sempre un elemento è la persona che lo utilizza (o è il proprietario). Ad esempio, a volte le persone acquistano biciclette come regalo.
Etichetta proxy scadente
Come tutte le etichette proxy, recently bought a bicycle è imperfetta (alcune biciclette vengono acquistate come regali e date altri). Tuttavia, recently bought a bicycle è è comunque un indicatore relativamente buono del fatto che qualcuno bicicletta.

Dati generati da esseri umani

Alcuni dati sono generati da persone fisiche, ovvero uno o più esseri umani esaminano e forniscono un valore, solitamente per l'etichetta. Ad esempio: uno o più meteorologi potevano esaminare le immagini del cielo e identificare cloud.

In alternativa, alcuni dati vengono generati automaticamente. cioè il software (possibilmente, un altro modello di machine learning) determina il valore. Ad esempio, un di machine learning potrebbe esaminare le immagini del cielo e identificare automaticamente cloud.

Questa sezione esplora i vantaggi e gli svantaggi dei dati generati dagli esseri umani.

Vantaggi

  • I revisori possono eseguire un'ampia gamma di attività, anche le più sofisticate modelli di machine learning potrebbero trovare difficile.
  • Il processo costringe il proprietario del set di dati a sviluppare criteri coerenti.

Svantaggi

  • In genere paghi ai revisori umani, quindi i dati generati dagli esseri umani possono essere costosi.
  • Sbagliare è umano. Pertanto, più revisori potrebbero dover valutare gli stessi dati.

Rispondi a queste domande per determinare le tue esigenze:

  • Quanto devono essere qualificati i tuoi revisori? Ad esempio, i revisori devono conosci una lingua specifica? Hai bisogno di traduttori per il dialogo o la NLP? applicazioni?)
  • Quanti esempi etichettati ti servono? Quando te ne servono?
  • Qual è il tuo budget?

Controlla sempre i revisori. Ad esempio, 1000 esempi di etichette e vedere come i tuoi risultati corrispondono a quelli di altri revisori che consentono di analizzare i dati e visualizzare i risultati. Se emergono discrepanze, non dare per scontato che le tue valutazioni siano corrette, soprattutto se prevede un giudizio sul valore. Se i revisori hanno introdotto errori, aggiungi delle istruzioni che li aiutino e riprova.