Questa sezione è incentrata sulle etichette.
Etichette dirette ed etichette proxy
Prendi in considerazione due diversi tipi di etichette:
- Etichette dirette, che sono etichette identiche alla previsione del modello
sta cercando di realizzare. In altre parole, la previsione che il modello sta cercando di fare
esattamente come una colonna nel set di dati.
Ad esempio, una colonna denominata
bicycle owner
sarà un'etichetta diretta per una di classificazione binaria che prevede se una persona possiede o meno in bicicletta. - Etichette proxy, che sono etichette simili, ma non identica, alla previsione che il modello sta cercando di fare. Ad esempio, un utente che si iscrive alla rivista "Biciclette Bizarre" probabilmente (ma non sicuramente) possiede una bicicletta.
Le etichette dirette sono generalmente migliori delle etichette proxy. Se il tuo set di dati fornisce una possibile etichetta diretta, probabilmente la useresti. Spesso, però, le etichette dirette non sono disponibili.
Le etichette del proxy sono sempre in grado di compromettere: un'approssimazione imperfetta un'etichetta diretta. Tuttavia, alcune etichette proxy sono approssimazioni sufficientemente simili. sia utile. I modelli che utilizzano etichette proxy sono utili solo quanto connessione tra l'etichetta del proxy e la previsione.
Ricorda che ogni etichetta deve essere rappresentata come un numero in virgola mobile. nel vettore di caratteristiche (perché il machine learning è fondamentalmente solo un enorme amalgama di concetti matematici operazioni). A volte, un'etichetta diretta esiste, ma non può essere facilmente rappresentata come un numero in virgola mobile nel vettore di caratteristiche. In questo caso, utilizza un'etichetta proxy.
Allenamento: verifica le tue conoscenze
La tua azienda vuole effettuare le seguenti operazioni:
I coupon per posta ("Permuta la tua vecchia bicicletta a 15% di sconto su una bicicletta nuova") per i proprietari di biciclette.
Il modello deve quindi fare quanto segue:
Prevedi quali persone possiedono una bicicletta.
Purtroppo il set di dati non contiene una colonna denominata bike owner
.
Tuttavia, il set di dati contiene una colonna denominata recently bought a bicycle
.
recently bought a bicycle
sarebbe un'etichetta proxy valida
o un'etichetta proxy scadente per questo modello?recently bought a bicycle
è una
un'etichetta proxy relativamente buona. Dopotutto, la maggior parte delle persone
che acquistano biciclette ora possiedono biciclette. Tuttavia, come tutti
etichette proxy, anche quelle molto buone, recently bought a
bicycle
è imperfetta. Dopotutto, la persona che acquista
non sempre un elemento è la persona che lo utilizza (o è il proprietario).
Ad esempio, a volte le persone acquistano biciclette come regalo.recently bought a bicycle
è imperfetta (alcune biciclette vengono acquistate come regali e date
altri). Tuttavia, recently bought a bicycle
è
è comunque un indicatore relativamente buono del fatto che qualcuno
bicicletta.Dati generati da esseri umani
Alcuni dati sono generati da persone fisiche, ovvero uno o più esseri umani esaminano e forniscono un valore, solitamente per l'etichetta. Ad esempio: uno o più meteorologi potevano esaminare le immagini del cielo e identificare cloud.
In alternativa, alcuni dati vengono generati automaticamente. cioè il software (possibilmente, un altro modello di machine learning) determina il valore. Ad esempio, un di machine learning potrebbe esaminare le immagini del cielo e identificare automaticamente cloud.
Questa sezione esplora i vantaggi e gli svantaggi dei dati generati dagli esseri umani.
Vantaggi
- I revisori possono eseguire un'ampia gamma di attività, anche le più sofisticate modelli di machine learning potrebbero trovare difficile.
- Il processo costringe il proprietario del set di dati a sviluppare criteri coerenti.
Svantaggi
- In genere paghi ai revisori umani, quindi i dati generati dagli esseri umani possono essere costosi.
- Sbagliare è umano. Pertanto, più revisori potrebbero dover valutare gli stessi dati.
Rispondi a queste domande per determinare le tue esigenze:
- Quanto devono essere qualificati i tuoi revisori? Ad esempio, i revisori devono conosci una lingua specifica? Hai bisogno di traduttori per il dialogo o la NLP? applicazioni?)
- Quanti esempi etichettati ti servono? Quando te ne servono?
- Qual è il tuo budget?
Controlla sempre i revisori. Ad esempio, 1000 esempi di etichette e vedere come i tuoi risultati corrispondono a quelli di altri revisori che consentono di analizzare i dati e visualizzare i risultati. Se emergono discrepanze, non dare per scontato che le tue valutazioni siano corrette, soprattutto se prevede un giudizio sul valore. Se i revisori hanno introdotto errori, aggiungi delle istruzioni che li aiutino e riprova.
di Gemini Advanced.