Identificazione di etichette e fonti

Etichette dirette e derivate

Il machine learning è più semplice se le etichette sono ben definite. L'etichetta migliore è un'etichetta diretta di ciò che vuoi prevedere. Ad esempio, se vuoi prevedere se un utente è un fan di Taylor Swift, un'etichetta diretta sarà "L'utente è un fan di Taylor Swift".

Un test più semplice sulla fanfiction potrebbe essere se l'utente ha guardato un video di Taylor Swift su YouTube. L'etichetta "L'utente ha guardato un video di Taylor Swift su YouTube" è un'etichetta derivata perché non misura direttamente ciò che vuoi prevedere. Questa etichetta derivata è un indicatore affidabile che piace all'utente Taylor Swift? Il modello sarà buono quanto la connessione tra l'etichetta derivata e la previsione desiderata.

Origini etichette

L'output del modello potrebbe essere un evento o un attributo. Ciò si traduce nei seguenti due tipi di etichette:

  • Etichetta diretta degli eventi, ad esempio "L'utente ha fatto clic sul risultato di ricerca principale?"
  • Etichetta diretta per gli attributi, come "L'inserzionista spenderà più di X $la prossima settimana?"

Etichette dirette per eventi

Per gli eventi, le etichette dirette sono in genere semplici, perché puoi registrare il comportamento dell'utente durante l'evento per utilizzarlo come etichetta. Quando etichettate gli eventi, dovete porvi le seguenti domande:

  • Come sono strutturati i tuoi log?
  • Cosa si intende per "evento" nei log?

Ad esempio, il sistema registra un utente che fa clic su un risultato di ricerca o quando un utente esegue una ricerca? Se hai log dei clic, tieni presente che non vedrai mai un'impressione senza un clic. Dovrai utilizzare i log in cui gli eventi sono impressioni, quindi devi coprire tutti i casi in cui un utente visualizza un risultato di ricerca in alto.

Etichette dirette per attributi

Supponiamo che la tua etichetta sia "L'inserzionista spenderà più di X € la prossima settimana". Generalmente, utilizzi i dati dei giorni precedenti per prevedere cosa accadrà nei giorni successivi. Ad esempio, la seguente illustrazione mostra i dieci giorni di dati di addestramento che prevedono i sette giorni successivi:

Calendar in cui è evidenziato un blocco di 10 giorni seguito da un blocco di 7 giorni.
Il modello utilizza i dati del blocco di 10 giorni per fare previsioni sul blocco di 7 giorni.

Ricorda la stagionalità o gli effetti ciclici; ad esempio, gli inserzionisti potrebbero spendere di più durante i fine settimana. Per questo motivo, puoi preferire utilizzare una finestra di 14 giorni o utilizzare la data come funzionalità, in modo che il modello possa imparare gli effetti annuali.

Le etichette dirette richiedono log dei comportamenti passati

Nei casi precedenti, abbiamo bisogno di dati sul risultato reale. Che si tratti della spesa dell'inserzionista o degli utenti di cui guardava i video di Taylor Swift, avevamo bisogno di dati storici per utilizzare il machine learning supervisionato. Il machine learning esegue previsioni basate su ciò che è accaduto in passato, quindi se non disponi di log per il passato devi recuperarli.

E se non hai dati da registrare?

Forse il tuo prodotto non esiste ancora, quindi non hai dati da registrare. In questo caso, puoi eseguire una o più delle seguenti azioni:

  • Utilizza un'euristica per il primo lancio, quindi addestra un sistema in base ai dati registrati.
  • Utilizza i log di un problema simile per eseguire il bootstrap del tuo sistema.
  • Utilizza revisori umani per generare dati completando le attività.

Perché utilizzare i dati etichettati da persone fisiche?

L'utilizzo dei dati etichettati da persone fisiche offre vantaggi e svantaggi.

Pro

  • I valutatori umani possono svolgere una vasta gamma di attività.
  • I dati ci impongono di avere una definizione del problema chiara.

Contro

  • I dati sono costosi per alcuni domini.
  • In genere, i dati di buona qualità richiedono più iterazioni.

Miglioramento della qualità

Controlla sempre il lavoro dei revisori. Ad esempio, etichetta tu stesso 1000 esempi e scopri in che modo i tuoi risultati corrispondono ai valutatori. Anche l'etichettatura dei dati è un ottimo esercizio per conoscere i tuoi dati. Se emergono discrepanze, non dare per scontato che le tue valutazioni siano corrette, soprattutto se è coinvolto un giudizio sul valore. Se i revisori umani hanno introdotto errori, valuta la possibilità di aggiungere istruzioni per aiutarli e riprova.

Esaminare i dati manualmente è una buona pratica, indipendentemente da come hai ottenuto i dati. Andrej Karpathy l'ha fatto su ImageNet e ha scritto sull'esperienza.