Dimensioni e qualità di un set di dati

"Scarsa, spazzatura"

Le linee guida precedenti si applicano al machine learning. Dopo tutto, il modello è efficace quanto i dati. Ma come puoi misurare e migliorare la qualità del tuo set di dati? Quanti dati ti servono per ottenere risultati utili? Le risposte dipendono dal tipo di problema che stai risolvendo.

Le dimensioni di un set di dati

Come regola generale, il modello dovrebbe addestrare almeno un ordine di grandezza più ampio di esempi rispetto ai parametri addestrabili. I modelli semplici su grandi set di dati in genere battono i modelli fantasiosi su piccoli set di dati. Google ha ottenuto ottimi risultati nell'addestramento di semplici modelli di regressione lineare su grandi set di dati.

Cosa si intende per "molti" dati? Dipende dal progetto. Considera la dimensione relativa di questi set di dati:

Set di dati Dimensioni (numero di esempi)
Set di dati relativi ai fiori di iris 150 (totale impostato)
MoviesLens (il set di dati di 20 milioni) 20.000.263 (set totale)
Risposta rapida Google Gmail 238.000.000 (set di addestramento)
Ngram di Google Libri 468.000.000.000 (set totale)
Google Traduttore bilioni

Come puoi notare, i set di dati sono disponibili in diverse dimensioni.

La qualità di un set di dati

È inutile utilizzare molti dati se si tratta di dati non validi, ma anche di qualità. Cosa si intende per "qualità"? È un termine sfocato. Considera l'adozione di un approccio empirico e la scelta dell'opzione che produce il risultato migliore. Con questo atteggiamento, un set di dati di qualità è lo strumento che ti consente di risolvere il problema aziendale a cui tieni. In altre parole, i dati sono buoni se completa l'attività prevista.

Tuttavia, durante la raccolta dei dati, è utile avere una definizione più concreta della qualità. Alcuni aspetti della qualità tendono a corrispondere a modelli dal rendimento migliore:

  • affidabilità
  • rappresentazione delle caratteristiche
  • ridurre al minimo il disallineamento

Affidabilità

L'affidabilità si riferisce al grado in cui puoi fidare i tuoi dati. Un modello addestrato su un set di dati affidabile ha maggiori probabilità di fornire previsioni utili rispetto a un modello addestrato su dati inaffidabili. Per misurare l'affidabilità, devi determinare:

  • Quanto sono comuni gli errori delle etichette? Ad esempio, se i tuoi dati sono etichettati da persone, a volte possono commettere errori.
  • Le tue funzionalità sono rumorose? Ad esempio, le misurazioni GPS variano. Rumore va bene. Non dovrai mai eliminare definitivamente tutto il set di dati. Puoi anche raccogliere altri esempi.
  • I dati sono filtrati correttamente per risolvere il problema? Ad esempio, il set di dati deve includere query di ricerca provenienti da bot? Se stai creando un sistema di rilevamento dello spam, probabilmente la risposta è sì, ma se stai cercando di migliorare i risultati di ricerca per gli esseri umani, allora no.

Cosa rende i dati inaffidabili? Ricorda dal corso per l'arresto anomalo del machine learning che molti esempi di set di dati non sono affidabili per uno o più dei seguenti motivi:

  • Valori omessi. Ad esempio, una persona ha dimenticato di inserire un valore per l'età di una casa.
  • Esempi duplicati. Ad esempio, un server ha caricato per errore gli stessi log due volte.
  • Etichette errate. Ad esempio, una persona ha etichettato in modo errato l'immagine di una quercia come un acero.
  • Valori della caratteristica non validi. Ad esempio, qualcuno ha digitato una cifra in più o un termometro è stato omesso al sole.

Google Traduttore si è concentrato sull'affidabilità per scegliere il "migliore sottoinsieme" di dati; questo significa che alcuni dati hanno etichette di qualità superiore rispetto ad altre parti.

Rappresentazione delle caratteristiche

Ricorda dal corso di arresto anomalo del machine learning che rappresenta la mappatura dei dati a funzionalità utili. Ti consigliamo di rispondere alle seguenti domande:

La sezione Trasforma i tuoi dati di questo corso sarà incentrata sulla rappresentazione delle funzionalità

Confronto tra addestramento e previsione

Supponiamo che tu ottenere grandi risultati offline. Quindi, nell'esperimento in diretta, i risultati non tratteranno. Cosa potrebbe accadere?

Questo problema suggerisce un disallineamento addestramento/pubblicazione: in altre parole, vengono calcolati risultati diversi per le metriche al momento dell'addestramento e al momento della pubblicazione. Le cause dell'alterazione possono essere lievi, ma avere effetti letali sui risultati. Valuta sempre quali dati sono disponibili per il tuo modello al momento della previsione. Durante l'addestramento, utilizza solo le funzionalità che avrai a disposizione e assicurati che il set di addestramento sia rappresentativo del traffico di pubblicazione.