Dati categorici: problemi comuni

I dati numerici vengono spesso registrati da strumenti scientifici o misurazioni automatiche. I dati categorici, invece, vengono spesso categorizzati da esseri umani o da modelli di machine learning (ML). Chi decide su categorie ed etichette e come prende queste decisioni influisce sull'affidabilità e sull'utilità di questi dati.

Valutatori umani

I dati etichettati manualmente da esseri umani sono spesso definiti etichette di riferimento e sono considerati più auspicabili rispetto ai dati etichettati dalla macchina per l'addestramento dei modelli, a causa della qualità relativamente migliore dei dati.

Ciò non significa necessariamente che qualsiasi insieme di dati etichettati da persone sia di alta qualità. Errori umani, pregiudizi e dolo possono essere introdotti al momento della raccolta dei dati o durante la pulizia e l'elaborazione dei dati. Controlla se sono presenti prima della formazione.

Due persone possono etichettare lo stesso esempio in modo diverso. La differenza tra le decisioni dei revisori umani è chiamata accordo tra i valutatori. Puoi avere un'idea della varianza delle opinioni dei valutatori utilizzando più valutatori per esempio e misurando la concordanza tra valutatori.

Valutatori delle macchine

I dati etichettati automaticamente, in cui le categorie vengono determinate automaticamente da uno o più modelli di classificazione, sono spesso definiti etichette silver. La qualità dei dati etichettati automaticamente può variare notevolmente. Verifica non solo l'accuratezza e i bias, ma anche le violazioni del buon senso, della realtà e dell'intenzione. Ad esempio, se un modello di visione artificiale etichetta erroneamente una foto di un chihuahua come muffin o la foto di un muffin come un chihuahua, i modelli addestrati su questi dati etichettati saranno di qualità inferiore.

Analogamente, un analizzatore del sentiment che assegna un punteggio alle parole neutre pari a -0,25, quando 0,0 è il valore neutro, potrebbe attribuire un punteggio a tutte le parole con un ulteriore bias negativo che non è effettivamente presente nei dati. Un rilevatore di tossicità troppo sensibile potrebbe segnalare erroneamente come tossiche molte affermazioni neutre. Cerca di capire la qualità e i bias delle etichette e delle annotazioni automatiche nei tuoi dati prima di eseguire l'addestramento.

Elevata dimensionalità

I dati categorici tendono a produrre vettori di caratteristiche ad alta dimensione, ovvero vettori di caratteristiche con un numero elevato di elementi. Una dimensionalità elevata aumenta i costi dell'addestramento e complica l'addestramento. Per questi motivi, gli esperti di ML cercano spesso modi per ridurre il numero di dimensioni prima dell'addestramento.

Per i dati in linguaggio naturale, il metodo principale per ridurre la dimensionalità è convertire i vettori delle funzionalità in vettori di embedding. Questo argomento verrà discusso nel modulo Incorporamenti più avanti in questo corso.