Dati categorici: problemi comuni

I dati numerici vengono spesso registrati da strumenti scientifici o misurazioni automatiche. I dati categorici, invece, vengono spesso categorizzati da esseri umani o da modelli di machine learning (ML). Chi decide su categorie ed etichette e come prende queste decisioni influisce sull'affidabilità e sull'utilità di questi dati.

Valutatori umani

I dati etichettati manualmente da esseri umani sono spesso definiti etichette di riferimento e sono considerati più auspicabili rispetto ai dati etichettati dalla macchina per l'addestramento dei modelli, a causa della qualità relativamente migliore dei dati.

Ciò non significa necessariamente che qualsiasi insieme di dati etichettati da persone sia di alta qualità. Errori umani, pregiudizi e dolo possono essere introdotti al momento della raccolta dei dati o durante la pulizia e l'elaborazione dei dati. Controlla se sono presenti prima della formazione.

Due persone possono etichettare lo stesso esempio in modo diverso. La differenza tra le decisioni dei revisori umani è chiamata accordo tra i valutatori. Puoi avere un'idea della varianza delle opinioni dei valutatori utilizzando più valutatori per esempio e misurando la concordanza tra valutatori.

Fai clic per scoprire di più sulle metriche di accordo tra valutatori

Di seguito sono riportati alcuni modi per misurare l'accordo tra valutatori:

Kappa di Cohen e varianti
Correlazione intraclasse (ICC)
Alpha di Krippendorff

Per maggiori dettagli sul coefficiente kappa di Cohen e sulla correlazione intraclasse, consulta Hallgren 2012. Per informazioni dettagliate sull'alpha di Krippendorff, consulta Krippendorff 2011.

Valutatori delle macchine

I dati etichettati automaticamente, in cui le categorie vengono determinate automaticamente da uno o più modelli di classificazione, sono spesso definiti etichette silver. La qualità dei dati etichettati automaticamente può variare notevolmente. Verifica non solo l'accuratezza e i bias, ma anche le violazioni del buon senso, della realtà e dell'intenzione. Ad esempio, se un modello di visione artificiale etichetta erroneamente una foto di un chihuahua come muffin o la foto di un muffin come un chihuahua, i modelli addestrati su questi dati etichettati saranno di qualità inferiore.

Analogamente, un analizzatore del sentiment che assegna un punteggio alle parole neutre pari a -0,25, quando 0,0 è il valore neutro, potrebbe attribuire un punteggio a tutte le parole con un ulteriore bias negativo che non è effettivamente presente nei dati. Un rilevatore di tossicità troppo sensibile potrebbe segnalare erroneamente come tossiche molte affermazioni neutre. Cerca di capire la qualità e i bias delle etichette e delle annotazioni automatiche nei tuoi dati prima di eseguire l'addestramento.

Elevata dimensionalità

I dati categorici tendono a produrre vettori di caratteristiche ad alta dimensione, ovvero vettori di caratteristiche con un numero elevato di elementi. Una dimensionalità elevata aumenta i costi dell'addestramento e complica l'addestramento. Per questi motivi, gli esperti di ML cercano spesso modi per ridurre il numero di dimensioni prima dell'addestramento.

Per i dati in linguaggio naturale, il metodo principale per ridurre la dimensionalità è convertire i vettori delle funzionalità in vettori di embedding. Questo argomento verrà discusso nel modulo Incorporamenti più avanti in questo corso.

Indietro

Vocabolario e codifica one-hot (10 min)

Avanti

Incroci di caratteristiche (5 min)

Dati categorici: problemi comuni Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

Valutatori umani

Valutatori delle macchine

Elevata dimensionalità

Dati categorici: problemi comuni