I dati numerici vengono spesso registrati da strumenti scientifici o misurazioni automatiche. I dati categorici, d'altra parte, sono spesso categorizzati da esseri umani o da modelli di machine learning (ML). Chi decide su categorie ed etichette e su come prendono queste decisioni, influisce l'affidabilità e l'utilità dei dati.
Valutatori umani
I dati etichettati manualmente da esseri umani sono spesso definiti etichette auree ed è considerato più desiderabile rispetto ai dati etichettati dal computer per l'addestramento dei modelli, grazie a una qualità dei dati relativamente migliore.
Questo non significa necessariamente che qualsiasi insieme di dati etichettati dall'uomo sia di alto livello qualità. Si possono introdurre errori umani, pregiudizi e dolori della raccolta dei dati o durante la pulizia e l'elaborazione dei dati. Controlla prima dell'addestramento.
Ogni due esseri umani può etichettare lo stesso esempio in modo diverso. La differenza tra classificatori umani di Google Cloud è chiamato inter-valutatore contratto. Puoi avere un'idea della varianza nei parametri opinioni usando più valutatori per esempio e misurazione dell'accordo tra i valutatori.
Valutatori di macchine
Dati etichettati automaticamente, dove le categorie sono determinate automaticamente da uno più modelli di classificazione, sono spesso chiamate etichette d'argento. La qualità dei dati etichettati dalle macchine può variare notevolmente. Controlla non solo l'accuratezza e pregiudizi, ma anche per violazioni del buon senso, della realtà e delle intenzioni. Per Ad esempio, se un modello di visione artificiale etichetta erroneamente una foto di chihuahua come muffin, o la foto di un muffin come un chihuahua, i modelli addestrati con quei dati etichettati di qualità inferiore.
Analogamente, un analizzatore del sentiment che assegna un punteggio alle parole neutre pari a -0,25, quando 0,0 è il valore neutro, potrebbe assegnare un punteggio a tutte le parole con un'ulteriore che non è effettivamente presente nei dati. Un rilevatore di tossicità ipersensibile può segnalare falsamente molte affermazioni neutrali come tossiche. Cerca di farti un'idea la qualità e i bias delle etichette delle macchine e delle annotazioni nei dati prima di addestramento personalizzato.
Elevata dimensionalità
I dati categorici tendono a produrre vettori di caratteristiche ad alta dimensionalità; cioè vettori di caratteristiche con un grande numero di elementi. Una dimensionalità elevata aumenta i costi dell'addestramento e aumenta difficile. Per questi motivi, gli esperti di ML spesso cercano modi per ridurre di dimensioni prima dell'addestramento.
Per i dati in linguaggio naturale, il metodo principale per ridurre la dimensionalità è per convertire i vettori di caratteristiche in vettori di incorporamento. Questo argomento viene discusso nel Modulo Incorporamenti più avanti in questo corso.