Dati numerici: scrubbing

I meli producono una miscela di grosse frutti e di piante verme. Eppure, le mele nei supermercati di fascia alta mostrano una frutta perfetta al 100%. Tra un frutteto e la spesa, qualcuno dedica molto tempo alla rimozione quelle cattive o spruzzare un po' di cera su quelle recuperabili. In qualità di ingegnere ML, trascorrerai moltissimo tempo scartare esempi negativi e ripulire quelli recuperabili. Anche poche mele non buone possono rovinare un set di dati di grandi dimensioni.

Molti esempi nei set di dati sono inaffidabili a causa di uno o più dei i seguenti problemi:

Categoria del problema Esempio
Valori omessi Chi riceve un censimento non riesce a registrare l'età di un residente.
Esempi duplicati Un server carica gli stessi log due volte.
Valori delle caratteristiche fuori intervallo. Un essere umano digita accidentalmente una cifra aggiuntiva.
Etichette non valide Una persona addetta alla valutazione errata etichetta l'immagine di una quercia come acero.

Puoi scrivere un programma o uno script per rilevare uno dei seguenti problemi:

  • Valori omessi
  • Esempi duplicati
  • Valori delle caratteristiche fuori intervallo

Ad esempio, il seguente set di dati contiene sei valori ripetuti:

Figura 15. I primi sei valori vengono ripetuti. Gli ultimi otto
            non lo sono.
. Figura 15. I primi sei valori vengono ripetuti.

Come ulteriore esempio, supponiamo che l'intervallo di temperatura di una determinata funzione debba essere compresa tra 10 e 30 gradi inclusi. Ma gli incidenti accadono, forse termometro è temporaneamente esposto al sole, il che causa una cattiva entità. Il programma o lo script deve identificare valori di temperatura inferiori a 10 o superiori più di 30:

Figura 16. Diciannove valori entro l'intervallo e un valore fuori intervallo.
. Figura 16. Un valore fuori intervallo.

Quando le etichette vengono generate da più persone, ti consigliamo di utilizzare determinare se ogni valutatore ha generato set equivalenti di etichette. Forse un valutatore è stato più rigido degli altri oppure ha usato un insieme diverso di criteri di valutazione?

Una volta rilevato, di solito "correggi" esempi che contengono caratteristiche non valide o non valide rimuovendole dal set di dati o assegnandone i valori. Per maggiori dettagli, consulta Caratteristiche dei dati sezione del Set di dati, generalizzazione e overfitting in maggior dettaglio più avanti in questo modulo.