I meli producono una miscela di grosse frutti e di piante verme. Eppure, le mele nei supermercati di fascia alta mostrano una frutta perfetta al 100%. Tra un frutteto e la spesa, qualcuno dedica molto tempo alla rimozione quelle cattive o spruzzare un po' di cera su quelle recuperabili. In qualità di ingegnere ML, trascorrerai moltissimo tempo scartare esempi negativi e ripulire quelli recuperabili. Anche poche mele non buone possono rovinare un set di dati di grandi dimensioni.
Molti esempi nei set di dati sono inaffidabili a causa di uno o più dei i seguenti problemi:
Categoria del problema | Esempio |
---|---|
Valori omessi | Chi riceve un censimento non riesce a registrare l'età di un residente. |
Esempi duplicati | Un server carica gli stessi log due volte. |
Valori delle caratteristiche fuori intervallo. | Un essere umano digita accidentalmente una cifra aggiuntiva. |
Etichette non valide | Una persona addetta alla valutazione errata etichetta l'immagine di una quercia come acero. |
Puoi scrivere un programma o uno script per rilevare uno dei seguenti problemi:
- Valori omessi
- Esempi duplicati
- Valori delle caratteristiche fuori intervallo
Ad esempio, il seguente set di dati contiene sei valori ripetuti:
Come ulteriore esempio, supponiamo che l'intervallo di temperatura di una determinata funzione debba essere compresa tra 10 e 30 gradi inclusi. Ma gli incidenti accadono, forse termometro è temporaneamente esposto al sole, il che causa una cattiva entità. Il programma o lo script deve identificare valori di temperatura inferiori a 10 o superiori più di 30:
Quando le etichette vengono generate da più persone, ti consigliamo di utilizzare determinare se ogni valutatore ha generato set equivalenti di etichette. Forse un valutatore è stato più rigido degli altri oppure ha usato un insieme diverso di criteri di valutazione?
Una volta rilevato, di solito "correggi" esempi che contengono caratteristiche non valide o non valide rimuovendole dal set di dati o assegnandone i valori. Per maggiori dettagli, consulta Caratteristiche dei dati sezione del Set di dati, generalizzazione e overfitting in maggior dettaglio più avanti in questo modulo.