Obiettivi di apprendimento
In questo modulo imparerai a:
- Analizzare potenziali problemi alla base di set di dati non elaborati o elaborati, tra cui problemi relativi a raccolta e qualità.
- Identificare bias, inferenze non valide e razionalizzazioni.
- Individuare i problemi comuni nell'analisi dei dati, tra cui la correlazione, correlazione e irrilevanza.
- Esaminare un grafico dei problemi comuni, delle percezioni errate e scelte di design e visualizzazione fuorvianti.
Motivazione ML
Sebbene non così glamour come le architetture dei modelli e altri modelli downstream, l'esplorazione, la documentazione e la pre-elaborazione dei dati sono fondamentali nell'ambito del machine learning. I professionisti del ML possono rientrare in ciò che Nithya Sambasivan et al. chiamata cascade di dati nel loro articolo ACM del 2021 se non comprendono appieno:
- le condizioni in cui i loro dati sono raccolti
- la qualità, le caratteristiche e i limiti dei dati
- cosa possono e non possono mostrare i dati
È molto costoso addestrare modelli con dati errati Scoprire solo al punto di output di bassa qualità che c'erano problemi con i dati. Analogamente, un'incapacità di comprendere i limiti dei dati, delle pregiudizi nella raccolta dei dati o errata correlazione tra le può portare a risultati troppo promettenti e insufficienti, che possono portare a perdita di fiducia.
Questo corso illustra le trappole comuni ma sottili che ML e dati che i professionisti potrebbero incontrare nel loro lavoro.