Trappole dati

Obiettivi di apprendimento

In questo modulo imparerai a:

  • Analizzare potenziali problemi alla base di set di dati non elaborati o elaborati, tra cui problemi relativi a raccolta e qualità.
  • Identificare bias, inferenze non valide e razionalizzazioni.
  • Individuare i problemi comuni nell'analisi dei dati, tra cui la correlazione, correlazione e irrilevanza.
  • Esaminare un grafico dei problemi comuni, delle percezioni errate e scelte di design e visualizzazione fuorvianti.

Motivazione ML

Sebbene non così glamour come le architetture dei modelli e altri modelli downstream, l'esplorazione, la documentazione e la pre-elaborazione dei dati sono fondamentali nell'ambito del machine learning. I professionisti del ML possono rientrare in ciò che Nithya Sambasivan et al. chiamata cascade di dati nel loro articolo ACM del 2021 se non comprendono appieno:

  • le condizioni in cui i loro dati sono raccolti
  • la qualità, le caratteristiche e i limiti dei dati
  • cosa possono e non possono mostrare i dati

È molto costoso addestrare modelli con dati errati Scoprire solo al punto di output di bassa qualità che c'erano problemi con i dati. Analogamente, un'incapacità di comprendere i limiti dei dati, delle pregiudizi nella raccolta dei dati o errata correlazione tra le può portare a risultati troppo promettenti e insufficienti, che possono portare a perdita di fiducia.

Questo corso illustra le trappole comuni ma sottili che ML e dati che i professionisti potrebbero incontrare nel loro lavoro.