Riepilogo

Questo corso ha esaminato molte trappole di dati comuni, dalla qualità dei set di dati alla visualizzazione e all'analisi statistica.

I professionisti di ML dovrebbero chiedersi:

  • Qual è il grado di comprensione delle caratteristiche dei miei set di dati e le condizioni in cui sono stati raccolti i dati?
  • Quali problemi di qualità o bias sono presenti nei miei dati? I fattori di confusione sono presenti?
  • Quali potenziali problemi downstream potrebbero derivare dall'uso di questi di set di dati?
  • Durante l'addestramento di un modello che esegue previsioni o classificazioni: il set di dati su cui viene addestrato il modello contiene tutte le variabili pertinenti?

Qualunque siano i risultati, i professionisti di ML dovrebbero sempre esaminare eventuali bias di conferma, quindi confrontate i risultati l'intuizione e il buon senso e analizza i punti in cui i dati sono in conflitto con questi elementi.

Letture aggiuntive

Il Cairo, Alberto. In che modo i grafici mento: informazioni visive in modo più intelligente. Roma: O Norton, 2019.

Uff, Darrell. Come mentire sulle statistiche. NY: W.W. Norton, 1954.

Monmonier, Mark. How to Lie with Maps,3a edizione Chicago: U of Chicago P, 2018.

Jones, Ben. Evitare insidie relative ai dati. Hoboken, NJ: Wiley, 2020.

Wheelan, Carlo. Statistiche nude: elimina i dati dal terrore. Roma: O Norton, 2013