Riepilogo

Questo corso ha illustrato molte trappole comuni per i dati, dalla qualità del set di dati al pensiero, alla visualizzazione e all'analisi statistica.

I professionisti del ML devono chiedersi:

  • Quanto conosco le caratteristiche dei miei set di dati e le condizioni in cui sono stati raccolti?
  • Quali problemi di qualità o bias esistono nei miei dati? Sono presenti fattori di confusione?
  • Quali potenziali problemi a valle potrebbero sorgere dall'utilizzo di questi particolari set di dati?
  • Quando addestri un modello che esegue previsioni o classificazioni, il set di dati su cui viene addestrato il modello contiene tutte le variabili pertinenti?

Qualunque siano i risultati, i professionisti del machine learning devono sempre esaminare se stessi per verificare la presenza di bias di conferma, quindi confrontare i risultati con la propria intuizione e il proprio buon senso e indagare ovunque i dati siano in conflitto con questi.

Letture aggiuntive

Cairo, Alberto. How Charts Lie: Getting Smarter about Visual Information. NY: W.W. Norton, 2019.

Huff, Darrell. Mentire con le statistiche. NY: W.W. Norton, 1954.

Monmonier, Mark. How to Lie with Maps,3a ed. Chicago: U of Chicago P, 2018.

Jones, Ben. Evitare le insidie dei dati. Hoboken, NJ: Wiley, 2020.

Wheelan, Charles. Naked Statistics: Stripping the Dread from the Data. NY: W.W. Norton, 2013