Questo corso ha esaminato molte trappole di dati comuni, dalla qualità dei set di dati alla visualizzazione e all'analisi statistica.
I professionisti di ML dovrebbero chiedersi:
- Qual è il grado di comprensione delle caratteristiche dei miei set di dati e le condizioni in cui sono stati raccolti i dati?
- Quali problemi di qualità o bias sono presenti nei miei dati? I fattori di confusione sono presenti?
- Quali potenziali problemi downstream potrebbero derivare dall'uso di questi di set di dati?
- Durante l'addestramento di un modello che esegue previsioni o classificazioni: il set di dati su cui viene addestrato il modello contiene tutte le variabili pertinenti?
Qualunque siano i risultati, i professionisti di ML dovrebbero sempre esaminare eventuali bias di conferma, quindi confrontate i risultati l'intuizione e il buon senso e analizza i punti in cui i dati sono in conflitto con questi elementi.
Letture aggiuntive
Il Cairo, Alberto. In che modo i grafici mento: informazioni visive in modo più intelligente. Roma: O Norton, 2019.
Uff, Darrell. Come mentire sulle statistiche. NY: W.W. Norton, 1954.
Monmonier, Mark. How to Lie with Maps,3a edizione Chicago: U of Chicago P, 2018.
Jones, Ben. Evitare insidie relative ai dati. Hoboken, NJ: Wiley, 2020.
Wheelan, Carlo. Statistiche nude: elimina i dati dal terrore. Roma: O Norton, 2013