本课程介绍了许多常见的数据陷阱,从数据集质量到思维、可视化和统计分析。
机器学习从业者应问:
- 我对数据集的特征以及收集相应数据时的条件了解程度如何?
- 我的数据中存在哪些质量或偏差问题?是否存在混杂因素?
- 使用这些特定数据集可能会导致哪些潜在的下游问题?
- 在训练用于进行预测或分类的模型时,模型所训练的数据集是否包含所有相关变量?
无论发现如何,机器学习从业者都应始终检查自己是否存在确认偏差,然后根据直觉和常识检查自己的发现,并在数据与这些直觉和常识相冲突时进行调查。
附加阅读材料
开罗,阿尔贝托。How Charts Lie: Getting Smarter about Visual Information(图表如何撒谎:更智能地了解视觉信息)。纽约:W.W. Norton,2019 年。
Huff, Darrell. How to Lie with Statistics(如何用统计数据撒谎)。纽约:W.W. Norton,1954 年。
Monmonier, Mark. How to Lie with Maps,第 3 版。芝加哥:芝加哥大学出版社,2018 年。
Jones, Ben. 避免数据陷阱。Hoboken, NJ: Wiley, 2020.
Wheelan, Charles. Naked Statistics: Stripping the Dread from the Data. 纽约:W.W. Norton,2013 年