本课程从数据集质量的各个方面,介绍了许多常见的数据陷阱。 到可视化和统计分析的思维。
机器学习从业者应该问:
- 我对数据集的特征以及 是在什么条件下收集数据的?
- 我的数据存在哪些质量问题或偏见问题?属于混杂因素 展示?
- 如果使用这些特定的 数据集?
- 在训练可进行预测或分类的模型时: 训练模型所用的数据集是否包含所有相关变量?
无论发现什么,机器学习从业者都应始终检查 确认偏差,然后对照自己的数据 直觉和常识,并调查数据存在冲突的地方
附加阅读材料
开罗,阿尔贝托。How Charts Lie: Learner about Visual Information [图表如何谎报]:更智能地获取视觉信息)。纽约: 西Norton,2019 年。
呼哈,达雷尔。如何从统计学说谎。NY:W.W.1954 年,诺顿。
Monmonier、Mark。How to Lie with Google Maps,第 3 版芝加哥:U of Chicago P,2018 年。
Jones、Ben。避免数据误区。新泽西州霍博肯:威利,2020 年。
Wheelan、Charles。裸体统计信息:去除数据中的恐惧。纽约: 西诺顿,2013 年