摘要

本课程从数据集质量的各个方面,介绍了许多常见的数据陷阱。 到可视化和统计分析的思维。

机器学习从业者应该问:

  • 我对数据集的特征以及 是在什么条件下收集数据的?
  • 我的数据存在哪些质量问题或偏见问题?属于混杂因素 展示?
  • 如果使用这些特定的 数据集?
  • 在训练可进行预测或分类的模型时: 训练模型所用的数据集是否包含所有相关变量?

无论发现什么,机器学习从业者都应始终检查 确认偏差,然后对照自己的数据 直觉和常识,并调查数据存在冲突的地方

附加阅读材料

开罗,阿尔贝托。How Charts Lie: Learner about Visual Information [图表如何谎报]:更智能地获取视觉信息)。纽约: 西Norton,2019 年。

呼哈,达雷尔。如何从统计学说谎。NY:W.W.1954 年,诺顿。

Monmonier、Mark。How to Lie with Google Maps,第 3 版芝加哥:U of Chicago P,2018 年。

Jones、Ben。避免数据误区。新泽西州霍博肯:威利,2020 年。

Wheelan、Charles。裸体统计信息:去除数据中的恐惧。纽约: 西诺顿,2013 年