摘要
本课程从数据集质量的各个方面,介绍了许多常见的数据陷阱。
到可视化和统计分析的思维。
机器学习从业者应该问:
- 我对数据集的特征以及
是在什么条件下收集数据的?
- 我的数据存在哪些质量问题或偏见问题?属于混杂因素
展示?
- 如果使用这些特定的
数据集?
- 在训练可进行预测或分类的模型时:
训练模型所用的数据集是否包含所有相关变量?
无论发现什么,机器学习从业者都应始终检查
确认偏差,然后对照自己的数据
直觉和常识,并调查数据存在冲突的地方
附加阅读材料
开罗,阿尔贝托。How Charts Lie: Learner about Visual Information [图表如何谎报]:更智能地获取视觉信息)。纽约:
西Norton,2019 年。
呼哈,达雷尔。如何从统计学说谎。NY:W.W.1954 年,诺顿。
Monmonier、Mark。How to Lie with Google Maps,第 3 版芝加哥:U of Chicago P,2018 年。
Jones、Ben。避免数据误区。新泽西州霍博肯:威利,2020 年。
Wheelan、Charles。裸体统计信息:去除数据中的恐惧。纽约:
西诺顿,2013 年
如未另行说明,那么本页面中的内容已根据知识共享署名 4.0 许可获得了许可,并且代码示例已根据 Apache 2.0 许可获得了许可。有关详情,请参阅 Google 开发者网站政策。Java 是 Oracle 和/或其关联公司的注册商标。
最后更新时间 (UTC):2024-07-26。
[null,null,["最后更新时间 (UTC):2024-07-26。"],[[["This course explores common data traps encountered in machine learning, encompassing dataset quality, thinking processes, visualization, and statistical analysis."],["Machine learning practitioners must critically assess their datasets, identifying potential biases, confounding factors, and downstream issues arising from data usage."],["Thoroughly understanding data characteristics and collection conditions is crucial for mitigating data pitfalls and ensuring robust machine learning models."],["Confirmation bias should be actively addressed, and data findings should be validated against intuition and common sense, prompting further investigation where discrepancies exist."],["Further insights into data analysis and interpretation can be gained from the listed additional reading materials covering topics like chart interpretation, statistical manipulation, and map-based data representation."]]],[]]