学习目标
在本单元中,您将学习:
- 调查原始数据集或已处理数据集的潜在问题,包括 收集和质量问题
- 识别偏见、无效推论和合理化。
- 发现数据分析中的常见问题,包括相关性、 相关性和相关性。
- 检查图表中是否存在常见问题、误解和 误导性的显示和设计选择。
机器学习的动机
虽然没有模型架构和其他下游模型工作那么迷人, 数据探索、文档和预处理对于 机器学习系统。机器学习从业者可能会遇到 Nithya Sambasivan 等人名为 数据级联 在 2021 年 ACM 论文中 如果客户不能深入了解:
- 收集其数据的条件
- 数据的质量、特征和限制
- 数据可以显示和不能显示的内容
用不良数据训练模型代价很高, 只有在输出质量不佳时, 数据。同样,如果无法理解数据的局限性, 在收集数据时存在偏差,或者误将相关性判断为因果关系, 则可能导致过度承诺和交付不足,从而可能导致 信任。
本课程详细介绍了机器学习和数据可以发现的常见但微妙的数据陷阱 从业者在工作中可能会遇到的各种问题。