机器学习从业者需要花更多的时间来评估、清理和转换数据 而不是构建模型。 数据非常重要,因此在本课程中,我们用三个完整的单元来讨论该主题:
- 使用数值数据(此单位)
- 使用分类数据
- 数据集、泛化和过拟合
本单元着重介绍 数值数据、 表示整数或浮点值 其行为方式与数字类似的函数。也就是说,它们是可累加的、可数的、有序的, 依此类推。下一个单元将重点介绍 分类数据, 其中包含类似于类别的数字。第三单元重点介绍如何 准备数据,确保在训练和评估时获得高质量结果 模型。
数值数据的示例包括:
- 温度
- 重量
- 自然保护区的鹿数量
相比之下,美国的邮政编码虽然 五位或九位数字,不要表现得像数字,也不代表 数学关系。邮政编码 40004(位于肯塔基州纳尔逊县)是 而不是华盛顿特区邮政编码 20002 数量的两倍。这些数字 代表类别(具体而言是地理区域),并被视为 分类数据。