数据准备和特征工程流程

整个流程是怎样的?

如前所述,本课程重点介绍如何构建数据集和转换数据。

构建数据集包括以下任务:1. 收集原始数据。2. 识别特征和标签来源。3. 选择抽样策略。4. 拆分数据。转换数据包括以下任务:
1. 探索并清理您的数据。2. 执行特征工程。

注意:

  • 下图显示的是一个典型流程,可能并非最适合每个项目。本课程主要适用于线性回归和神经网络。
  • 所显示的流程并非始终按顺序进行。例如,您可以在转换数据之后拆分数据。您可能需要收集更多数据。即使在训练开始后,您也可能需要根据经验了解哪些做法有用,哪些徒劳无功。

需要多长时间?

对于以下问题,请点击所需的箭头以查看您的答案:

猜猜看:在您的机器学习项目中,您通常需要在数据准备和转换上花费多少时间?
超过一半的项目时间
正确:您将大部分时间花在机器学习项目中构建数据集和转换数据。
不到项目时间的一半
计划更多!通常,机器学习项目中 80% 的时间都花在构建数据集和转换数据上。