数据集、泛化和过拟合

学习目标

简介

本单元以一个引导性问题开头。请从以下选项中选择一项：

如果您必须优先改进机器学习项目中的以下某个方面，哪个方面的影响最大？

提高数据集的质量

数据胜过一切。数据集的质量和大小比用于构建模型的闪亮算法。

对模型训练应用更巧妙的损失函数

没错，更好的损失函数可以帮助模型更快地训练，但与此列表中的另一项相比，它仍然远远落后。

还有一个更重要的问题：

猜猜看：在您的机器学习项目中，您通常花在数据准备和转换上吗？

超过项目时间的一半

是的，机器学习从业者会花费大部分时间构建数据集和进行特征工程。

不到项目时间的一半

制定更多计划！通常情况下，80% 的时间用于机器学习用于构建数据集和转换数据。

在本单元中，您将详细了解机器学习以及如何准备数据，以确保在来训练和评估模型。