数据集、泛化和过拟合

简介

本单元首先提供一个问题。 请选择以下某个答案:

如果您必须优先改进以下某个方面 会带来最多的 影响?
提高数据集的质量
数据胜过一切。 数据集的质量和大小比 用于构建模型的闪亮算法。
应用更智能的损失函数来训练模型
事实上,更好的损失函数有助于加快模型的训练速度, 它与此列表中的另一项只有一秒之遥。

还有一个更重要的问题:

猜猜看:在您的机器学习项目中, 您通常花在数据准备和转换上吗?
超过一半的项目时间
是的,机器学习从业者将大部分时间都花在了 构建数据集和进行特征工程。
不到项目时间的一半
制定更多计划!通常情况下,80% 的时间用于机器学习 用于构建数据集和转换数据。

在本单元中,您将详细了解机器学习 以及如何准备数据,以确保在 来训练和评估模型。