转换数据:检查您的理解情况

对于以下问题,请点击所需的箭头以查看您的答案:

您在为回归模型对数据进行预处理。哪些转换是强制性的?请选择所有适用选项。
将所有非数值特征转换为数值特征。
正确。这是一项强制性转换。您不能对字符串进行某种数字表示,因为不能对字符串进行矩阵乘法。
对数值数据进行归一化。
对数值数据进行标准化可能会有所帮助,但这是一项可选的质量转换。

 

请参考下表。一开始,哪种数据转换技术可能最高效?为什么?假设您的目标是在 roomPerPerson 和房价之间建立线性关系。
Z 评分
如果离群值不是极端,Z-score 是一个不错的选择。 但离群值极端。
夹扣
在这里使用剪辑是一个不错的选择,因为数据集包含极端离群值。您应该先应用极端离群值,然后再应用其他标准化。
日志扩缩
如果您的数据符合幂律分布,则最好使用日志扩缩。不过,这些数据遵循正态分布,而不是幂律分布。
分位数边界的分桶(分箱)
分位数分桶对于偏差数据而言是很好的方法,但在这种情况下,这种偏差在一定程度上是由于一些极端离群值造成的。此外,您希望模型学习线性关系。因此,您应该将 roomPerPerson 保留为数字,而不是将其转换为类别,而这正是分桶的作用。请尝试改用标准化方法。

显示不同 RoomsPerPerson 的相对频率的图表,其中 RoomsPerPerson 是住宅的房间数除以住宅中的人数。大多数数据在 0 到 5 之间分布,并有一个从 5 到 55 的碎片点。

 

请参考下表。一开始,哪种数据转换技术可能最高效?为什么?
Z 评分
如果离群值不是极端,以至于您需要剪辑,Z-score 是一个不错的选择。实际情况并非如此。数据倾斜的方式应该是一个提示。
夹扣
如果存在极端离群值,裁剪是一个不错的选择。不过,这个图表显示的是幂等法的分布,还有另一种标准化方法更适合解决此问题。
日志扩缩
对数缩放是这里的理想选择,因为数据符合电力定律分布。
分位数边界的分桶(分箱)
分位数分桶是应对数据偏差的好方法。不过,您需要的是寻找学习线性关系的模型。因此,您应将数据保留为数字,并避免将其放入存储分区中。请尝试改用标准化方法。

一张条形图,条形高度集中在低端。第一个条形图的振幅为 1200,第二个条形图的振幅为 460,第三个条形图的振幅为 300。在第 15 柱形,振幅下降到大约 30。又有一个 90 条长的长尾,长尾的幅度绝不会超过 10 条。

 

请参考下表。线性模型能否很好地预测压缩比和 city-mpg 之间的关系?如果不能,您会如何转换数据以更好地训练模型?
是的,该模型可能会发现线性关系并做出相当准确的预测。
虽然该模型能够找到线性关系,但模型无法做出非常准确的预测。您可以尝试在数据建模练习中训练此数据集,以更好地了解原因。
不会。模型在缩放后可能会更准确。
您可以应用线性缩放,但压缩比和 city-mpg 之间的关系的斜率看起来不会变。对您更有帮助的是看到两个单独的斜率 - 一个用于低压缩比下的点聚类,另一个用于较高的压缩比。
不会。出现了两种不同的行为。在中间设置阈值并使用分桶功能可能有助于您更好地了解这两个方面发生的情况。
正确。明确设置边界的原因和方式非常重要。在数据建模练习中,您将详细了解此方法如何帮助您创建更好的模型。

显示 %p 的公路发电机相对于压缩比的散点图。两个不同的数据块(一个比另一个数据块大得多)会显示在压缩比轴的两端。更大的凝胶覆盖在压缩比范围 7-12 上;较小的凝块覆盖在压缩比范围 21-23 上。公路整体在较大隆起处通常略低一些。

 

一个同伴团队将告诉您他们在机器学习项目中取得的进展。他们计算了词汇并离线训练模型。但是,他们希望避免过时问题,因此他们打算在线训练其他模型。接下来会发生什么?
收到新数据时,该模型将保持最新状态。另一个团队需要持续监控输入数据。
虽然避免模型过时是动态训练的主要优势,但将词表与离线训练的模型搭配使用会导致出现问题。
他们可能会发现自己所使用的索引与词汇不对应。
正确。警告您的同事可能存在训练/应用偏差的风险,然后建议他们学习 Google 的机器学习数据准备和特征工程课程以了解详情。