测试您的掌握情况

以下问题可帮助您巩固对核心机器学习概念的理解。

预测能力

监督式机器学习模型使用带有标签样本的数据集进行训练。模型会学习如何根据特征预测标签。但是,并非数据集中的每个特征都具有预测能力。在某些情况下,只有少数特征充当标签预测器。在下面的数据集中,使用价格作为标签,使用其余列作为特征。

有标签的汽车属性示例。

您认为哪三项特征可能是最能预测车价的?
Make_model、年份、英里。
汽车的品牌/型号、年份和里程可能是影响价格的最重要因素之一。
颜色、高度、make_model。
汽车的高度和颜色并不能很好地预测车价。
英里、变速箱、make_model。
变速箱并不是价格的主要预测因素。
Tire_size、wheel_base、year。
轮胎尺寸和车轮底座并不是准确预测车价的因素。

监督式和非监督式学习

根据具体问题,您将使用监督式方法或非监督式方法。例如,如果您事先知道要预测的值或类别,则应使用监督式学习。但是,如果您想了解数据集是否包含相关样本的任何细分或分组,应使用非监督式学习。

假设您有一个在线购物网站的用户数据集,其中包含以下列:

一行客户属性的图片。

如果您想了解访问网站的用户类型,应该使用监督式学习还是非监督式学习?
非监督式学习。
因为我们希望模型对相关客户组进行聚类,所以应使用非监督式学习。该模型对用户进行聚类后,我们将为每个聚类创建自己的名称,例如“寻求折扣者”“寻找特惠者”“冲浪者”“忠实用户”和“流浪者”。
监督式学习,因为我尝试预测用户属于哪个类别。
在监督式学习中,数据集必须包含您尝试预测的标签。在该数据集中,没有引用用户类别的标签。

假设您有一个住宅能耗数据集,其中包含以下列:

一行住宅属性的图片。

您要使用什么类型的机器学习来预测新建造的房屋每年使用的千瓦时?
监督式学习。
监督式学习是基于有标签样本进行的训练。在此数据集中,“每年使用的千瓦时数”是标签,因为这是您希望模型预测的值。特征是“平方英尺”、“位置”和“建造年份”。
非监督式学习。
非监督式学习使用无标签样本。在此示例中,“每年使用的千瓦时”将作为标签,因为这是您希望模型预测的值。

假设您有一个包含以下列的航班数据集:

一行航班数据的图片。

如果要预测长途客车票的费用,您会使用回归还是分类?
回归
回归模型的输出是数值。
分类
分类模型的输出是离散值,通常为字词。在本示例中,长途客车的费用是一个数值。
根据该数据集,您可以训练一个分类模型,以将车票的费用分类为“高”“平均”或“低”?
可以,但我们首先需要将 coach_ticket_cost 列中的数值转换为分类值。
用户可以利用数据集创建分类模型。 您可以执行如下操作:
  1. 计算从出发机场到目的地机场的机票平均费用。
  2. 确定构成“高”、“平均值”和“低”的阈值。
  3. 将预测费用与阈值进行比较,并输出值所属的类别。
不可以。无法创建分类模型。coach_ticket_cost 值是非分类数字。
稍微调整一下,您就可以创建一个分类模型。
不能。分类模型只能预测两个类别,例如 spamnot_spam。此模型需要预测三个类别。
分类模型可以预测多个类别。它们称为多类别分类模型。

训练和评估

训练模型后,我们会使用包含有标签样本的数据集对其进行评估,并将模型的预测值与标签的实际值进行比较。

请为该问题选择两个最佳答案。

如果模型的预测离得很远,您可以采取什么措施来改进这些模型?
重新训练模型,但仅使用您认为对标签具有最强预测能力的特征。
使用更少的特征重新训练模型,但具有更高的预测能力,可以生成预测性更强的模型。
您无法修正与预测相差很大的模型。
您可以修复预测性偏离的模型。大多数模型都需要经过多轮训练,才能做出有用的预测。
使用更大且更加多样化的数据集重新训练模型。
使用具有更多样本和更广泛值的数据集训练的模型可以产生更好的预测,因为对于特征与标签之间的关系,该模型具有更好的通用解决方案。
尝试其他训练方法。例如,如果您使用监督式方法,可以尝试非监督式方法。
其他训练方法不会产生更好的预测。

现在,您已经准备好在机器学习之旅中迈出下一步:

  • 人 + AI 指南。如果您正在寻找 Google 员工、行业专家和学术研究提供的一组使用机器学习的方法、最佳做法和示例,

  • 问题框架。如果您正在寻找经过实地测试的方法来创建机器学习模型并避免在此过程中的常见误区。

  • 机器学习速成课程。如果您已经准备好通过深度实践方法来详细了解机器学习。