以下问题可帮助您巩固对核心机器学习概念的理解。
预测能力
监督式机器学习模型使用带有标签样本的数据集进行训练。模型会学习如何根据特征预测标签。但是,并非数据集中的每个特征都具有预测能力。在某些情况下,只有少数特征充当标签的预测器。在下面的数据集中,使用价格作为标签,使用剩余列作为特征。
您认为哪三项特征可能是最能预测车价的?
Make_model、年份、英里。
汽车的品牌/型号、年份和里程可能是影响其价格的最重要因素之一。
颜色、高度、make_model。
汽车的高度和颜色并不能准确预测车价。
英里、变速箱、make_model。
变速箱不是价格的主要预测因素。
Tire_size、wheel_base、year。
轮胎尺寸和车轮座并不能很好地预测车价。
监督式和非监督式学习
根据问题,您将使用监督式方法或非监督式方法。 例如,如果您事先知道要预测的值或类别,则可以使用监督式学习。但是,如果您想了解数据集是否包含相关样本的任何细分或分组,则可以使用非监督式学习。
假设您有一个在线购物网站的用户数据集,其中包含以下列:
如果您想了解访问该网站的用户类型,会使用监督式学习还是非监督式学习?
非监督式学习。
因为我们希望模型对相关客户组进行聚类,所以应使用非监督式学习。在该模型将用户划分到聚类之后,我们将为每个组创建自己的名称,例如“寻求折扣者”“特惠者”“冲浪者”“忠实”和“流浪者”。
监督式学习,因为我想要预测用户属于哪个课程。
在监督式学习中,数据集必须包含您尝试预测的标签。数据集中没有表示用户类别的标签。
假设您有一个住宅能耗数据集,其中包含以下各列:
您将使用哪种类型的机器学习技术来预测新建造的房屋每年使用的千瓦时?
监督式学习。
基于有标签样本的监督式学习训练。在此数据集中,“每年使用的千瓦时”是标签,因为这是您希望模型预测的值。特征可以是“平方英尺”、“地点”和“建造年份”。
非监督式学习。
非监督式学习使用无标签样本。在此示例中,“每年使用的千瓦时”是标签,因为这是您希望模型预测的值。
假设您有一个包含以下列的广告投放数据集:
如果您想预测车票的费用,您是否会使用回归或分类?
回归
回归模型的输出是数值。
分类
分类模型的输出是一个离散值,通常是单词。在此示例中,车票的费用是一个数值。
根据该数据集,您能否训练一个分类模型,将车票的费用归类为“高”“中”或“低”?
可以,但我们首先需要将
coach_ticket_cost
列中的数值转换为分类值。您可以根据数据集创建分类模型。
您可以执行如下操作:
- 计算从出发机场到目的地机场的机票平均费用。
- 确定构成“高”“平均”和“低”的阈值。
- 将预测费用与阈值进行比较,并输出该值所属的类别。
不可以。您无法创建分类模型。
coach_ticket_cost
值是非分类数值。稍加练习,您就可以创建一个分类模型。
不会。分类模型只能预测两种类别,例如
spam
或 not_spam
。此模型需要预测三个类别。分类模型可以预测多个类别。称为多类别分类模型。
训练和评估
训练模型后,我们使用包含有标签样本的数据集对其进行评估,并将模型的预测值与标签的实际值进行比较。
请为此问题选择两个最佳答案。
如果模型的预测离得很远,您会如何改善预测结果?
重新训练模型,但仅使用您认为对标签预测能力最强的特征。
使用更少的特征重新训练模型,但具有更强的预测能力,可以生成预测性更佳的模型。
您无法修正预测离得很远的模型。
您可以修复预测有误的模型。大多数模型都需要进行多轮训练,才能做出有用的预测。
使用更大且更加多样化的数据集重新训练模型。
使用具有更多示例和更广泛值的数据集训练的模型可以产生更好的预测,因为对于特征与标签之间的关系,模型具有更好的泛化解决方案。
尝试其他训练方法。例如,如果您使用监督式方法,则可以尝试非监督式方法。
不同的训练方法不会产生更好的预测。
您现在已准备好在机器学习之旅中迈出下一步: