以下问题有助于您巩固对核心机器学习概念的理解。
预测能力
监督式机器学习模型使用包含有标签示例的数据集进行训练。模型会学习如何根据特征预测标签。不过,数据集中并非每个特征都有预测能力。在某些情况下,只有少数特征可用作标签的预测因子。在下面的数据集中,将价格用作标签,其余列用作特征。
您认为哪三项特征最有可能预测汽车的价格?
Make_model、year、miles。
汽车的品牌/型号、年份和行驶里程可能是影响其价格的最有力预测因素。
颜色、高度、品牌型号。
汽车的高度和颜色不能很好地预测汽车的价格。
英里、变速箱、品牌型号。
变速箱不是价格的主要预测因素。
Tire_size、wheel_base、year。
轮胎尺寸和轴距不能很好地预测汽车的价格。
监督式学习和非监督式学习
根据问题,您将使用监督式或非监督式方法。例如,如果您事先知道要预测的值或类别,则可以使用监督学习。但是,如果您想了解数据集是否包含任何相关示例的分段或分组,则需要使用无监督学习。
假设您有一个在线购物网站的用户数据集,其中包含以下列:
如果您想了解访问网站的用户类型,您会使用监督式学习还是非监督式学习?
非监督式学习。
由于我们希望模型对相关客户群进行分组,因此我们将使用非监督式学习。模型对用户进行分组后,我们会为每个分组创建自己的名称,例如“折扣爱好者”“特惠猎手”“浏览者”“忠诚用户”和“流浪者”。
监督学习,因为我尝试预测用户属于哪个类别。
在监督式学习中,数据集必须包含您尝试预测的标签。数据集中没有任何标签可用于指代用户类别。
假设您有一个包含以下列的住宅能耗数据集:
您会使用哪种类型的机器学习来预测新建住宅每年的用电量?
监督式学习。
监督式学习基于有标签的示例进行训练。在此数据集中,“每年用电量(千瓦时)”将是标签,因为这是您希望模型预测的值。特征包括“平方英尺”“位置”和“建造年份”。
非监督式学习。
非监督式学习使用无标签样本。在此示例中,“每年用电量”是标签,因为这是您希望模型预测的值。
假设您有一个包含以下列的航班数据集:
如果您想预测长途汽车票的费用,您会使用回归还是分类?
回归
回归模型的输出是数值。
分类
分类模型的输出是离散值,通常是字词。在本例中,长途汽车票的费用是一个数值。
根据数据集,您能否训练一个分类模型,将长途汽车票的费用分类为“高”“平均”或“低”?
可以,但我们首先需要将
coach_ticket_cost
列中的数值转换为分类值。您可以根据该数据集创建分类模型。
您需要执行以下操作:
- 查找从出发机场到目的地机场的机票平均费用。
- 确定构成“高”“平均”和“低”的阈值。
- 将预测的费用与阈值进行比较,并输出相应值所属的类别。
不可以。无法创建分类模型。
coach_ticket_cost
值为数值,而非分类值。只需稍加努力,您就可以创建分类模型。
不可以。分类模型只能预测两个类别,例如
spam
或 not_spam
。此模型需要预测三个类别。分类模型可以预测多个类别。它们被称为多类别分类模型。
训练和评估
训练模型后,我们会使用包含标签示例的数据集对其进行评估,并将模型的预测值与标签的实际值进行比较。
为相应题目选择两个最佳答案。
如果模型的预测结果与实际情况相差甚远,您可以采取哪些措施来改进预测结果?
重新训练模型,但仅使用您认为对标签具有最强预测力的特征。
使用更少但预测能力更强的特征重新训练模型,可以生成预测效果更好的模型。
您无法修正预测结果相差甚远的模型。
您可以修正预测结果不准确的模型。大多数模型都需要进行多次训练,才能做出有用的预测。
使用更大且更具多样性的数据集重新训练模型。
在包含更多示例和更广泛值的数据集上训练的模型可以产生更好的预测结果,因为该模型针对特征与标签之间的关系具有更好的泛化解决方案。
尝试采用其他训练方法。例如,如果您使用的是监督式方法,请尝试使用非监督式方法。
采用其他训练方法无法获得更好的预测结果。
现在,您可以继续在机器学习之旅中迈出下一步了: