以下问题有助于您巩固对机器学习核心概念的理解。
预测能力
监督式机器学习模型使用包含带标签样本的数据集进行训练。模型会学习如何根据特征预测标签。不过,并非数据集中的每个特征都具有预测能力。在某些情况下,只有少数特征充当 标签的预测因子。在下面的数据集中,使用 price 作为标签 其余列作为特征。
您认为哪三个特征最有可能成为汽车价格的最佳预测因子?
Make_model、year、miles。
汽车的品牌/型号、年份和里程数很可能成为其价格的最强预测因子。
Color、height、make_model。
汽车的高度和颜色不是汽车价格的强预测因子
。
Miles、gearbox、make_model。
变速箱不是价格的主要预测因子。
Tire_size、wheel_base、year。
轮胎尺寸和轴距不是汽车价格的强预测因子。
监督式学习与非监督式学习
根据问题,您将使用监督式方法或非监督式方法。 例如,如果您事先知道要预测的值或类别,则可以使用监督式学习。但是,如果您想了解数据集是否包含任何相关样本的细分或分组,则可以使用非监督式学习。
假设您有一个在线购物网站的用户数据集,其中 包含以下列:
如果您想了解访问该网站的用户类型,
您会使用监督式学习还是非监督式学习?
非监督式学习。
由于我们希望模型对相关客户群体进行聚类,
我们会使用非监督式学习。在模型对用户进行聚类后,
我们会为每个集群创建自己的名称,例如
“折扣寻求者”“优惠猎手”“浏览者”“忠实用户”
和“漫游者”。
监督式学习,因为我尝试预测用户所属的类别
。
在监督式学习中,数据集必须包含您要
预测的标签。在数据集中,没有引用用户类别的标签。
假设您有一个住宅能耗数据集,其中包含以下列:
您会使用哪种机器学习方法来预测新建住宅的年用电量(千瓦时)?
监督式学习。
监督式学习基于带标签的样本进行训练。在此数据集中
“kilowatt hours used per year”将是标签,因为这是您希望模型预测的值。特征将是
“square footage”“location”和“year built”。
非监督式学习。
非监督式学习使用无标签的样本。在此示例中,
“kilowatt hours used per year”将是标签,因为这是您希望模型预测的
值。
假设您有一个航班数据集,其中包含以下列:
如果您想预测机票价格,您会使用
回归还是分类?
回归
回归模型的输出是数值。
分类
分类模型的输出是离散值,
通常是一个字词。在本例中,机票价格是
数值。
根据数据集,您能否训练分类模型
将机票价格分类为
“高”“中”或“低”?
可以,但我们首先需要将
airplane_ticket_cost列中的数值转换为分类值。可以根据数据集创建分类模型。
您可以执行以下操作:
- 查找从出发机场到 目的地机场的平均机票价格。
- 确定构成“高”“中” 和“低”的阈值。
- 将预测价格与阈值进行比较,并输出该 值所属的类别。
不能。无法创建分类模型。
值是数值,而不是分类值。
airplane_ticket_cost稍作处理,您就可以创建分类
模型。
不能。分类模型只能预测两个类别,例如
spam 或 not_spam。此模型需要预测
三个类别。分类模型可以预测多个类别。它们被称为多类别分类模型。
训练和评估
训练模型后,我们会使用包含带 标签样本的数据集对其进行评估,并将模型的预测值与标签的 实际值进行比较。
为问题选择两个最佳答案。
如果模型的预测结果与实际值相差甚远,您可能会采取哪些措施来改进
预测结果?
重新训练模型,但仅使用您认为对标签具有
最强预测能力的特征。
使用较少的特征(但具有更强的
预测能力)重新训练模型,可以生成做出更好
预测的模型。
您无法修复预测结果与实际值相差甚远的模型。
可以修复预测结果与实际值相差甚远的模型。大多数模型
都需要经过多轮训练,才能做出
有用的预测。
使用更大、更多样化的数据集重新训练模型。
基于包含更多样本和更广泛值的数据集训练的模型可以做出更好的预测,因为模型对特征与标签之间的关系具有更好的广义解决方案。
尝试其他训练方法。例如,如果您使用了
监督式方法,请尝试非监督式方法。
不同的训练方法不会产生更好的
预测结果。
现在,您可以开始机器学习之旅的下一步了:
机器学习速成课程。如果您已准备好深入学习机器学习,并采取动手实践的方式。
问题构建。如果您正在寻找 经过实战检验的方法来创建机器学习模型并避免常见误区。
《人 + AI 指南》。如果您正在寻找设计以人为本的 AI 产品的实用指南。