构图:检查您的理解情况

监督式学习

查看以下选项。

假设您想开发一种监督式机器学习模型来预测指定的电子邮件是“垃圾邮件”还是“非垃圾邮件”。下列哪些陈述是正确的?
未标记为“垃圾邮件”或“不是垃圾邮件”的电子邮件是无标签样本。
由于我们的标签由值“垃圾邮件”和“非垃圾邮件”组成,因此任何未标记为垃圾邮件或非垃圾邮件的电子邮件都是无标签样本。
主题标头中的字词会成为良好的标签。
主题标头中的字词可能具有出色的特征,但并不适合用作标签。
我们将使用无标签样本来训练模型。
我们将使用有标签样本来训练模型。然后,我们可以针对无标签样本运行经过训练的模型,以推断无标签的电子邮件是垃圾邮件还是非垃圾邮件。
应用于某些示例的标签可能不可靠。
当然可以。请务必检查数据的可靠性。此数据集的标签可能来自将特定电子邮件标记为垃圾邮件的电子邮件用户。由于大多数用户不会将每封可疑的电子邮件都标记为垃圾邮件,因此我们可能不知道电子邮件是否为垃圾邮件。此外,垃圾内容发布者可能会故意提供错误的标签来误导我们的模型。

功能和标签

查看以下选项。

假设一家在线鞋店希望创建一种监督式机器学习模型,为用户提供个性化的鞋子推荐服务。也就是说,该模型会向小马推荐某些鞋子,而向小杰推荐另外一些鞋子。系统将使用过去的用户行为数据生成训练数据。下列哪些陈述是正确的?
“鞋码”是一项实用功能。
“鞋码”是一种可量化的信号,可能对用户是否会喜欢推荐的鞋子有很大的影响。例如,如果马蒂穿 9 号鞋,则不建议建议尺码 7 的鞋。
“鞋类美妆”是一项实用功能。
良好的特征具体且可量化。美观性太过模糊,无法用作有用的特征。 美观程度可能是某些具体特征(例如样式和颜色)的综合考量。样式和颜色都比美观性更好。
用户点击了鞋子的描述,这是个有用的标签。
用户可能只是想详细了解自己喜欢的鞋子。因此,“点击次数”是一种可观测、可量化的指标,可以用作合适的训练标签。由于我们的训练数据源自既往用户行为,因此我们的标签需要源自与用户偏好密切相关的客观行为。
用户喜欢的鞋子是一种实用的标签。
“喜好”不是可观察且可量化的指标。我们所能做的就是搜索可爱的代理指标。