此页面由 Cloud Translation API 翻译。 公平性:测试您的知识 返回到课程 判断正误:使用旧数据训练模型时会出现历史偏差。 True False 工程师们正在训练一个回归模型,以根据从全球食谱网站获取的各种特征数据(包括食用份量、原料和制备技术)预测餐点的卡路里含量。以下哪些数据问题是潜在的偏见来源,应该进一步调查? 选择合适的多项回答。 在 40,000 个训练样本中,大约 4,000 个缺少特征“服务大小”的值。 大约 5,000 个训练样本的测量单位为英制单位(盎司、磅等),而其他 35,000 个样本的测量值以公制单位(克、升等)表示。 在 4 万个训练样本中,大约 100 个的成分值似乎很有可能不正确(例如,100 块黄油)。 相对于其他热门餐点,在训练数据中一些热门餐点的代表性不足(例如,多萨有 200 个训练样本,但披萨只有 10 个)。 我们基于 80,000 条短信训练了讽刺检测模型,其中包括 40,000 条由成年人(年满 18 周岁)发送的短信以及 40,000 条由未成年人(未满 18 周岁)发送的信息。然后,针对包含 20,000 条短信的测试集评估该模型:10,000 条来自成人,10,000 条来自未成年人。以下混淆矩阵显示了每个组的结果(正向预测表示分类为“嘲讽”;负预测表示分类为“非讽刺”): 成人 真正例 (TP):512 假正例 (FP):51 假负例 (FN):36 真负例 (TN):9401 精确率 = TP/(TP + FP) = 0.909 召回率 = TP/(TP + FN) = 0.934 未成年人 真正例 (TP):2147 假正例 (FP):96 假负例 (FN):2177 真负例 (TN):5580 精确率 = TP/(TP + FP) = 0.957 召回率 = TP/(TP + FN) = 0.497 以下关于模型的测试集性能的表述中哪些是正确的? 选择合适的多项回答。 该模型在处理成年人的样本时的表现要比在未成年人身上时更好的。 成年人发送的 10,000 条短信为分类不平衡的数据集。 未成年人发送的 10,000 条短信为分类不平衡的数据集。 未成年人发送的消息中有大约 50% 被错误地归类为“嘲讽内容”。 该模型未能将大约 50% 的未成年人的嘲讽信息归类为“嘲讽内容”。 以下哪项假设可以解释上述讽刺检测模型在测试集上的子群体表现差异? 选择合适的多项回答。 模型在预测“嘲讽内容”方面存在太多错误。因此,在对未成年人进行归类时,因为测试集中还有更多来自未成年人的嘲讽短信。 该模型的评估依据是未成年人的负面(非嘲讽)示例(而非成年人),导致未成年人出错的次数更多。 未成年人短信中的讽刺更为细微,因此不太可能被模型标记。 实际来自成人的嘲讽信息要远远少于未成年人。如果模型针对分类均衡的成人短信集进行评估,那么该子群组的召回率可能会下降。 工程师们正努力重新训练上面的讽刺模型,以解决不同年龄段的讽刺检测准确性方面的不一致,但该模型已投入生产。以下哪项权宜之计有助于减少模型预测中的错误? 仅将该模型用于未成年人发送的短信。 调整模型输出,使其针对未成年人发送的所有短信返回“嘲讽内容”,而不管模型最初的预测结果是什么。 当模型预测未成年人发送的短信为“非嘲讽内容”时,调整输出,使模型改为返回“不确定”值。 提交回答 error_outline 系统对测验进行评分时出现错误。请重试。