公平性:测试您的知识

  1. 判断正误:使用旧数据训练模型时会出现历史偏差。

  2. 工程师们正在训练一个回归模型,以根据从全球食谱网站获取的各种特征数据(包括食用份量、原料和制备技术)预测餐点的卡路里含量。以下哪些数据问题是潜在的偏见来源,应该进一步调查?

    选择合适的多项回答。

  3. 我们基于 80,000 条短信训练了讽刺检测模型,其中包括 40,000 条由成年人(年满 18 周岁)发送的短信以及 40,000 条由未成年人(未满 18 周岁)发送的信息。然后,针对包含 20,000 条短信的测试集评估该模型:10,000 条来自成人,10,000 条来自未成年人。以下混淆矩阵显示了每个组的结果(正向预测表示分类为“嘲讽”;负预测表示分类为“非讽刺”):

    成人

    真正例 (TP):512 假正例 (FP):51
    假负例 (FN):36 真负例 (TN):9401
    精确率 = TP/(TP + FP) = 0.909
    召回率 = TP/(TP + FN) = 0.934

    未成年人

    真正例 (TP):2147 假正例 (FP):96
    假负例 (FN):2177 真负例 (TN):5580
    精确率 = TP/(TP + FP) = 0.957
    召回率 = TP/(TP + FN) = 0.497

    以下关于模型的测试集性能的表述中哪些是正确的?

    选择合适的多项回答。

  4. 以下哪项假设可以解释上述讽刺检测模型在测试集上的子群体表现差异?

    选择合适的多项回答。

  5. 工程师们正努力重新训练上面的讽刺模型,以解决不同年龄段的讽刺检测准确性方面的不一致,但该模型已投入生产。以下哪项权宜之计有助于减少模型预测中的错误?