采样和拆分:检查您的理解情况

对于以下问题,请点击所需的箭头以查看您的答案:

假设您的一个数据集的正负比为 1:1000。遗憾的是,您的模型始终预测的是大多数类别。哪种技巧最有助于处理这个问题?请注意,您希望模型报告校准后的概率。
对反例进行降采样。
这是一个良好的开端,但您会改变模型的基本速率,因此该模型不会再校准。
对反例(多数类)进行降采样。然后,按相同的系数对降采样的类别进行加权。
这是处理不平衡数据并仍获得标签真实分布的有效方式。请注意,无论模型是否报告校准的概率都很重要。如果无需校准,则无需担心更改基本费率。
哪些方法会从数据集尾部丢失数据?请选择所有适用选项。
个人身份信息过滤
过滤数据中的个人身份信息可能会移除数据结尾中的信息,使分布出现偏差。
加权
样本加权会改变不同样本的重要程度,但不会丢失信息。事实上,为尾巴示例增加权重可以帮助您的模型学习有关尾巴的行为。
降采样
在降采样时,特征分布的尾部将丢失信息。不过,由于我们通常会对大多数类别进行降采样,因此这种损失通常不是什么大问题。
规范化
归一化是针对单个样本进行运算,因此不会导致采样偏差。
您正在处理一个分类问题,并将数据随机拆分为训练集、评估集和测试集。您的分类器看起来运行正常!但在生产环境中,分类器完全失败。您稍后发现问题是由随机拆分引起的。哪些类型的数据容易受到此问题的影响?
时间序列数据
随机拆分会将每个聚类拆分为测试/序列拆分,从而为在生产环境中不可用的模型提供“先睹为快”。
数据不会随时间变化太多
如果您的数据不会随时间变化很大,则采用随机拆分的可能性会更高。例如,您可能想要识别照片中的狗种,或根据生物识别技术的过往数据预测存在心脏缺陷的患者。在这两种情况下,数据通常不会随时间而变化,因此随机拆分应该不会导致出现问题。
数据分组
测试集与训练集总是过于相似,因为相似的数据集位于两组中。该模型的预测能力似乎比实际表现更好。
具有突发性的数据(与连续数据流相比,间歇性突发数据会到达)
类似数据(连拍)的聚类将显示在训练和测试中。与测试新数据相比,该模型将做出更好的预测。