陷阱

人类因具有人类性而存在认知偏差,包括 合理化和确认偏差。Alberto Cairo 写道,“合理化 是人脑的默认模式。”1很多时候,人们期望或想要的是 然后寻找可支持该结果的数据或证据。

在使用或评估数据和模型时,这些数据和模型可能来自许多 不同来源,询问潜在的偏见来源。例如:

  • 此模型或研究的资助者是谁?市场情况或商业性质 该怎么办?
  • 对于收集数据的人员,有哪些激励措施?
  • 训练模型的研究人员有哪些激励措施 (包括发布和资历)?
  • 谁为模型获取许可或发布研究,以及他们 激励?

描述性统计信息

Mean(值的总和除以计数)、median(当 值有序),而 mode(最常见的值)在 了解某个人数据集的形状。如果中位数和平均值相差很大, 例如,可能出现相当极端和非对称的值, 。

范围,即最高值和最低值之间的差值, 和方差,即均方差 还可以提供有关 或数据集的扩散和形状。

在用数据训练模型之前,还要询问数据集 不平衡 以及如果是,是否应解决这种不平衡问题。

概率和 p 值

在足够长的时间和足够概率下, 变得极有可能发生。请参阅 巴尔的摩股票经纪人诈骗 一个可能的示例。

根据科学共识,结果被视为具有统计显著性(并且 因此可发布)。这意味着 同一结果或多个极端情况出现的几率不到 5% 虚无假设,也就是碰到意外结果的情况。更通俗地说 研究人员只有 1/20 的概率或更少的情况下才能发布 它们的结果是随机结果。而更令人担忧的是 大约每 20 个实验中会有一次,那么虚构的结果似乎是 但并不具有显著的统计意义,其他 19 条搜索结果则 发布。在 2005 年的一篇论文中, “为什么大多数研究结果是错误的”,John Ioannidis 列出了从统计到 财务,导致虚假结果的发布。

例如,由于发布内容的强劲激励因素,研究人员有时会操纵 0.05 左右的 p 值,使之低于该阈值。其他时间,发布的研究 而这些自然结果会自然而然地选择意料之外和不寻常的结果, 无法复制(这也有可能是由偶然因素促成的结果), 信任危机 多个字段。这还导致了 致力于测试可再现性的组织。

在机器学习领域,只有满足或 超出了大多数其他竞争模型的评估基准。时间是 模型评估分数也会引发类似的压力, 可能被基准泄露人为提升。2

P 值在回归模型的特征选择中很有用。 ANOVA (方差分析)是一种统计方法, 以及组间的方差,并返回 每项特征的 F 统计和 p 值。 选择 p 值最低的最重要的特征可以减少 模型必须考虑的特征数量, 电源。这样既节省了计算资源,又避免了特征过多 稍后会讨论的。查看 scikit-s 如需了解详情,请参阅功能选择指南

多重比较问题

重要性阈值问题在以下情形中尤为严重: 在同一时间进行与虚无假设的多次比较 。这是 fMRI 研究的一个特殊问题。

在 fMRI 中,每个体素 (体积单位)经过独立测试,结果具有统计显著性 活动,如果是,则会突出显示。这就引出了 一次进行 10 万项独立显著性检验。在 p=0.05 时 统计理论预测的假显著性阈值约为 5,000 一次 fMRI 中出现的阳性结果。3

2009 年,Bennett 等人海报, “大西洋鲑鱼事后分析的 Neural correlates of in 种群观点”," 它赢得了 Ig 诺贝尔奖。研究人员展示了这些星球的 15 张照片 情绪非常高的人类在 fMRI 机器中被一只死的鲑鱼 让死亡的鲑鱼确定照片中的人类是什么情绪 人类正经历的一面。他们找到了一个具有统计显著性的集群 三文鱼脑腔中活跃的体素,并最终确定,脸颊上的舌头, 死亡的鲑鱼确实在进行透视。更重要的是, 研究人员注意到,多元比较问题 fMRI 和类似的成像情况,以及需要采取缓解措施。

一个明显的粗略解决方案 降低指示显著性意义的阈值 p 值。固有的 在敏感度(捕获所有真正例)和特异性之间进行权衡 (识别所有真负例)。敏感性讨论,也称为 真正例率分类模块 机器学习速成课程。

另一种缓解措施是控制家庭错误率 (FWER), 至少出现一个假正例的概率。另一个是控制 假发现率 (FDR),即假正例的预期比例 所有正类别。参阅《治理和政治证据》 多重比较问题指南 以及 Lindquist 和 Mejia 的 “禅宗和多重比较的艺术” 了解这些方法的说明和一些演示。在这种情况下 与死鲑鱼相比,控制 FDR 和 FWER 的结果表明没有体素, 具有统计显著性。

基于 fMRI 和其他成像方法的扫描数据来训练机器学习模型的趋势越来越多 在医学诊断领域4和图像重建领域都很受欢迎 大脑活动的影响。5如果这些模型是基于足够大的 数据集,这种查询可能可以降低多个数据集出现问题的可能性, 比较问题。然而,特别是在诊断领域, 如果 20% 的“活跃”客户体素 就是假正例。请注意,fMRI 诊断分类 Li 和 Zhao 介绍的这些模型的准确率约为 70-85%。

回归分析中的变量过多

多重比较问题涉及多回归分析。 回归分析, 线性回归模型, 是许多数值预测模型的基础。 回归分析使用多种方法之一,例如,普通最小二乘法、 找到最能准确描述某个变量如何影响 另一个。研究人员可以通过 在癌症回归分析中将每个因素表示为变量 不同年龄段的吸烟者和不吸烟者的比率。线性回归模型 工作原理大致相同,因此 可解释 机器学习模型。查找回归 这些变量的系数将描述它们之间的线性关系 这些变量和肺癌的发病率。

人们往往倾向于在回归分析中包含所有可能的变量, 不仅因为包含关键因素可能导致这一贡献 被忽视。然而,向回归分析中添加的变量过多 增加了从统计学角度来看不相关的变量出现的几率 非常重要。如果再添加十八个不相关的变量, “已观看的电影”以及“养狗”等那么这些方法中 完全由偶然因素引发的不相关变量看起来 肺癌发生率。6

在机器学习环境中,类似的情况是为 这可能会导致 过拟合, 以及其他问题

推理和决策

要避开其中一些思维陷阱,一种方法是对待统计和机器学习 源自统计学的模型,可用作做出决策的工具, 而不是回答问题。这是 职位。7

在这个框架中,数据、数据统计信息和衍生内容(包括机器学习模型) 最适合进行概率预测, 反对普遍言论、改进和聚焦 研究问题,并协助做出决策。不适合 也很有成就感。

根据 David Ritter 的说法,决策是基于规模庞大的 数据量应基于以下两个因素:

  • “对未来可靠地再次出现的相关性的信心,”哪个 均应基于相关性在 并准确了解导致这种相关性的原因。
  • 采取行动的风险和回报。8

同样,并非所有研究问题都非常适合 AI。阿纳斯塔西娅 Fedyk 为适合 AI 的问题提供了两个标准:

  • 这个问题需要预测,而不是了解因果关系。
  • 提供给 AI 的数据包含关于 AI 问题;也就是说,问题是独立的。9

参考

Bennett、Craig M.、阿比盖尔·A·Baird、Michael B.Miller 和 George L.Wolford。 “Neural correlates of interspecies 柔度观点在事后分析中体现 Atlantic Salmon:一个参数用于更正多重比较”。Neuroimage (2009)。

开罗,阿尔贝托。How Charts Lie: Learner about Visual Information [图表如何谎报]:更智能地获取视觉信息)。纽约: 西Norton,2019 年。

Davenport、Thomas H.“预测分析入门”。在 HBR 数据指南中 Analytics Basics for Managers(波士顿:HBR Press,2018 年)81-86。

约旦 Ellenberg。错误原因:数学思维的力量。 纽约:企鹅,2014 年。

Fedyk、Anastassia。“机器学习能否解决您的业务问题?”在 HBR 中 Guide to Data Analytics Basics for Managers(波士顿:HBR Press,2018 年)111-119。

加洛、艾米。“统计重要性回顾。”在 HBR 数据指南中 Analytics Basics for Managers(波士顿:HBR Press,2018 年)121-129。

呼哈,达雷尔。如何从统计学说谎。NY:W.W.1954 年,诺顿。

Ioannidis、John P.A. “为什么发布的研究发现是错误的。”。 在 PLoS Med 第 2 号中,8:e124。

Jones、Ben。避免数据误区。新泽西州霍博肯:威利,2020 年。

Li、Jiangxue 和 Peize Zhao。 “深度学习在 fMRI 中的应用 - 回顾工作” ICBBB 2023(日本东京,2023 年 1 月 13 日至 16 日):75-80。 https://doi.org/10.1145/3586139.3586150

Lindquist、Martin A. 和 Amanda Mejia。 “禅宗和多重比较的艺术” 身心医学 77 第2(2015 年 2 月至 3 月):114–125。doi: 10.1097/PSY.0000000000000148。

Ritter、David。“何时根据关联性采取行动,何时不采取行动。”在 HBR 指南 Data Analytics Basics for Managers(波士顿:HBR Press,2018 年)103-109。

Tagaki、Yu 和 Shinji Nishimoto。 “利用基于人类大脑活动的潜在扩散模型进行高分辨率图像重建。”2023 年 IEEE/CVF 大会 计算机视觉和模式识别(不列颠哥伦比亚省温哥华,加拿大,2023 年): 14453-14463。doi:10.1109/CVPR52729.2023.01389。

Wheelan、Charles。裸体统计信息:去除数据中的恐惧。纽约: 西诺顿,2013 年

Zhou、Kun、Yutao Zhu、Zhipeng Chen、Wentong Chen、Wayne Xin Zhao、Xu Chen Yankai Lin、Ji-Rong Wen 和 Jiawei Han。 “不要让您的 LLM 成为评估基准欺诈者。” arXiv:2311.01964 cs.CL


  1. 开罗 182。 

  2. Zhou 等。

  3. Lindquist 和 Mejia。 

  4. Li 和 Zhao 77-78 岁。 

  5. Tagaki 和 Nishimoto。 

  6. Wheelan 221。 

  7. Ellenberg 159。 

  8. Ritter 104。 

  9. Fedyk 113。