分析陷阱

“所有模型都不正确,但有些模型有用。”— George Box,1978 年

统计技术虽然功能强大,但有其局限性。理解 这些限制可以帮助研究人员避免失真和不准确的声明, BF Skinner 的断言,即莎士比亚使用头韵没有超过 预测的概率。(Skinner 的研究 功能不足1

不确定性和误差线

请务必在分析中指定不确定性。这同样重要 量化他人分析结果的不确定性。显示的数据点 绘制趋势图,但是具有重叠的误差线, 任何模式也可能因为不确定性太高而无法绘制有用的 从特定研究或统计检验中得出结论。如果一项调查研究 需要地段级精确度和不确定性超过/- 500 米的地理空间数据集 因为不确定性太大而无法使用。

或者,不确定性水平在决策过程中可能很有用 过程。支持特定水处理方式的数据(不确定性为 20%) 根据评估结果,你可能会获得对该饮水量的建议。 治疗,同时持续监控计划以解决不确定性。

贝叶斯神经网络 可以通过预测值的分布来量化不确定性,而不是单个 值。

不相关

正如产品简介中所述, 数据和标准答案。精明的机器学习从业者应确定 与要问的问题相关。

Huff 介绍的一项早期公众意见调查发现,美国白人 CANNOT TRANSLATE 与他们所处的环境水平有直接和反转的关系 我深表同情。随着种族激情的增长 与预期经济机会有关的回应越来越多, 乐观态度。这可能曾被误认为是进步的迹象。 然而,这项研究可能无法显示 当时美国黑人可以获得的经济机会, 适合用来对就业市场的现状得出结论,不过 调查受访者的意见。收集的数据 实际上与就业市场状况无关。2

您可以基于上述调查数据训练模型,其中 输出实际上衡量的是“乐观”,而非“机遇”。但由于 预测的优化建议与实际优化建议无关,如果您 将模型预测为实际业务机会, 虚假陈述模型的预测内容。

令人困惑

混杂变量、混杂变量或辅助因子是一个变量 尚未参与的 会影响所研究的变量,可能会使结果扭曲。 例如,假设有一个机器学习模型,该模型会根据输入数据预测死亡率 国家/地区。假设中位数 年龄不是特征。进一步假设某些国家/地区的 人数。通过忽略年龄中位数的混杂变量, 可能会预测错误死亡率。

在美国,种族通常与社会经济状况密切相关 虽然只有种族,而不是阶级,但是死亡率数据会记录下来。 与班级相关的干扰因素,例如医疗保健、营养、危险工作、 和保障住房对死亡率的影响,可能比种族、 但被忽视,因为它们未包含在数据集中。3确定 控制这些干扰因素对于构建有用的模型和 从而得出有意义且准确的结论。

如果模型是基于现有死亡率数据(包括种族但不包括 它可能会根据种族来预测死亡率,即使该类别所占的比例 是死亡率的预测因素。这可能会导致您对 以及对患者死亡率的不准确预测。机器学习从业者 应询问他们的数据中是否存在混淆,以及 变量的数据集中可能缺少某个变量。

1985 年,护士Health Study,哈佛大学的观察性同类群组研究 医学院和哈佛公共卫生学院发现, 采用雌激素替代疗法的心脏病发作率较低 相较于从未参加过考试的同类群组成员, 雌激素。因此,医生们给他们的 对更年期和绝经后患者进行治疗, 2002 年确定了长期雌激素治疗造成的健康风险。做法 绝经后女性处方雌激素的比例停止了, 估计有数万人过早死亡

这种关联可能由多种混杂因素导致。流行病学家发现 与未采用激素替代疗法的女性相比, 往往更瘦、受教育程度更高、更富裕,也更注重自身健康状况, 更有可能锻炼。不同的研究表明,教育和财富 降低心脏病风险。这些影响可能会 雌激素治疗与心脏病发作之间的明显相关性。4

包含负数的百分比

避免在出现负数时使用百分比,5 和其他类型一样 有意义的收益和损失都可以被掩盖。为简单起见,我们假设 餐饮行业有 200 万个工作岗位。如果整个行业输掉 1 个 2020 年 3 月底,500% 的岗位工作量不会达到 100 万人,但十年 2021 年 2 月初就增加了 900,000 个工作岗位,年同比增长 与 2021 年 3 月初相比,餐馆工作岗位只减少了 5%。 假设没有其他变化,2 月底的年同比对比数据 2022 年,餐厅工作岗位增加 90%, 真实的画面

首选实际数字,视情况进行标准化处理。请参见使用数值 Cata

事后谬误和无法使用的相关性

事后谬误是指,由于事件 A 引发了 事件 B,事件 A 导致了事件 B。简单来说,我们假设 因果关系,但这种关系并不存在。更简单: 并不证明因果关系。

除了明确的因果关系,相关性还可以 来源:

  • 纯靠机会(参见 Tyler Vigen 的 虚假相关性 用于说明,其中包括离婚率 缅因州和人造黄油的消费量)。
  • 两个变量之间存在真实关系,但哪个还不清楚 变量是因果关系,找出哪个会受到影响。
  • 虽然 相互关联的变量互不相关。全球通货膨胀 都可能会提高游艇和芹菜的价格。6

推断现有数据之后的相关性也很危险。 Huff 指出,降雨会改善作物,但是降雨过多则会损害 它们;降雨和作物结果之间的关系是非线性的。7(请参阅 后面两部分会详细介绍非线性关系。)更多作品 世界充满了不可预测的事件 (如战争和饥荒),需要对时间序列数据进行未来预测 存在巨大不确定性。8

此外,即使是基于因果关系得出的真实关联, 有助于做出决策。例如,哈夫给出了 20 世纪 50 年代初期的结婚条件和大学教育。参加过以下运动的女性: 大学结婚的可能性较低 上大学的女性结婚的可能性较低。 如果是这样,大学教育并没有改变他们可能性 我们常说的“结婚”目标9

如果分析检测到数据集中两个变量之间的关联,询问以下问题:

  • 关联类型是什么:因果关系、虚假、未知 还是由第三方变量导致的?
  • 根据数据推断的风险有多高?每个模型根据数据进行预测 是插值或 根据数据进行推断。
  • 这种关联有助于做出有用的决策吗?例如: 乐观态度可能与工资增加密切相关,但是 对一些大型文本数据语料库(例如社交媒体)进行情感分析 特定国家/地区用户发布的帖子,那么预测这些 工资增加。

在训练模型时,机器学习从业者通常会寻找 与标签密切相关如果特征之间的关系 并且不能很好地理解该标签, 包括基于虚假相关性的模型和 这种预测假设历史趋势在未来还会继续,但实际上 错误。

线性偏差

“Linear Thinking in a NonLinear World”(《非线性领域的线性思维》), Bart de Langhe、Stefano Puntoni 和 Richard Larrick 将线性偏差描述为 尽管人类大脑倾向于期望和寻找线性关系, 很多现象都是非线性的。人类的态度和 就是凸曲线,而非直线。在 2007 年杂志 《Consumer Policy》一文,由 de Langhe 等人引用,Jenny van Doorn 等。 根据模型估算受访者的关于 以及受访者的购买有机产品。具有 人们对环境最为极端的担忧是购买了更多有机产品, 但 和所有其他回复者差别不大。

有机产品的购买量与环境关注度得分的对比情况,
  显示了大部分是平行的线条,并且最右侧有一条陡峭的向上曲线
经过简化并改编自 van Doorn 等人的有机购买与环保得分图表。纸

在设计模型或研究时,请考虑 关系。因为 A/B Testing 可能会错过非线性关系,请考虑同时测试第三个、中间 条件,C.此外,还要考虑应用呈现的初始行为 还是继续为线性, 还是未来数据 显示更多对数或其他非线性行为。

对数数据的线性拟合,显示适合第一个
  一半的数据,之后则愈发糟糕。
与对数数据线性拟合不良的示例

该假设示例展示了对数数据的线性拟合错误。 如果只有前几个数据点可用,那么这两点都很有诱惑力 正确答案是假设变量之间存在持续的线性关系。

线性插值

检查数据点之间的所有插值,因为插值 引入的点是虚构的,而真实测量之间的间隔可能 包含有意义的波动以下面的代码为例 直观呈现了通过线性插值连接的四个数据点:

显示 4 个点连成一条直线的一段时间内的振幅。
线性插值示例。

然后,假设当前数据点的数据点之间出现波动, 用线性插值擦除:

分数和以前一样,但第二分和第三分之间会有巨大波动。
数据点之间有意义的波动(地震)的示例。

该示例是人为制作的,因为地震仪会收集连续数据, 你一定不会错过这次地震的但它对于说明 通过插值法假设的假设, 的从业者可能会错过。

龙格奇现象

Runge 的现象, 叫做“多项式摆动”,问题所在。 线性插值和线性偏差的频谱。拟合多项式时 对数据进行插值处理时,可能会使用多项式 (次数或阶数,为多项式方程中的最高指数)。这个 在边缘产生奇怪的振荡。例如,将 11 次方程的多项式插值,表示 多项式方程为 \(x^{11}\)到大致线性的数据,可得出以下结果: 模型在训练的开始和结束时 数据范围:

粗略线性
  对 11 度多项式插值进行拟合的数据,
  在前两个数据点之间出现一个向上的峰值,而出现一个急剧下降的峰值
  最后两个数据点之间
多项式摆动的示例

在机器学习环境中,类似的现象是 过拟合

要检测的统计故障

有时,统计测试的功效太过不足,以致无法检测到 影响很小。统计分析功效较低意味着正确概率较低 识别真实事件,因此出现假负例的可能性较高。 Katherine Button 等。《自然》报告中写道:“当某个领域的研究 假设有一个 20% 的幂,这意味着如果有 100 个真正的非空, 影响,但这些研究应该会发现 其中只有 20 个。”提高样本规模有时可能会有所帮助, 研究设计。

机器学习中的类似情况是 分类和 选择分类阈值。选择较高的阈值会导致 假正例和假负例越少,阈值越低 假正例和假负例更少。

除了统计能力问题之外,由于相关性 用于检测数据之间的线性关系、 变量。同样,变量也可以与每个 其他但不具有统计相关性。变量还可以 负相关但完全无关,称为 伯克森自律伯克森谬误。伯克森 即任何风险和质量之间的虚假负相关关系 和严重疾病等因素进行分析的医院住院患者人数(如 这涉及到选择过程(例如, 病情严重到需要住院治疗)。

请考虑是否存在以下任何情况。

过时的模型和无效的假设

即使是好的模型也可能会随着时间的推移而降级,因为行为(乃至整个世界, 可能会发生变化。Netflix 的早期预测模型被迫停止, 他们的客户群从年轻、精通技术的用户转变为普通用户 10

模型还可能包含可能保持隐藏状态且未提及、不准确的假设 直到模型出现灾难性故障,例如 2008 年的市场崩溃。通过 金融行业的风险价值 (VaR) 模型,声称可以精确估算 任何交易者投资组合的最大亏损,例如, $100,000 的预期收入在 99% 的时间内都是 10 万美元。但在异常环境下 预期最大亏损 $100,000 的投资组合 有时会丢失 $1,000,000 或更多。

VaR 模型基于错误的假设,包括:

  • 过去的市场变化是对未来市场变化的预测。
  • 正态(细尾,因此可预测)分布 为预测回报率提供基础。
。 <ph type="x-smartling-placeholder">
</ph> von Mises 分布 k=5,类似于高斯分布,而 k=1 和 k=0.2 则较为扁平。
von Mises 分布图,高 K 时呈细尾,低 K 处为脂尾。

事实上,底层分布是胖尾的,即“狂野”,或分形, 这意味着出现长尾、极端情况的风险要高得多, 比正态分布预测的更罕见事件数量。 真实分布是众所周知的,但并未采取措施。哪些方面做得不太好 各种现象的复杂程度和紧密耦合程度是众所周知, 使用自动出售机制进行基于计算机的交易。11

汇总问题

经过汇总的数据,包括大部分受众特征和流行病学特征 数据可能会受到一组特定陷阱。 辛普森矛盾,或 合并矛盾是指在汇总数据中表现出明显趋势 会消失或反向排序, 混淆因素和误解因果关系。

生态谬误涉及对生态学说 从一种汇总级别复制到另一个汇总级别的总和,其中 声明可能无效。一种影响 40% 的农业劳动者的疾病 一个省在两个大洲之间可能没有相同的普遍性 人口。而且很有可能存在孤立的农场或 该省份内经历过类似风险的农业城镇 这种疾病的流行率。假设受影响较小的群体的发生率为 40% 也是有谬误的。

可修改的面单元问题 (MAUP) 是一个常见的问题, Stan Openshaw 在 1984 年描述的 CATMOG 38。 根据用于放置广告的区域的形状和大小, 地理空间数据从业者几乎可以确定任何 数据中变量之间的关系。绘图投票 偏向于某一方的选区就是 MAUP。

所有这些情况都涉及从某个 汇总到另一个汇总级别。不同级别的分析可能需要不同的 甚至完全不同的数据集。12

请注意,人口普查、人口统计学和流行病学数据 出于隐私保护方面的原因,按区域汇总,并且这些区域通常 任意更改,也就是说,它不基于有意义的现实边界。时间 机器学习从业者应检查模型是否 性能和预测会随区域的大小和形状而变化 选择或聚合级别,如果是,则模型预测 会受上述某一汇总问题的影响。

参考

Button、Katharine 等。“电源故障:为什么样本规模较小会影响 神经科学可靠性。”自然 Review Neuroscience 第 14 卷(2013 年),365–376。DOI: https://doi.org/10.1038/nrn3475

开罗,阿尔贝托。How Charts Lie: Learner about Visual Information [图表如何谎报]:更智能地获取视觉信息)。纽约: 西Norton,2019 年。

Davenport、Thomas H.“预测分析入门”。在 HBR 数据指南中 Analytics Basics for Managers(波士顿:HBR Press,2018 年)81-86。

De Langhe、Bart、Stefano Puntoni 和 Richard Larrick。 “The Linear Thinking in a NonLinear World”(非线性世界中的线性思维), HBR 指南:面向经理的数据分析基础知识(波士顿:HBR Press,2018 年) 131-154 页)。

约旦 Ellenberg。错误原因:数学思维的力量。 纽约:企鹅,2014 年。

呼哈,达雷尔。如何从统计学说谎。NY:W.W.1954 年,诺顿。

Jones、Ben。避免数据误区。新泽西州霍博肯:威利,2020 年。

Openshaw、Stan。《The Modifiable Areal Unit Problem》 CATMOG 38 (英国诺里奇:《Geo Books 1984》)37.

The Risks of Financial Modeling: VaR and the Economic Meltdown(财务建模的风险:虚拟风险和经济崩溃), 第 111 届国会(2009 年)(Nassim N.Taleb 和 Richard Bookstaber)。

Ritter、David。“何时根据关联性采取行动,何时不采取行动。”在 HBR 指南 Data Analytics Basics for Managers(波士顿:HBR Press,2018 年)103-109。

Tulchinsky、Theodore H. 和 Elena A.瓦拉维科娃。 “第 3 章:衡量、监控和评估群体的健康状况” The New Public Health(新公共卫生),第 3 版圣地亚哥:学术出版社,2014 年,第 91-147 页。 DOI:https://doi.org/10.1016/B978-0-12-415766-8.00003-3。

Van Doorn、Jenny、Peter C.Verhoef 和 Tammo H.A. Bijmolt。“Google Cloud 的 政策中态度与行为之间的非线性关系 研究。” Journal of Consumer Policy(消费者政策杂志)30 (2007) 75–90。 DOI:https://doi.org/10.1007/s10603-007-9028-3

图片参考

基于“Von Mises Distribution”。Rainald62,2018 年。来源


  1. Ellenberg 125。 

  2. 呼气 77-79。Huff 引用了普林斯顿大学公共观点研究办公室的资料,但 他可能在考虑 1944 年 4 月报告 (由丹佛大学国家观点研究中心提供)。 

  3. 图尔钦斯基和瓦拉维科娃。 

  4. Gary Taubes, 我们真的知道哪些东西让我们很健康吗?” 《纽约时报》杂志,2007 年 9 月 16 日。 

  5. Ellenberg 78。 

  6. 呼气 91-92。 

  7. 呼气 93。 

  8. 琼斯 157-167 年。 

  9. 呼气 95。 

  10. Davenport 84。 

  11. 听听纳西姆·Taleb 和 Richard Bookstaber 发表的 The Risks of Financial Modeling: VaR and the Economic Meltdown(《金融模型的风险:风险和经济崩溃》),第 111 届国会 (2009) 11-67。 

  12. 开罗 155、162。