思考陷阱

人類因人類 (包括 合理化與確認偏誤Alberto Caro 寫道:「Rationalization」 是人類大腦的預設模式1 然後尋找相關資料或證據來支持這項結果。

使用或評估資料和模型時 思考潛在偏見來源例如:

  • 誰負責資助這個模型或研究?市場或商業用途為何 該怎麼辦?
  • 對資料收集作業的人士有哪些獎勵?
  • 可以為訓練模型的研究人員提供什麼獎勵 還是進行研究,包括出版和資歷?
  • 誰提供模型授權或發布研究? 獎勵?

描述性統計資料

平均值 (值除以數量的總和)、中位數 (中間值,而 而 mode (最常出現的值) 通常適用於 瞭解資料集的形狀如果中位數和平均值很遠 而舉例來說,搜尋熱度資料中 設定。

範圍,這是指最高與最低值之間的差異。 和變異數,也就是平均值的平方差異 也會提供關於 資料集的分佈和形狀

使用資料訓練模型之前,請一併詢問資料集是否 不平衡 以及是否應解決這些不平衡之處。

可能不障礙和 p 值

即使發生了足夠時間且可能產生足夠機率, 不可觀察到的事件查看理論 巴爾的摩托育員詐騙 舉例說明

根據科學共識,結果經判定具有統計顯著性 ( 因此可在 p 值小於 .05 時發布)。也就是說 低於相同結果的機率低於 5% 的機率 null 假設,也就是偶然的結果。比較寬鬆 研究人員只能發布 1 成 20 分以下的機率 結果就是隨機性的結果此外,更令人擔憂 大約 20 次實驗後 而且,其他 19 項結果也不會 已發布在 2005 年的論文中 《Why Most Research Findings are False》(為何大多數的研究成果都是錯誤),John Ioannidis 規劃出多項因素,從統計到 這造成了錯誤的結果

舉例來說,因為有強烈的發布動機,研究人員會為了發布內容而感到不悅 0.05 左右的值低於該門檻。其他時間 (已發布的研究) 因此自然會選取非預期的結果 不可複製 (也因此也可能是機率),因此 用於充滿自信的危機 可以用於多個欄位並促成 這些組織專門測試可重現性問題。

在機器學習領域,模型必須符合或 甚至超越其他競爭模式的評估基準是 也會產生類似壓力 可能遭到基準外洩事件減少2

P 值在選擇迴歸模型的特徵選擇時相當實用, ANOVA (變異分析) 是一種統計方法 群組內的變異數,以傳回 每個特徵的 F 統計和 p 值。 選擇重要性最低的功能時,p 值最低 模型必須考慮的特徵數量,且不會降低許多預測值 電源。不但節省運算量,還能避免過多功能的問題 詳細介紹詳情請參閱 scikit-learn 的 特徵選取指南

多重比較問題

在下列情況下,重要性門檻問題特別嚴重: 多項與空值假設比較, 讓應用程式從可以最快做出回應的位置 回應使用者要求這個問題是 FMRI 研究中的一個具體問題。

在單一 fMRI 中 大腦 (體積單位) 有統計顯著程度的獨立測試 「活動」,如果有,系統會醒目顯示這會導致 同時進行 100,000 次獨立顯著性測試。p=.05 統計理論預計大約 5,000 錯誤 出現在單一 FMRI 中3

這個狀況可能是 Bennett 等人,因此最能描述該問題。海報 「Neurals sto of the species of the specment of Atlantic Salmon」(大西洋地區後期鮭魚的跨種族觀點) 贏得 諾貝爾獎 Ig。研究人員展示了 15 張圖片 人類正處於 FMRI 機器上 鮭魚的高度情緒情境 問死鮭魚如何找出圖片中人類的情感 實際體驗。他們找到了具有統計顯著性的集群 一條鮭魚的腦部卵巢並且結論,包含活性骨骼 這件感謝鮭子的事實 確實是引人入勝更重要的是 研究人員正呼籲大眾關注 Google 內部的多個比較問題 FMRI 和類似成像情況,以及對緩解的需求。

一個顯而易見且精細的解決方案 為降低顯著程度的門檻 p 值以前的 權衡取捨是指機密性 (擷取所有真陽性) 與特異性 (識別所有真陰性)。敏感性的討論 (也稱為 真陽率, 可在「分類」模組中找到 機器學習密集課程

另一種緩解方式是控制闔家適用的錯誤率 (FWER), 是至少有一個偽陽性的機率另一個是控管 偽陽性 (FDR) 或誤判的預期比例 或是所有正面回應查看管理和政治的證據 多個比較問題的指南 以及 Lindquist 和 Mejia 的 「眾多比較的禪意與藝術」 。有這種情況 與死鮭魚共事,FDR 和 FWER 控制顯示,沒有任何萬靈鳥 具備統計顯著性

越來越多人利用 FMRI 和其他成像方法的掃描來訓練機器學習模型 兩者都在醫療診斷領域中受歡迎4,以及重建圖像的 來自腦力激盪活動5。如果這些模型在訓練時 這樣能降低 比較問題。不過,在診斷領域 如果 20% 的「活躍」為 20%,系統可能會在新的個別掃描作業時做出不準確的推論Voxels 確實是偽陽性請注意,診斷 FMRI 分類 前者的準確率為 70-85%,

迴歸分析中的變數過多

多重比較問題又延伸至多項迴歸分析。 迴歸分析 線性迴歸 是許多數值預測模型的骨幹 迴歸分析採用兩種方法之一,例如普通的最小平方 為了算出最能說明單一變數影響方式的迴歸係數 另一個例子。研究人員可以透過下列方法,詢問年齡和抽菸對肺癌率有何影響: 在癌症迴歸分析中把各個因數表示為變數 吸菸及禁煙各年齡層的出現率。線性迴歸模型 運作方式大致相同 可解釋的 與其他類型的機器學習模型相比找出迴歸 這些變數的係數會描述與 這些變數和肺癌率

您可能會想在迴歸分析中納入所有可能的變數 不僅如此,「沒有」包含重要因素也可能引發貢獻 可能會被忽視不過,在迴歸分析中加入過多變數 不相關的變數在統計上出現的機率增加 。如果我們在分析中加入十八個較不相關的變數,例如 「已看過的電影」和「飼養狗」則可能是其中一個 不相關的變數,純粹會與相關 肺癌率提高了6

在機器學習領域,類似的情況則是為 因此會產生 過度配適、 來解決其他問題

推論和決策

處理統計資料和機器學習 這些都取自統計資料,可做為做決策的工具 而非回答問題這就是 的位置。Jerzy Neyman 和 Egon Sharpe Pearson7

在這個架構中,資料、統計資料和導數,包括機器學習模型 最適合進行機率預測 發表普遍性的陳述、改進與專注 研究問題及協助做出決策這類影片不適合 做出明確聲明。

David Ritter 的看法是,根據無數企業的相關性決策 計算資料量時應以下列兩個因素為依據:

  • 「相信相關性日後會穩定可靠。」哪一個? 分別是 並準確瞭解產生這些關聯的原因。
  • 執行行為的風險與獎勵8

同樣地,並非所有研究問題都適合 AI。安納斯西亞 Fedyk 針對 AI 適當問題提供兩項條件:

  • 這個問題需要預測,而不是瞭解因果關係。
  • 提供給 AI 的資料含有 ;也就是獨立的問題9

參考資料

Bennett, Craig M.、艾比蓋爾 A.Baird、Michael B.Miller 和 George L.Wolford。 「事後檢討中採用的各異物觀點,在類神經網路之間建立關係 大西洋鮭魚:進行多個比較修正的引數。」Neuroimage (2009)。

艾伯多省開羅《How Charts Lie: Get Smarter about Visual Information》(善用圖表:以更聰明的方式呈現視覺資訊)。NY: W.W.Norton,2019。

Davenport、Thomas H.「預測分析入門」《HBR 資料指南》課程 管理員適用的 Analytics 基本概念 (波士頓:HBR Press,2018 年) 81-86。

Ellenberg、Jordan。不出錯:數學思考的力量。 NY:Penguin,2014 年。

Fedyk、Anastassia。「機器學習能解決您的業務問題嗎?」在 HBR 中 管理員專用的資料分析基本概念指南 (波士頓:HBR Press 出版,2018 年),111-119。

Gallo、Amy。「回顧統計顯著程度的複習。」《HBR 資料指南》課程 管理員適用的 Analytics 基本概念 (波士頓:HBR Press 出版,2018 年) 121-129。

啊,戴瑞。如何掌握統計資料。NY:W.W.Norton,1954。

Ioannidis、John P.A. 「為什麼多數已發布的研究結果都是不正確的。」PLoS Med 2 中,第 2 號8: e124。

Jones、Ben。避免資料陷入困境。Hoboken,NJ:Wiley,2020 年。

Li、Jianxue 和 Peize Zhao。 「FMRI 中的深度學習應用 – a Review Work」 ICBBB 2023 (東京,2023 年 1 月 13 日至 16 日):75 至 80 分。 https://doi.org/10.1145/3586139.3586150

Lindquist、Martin A. 和 Amanda Mejia。 「眾多比較的禪意與藝術。」 心理醫學 77 否。第 2 期 (2015 年 2 月至 3 月):114–125。Doi: 10.1097/PSY.0000000000000148。

Ritter、David。「何時該採取相關性,以及何時不該採取行動。」在 HBR 指南中: 管理員專用的資料分析基本概念 (波士頓:HBR Press 出版,2018 年) 103-109。

太極了、湯和新治西本。 「高解析度影像重建,搭配人類大腦活動的潛在擴散模型。」2023 年 IEEE/CVF 會議將於 電腦視覺與模式辨識 (Vancouver、BC、加拿大,2023 年): 14453-14463。doi:10.1109/CVPR52729.2023.01389。

Charles、Charles。雜訊統計資料:去除資料中的模糊背景NY: W.W.Norton,2013 年

Zhou、Kun、Yutao Zhu、Zhipeng Chen、Wntong Chen、Wayne Xhao、Xu Chen Yankai Lin、J-Rong Wen 和 Jiawei Han。 「別讓 LLM 成為評估基準的難題。」 arXiv:2311.01964 cs.CL


  1. 開羅 182。 

  2. Zhou 等人。

  3. Lindquist 和 Mejia, 

  4. Li 和 Zhao 77-78。 

  5. 太極和西本 

  6. Wheelan 221。 

  7. Ellenberg 159。 

  8. Ritter 104。 

  9. Fedyk 113。