分析陷阱

「所有模型都出錯,但有些模型才有用。」— George Box,1978 年

統計技巧雖然強大,但卻有其限制。瞭解 這些限制有助於研究人員避免看到長頸鹿和不實說法,例如 BF Skinner 的斷言指出,莎士比亞用所有力量並未超過 才能預測(Skinner 的研究是 過低1)。

不確定度和錯誤列

請務必指定分析中的不確定度。兩者同樣重要 量化其他人分析的不確定性可顯示的資料點 繪製趨勢圖表時,如果錯誤長條重疊,可能表示 按照任何模式不確定度也可能太高,無法創造實用價值 特定研究或統計試驗的結論如果研究 需要大量準確率,地理空間資料集的不確定度為 +/- 500 公尺 較容易取得

或者,不確定度或許有助於您做出決策 作業。協助特定水處理資料,產業不確定性為 20% 結果可能會因此被建議導入該水 持續監控計畫以解決該不確定性。

貝葉斯類神經網路 預測不確定性時,可以預測值分佈情形而非單一數值 輕鬆分配獎金

沒有關聯性

如前言所述, 資料和真值人才短缺的機器學習從業人員應確定 資料集與所要求問題有關

Huff 描述了美國白人雜誌的早期公眾意見研究 本片回答一個問題,讓我們知道是黑人能輕易解決這個道德問題有多麼簡單 生活本身與 也對黑人人抱持同理心隨著種族歧視的年輕人 使用者對預期經濟機會的回應內容越來越豐富 抱持樂觀態度這種情形可能被誤解為有進展的跡象。 不過,研究結果可能不顯示真實的 當時黑人美國的經濟機會 可歸納出就業市場現況的結論 問卷作答者的意見。收集的資料 其實與就業市場狀態無關2

您可以使用上述的問卷調查資料訓練模型, 輸出內容實際測量的是「最佳化」,而非「機會」。但因為 「預測」商機與實際商機無關 ( 宣稱模型能預測實際商機 未正確描述模型預測的內容。

意識

「幹擾變數」或「共因數」是變數 並未經過研究 會影響正在研究的變數,且可能會扭曲結果。 舉例來說,假設想使用機器學習模型來預測輸入內容的死亡率 開發國家/地區。假設中位數 年齡並不比較重要再假設有些國家/地區擁有 人口較多的人口藉由忽略年齡中位數的干擾變數 這個模型可能會預測嚴重的死亡率

在美國,種族與社經通常密切相關 類別,但只有種族,而非類別,則會使用死亡資料記錄。 班級相關幹擾,例如醫療照護、營養、危險工作 而且比起種族,更可能影響死亡率 但由於不包含在資料集內,因此不會受到忽略3。 與控制這些幹擾因素對建立實用模型至關重要 得出一個有意義的結論

以現有的死亡資料 (包括種族但不包括種族) 訓練而成 類別,即使類別較為強烈,也可能根據種族預測死亡率 以便預測死亡率這可能會導致系統對 有關病患死亡率的因果關係和預測不正確。機器學習從業人員 應該要詢問他們的資料是否存在錯綜,以及什麼才是有意義的 變數可能會遺失

1985 年,護理師Health Study (健康研究),哈佛的觀察同類群組研究 醫療學校與哈佛公共衛生學院 (Harvard School of Public Health) 合作 服用雌激素取代療法,心臟攻擊的發生率較低 與從未參加會議的同類群組成員相比 雌激素。因此,醫師對雌激素 一直有數十年我一直在研究 2002 年發現長期雌激素療法帶來的健康風險。做法 向月經後女性處處指示雌激素是否停滯,但在引發這個現象前未導致 預估數萬名早產死亡。

出現多次幹擾可能會造成關聯。發現的 Epidemiologists 與沒有荷爾蒙替代療法的女性相比 但他們往往會得到較薄弱、更有教育、更富裕、更意識到自己健康 也比較有可能運動在不同研究中,教育和財富是 進而降低心臟疾病的風險這些影響會形成乾擾 雌激素療法和心臟攻擊的明顯關聯4

負數百分比

避免在顯示負數時使用百分比,5 在所有類型中都不應該使用 有意義的增益可以模糊不清假設 事實上,餐廳業擁有 200 萬個工作機會如果產業敗給了 1 其中 100 萬個工作在 2020 年 3 月底時並未出現淨變革 ,並在 2021 年 2 月初獲得 90 萬個工作機會,逐年成長率 相比之下,2021 年 3 月初的比較是餐廳失業率只有 5%。 如果沒有任何其他異動,2 月底的逐年比較 2022 年則表示,餐廳職缺的增加 90%,與以往截然不同 現實世界

偏好使用實際數字,並視情況標準化。請參閱使用數值 Cata 瞭解詳情。

事後遞補和無法使用的相關性

事後遞補:此為假設,因為事件 A 隨後 事件 B,事件 A 造成事件 B。簡單來說,系統會假設 並不存在「因果關係」關係。簡單來說, 關聯性則無法證明因果關係,

除了明確的因果影響關係外,關聯性也能 出現來源:

  • 純機率 (請參閱 Tyler Vigen 的 錯誤的相關性 。 包括緬因州和哺乳類動物的攝取量)。
  • 兩個變數之間的實際關係,雖然不清楚 變數,以及受影響的變數。
  • 第三個獨立原因會同時影響這兩個變數 關聯變數彼此不相關全球通貨膨脹率, 舉例來說,你可以提高遊艇和舞船的售價6

推斷與現有資料之間的關聯性也可能會有風險。 足夠指出有些雨能夠改善作物,但雨量過多會損害 ;降雨和裁剪結果之間的關係不是線性關係7 (請參閱 以下各節將進一步說明非線性關係)。瓊斯 注意全世界充滿了難以預測的事件 例如戰爭和飢荒,而未來則針對時間序列資料進行預測 的不確定性。8

此外,即使是基於原因和影響的真正相關性,可能也 有助於做出決策舉例來說,假設 以及 1950 年代的結婚與大學教育女性去的 大專院校通常比較少婚,但其實就是 進入大學的女性比較沒有意願開始結婚 如果是這種情況,大學教育並未改變他們可能 。9

如果分析偵測到資料集中兩個變數的關聯性,請提出下列問題:

  • 關聯性的類型包括:因果關係、懷舊、不明 還是由第三個變數造成?
  • 依據資料推斷出的風險有多高?針對資料進行的所有模型預測 不在訓練資料集中 來推斷資料
  • 關聯性能否用於做出有用的決策?例如: 樂觀與薪資增加密切相關,但 分析一些大型文字資料庫 (例如社交媒體) 的情緒分析 特定國家/地區的使用者建立文章時, 該國的工資增加幅度

訓練模型時,機器學習從業人員通常會尋找具有 與標籤密切相關如果功能之間的關係 但標籤不夠理解 ,包括以錯誤相關性和模型為主軸的模型 假設歷來趨勢將來會持續進行 則不需要。

線性偏誤

「線性思維在非線性世界」 Bart de Langhe、Stfano Puntoni 和 Richard Larrick 描述了線性偏誤 人類大腦通常預期和尋求線性關係 有許多現象並非線性現象人類態度與 例如凸顯曲線而不是線條在 2007 年的 Journal of 消費者政策報告:de Langhe et al.Jenny van Doorn 等人 模擬作答者疑慮 環境和作答者例如購買有機產品符合以下條件的使用者可以 環境購買更多有機產品時最擔心的問題 但 其他受訪者的差別

購買有機產品與環境疑慮分數
  顯示多為平坦的線條,最右側則是凸起的凸曲線弧形
V Doorn 等人提供有機購買與環境疑慮的圖表。紙

設計模型或研究時,請考量 關係A/B 測試 可能會遺漏非線性關係,建議您同時測試第三層、中階 條件,C。此外,也請考量 線性關係會持續採線性,或者未來資料是否會 顯示更多對數或其他非線性行為。

針對對數資料顯示一個線性適合第一個
  超過一半的資料,而此後更能顯現出局面。
對對數資料來說,線性適應效果不佳

這個假設範例顯示對對數資料顯示錯誤的線性對齊。 如果只有前幾個資料點可用 就可能兩個 且不正確地假設變數之間存在持續線性關係。

線性插值

檢查資料點之間的任何內插,因為 出現虛構的觀點,實際測量間的間隔可能會 具有有意義的波動。舉例來說,假設 透過線性內插連接四個資料點的示意圖:

一段時間內的坡度,顯示四個以直線相連的點。
線性內插範例。

接著請參考以下資料點的波動範例:資料點 已由線性內插法刪除:

積分與以往相同,但第二點和第三點之間會有巨大的波動。
資料點之間有意義的波動 (地震) 示例

本例是不減的,因為分裂會蒐集連續資料 也不會錯過這次地震但這項功能對於 以及內插值的實際假設 專業執業人員可能會錯過。

跑者的現象

跑者的現象 稱為「多項式 Wiggle」YouTube 的另一個難題 從線性內插與線性偏誤的角度切入。準備多項式時 如果是內插類型的資料,就可以使用高度數的多項式 (以度或順序來說,就是多項式方程式的最高指數)。這個 在邊緣產生奇怪的高度。例如,將 11 度的多項式內插, 多項式方程式具有 \(x^{11}\),包含大概線性資料,結果將產生 而且出現了明顯不佳的 資料範圍:

大致線性
  以第 11 度的多項式內插方式調整的資料,
  在前兩個資料點之間,以及大幅減少趨勢之間升起的幅度
  最後兩個資料點間
多項式假髮範例

在機器學習領域中,類似這樣的現象 過度配適

要偵測的統計資料失敗

有時,統計測試的技術能力不足,因而無法偵測出 微小的影響統計分析數據的力量偏低,表示出現正確機率較低 識別真正的事件 因此更有可能出現偽陰性 Katherine Button 等人。在「自然」中撰寫:「當特定領域中的研究 其功效為 20% 的次方,表示如果有 100 個正版非空值 這些研究預期會發現 只有 20 個。」增加樣本數有時能解決問題 研究設計

機器學習的另一個類似情況 分類和 選擇分類門檻當你選擇較高的門檻後 偽陽性和偽陰性越少,而偽陰性越低 偽陽性和偽陰性越少

除了統計權相關問題之外,因為相關性 目的是偵測線性關係、非線性關聯 可能遺漏變數。同樣地,變數可能與每個 其他卻不具統計意義變數也可以 有著負面關聯,但完全無關 柏森的遊行柏克森的瀑布。是關於柏克森的經典例子 跌倒是指任何風險之間的偽陰性關係 因人而嚴重的疾病或症狀 (例如 而是來自選集程序的 病人須接受醫院入場。

請思考是否有上述任一情況。

過時模型和無效假設

即使是優質模型也會隨著時間的推移而降低,因為行為和全球 可能隨時出現變化。Netflix 的早期預測模型早已功成身退, 他們的客群從熟悉科技產品的年輕使用者變為一般使用者 人口。10

模型也可能含有無聲且不準確的假設,可能持續隱藏起來 直到模型發生災難性故障為止 (例如 2008 年市場當機) 金融產業的價值 (VaR) 模型聲稱,可準確估算 任何交易商投資組合的損失最高金額 (例如 $100,000 美元 (預計 99% 的時間)。但在異常狀況下 當機率的投資組合預期損失上限為 $100,000 美元 有時會遺失 $1,000,000 美元以上。

VaR 模型是以錯誤的假設為依據,包括:

  • 過去的市場變化可預測未來的市場變化。
  • 常態分佈 (為可預測) 才能確定預測結果是否準確
von Mises 分佈與 k=5,類似高斯分佈,而平坦的 k=1 和 k=.2。
von Mises 分佈圖,高 K 的細緻度為低尾,低 K 的脂肪尾。

事實上,基本分佈為脂肪尾、「野蠻」;而碰撞 這意味著 長尾、極端主義具有較高的風險 通常不會超過常態分佈牠們的尾巴性質 實際分佈情形是眾所皆知,但仍未採取行動。哪些地方較不好 答案是又複雜又緊耦合的趨勢,包括 採自動成交量,藉此進行交易11

匯總問題

匯總的資料,包括大部分的客層和流行病學資料 資料,會受到一組特定的陷阱影響。 Simpson's Pardox,或 合併假文件發生於可觀察到趨勢的匯總資料中 因為系統以 以及誤解因果關係。

生態墜落涉及不當推斷 和另一個匯總層級的母體相同,且 著作權聲明可能無效。這道疾病會讓 40% 的農業員工 一個州/省不能同時裝設於 人口。此外,很可能有獨立的農場, 該省「不」差不多的農業城鎮 這種疾病的盛行程度假設那些受影響程度較低的人口 40% 普遍 也可能顯得較為遜色

可修改的單元問題 (MAUP) 是 地理空間資料,由 Stan Openshaw 於 1984 年 CATMOG 38。 視主要區域的形狀和大小而定 地理空間資料從業人員可以建立幾乎所有 資料中變數之間的關係。正在繪圖投票 例如喜愛一方或其他政黨的行政區,就是所謂的《MAUP》。

以上種種情況都涉及在內容中 進行轉換不同的分析層級可能需要 匯總資料,甚至是完全不同的資料集12

請注意,普查、受眾特徵和流行病學資料 而這些可用區 是不是根據現實世界中的有意義的界線決定時間 處理這些類型的資料時,機器學習從業人員應檢查模型 效能和預測結果會因可用區的大小和形狀而有所不同 匯總程度和匯總層級 如果是模型預測的話 受到其中一項匯總問題的影響

參考資料

按鈕,Katharine 等人。「供電失敗:為何小型樣本數量會大幅破壞 神經科學的可靠性。」自然 評論神經科學 vol 14 (2013),365–376。DOI: https://doi.org/10.1038/nrn3475

艾伯多省開羅《How Charts Lie: Get Smarter about Visual Information》(善用圖表:以更聰明的方式呈現視覺資訊)。NY: W.W.Norton,2019。

Davenport、Thomas H.「預測分析入門」《HBR 資料指南》課程 管理員適用的 Analytics 基本概念 (波士頓:HBR Press,2018 年) 81-86。

De Langhe、Bart、Stfano Puntoni 和 Richard Larrick。 「線性思維中的線性思維。」 請參閱「為經理撰寫資料分析基本概念指南」(Boston: HBR Press),2018 年 131-154。

Ellenberg、Jordan。不出錯:數學思考的力量。 NY:Penguin,2014 年。

啊,戴瑞。如何掌握統計資料。NY:W.W.Norton,1954。

Jones、Ben。避免資料陷入困境。Hoboken,NJ:Wiley,2020 年。

Openshaw, Stan《The Modifiable Areal Unit Problem》 CATMOG 38 (英國挪威:Geo 圖書 1984) 37。

The Risks of Financial Modeling: VaR and the Economic Meltdown》(金融模型的風險:VaR 與經濟經濟影響), 第 111 屆國會 (2009 年) (納西姆北歐Taleb 和 Richard Bookstaber)。

Ritter、David。「何時該採取相關性,以及何時不該採取行動。」在 HBR 指南中: 管理員專用的資料分析基本概念 (波士頓:HBR Press 出版,2018 年) 103-109。

Tulchinsky、Theodore H. 和 Elena A.Varavikova。 「第 3 章:評估、監控及評估人口健康」 第 3 代《The New Public Health》聖地牙哥:Academic Press,2014 年,第 91-147 頁。 DOI:https://doi.org/10.1016/B978-0-12-415766-8.00003-3。

Van Doorn、Jenny、Peter C.Verhoef 和 Tammo H.A. Bijmolt。" 態度與行為之間的非線性關係 研究。」 Journal of Consumer Policy 30 (2007 年) 75–90。 DOI:https://doi.org/10.1007/s10603-007-9028-3

圖片參照

根據「Von Mises Distribution」。Rainald62,2018 年。資料來源


  1. Ellenberg 125 

  2. 快點 77-79 吧。Huff 引用了普林斯頓辦公室的公共意見研究室, 他可能會想 1944 年 4 月報告 。 

  3. Tulchinsky 和 Varavikova。 

  4. Gary Taubes 我們真的知道什麼讓健康獲得良好嗎?」 在《The New York Times Magazine》(紐約時報雜誌) 中,2007 年 9 月 16 日。

  5. Ellenberg 78 

  6. 快點 91-92 吧。 

  7. 快點 93, 

  8. Jones 157-167。 

  9. 快點 95, 

  10. Davenport 84 

  11. 查看納西姆《The Risks of Financial Modeling: VaR and the Economic Meltdown》(金融模型的風險:VaR 與經濟經濟影響) 的 Taleb 和 Richard Bookstaber,第 111 屆國會 (2009 年) 11-67。

  12. Caro 155,162。