門檻和混淆矩陣

假設您建立用於偵測垃圾郵件的邏輯迴歸模型 就會預測 0 到 1 之間的值 都是垃圾郵件。如果預測值為 0.50,代表電子郵件 若是垃圾郵件,預測結果是 0.75,代表該電子郵件被歸類為垃圾郵件的機率為 75% 依此類推

您想要在電子郵件應用程式中部署這個模型,以便篩選垃圾郵件 另一個郵件資料夾但為瞭解決這個問題,您需要將模型的原始 數字輸出內容 (例如0.75) 分成兩個類別:「垃圾內容」或「not」 垃圾資訊。」

如要達成這項轉換,您必須選擇門檻機率 (稱為 分類門檻: 系統會指派機率高於門檻值的樣本 加入正向類別 要測試的類別 (此處為 spam)。低值範例 機率會指派給負類別 替代類別 (此處為 not spam)。

按這裡進一步瞭解分類門檻

您可能會好奇:如果預測分數等於 分類門檻 (例如分數是 0.5, 分類門檻也是 0.5)?這個案件的處理方式 取決於為分類選擇的特定實作方式 模型例如,Keras 程式庫會預測分數和門檻 但其他工具/架構可能會處理這種情況 有差異。

舉例來說,假設模型的分數為 0.99 分,預測 電子郵件有 99% 的機率會成為垃圾郵件,而其他電子郵件 0.51,這意味著它有 51% 的機率是垃圾郵件。如果將 將分類門檻設為 0.5,模型會將兩封電子郵件視為 垃圾內容。如果將門檻設為 0.95,那麼只有分數為 0.99 的電子郵件才會 可能會歸類為垃圾內容

雖然 0.5 看起來好像直觀的門檻,但如果 某種類別錯誤的費用大於另一種類別,或 所以類別數量的平衡不平衡如果只有 0.01% 的電子郵件是垃圾郵件,或郵件傳送錯誤 正常電子郵件會比把垃圾郵件放入收件匣裡更糟, 標示模型認為至少有 50% 可能是垃圾資訊的內容 以免產生不想要的結果

混淆矩陣

機率分數不存在事實,或 基準真相。 二元分類器的每個輸出內容有四種可能的結果。 針對垃圾郵件分類器範例,如果您以欄的形式顯示真值 並將模型預測結果視為資料列,名為 混淆矩陣是 結果:

實際為正值 實際負值
預測為陽性 真陽性 (TP):垃圾內容 系統已將該電子郵件正確歸類為垃圾郵件。這些是垃圾郵件 自動傳送到垃圾郵件資料夾 偽陽性 (FP):誤遭歸類為垃圾郵件的非垃圾郵件 垃圾內容。這些是合法的 就會進入垃圾郵件資料夾
預測性陰性 不正確 負數 (FN):系統誤將垃圾郵件歸類為非垃圾郵件。這些是垃圾內容 不屬於 這些東西並進入收件匣。 真陰性 (TN):A 非垃圾郵件正確歸類為非垃圾郵件。 這些是正常傳送的電子郵件 也就是直接進入收件匣

請注意,每列的總數會得到所有預測陽性 (TP + FP) 和 所有預測陰性 (FN + TN) 的值,無論是否有效。每個預測的 欄中,所有實數 (TP + FN) 和實數 (FP + TN)。

當實際正值總數不接近實際總值時 而資料集 不平衡。執行個體 可能是一組數以千計的雲層相片, 您感興趣的稀有雲類型 (例如火山雲) 數次

閾值對真陽性和偽陰性的影響

不同門檻值通常會造成「是」和「否」的不同 精確度等於真陽性除以 真陽性與偽陰性的總和下方影片將說明 專案或資料夾

請嘗試自行變更正常值範圍。

這個小工具包含三個玩具資料集:

  • 分隔:通常正面範例和負面示例 且結果差異很大,眾多正向範例的分數都高於 排除範例
  • 不分隔:許多正示例的分數低於 而許多負面範例的分數都比 正面範例。
  • Imbalanced:只包含少量正類別的範例。

隨堂測驗

1. 假設是網路釣魚或惡意軟體分類模型 網路釣魚和惡意軟體網站屬於 1 (true) 類別 無害網站屬於 0 (false) 類別。這個模型 誤將合法網站歸類為惡意軟體。這叫做什麼?
偽陽性
負面範例 (合法網站) 錯誤 被歸類為正面示例 (惡意軟體網站)。
真陽性
真正的正面評價可能是惡意軟體網站 已分類為惡意軟體
偽陰性
偽陰性會導致惡意軟體網站不正確 被歸類為合法網站。
真陰性
真正的負面就是合法網站 被歸類為合法網站。
2. 一般而言,當偽陽性案例出現時 提高分類門檻?怎樣才算是正向的?實驗 。
真陽性和偽陽性都會降低。
隨著門檻提高,模型可能會預測 結果為陽性和偽陽性的百分比垃圾郵件分類器和 如果門檻為 .9999,只有在判定為垃圾郵件時,系統才會將其標示為垃圾郵件 至少有 99.99% 的機率表示 不太可能誤將合法電子郵件標示,但也很可能會遺漏 垃圾郵件。
真陽性和偽陽性都會增加。
請使用上方滑桿將門檻設為 0.1, 然後將圖表拖曳至 0.9偽陽性數量 真陽性?
真陽性增加。偽陽性降低。
請使用上方滑桿將門檻設為 0.1, 然後將圖表拖曳至 0.9偽陽性數量 真陽性?
3. 一般而言,當偽陰性時 提高分類門檻?怎樣呢?實驗 。
真陰性和偽陰性兩者都會增加。
隨著門檻提高,模型可能會預測 整體而言更為陰性 (是 true 和 false)到了極高門檻 大部分電子郵件 (包含垃圾郵件及非垃圾郵件) 都會歸類為非垃圾郵件。
真陰性和偽陰性均可降低。
請使用上方滑桿將門檻設為 0.1, 然後將圖表拖曳至 0.9偽陰性數量會受到什麼影響 和真陰性?
真陰性增加。偽陰性降低。
請使用上方滑桿將門檻設為 0.1, 然後將圖表拖曳至 0.9偽陰性數量會受到什麼影響 和真陰性?