門檻和混淆矩陣

假設您建立用於偵測垃圾郵件的邏輯迴歸模型 就會預測 0 到 1 之間的值 都是垃圾郵件。如果預測值為 0.50,代表電子郵件 若是垃圾郵件,預測結果是 0.75,代表該電子郵件被歸類為垃圾郵件的機率為 75% 依此類推

您想要在電子郵件應用程式中部署這個模型,以便篩選垃圾郵件 另一個郵件資料夾但為瞭解決這個問題,您需要將模型的原始 數字輸出內容 (例如0.75) 分成兩個類別:「垃圾內容」或「not」 垃圾資訊。」

如要達成這項轉換,您必須選擇門檻機率 (稱為 分類門檻: 系統會指派機率高於門檻值的樣本 加入正向類別 要測試的類別 (此處為 spam)。低值範例 機率會指派給負類別 替代類別 (此處為 not spam)。

按這裡進一步瞭解分類門檻

您可能會好奇:如果預測分數等於 分類門檻 (例如分數是 0.5, 分類門檻也是 0.5)?這個案件的處理方式 取決於為分類選擇的特定實作方式 模型例如,Keras 程式庫會預測分數和門檻 但其他工具/架構可能會處理這種情況 有差異。

舉例來說,假設模型的分數為 0.99 分,預測 電子郵件有 99% 的機率會成為垃圾郵件,而其他電子郵件 0.51,這意味著它有 51% 的機率是垃圾郵件。如果將 將分類門檻設為 0.5,模型會將兩封電子郵件視為 垃圾內容。如果將門檻設為 0.95,那麼只有分數為 0.99 的電子郵件才會 可能會歸類為垃圾內容

雖然 0.5 看似直覺的門檻值,但如果 某種類別錯誤的費用大於另一種類別,或 所以類別數量的平衡不平衡如果只有 0.01% 的電子郵件是垃圾郵件,或郵件傳送錯誤 正常電子郵件會比把垃圾郵件放入收件匣裡更糟, 標示模型認為至少有 50% 可能是垃圾資訊的內容 以免產生不想要的結果

混淆矩陣

機率分數不存在事實,或 基準真相。 二元分類器的每個輸出內容有四種可能的結果。 針對垃圾郵件分類器範例,如果您以欄的形式顯示真值 並將模型預測結果視為資料列,名為 混淆矩陣是 結果:

實際為正值 實際負值
預測為陽性 真陽性 (TP):垃圾內容 系統已將該電子郵件正確歸類為垃圾郵件。這些是垃圾郵件 自動傳送到垃圾郵件資料夾 偽陽性 (FP):誤遭歸類為垃圾郵件的非垃圾郵件 垃圾內容。這些是合法的 就會進入垃圾郵件資料夾
預測性陰性 不正確 負數 (FN):系統誤將垃圾郵件歸類為非垃圾郵件。這些是垃圾內容 不屬於 這些東西並進入收件匣。 真陰性 (TN):A 非垃圾郵件正確歸類為非垃圾郵件。 這些是正常傳送的電子郵件 也就是直接進入收件匣

請注意,每列的總數會得到所有預測陽性 (TP + FP) 和 所有預測陰性 (FN + TN) 的值,無論是否有效。每個預測的 欄中,所有實數 (TP + FN) 和實數 (FP + TN)。

當實際正值總數不接近實際總值時 而資料集 不平衡。執行個體 可能是一組數以千計的雲層相片, 您感興趣的稀有雲類型 (例如火山雲) 數次