假設您建立用於偵測垃圾郵件的邏輯迴歸模型 就會預測 0 到 1 之間的值 都是垃圾郵件。如果預測值為 0.50,代表電子郵件 若是垃圾郵件,預測結果是 0.75,代表該電子郵件被歸類為垃圾郵件的機率為 75% 依此類推
您想要在電子郵件應用程式中部署這個模型,以便篩選垃圾郵件
另一個郵件資料夾但為瞭解決這個問題,您需要將模型的原始
數字輸出內容 (例如0.75
) 分成兩個類別:「垃圾內容」或「not」
垃圾資訊。」
如要達成這項轉換,您必須選擇門檻機率 (稱為
分類門檻:
系統會指派機率高於門檻值的樣本
加入正向類別
要測試的類別 (此處為 spam
)。低值範例
機率會指派給負類別
替代類別 (此處為 not spam
)。
按這裡進一步瞭解分類門檻
您可能會好奇:如果預測分數等於 分類門檻 (例如分數是 0.5, 分類門檻也是 0.5)?這個案件的處理方式 取決於為分類選擇的特定實作方式 模型例如,Keras 程式庫會預測分數和門檻 但其他工具/架構可能會處理這種情況 有差異。
舉例來說,假設模型的分數為 0.99 分,預測 電子郵件有 99% 的機率會成為垃圾郵件,而其他電子郵件 0.51,這意味著它有 51% 的機率是垃圾郵件。如果將 將分類門檻設為 0.5,模型會將兩封電子郵件視為 垃圾內容。如果將門檻設為 0.95,那麼只有分數為 0.99 的電子郵件才會 可能會歸類為垃圾內容
雖然 0.5 看起來好像直觀的門檻,但如果 某種類別錯誤的費用大於另一種類別,或 所以類別數量的平衡不平衡如果只有 0.01% 的電子郵件是垃圾郵件,或郵件傳送錯誤 正常電子郵件會比把垃圾郵件放入收件匣裡更糟, 標示模型認為至少有 50% 可能是垃圾資訊的內容 以免產生不想要的結果
混淆矩陣
機率分數不存在事實,或 基準真相。 二元分類器的每個輸出內容有四種可能的結果。 針對垃圾郵件分類器範例,如果您以欄的形式顯示真值 並將模型預測結果視為資料列,名為 混淆矩陣是 結果:
實際為正值 | 實際負值 | |
---|---|---|
預測為陽性 | 真陽性 (TP):垃圾內容 系統已將該電子郵件正確歸類為垃圾郵件。這些是垃圾郵件 自動傳送到垃圾郵件資料夾 | 偽陽性 (FP):誤遭歸類為垃圾郵件的非垃圾郵件 垃圾內容。這些是合法的 就會進入垃圾郵件資料夾 |
預測性陰性 | 不正確 負數 (FN):系統誤將垃圾郵件歸類為非垃圾郵件。這些是垃圾內容 不屬於 這些東西並進入收件匣。 | 真陰性 (TN):A 非垃圾郵件正確歸類為非垃圾郵件。 這些是正常傳送的電子郵件 也就是直接進入收件匣 |
請注意,每列的總數會得到所有預測陽性 (TP + FP) 和 所有預測陰性 (FN + TN) 的值,無論是否有效。每個預測的 欄中,所有實數 (TP + FN) 和實數 (FP + TN)。
當實際正值總數不接近實際總值時 而資料集 不平衡。執行個體 可能是一組數以千計的雲層相片, 您感興趣的稀有雲類型 (例如火山雲) 數次
閾值對真陽性和偽陰性的影響
不同門檻值通常會造成「是」和「否」的不同 精確度等於真陽性除以 真陽性與偽陰性的總和下方影片將說明 專案或資料夾
請嘗試自行變更正常值範圍。
這個小工具包含三個玩具資料集:
- 分隔:通常正面範例和負面示例 且結果差異很大,眾多正向範例的分數都高於 排除範例
- 不分隔:許多正示例的分數低於 而許多負面範例的分數都比 正面範例。
- Imbalanced:只包含少量正類別的範例。