機器學習 (ML) 模型本來就不是最終目標,機器學習從業人員 將訓練範例的資料集提供給模型 相關處理和彙整資料,都可能會導致模型 容易出現偏誤的預測結果
建構模型時,請務必瞭解常見的人類偏誤, 資料清單,方便您主動採取相關措施來降低 效果。
回報偏誤
-
定義
報表偏誤是指出現頻率不高的 在資料集中擷取的事件、屬性和/或結果時,不會 能準確反映實際展示頻率這類偏誤可能會 因為大家較傾向於記錄 不尋常或特別令人難忘 影片。
-
範例
情緒分析模型經過訓練,可預測書籍是否 評論為正面或負面, 提交熱門網站的連結 訓練資料集反映了極端意見 (評論者 喜歡或討厭某本書),因為使用者較不可能提交書籍 有些人沒有給予嚴苛的迴響身為 因此,模型無法準確預測 以更不雅的用語描述書籍的評論。
按一下 chevron_left 的定義。
歷來偏誤
-
定義
歷來偏誤是在歷來資料造成 反映當時世界存在的不平等現象
自動化偏誤
-
定義
自動化偏誤往往偏向追求結果 、自動化系統和非自動化系統產生的指標 任何系統的錯誤率。
-
範例
任職於供應鏈製造商的機器學習從業人員很積極 部署新的「突破性」訓練編碼器-解碼器模型 等弱點,直到工廠主管指出 模型精確度和喚回度都比那些數據低 15% 以提供人類檢查工具
按一下 chevron_left 的定義。
選取偏誤
選擇偏誤是指 資料集範例的選擇方式無法反映資料集的樣本 和現實世界的分佈情形選取偏誤可能有多種不同形式 包括涵蓋率偏誤、非回應偏誤,以及抽樣偏誤。
涵蓋偏誤
-
定義
涵蓋範圍偏誤只有在未選取 具有代表性的時尚風格
-
範例
模型經過訓練,可預測新產品日後的銷售量 系統會對曾經購買廣告的消費者進行手機問卷調查 原先選擇購買競爭對手產品的消費者 進而未受試者的調查結果 呈現的符記
按一下 chevron_left 的定義。
非回應偏誤
-
定義
非回應偏誤 (又稱 「參與性偏誤」) 資料收集的參與機會出現落差,因此沒有代表性 上傳資料集之後,您可以運用 AutoML 自動完成部分資料準備工作
-
範例
模型經過訓練,可預測新產品日後的銷售量 系統會對曾經購買廣告的消費者進行手機問卷調查 並向有意購買競爭對手產品的消費者樣本 產品。購買競爭對手產品的消費者,比購買者多 80% 使用者拒絕填寫問卷調查,而他們的資料是 樣本中代表的弱勢族群
按一下 chevron_left 的定義。
取樣偏誤
-
定義
取樣偏誤: 不用於收集資料
-
範例
模型經過訓練,可預測新產品日後的銷售量 系統會對曾經購買廣告的消費者進行手機問卷調查 並向有意購買競爭對手產品的消費者樣本 產品。問卷調查員並非隨機指定消費者 選擇前 200 名回覆電子郵件的消費者 對這項產品的興趣程度高於平均值 購物者。
按一下 chevron_left 的定義。
團體歸因偏誤
團體歸因偏誤 傾向將個人的特質放大到整個團體 所屬的機構。團體歸因偏誤通常出現在以下兩個層面 表單。
內團體偏誤
-
定義
「群組內偏誤」是 您也擁有自己的群組 可分享的資訊
-
範例
兩名機器學習從業人員訓練了 軟體開發人員會預先認定申請者 和兩人都參加過同一個電腦科學學院 也較適合這個職務
按一下 chevron_left 的定義。
外團體同質性偏誤
-
定義
外部團體同質性偏誤經常是 您不對某些群體的刻板印象, 形成,或將其特性視為更統一的樣子。
-
範例
兩名機器學習從業人員訓練了 軟體開發人員可能會預先認為所有申請者 未參加電腦科學學院的學生沒有參加 足以讓這個角色具備足夠的專業知識
按一下 chevron_left 的定義。
隱性偏誤
-
定義
隱性偏誤是發生假設的情況 進行預先闢謠介入措施 但不一定適用
確認偏誤
-
定義
模型建構工具時發生「確認偏誤」 無意識地處理資料的方式,證明自己既有的看法 和假設
-
範例
機器學習從業人員正在建構可預測積極策略的模型 根據各種特徵 (身高、體重、品種、 環境)。專業執業人員與 非常活潑的玩具貴賓狗 進行攻擊。收錄模型的訓練資料時 以免從業人員無意識地捨棄所提供的功能 但也沒有明顯的證據
按一下 chevron_left 的定義。
實驗者偏誤
-
定義
實驗者偏誤是指模型製作工具 會持續訓練模型,直到模型產生符合 原本的假設
-
範例
機器學習從業人員正在建構可預測積極策略的模型 根據各種特徵 (身高、體重、品種、 環境)。專業執業人員與 非常活潑的玩具貴賓狗 進行攻擊。訓練模型在預測期間 玩具貴賓狗相對可愛,從業人員 模型會再多次產生結果 就會增加一些暴力圖案
按一下 chevron_left 的定義。