本頁面由 Cloud Translation API 翻譯而成。 公平性:驗收學習成果 返回課程 是非題:使用舊資料訓練模型時,就會發生歷來偏誤。 是 否 工程師正在訓練迴歸模型,根據他們從全球各地食譜網站上抓到的各式特色資料,包括料理大小、食材和製備技巧,藉此預測餐點的「熱量」。下列哪些資料問題是可能應進一步調查的偏誤來源? 請選取所有正確答案。 在 40,000 個訓練範例中,約有 4,000 個缺少「提供大小」特徵的值。 約有 5,000 個訓練樣本是以英制單位 (盎司、磅等) 進行測量,而其他 35,000 個樣本則是以公制單位 (公克、公升等) 表示測量結果。 40,000 個訓練樣本中約有 100 個可能存在很可能不正確 (例如100 顆奶油)。 相較於其他熱門餐點,在訓練資料中,有些熱門的餐點顯得弱勢 (例如小狗有 200 份訓練樣本,但披薩只有 10 份)。 以 80,000 則簡訊 (18 歲以上) 傳送 40,000 則訊息,以及由未成年人 (未滿 18 歲) 傳送 40,000 則訊息,用來偵測稀疏偵測模型。接著,我們以 20,000 則訊息測試集評估模型:10,000 名成人,以及 10,000 名未成年人的測試。下列混淆矩陣顯示每個群組的結果 (正向預測代表「諷刺」分類,負向預測表示「非諷刺」分類): 成人 真陽性 (TP):512 偽陽性 (FP):51 偽陰性 (FN):36 真陰性 (TN):9401 精確度 = TP/(TP + FP) = 0.909 喚回度 = TP/(TP + FN) = 0.934 未成年人 真陽性 (TP):2147 偽陽性 (FP):96 偽陰性 (FN):2177 真陰性 (TN):5580 精確度 = TP/(TP + FP) = 0.957 喚回度 = TP/(TP + FN) = 0.497 以下有關模型測試集效能的敘述何者正確? 請選取所有正確答案。 相較於未成年人的例子,這個模型在成人樣本上的成效較佳。 成人傳送的 10,000 則訊息是類別不平衡的資料集。 未成年人傳送的 10,000 則訊息是類別不平衡的資料集。 在由未成年人寄出的郵件中,約有 50% 誤遭歸類為「令人反感」。 該模型無法將約 50% 的未成年人侵略性訊息歸類為「諷刺」。 以下哪項假設可以解釋上述稀疏偵測模型測試集的子群組成效差異? 請選取所有正確答案。 模型在預測「諷刺」這方面過於偏離。因此,分類未成年人時會出現更多錯誤簡訊。 我們評估了與成人相比,對未成年人進行的較負面 (非悲劇) 樣本進行評估,因此對未成年人施加更多失誤。 未成年人簡訊中的諷刺內容較為低調,因此模型更容易遭到檢舉。 與未成年人相比,成人傳送的實際諷刺訊息數量遠不多。如果以更類別均衡的成人訊息組合評估模型,子群組的喚回度可能會下降。 工程師正在重新訓練上述的稀疏模型,修正不同年齡客層中不相關的準確率,但模型已發布到實際工作環境。下列哪種停止缺口策略有助於減少模型預測中的錯誤? 限制模型使用未成年人傳送的簡訊。 調整模型的輸出結果,允許系統針對未成年人傳送的所有簡訊傳回「極度回覆」訊息,無論模型原本預測的預測結果為何。 當模型預測未成年人傳來的文字訊息「沒有劇烈」時,請調整輸出內容,讓模型改為傳回「unsure」。 提交答案 error_outline 計算測驗分數時出現錯誤。請再試一次。