而蘋果樹會混合著大量的果實和惡劣。 而高級雜貨店的蘋果店卻顯示 100% 完美的水果。 有人穿著果園和雜貨店,有人花很多時間拆除 有不好的蘋果,或在可賺取的鹽水上噴出一根蠟筆。 身為機器學習工程師的你 找出不好的例子並清理可獲利的例子。 就算是少數壞蘋果,也可能會破壞大型資料集。
資料集的許多範例並不可靠 下列問題:
問題類別 | 範例 |
---|---|
省略的值 | 人口普查家未能記錄居民的年齡。 |
重複的範例 | 伺服器上傳了兩次相同的記錄。 |
超出範圍的特徵值。 | 人類不小心輸入了額外數字。 |
標籤有誤 | 人工評估人員誤將橡樹的相片標示為 Maple. |
您可以編寫程式或指令碼來偵測下列問題:
- 省略的值
- 重複的範例
- 超出範圍的特徵值
例如,下列資料集含有六個重複的值:
再舉一個例子,假設某項特徵的溫度範圍必須 介於 10 到 30 度 (含首尾) 之間。但意外發生了 - 或許是 溫度計會暫時曝露在陽光下,導致異常異常情況發生。 程式或指令碼必須標示小於 10 的溫度值 超過 30:
如果標籤是由多位使用者產生,建議您計算統計數字 判斷每個評分者是否產生相等的標籤組合。 也許 一位評分者的評分者比其他評分者來得高 有一套不同的評分標準?
偵測到問題後,您通常必須「修正」包含錯誤功能的例子 或是錯誤標籤 詳情請參閱 資料特性 的 資料集、一般化和過度配適 後續課程我們將逐一介紹 預先訓練的 API、AutoML 和自訂訓練