數值資料:拖曳

而蘋果樹會混合著大量的果實和惡劣。 而高級雜貨店的蘋果店卻顯示 100% 完美的水果。 有人穿著果園和雜貨店,有人花很多時間拆除 有不好的蘋果,或在可賺取的鹽水上噴出一根蠟筆。 身為機器學習工程師的你 找出不好的例子並清理可獲利的例子。 就算是少數壞蘋果,也可能會破壞大型資料集。

資料集的許多範例並不可靠 下列問題:

問題類別 範例
省略的值 人口普查家未能記錄居民的年齡。
重複的範例 伺服器上傳了兩次相同的記錄。
超出範圍的特徵值。 人類不小心輸入了額外數字。
標籤有誤 人工評估人員誤將橡樹的相片標示為 Maple.

您可以編寫程式或指令碼來偵測下列問題:

  • 省略的值
  • 重複的範例
  • 超出範圍的特徵值

例如,下列資料集含有六個重複的值:

圖 15.前六個值會重複。決賽第八個
            則不一定
圖 15。 前六個值會重複。

再舉一個例子,假設某項特徵的溫度範圍必須 介於 10 到 30 度 (含首尾) 之間。但意外發生了 - 或許是 溫度計會暫時曝露在陽光下,導致異常異常情況發生。 程式或指令碼必須標示小於 10 的溫度值 超過 30:

圖 16.十九個範圍內的值以及一個超出範圍的值。
圖 16。 超出範圍的值。

如果標籤是由多位使用者產生,建議您計算統計數字 判斷每個評分者是否產生相等的標籤組合。 也許 一位評分者的評分者比其他評分者來得高 有一套不同的評分標準?

偵測到問題後,您通常必須「修正」包含錯誤功能的例子 或是錯誤標籤 詳情請參閱 資料特性資料集、一般化和過度配適 後續課程我們將逐一介紹 預先訓練的 API、AutoML 和自訂訓練