資料集的大小和品質

「垃圾、垃圾」

之前的配量適用於機器學習。畢竟,模型的長度與資料一樣重要。不過,您如何評估資料集的品質? 你需要取得多少資料才能取得有用的結果? 答案會因您想解決的問題類型而異。

資料集大小

原則上,模型的訓練數量應比可訓練的參數數量更多。大型資料集的簡易模型通常比小型資料集處理精美模型。Google 的成功在大型資料集上訓練簡單的線性迴歸模型。

何謂「大量」資料?視專案而定。請考量這些資料集的相對大小:

資料集 大小 (範例數)
鳶尾花資料集 150 (總計)
MovieLens (2 千萬個資料集) 20,000,263 (總計)
Google Gmail 智慧回覆 238,000,000 (訓練集)
Google 圖書 (英國) 468,000,000,000 (總計)
Google 翻譯

如您所見,資料集有多種大小。

資料集的品質

如果資料品質不佳,也不會用到大量的資料;品質很重要。但什麼是「品質」?這個字詞十分模糊不清。 建議您考慮採取特定做法,並選用能帶來最佳結果的選項。以此的心態來說,品質良好的資料集是協助您改善業務問題的好幫手。換句話說,如果資料完成預期的工作,資料就會是「良好」

不過,收集資料時,建議使用更具體的品質定義。品質的某些部分往往對應到成效較佳的模型:

  • 可靠性
  • 功能呈現
  • 盡量減少偏差

可靠性

可靠性是指資料信任程度。 相較於在不可靠的資料上訓練的模型,透過可靠資料集訓練的模型較有可能產生實用的預測內容。在評估可靠性時,您必須決定:

  • 標籤錯誤的頻率為何?例如,如果資料已加上人類標籤,有時候就會有錯誤。
  • 你們的功能有用嗎?舉例來說,GPS 測量結果會有所波動。有些噪音是可以接受的。您永遠不會清除資料集的所有雜訊。您還可以收集更多範例。
  • 資料是否經過正確篩選?例如,您的資料集是否包含來自機器人的搜尋查詢?如果您目前正在建構垃圾內容偵測系統,則答案可能為「是」,但如果您試圖改善人工審查結果,則否。

什麼因素會使資料不可靠?自機器學習密集課程中,回想到這個資料集中,有一或多個範例造成的建構作業不可靠:

  • 省略的值。例如,有人忘記為房屋的年齡輸入值。
  • 重複的範例。例如,伺服器誤上傳相同的記錄兩次。
  • 標籤有誤,例如將某人的橡樹樹圖片誤認為地圖。
  • 特徵值無效。例如,有人輸入了額外的數字,或者在陽光下留下了體溫計。

Google 翻譯著重於評估可靠性「最佳」的子集,也就是部分資料的標籤品質高於其他部分。

功能呈現

回想一下,機器學習密集課程說明瞭資料與實用功能的對應。你可以考慮回答以下問題:

  • 模型資料會如何呈現?
  • 您是否應該正規化數值?
  • 您該如何處理離群值

本課程的「轉換資料」一節會將重點放在特徵表示法。

訓練與預測

假設您在離線時獲得了出色的結果。但在即時實驗中,這類結果不會保留。可能的原因為何?

這個問題會顯示訓練/提供偏差,也就是在訓練期間針對指標與提供時間計算不同的結果。偏移的原因可能較為細微,但會對結果造成嚴重的影響。請確保您預測時模型可用的資料。在訓練期間,只使用您需要提供的功能,並確定訓練集能代表您的服務流量。