取樣與分割資料

取樣簡介

為機器學習專案收集足夠的資料通常並不容易。不過,有時候我們會有過多資料,您必須選取部分訓練時使用的範例。

我要如何選擇這個子集?以 Google 搜尋為例。您會對多少資料進行取樣?您會使用隨機查詢嗎?隨機工作階段?您是隨機使用者嗎?

最後,答案是否取決於問題:我們想預測什麼內容,以及哪些功能?

  • 如要使用上一個查詢功能,您必須在工作階段層級進行取樣,因為工作階段包含一系列查詢。
  • 如要使用過去幾天的使用者行為功能,您必須在使用者層級進行取樣。

個人識別資訊 (PII) 篩選功能

如果資料包含 PII (個人識別資訊),您可能必須從資料中篩選。例如,一項政策可能會要求移除不常使用的功能。

這項篩選會使分佈情形偏差。你會遺失結尾的資訊 (分佈值非常低的部分,遠離平均值)。

這項篩選功能非常容易學習,因此非常實用。但要瞭解,您的資料集會偏向主查詢。在提供時,您或許會不太放心使用尾部提供的範例,因為這些範例已篩除訓練資料。儘管無法避免偏差,請在分析期間留意這點。