分割資料

新聞故事範例示範,純粹隨機分組不一定是正確的方法。

線上系統的常見技巧是按時間分割資料,以便:

  • 收集 30 天的資料。
  • 從第 1 天到第 29 天的資料進行訓練。
  • 評估第 30 天的資料。

對線上系統而言,訓練資料比供應資料更舊,因此這項技術可確保驗證集與訓練和服務之間的差距相同。不過,以時間為基礎的分割功能非常適合用來處理非常大型的資料集,例如包含數千萬個範例的資料集。在資料較少的專案中,分佈在訓練、驗證和測試之間差不多。

也別忘了在「機器學習機器學習課程」中說明的機器學習文學專案環節。資料是由三位作者之一撰寫的,因此資料可分為三個主要群組。由於團隊隨機套用了分割比例,因此每個群組的資料都會出現在訓練、評估和測試集中,因此模型從資訊中學習到的結果不一定是預測時間。無論資料是時間序列資料,還是依據其他條件進行分群,系統都會隨時發生這個問題。網域知識可協助你拆分資料。

如要瞭解其他詳情,請查看機器學習密集課程中的以下單元: