本頁面由 Cloud Translation API 翻譯而成。

分割資料

新聞故事範例示範，純粹隨機分組不一定是正確的方法。

線上系統的常見技巧是按時間分割資料，以便：

收集 30 天的資料。
從第 1 天到第 29 天的資料進行訓練。
評估第 30 天的資料。

對線上系統而言，訓練資料比供應資料更舊，因此這項技術可確保驗證集與訓練和服務之間的差距相同。不過，以時間為基礎的分割功能非常適合用來處理非常大型的資料集，例如包含數千萬個範例的資料集。在資料較少的專案中，分佈在訓練、驗證和測試之間差不多。

也別忘了在「機器學習機器學習課程」中說明的機器學習文學專案環節。資料是由三位作者之一撰寫的，因此資料可分為三個主要群組。由於團隊隨機套用了分割比例，因此每個群組的資料都會出現在訓練、評估和測試集中，因此模型從資訊中學習到的結果不一定是預測時間。無論資料是時間序列資料，還是依據其他條件進行分群，系統都會隨時發生這個問題。網域知識可協助你拆分資料。

如要瞭解其他詳情，請查看機器學習密集課程中的以下單元：

資料分割範例

隨機