收集資料並視需要進行取樣後,下一步是將資料分成「訓練集」、「驗證集」和「測試集」。
隨機分割不是最佳方法
雖然許多分割問題都是隨機分割的最佳方式,但這不一定是正確的解決方案。例如,請考慮將範例自然地歸類到類似範例的資料集。
假設您希望模型將新聞報導的文字分類。為什麼隨機分割問題會發生問題?
圖 1. 焦點新聞會匯集在一起。
叢集中會顯示新聞報導:同一主題會發布多篇相同主題的報導。因此,如果隨機地分割資料,測試集和訓練集可能會包含相同的故事。但實際上,這個說法不會有這種效果,因為所有故事都會同時出現,所以如果進行這類分割,就會發生偏移。
圖 2. 隨機分割功能會將叢集分割為不同的資料集,因而造成偏移。
最簡單的修正方式,就是根據報導發布時間 (可能是報導發布日期) 來分割資料。這會導致當日同一天的報導發生在同一個分組中。
圖 3. 按時間分割時,叢集主要可以在同一組中進行。
上萬篇新聞報導的時間可能超過一定的日子,但事實證明,這些報導並未在新聞週期的兩天內分割成。或者,即使在截止時間之外也能夠擲回資料,以確保不會發生重疊的情況。舉例來說,您可以為 4 月份的故事進行訓練,然後使用 5 月的第二週做為測試集,而週間差距以避免重疊。