先前的模組引入了將資料集分區至訓練集和測試集。透過這個分區,您可以依據一組範例進行訓練,然後依據一組不同的範例測試模型。使用兩個分區時,工作流程可能如下所示:
圖 1. 可能的工作流程?
在此範例中,「調整模型」是指針對您可夢想的模型調整任何設定,例如變更學習率、新增或移除特徵,以及從頭開始設計全新的模型。完成這個工作流程後,請在「測試集」中挑選最適合的模型。
建議您將資料集分成兩組,但成效不彰。將資料集分區為如下圖的三個子集,即可大幅降低過度配適的機率:
圖 2. 將一個資料集分割成三個子集。
使用驗證集評估訓練集的結果。 接著,使用測試集在模型「通過」驗證集「通過」後再次檢查評估。下圖顯示這個新的工作流程:
圖 3. 更優質的工作流程
在這個改良的工作流程中:
- 針對驗證集挑選最合適的模型。
- 依據測試集再次檢查該模型。
這是更好的工作流程,因為這麼做會減少測試集的曝光。