機器學習範例:圖片分類

防止過度配適

如同所有機器學習模型,訓練卷積類神經網路的關鍵問題就是「過度調整」:這個模型專門調整訓練資料的具體細節,無法訓練到新的範例。如要在建構 CNN 時避免過度配適,有以下兩種技巧:

  • 資料擴充:透過對現有映像檔進行隨機轉換以建立一組新變數,以人工方式增強訓練範例的多樣性和數量 (請參閱圖 7)。如果原始訓練資料集相對較小,資料擴充就特別實用。
  • 捨棄規則:在訓練梯度步驟期間,隨機從類神經網路中移除單元。

單一狗圖片的資料擴增圖表,透過隨機轉換產生 9 張新圖片 圖 7. 在單一狗狗圖片上擴增資料 (摘錄自 Kaggle 的&ât;Dogs vs. Cats" 資料集)。:訓練集的原始狗狗圖片。右側:使用隨機轉換從原始圖片產生的九張新圖片。