步驟 1:收集資料

收集資料是解決所有監督機器學習問題時最重要的步驟。文字分類器必須與執行建構的資料集一樣好。

如果您沒有想解決的特定問題,並且有意探索文字分類總覽,還有許多開放原始碼資料集可用。您可以在 GitHub 存放區中找到其中部分連結。另一方面,如果您正在進行特定問題,則需要收集必要的資料。許多機構都提供用於存取資料的公開 API,例如 Twitter APINY Times API。您或許可以透過這些問題來解決。

收集資料時,請注意下列事項:

  • 如果您使用的是公用 API,請先瞭解 API 的限制,再使用該 API。舉例來說,某些 API 會限制查詢頻率,
  • 您擁有的訓練範例更多 (在本指南的其餘部分稱為「範例」) 更好。這有助於提高模型的一般性。
  • 確認每個類別或主題的樣本數量並未過度平衡。也就是說,每個類別中應有數量相當的樣本。
  • 請確認您的範例充分涵蓋可能的輸入空間,而不只是常見情況。

本指南將使用網際網路電影資料庫 (IMDb) 電影評論資料集來說明工作流程。這個資料集包含 IMDb 網站使用者張貼的電影評論,以及對應的標籤 (「正面」或「排除」),指出審查人員是否喜歡該電影。這是情緒分析問題的傳統版範例。