收集資料是解決任何監督式機器學習問題最重要的步驟。文字分類器的效能取決於用來建立資料集的資料集品質。
如果您沒有想解決的特定問題,只是單純想探索文字分類,則可以有許多開放原始碼資料集。您可以在 GitHub 存放區中找到部分連結。另一方面,如要解決特定問題,就需要收集必要的資料。許多機構都提供公用 API 來存取其資料,例如 X API 或 NY Times API。您或許可以運用這些 API 解決自己要解決的問題。
收集資料時,請注意下列事項:
- 如果您使用的是公用 API,請先瞭解 API 的限制,再使用公開 API。舉例來說,某些 API 會限制查詢頻率。
- 您的訓練範例越多 (本指南的其他部分稱為「範例」) 越好。這有助於模型更妥善地「一般化」。
- 確認每個類別或主題的樣本數量並未達到不平衡。也就是說,每個類別中的樣本數量應有數量相當的差異。
- 請確保範例充分涵蓋可能的輸入內容空間,而不是只有常見情況。
在本指南中,我們將使用網際網路電影資料庫 (IMDb) 電影評論資料集說明工作流程。這個資料集包含 IMDb 網站上張貼的電影評論,以及評論者是否喜歡該電影的對應標籤 (「正面」或「負面」)。這是情緒分析問題的典型範例