步驟 1:收集資料
收集資料是解決任何監督式機器學習問題最重要的步驟。文字分類器的效能取決於用來建立資料集的資料集品質。
如果您沒有想解決的特定問題,只是單純想探索文字分類,則可以有許多開放原始碼資料集。您可以在 GitHub 存放區中找到部分連結。另一方面,如要解決特定問題,就需要收集必要的資料。許多機構都提供公用 API 來存取其資料,例如 X API 或 NY Times API。您或許可以運用這些 API 解決自己要解決的問題。
收集資料時,請注意下列事項:
- 如果您使用的是公用 API,請先瞭解 API 的限制,再使用公開 API。舉例來說,某些 API 會限制查詢頻率。
- 您的訓練範例越多 (本指南的其他部分稱為「範例」) 越好。這有助於模型更妥善地「一般化」。
- 確認每個類別或主題的樣本數量並未達到不平衡。也就是說,每個類別中的樣本數量應有數量相當的差異。
- 請確保範例充分涵蓋可能的輸入內容空間,而不是只有常見情況。
在本指南中,我們將使用網際網路電影資料庫 (IMDb) 電影評論資料集說明工作流程。這個資料集包含 IMDb 網站上張貼的電影評論,以及評論者是否喜歡該電影的對應標籤 (「正面」或「負面」)。這是情緒分析問題的典型範例
除非另有註明,否則本頁面中的內容是採用創用 CC 姓名標示 4.0 授權,程式碼範例則為阿帕契 2.0 授權。詳情請參閱《Google Developers 網站政策》。Java 是 Oracle 和/或其關聯企業的註冊商標。
上次更新時間:2024-06-25 (世界標準時間)。
[null,null,["上次更新時間:2024-06-25 (世界標準時間)。"],[[["High-quality data is crucial for building effective supervised machine learning text classifiers, with more training samples generally leading to better performance."],["Public APIs and open-source datasets can be leveraged for data collection, but it's important to understand API limitations and ensure data balance across classes."],["Adequate data representation across all possible input variations is necessary, and the IMDb movie reviews dataset will be used to demonstrate text classification workflow for sentiment analysis."],["When collecting data, aim for a balanced dataset with a sufficient number of samples for each class to avoid imbalanced datasets and promote better model generalization."]]],[]]