第 1 步:收集数据
收集数据是解决任何监督式机器学习问题的最重要一步。文本分类器的质量取决于构建它时使用的数据集。
如果您没有要解决的特定问题,而只是有兴趣了解一般文本分类,则可以使用大量的开源数据集。您可以在我们的 GitHub 代码库中找到一些代码库的链接。另一方面,如果您正在解决特定问题,则需要收集必要的数据。许多组织都提供用于访问其数据的公共 API,例如 X API 或 NY Times API。您或许可以利用这些 API 来解决问题。
在收集数据时,请注意以下重要事项:
- 如果您使用的是公共 API,请先了解 API 的限制,然后再加以使用。例如,某些 API 对查询的速率设置了限制。
- 您拥有的训练示例(在本指南其余部分称为示例)越多越好。这有助于模型更好地泛化。
- 确保每个类或主题的样本数量不会过于不均衡。也就是说,每个类别中的样本数量应该相当。
- 确保您的样本充分覆盖可能输入的空间,而不仅仅是常见情况。
在本指南中,我们将使用互联网电影数据库 (IMDb) 影评数据集来说明该工作流程。此数据集包含用户在 IMDb 网站上发布的影评,以及表明评价者是否喜欢该影片的相应标签(“正面”或“负面”)。这就是情感分析问题的典型示例。
如未另行说明,那么本页面中的内容已根据知识共享署名 4.0 许可获得了许可,并且代码示例已根据 Apache 2.0 许可获得了许可。有关详情,请参阅 Google 开发者网站政策。Java 是 Oracle 和/或其关联公司的注册商标。
最后更新时间 (UTC):2024-06-25。
[null,null,["最后更新时间 (UTC):2024-06-25。"],[[["High-quality data is crucial for building effective supervised machine learning text classifiers, with more training samples generally leading to better performance."],["Public APIs and open-source datasets can be leveraged for data collection, but it's important to understand API limitations and ensure data balance across classes."],["Adequate data representation across all possible input variations is necessary, and the IMDb movie reviews dataset will be used to demonstrate text classification workflow for sentiment analysis."],["When collecting data, aim for a balanced dataset with a sufficient number of samples for each class to avoid imbalanced datasets and promote better model generalization."]]],[]]