收集数据是解决任何监督式机器学习问题的最重要一步。文本分类器的质量取决于构建它时使用的数据集。
如果您没有要解决的特定问题,而只是有兴趣了解一般文本分类,则可以使用大量的开源数据集。您可以在我们的 GitHub 代码库中找到一些代码库的链接。另一方面,如果您正在解决特定问题,则需要收集必要的数据。许多组织都提供用于访问其数据的公共 API,例如 X API 或 NY Times API。您或许可以利用这些 API 来解决问题。
在收集数据时,请注意以下重要事项:
- 如果您使用的是公共 API,请先了解 API 的限制,然后再加以使用。例如,某些 API 对查询的速率设置了限制。
- 您拥有的训练示例(在本指南其余部分称为示例)越多越好。这有助于模型更好地泛化。
- 确保每个类或主题的样本数量不会过于不均衡。也就是说,每个类别中的样本数量应该相当。
- 确保您的样本充分覆盖可能输入的空间,而不仅仅是常见情况。
在本指南中,我们将使用互联网电影数据库 (IMDb) 影评数据集来说明该工作流程。此数据集包含用户在 IMDb 网站上发布的影评,以及表明评价者是否喜欢该影片的相应标签(“正面”或“负面”)。这就是情感分析问题的典型示例。