第 1 步:收集数据

收集数据是解决任何监督式机器学习问题的最重要步骤。您的文本分类器的质量只能取决于它所基于的数据集。

如果您没有要解决的具体问题,并且只是想探索文本分类的一般信息,则可以使用大量开源数据集。您可以在我们的 GitHub 代码库中找到指向其中部分链接的链接。另一方面,如果您要解决某个特定问题,则需要收集必要的数据。许多组织提供了用于访问其数据的公共 API,例如 Twitter APINY Times API。您或许能够利用这些问题解决尝试解决的问题。

在收集数据时,请注意以下重要事项:

  • 如果您使用的是公共 API,请在使用之前了解该 API 的限制。例如,某些 API 对查询的速率设置了限制。
  • 您拥有的训练示例(在本指南的其余部分中称为示例)越多,就越好。这将有助于您的模型更好地泛化。
  • 确保每个类别或主题的样本数量不会过度平衡。也就是说,每个类别中的样本数量应该相当。
  • 确保您的样本充分覆盖可能的输入内容的空间,而不只是常见情况。

在本指南中,我们将使用互联网电影数据库 (IMDb) 影评数据集来说明工作流。此数据集包含 IMDb 网站上用户发布的电影评价,以及指明评价者是否喜欢该电影的相应标签(“正面”或“负面”)。这是情感分析问题的典型示例。