第 1 步：收集数据

收集数据是解决任何监督式机器学习问题的最重要一步。文本分类器的质量取决于构建它时使用的数据集。

如果您没有要解决的特定问题，而只是有兴趣了解一般文本分类，则可以使用大量的开源数据集。您可以在我们的 GitHub 代码库中找到一些代码库的链接。另一方面，如果您正在解决特定问题，则需要收集必要的数据。许多组织都提供用于访问其数据的公共 API，例如 X API 或 NY Times API。您或许可以利用这些 API 来解决问题。

在收集数据时，请注意以下重要事项：

如果您使用的是公共 API，请先了解 API 的限制，然后再加以使用。例如，某些 API 对查询的速率设置了限制。
您拥有的训练示例（在本指南其余部分称为示例）越多越好。这有助于模型更好地泛化。
确保每个类或主题的样本数量不会过于不均衡。也就是说，每个类别中的样本数量应该相当。
确保您的样本充分覆盖可能输入的空间，而不仅仅是常见情况。

在本指南中，我们将使用互联网电影数据库 (IMDb) 影评数据集来说明该工作流程。此数据集包含用户在 IMDb 网站上发布的影评，以及表明评价者是否喜欢该影片的相应标签（“正面”或“负面”）。这就是情感分析问题的典型示例。

简介

第 2 步：探索数据

第 1 步：收集数据 使用集合让一切井井有条 根据您的偏好保存内容并对其进行分类。

第 1 步：收集数据