数据集：转换数据

机器学习模型只能基于浮点值进行训练。不过，许多数据集特征本身不是浮点值。因此，机器学习的一个重要部分是将非浮点特征转换为浮点表示法。

例如，假设 street names 是地图项。大多数街道名称都是字符串，例如“Broadway”或“Vilakazi”。您的模型无法使用“Broadway”进行训练，因此您必须将“Broadway”转换为浮点数。“分类数据”模块介绍了具体操作。

此外，您还应转换大多数浮点地图项。此转换过程称为标准化，可将浮点数转换为受限范围，从而改进模型训练。“数值数据”模块介绍了如何执行此操作。

对数据进行采样（如果数据量过多）

有些组织拥有丰富的数据。如果数据集包含的示例过多，您必须选择一组子集进行训练。请尽可能选择与模型预测最相关的子集。

优质数据集会省略包含个人身份信息 (PII) 的示例。此政策有助于保护隐私，但可能会影响模型。

如需详细了解这些主题，请参阅本课程稍后的“安全和隐私”模块。