数据集:转换数据

机器学习模型只能使用浮点值进行训练。 但是,许多数据集特征本身并不是浮点值。 因此,机器学习的一个重要环节就是 将非浮点特征转换为浮点表示法。

例如,假设 street names 是一项特征。大多数街道名称 是字符串,例如“Broadway”或“Vilakazi” 您的模型无法在“Broadway”上训练,因此您必须转换“Broadway” 转换为浮点数。分类数据 模块 解释了如何操作。

此外,您甚至应该转换大多数浮点特征。 这一转换过程称为 normalization,将 将浮点数限制在限制范围内,以改进模型训练。 数值数据 模块 解释了如何操作。

在数据过多时对数据进行采样

有些组织能获得大量数据。 当数据集包含太多样本时,您必须选择子集 用于训练的样本。请尽可能选择 与模型的预测结果相关。

过滤包含个人身份信息的示例

良好的数据集会省略包含个人身份信息的示例 (PII)。此政策有助于保护隐私,但可能会影响模型。

有关这些主题的更多信息,请参阅本课程后面的“安全和隐私”单元。