机器学习模型只能使用浮点值进行训练。 但是,许多数据集特征本身并不是浮点值。 因此,机器学习的一个重要环节就是 将非浮点特征转换为浮点表示法。
例如,假设 street names
是一项特征。大多数街道名称
是字符串,例如“Broadway”或“Vilakazi”
您的模型无法在“Broadway”上训练,因此您必须转换“Broadway”
转换为浮点数。分类数据
模块
解释了如何操作。
此外,您甚至应该转换大多数浮点特征。 这一转换过程称为 normalization,将 将浮点数限制在限制范围内,以改进模型训练。 数值数据 模块 解释了如何操作。
在数据过多时对数据进行采样
有些组织能获得大量数据。 当数据集包含太多样本时,您必须选择子集 用于训练的样本。请尽可能选择 与模型的预测结果相关。
过滤包含个人身份信息的示例
良好的数据集会省略包含个人身份信息的示例 (PII)。此政策有助于保护隐私,但可能会影响模型。
有关这些主题的更多信息,请参阅本课程后面的“安全和隐私”单元。