使用数值数据:测试您的知识

  1. 以下哪种方法是一种特征工程?

  2. 您正在使用婴儿健康数据训练模型。您的其中一项功能是“birth_weight”。您想对这些 birth_weight 值进行归一化处理,以便更高效地训练模型。以下哪种标准化方法可能是最佳选择?

  3. 判断正误:分箱是一种将分类数据转换为数值数据的技术。

  4. 鞋子推荐模型的训练数据包含 shoe_size 特征,该特征应包含介于 6 到 16 之间的值。下表显示了数据集中六个示例的 shoe_size 值:

    示例 shoe_size
    1 8.5
    2 9
    3 不适用
    4 105
    5 11
    6 9

    在训练之前,您应该考虑从数据集中清理哪些样本? (请选择所有适用的选项。)

    选择合适的多项回答。

  5. 请在下面的空白处填入适当的内容:
    在特征工程过程中,可以创建合成特征以 ___。