Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

机器学习术语表：决策森林

本页包含决策森林术语。如需查看所有术语，请点击此处。

A

属性抽样

#df

一种用于训练决策森林的策略，其中每个决策树在学习条件时仅考虑随机选择的可能特征子集。一般来说，每个节点都会对不同的特征子集进行抽样。相比之下，在训练不进行属性抽样的决策树时，系统会考虑每个节点的所有可能特征。

轴对齐条件

#df

在决策树中，仅涉及单个特征的条件。例如，如果 area 是一个特征，则以下是轴对齐条件：

area > 200

与斜条件相对。

B

装袋

#df

一种用于训练集成的方法，其中每个组成模型都基于有放回抽样的随机训练示例子集进行训练。例如，随机森林是使用 Bagging 训练的决策树的集合。

术语“bagging”是“bootstrap aggregating”（自助抽样集成）的简称。

如需了解详情，请参阅“决策森林”课程中的随机森林。

二元条件

#df

在决策树中，条件只有两种可能的结果，通常是是或否。例如，以下是一个二元条件：

temperature >= 100

与非二元条件相对。

如需了解详情，请参阅决策森林课程中的条件类型。

C

condition

#df

在决策树中，执行测试的任何节点。例如，以下决策树包含两个条件：

包含两个条件的决策树：(x > 0) 和 (y > 0)。

条件也称为拆分或测试。

对比条件与叶。

另请参阅：

二元条件
非二元条件。
axis-aligned-condition
oblique-condition

如需了解详情，请参阅决策森林课程中的条件类型。

D

决策森林

#df

一种由多个决策树创建的模型。决策森林通过汇总其决策树的预测结果来进行预测。常见的决策森林类型包括随机森林和梯度提升树。

如需了解详情，请参阅决策森林课程中的决策森林部分。

决策树

#df

一种监督式学习模型，由一组按层次结构组织的条件和叶组成。例如，以下是一个决策树：

一个由 4 个按层次结构排列的条件组成的决策树，可得出 5 个叶。

E

熵

#df

#Metric

在信息论中，用于描述概率分布的不可预测程度。或者，熵也可以定义为每个示例包含的信息量。当随机变量的所有值具有相同的可能性时，分布具有尽可能高的熵。

具有两个可能值“0”和“1”（例如，二元分类问题中的标签）的集合的熵具有以下公式：

H = -p log p - q log q = -p log p - (1-p) * log (1-p)

其中：

H 是熵。
p 是“1”示例的比例。
q 是“0”示例的比例。请注意，q = (1 - p)
对数通常为以 2 为底的对数。在本例中，熵单位为比特。

例如，假设情况如下：

100 个示例包含值“1”
300 个示例包含值“0”

因此，熵值为：

p = 0.25
q = 0.75
H = (-0.25)log₂(0.25) - (0.75)log₂(0.75) = 每个示例 0.81 位

完全平衡的集合（例如，200 个“0”和 200 个“1”）的每个示例的熵为 1.0 位。随着集合变得越来越不平衡，其熵会趋近于 0.0。

在决策树中，熵有助于制定信息增益，从而帮助分裂器在分类决策树的增长过程中选择条件。

将熵与以下对象进行比较：

基尼杂质
交叉熵损失函数

熵通常称为香农熵。

如需了解详情，请参阅决策森林课程中的使用数值特征进行二元分类的精确分裂器。

F

特征重要性

#df

#Metric

与变量重要性的含义相同。

G

Gini 不纯度

#df

#Metric

与 entropy 类似的指标。拆分器使用从 Gini 不纯度或熵派生的值来为分类决策树组成条件。信息增益源自熵。对于从 Gini 不纯度派生的指标，目前还没有普遍接受的等效术语；不过，这个未命名的指标与信息增益同样重要。

Gini 不纯度也称为 Gini 指数，或简称为 Gini。

点击相应图标，即可查看有关 Gini 不纯度的数学详细信息。

基尼不纯度是指对从同一分布中提取的新数据进行错误分类的概率。如果某个集合包含两个可能的值“0”和“1”（例如，二元分类问题中的标签），则该集合的 Gini 不纯度可根据以下公式计算得出：

I = 1 - (p² + q²) = 1 - (p² + (1-p)²)

其中：

I 是 Gini 不纯度。
p 是“1”示例的比例。
q 是“0”示例的比例。请注意，q = 1-p

例如，请考虑以下数据集：

100 个标签（占数据集的 0.25）包含值“1”
300 个标签（占数据集的 0.75）包含值“0”

因此，Gini 不纯度为：

p = 0.25
q = 0.75
I = 1 - (0.25² + 0.75²) = 0.375

因此，同一数据集中的随机标签有 37.5% 的概率被错误分类，有 62.5% 的概率被正确分类。

完全平衡的标签（例如，200 个“0”和 200 个“1”）的 Gini 不纯度为 0.5。高度不平衡的标签的 Gini 不纯度接近 0.0。

梯度提升（决策）树 (GBT)

#df

一种决策森林，其中：

训练依赖于梯度提升。
弱模型是决策树。

如需了解详情，请参阅决策森林课程中的梯度提升决策树。

梯度提升

#df

一种训练算法，其中训练弱模型以迭代方式提高强模型的质量（减少损失）。例如，弱模型可以是线性模型或小型决策树模型。强模型成为之前训练的所有弱模型的总和。

在最简单的梯度提升形式中，每次迭代都会训练一个弱模型来预测强模型的损失梯度。然后，通过减去预测的梯度来更新强模型的输出，类似于梯度下降。

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

其中：

$F_{0}$ 是初始强模型。
$F_{i+1}$ 是下一个强模型。
$F_{i}$ 是当前的强模型。
$\xi$ 是一个介于 0.0 和 1.0 之间的值，称为收缩率，类似于梯度下降中的学习率。
$f_{i}$ 是经过训练用于预测 $F_{i}$ 的损失梯度的弱模型。

梯度提升的现代变体还在计算中纳入了损失的二阶导数（Hessian）。

决策树通常用作梯度提升中的弱模型。请参阅梯度提升（决策）树。

I

推理路径

#df

在决策树中，在推理过程中，特定示例从根到其他条件所采用的路线，最终以叶结束。例如，在以下决策树中，较粗的箭头显示了具有以下特征值的示例的推理路径：

x = 7
y = 12
z = -3

下图中的推理路径在到达叶节点 (Zeta) 之前会经历三种情况。

包含 4 个条件和 5 个叶的决策树。
根条件为 (x > 0)。由于答案为“是”，推理路径会从根节点前往下一个条件 (y > 0)。
由于答案为“是”，推理路径会前往下一个条件 (z > 0)。由于答案为“否”，推理路径会到达其终端节点（即叶节点 Zeta）。

三条粗箭头显示了推理路径。

如需了解详情，请参阅“决策森林”课程中的决策树。

信息增益

#df

#Metric

在决策森林中，节点熵与其子节点熵的加权（按示例数量）和之间的差。节点的熵是指该节点中示例的熵。

例如，请考虑以下熵值：

父节点的熵 = 0.6
一个子节点的熵（包含 16 个相关示例）= 0.2
另一个具有 24 个相关示例的子节点的熵 = 0.1

因此，40% 的示例位于一个子节点中，而 60% 的示例位于另一个子节点中。因此：

子节点的加权熵之和 = (0.4 * 0.2) + (0.6 * 0.1) = 0.14

因此，信息增益为：

信息增益 = 父节点的熵 - 子节点的加权熵之和
信息增益 = 0.6 - 0.14 = 0.46

大多数分裂器都旨在创建可最大限度提高信息增益的条件。

在集合条件中

#df

在决策树中，一种用于测试一组项中是否存在某个项的条件。例如，以下是一个集合内条件：

  house-style in [tudor, colonial, cape]

在推理期间，如果房屋风格特征的值为 tudor、colonial 或 cape，则此条件的评估结果为“是”。如果住宅风格特征的值为其他值（例如 ranch），则此条件的计算结果为“否”。

与测试独热编码特征的条件相比，集合内条件通常会生成更高效的决策树。

L

leaf

#df

决策树中的任何端点。与条件不同，叶不执行测试。相反，叶节点是一种可能的预测。叶也是推理路径的终端节点。

例如，以下决策树包含三个叶节点：

一个包含两个条件并产生三个叶节点的决策树。

如需了解详情，请参阅“决策森林”课程中的决策树。

否

节点（决策树）

#df

在决策树中，任何条件或叶。

一个包含两个条件和三个叶的决策树。

如需了解详情，请参阅决策森林课程中的决策树。

非二元性别条件

#df

包含两种以上可能结果的条件。例如，以下非二元条件包含三种可能的结果：

一种会导致三种可能结果的条件（number_of_legs = ?）。一种结果（number_of_legs = 8）会生成名为“spider”的叶。第二个结果（number_of_legs = 4）会生成一个名为“dog”的叶。第三种结果（number_of_legs = 2）会生成一个名为 penguin 的叶。

如需了解详情，请参阅决策森林课程中的条件类型。

O

斜向条件

#df

在决策树中，涉及多个特征的条件。例如，如果高度和宽度都是特征，则以下是倾斜条件：

  height > width

与轴对齐条件相对。

如需了解详情，请参阅决策森林课程中的条件类型。

袋外评估（OOB 评估）

#df

一种用于评估决策森林质量的机制，通过针对决策树的训练期间未使用的示例来测试每个决策树。例如，在下图中，请注意，系统会使用大约三分之二的示例来训练每个决策树，然后使用剩余的三分之一示例进行评估。

由三棵决策树组成的决策森林。
一个决策树使用三分之二的示例进行训练，然后使用剩余的三分之一进行 OOB 评估。
第二个决策树使用与上一个决策树不同的三分之二的示例进行训练，然后使用与上一个决策树不同的三分之一的示例进行 OOB 评估。

袋外评估是一种计算效率高且保守的交叉验证机制的近似方法。在交叉验证中，每个交叉验证轮次都会训练一个模型（例如，在 10 折交叉验证中会训练 10 个模型）。借助 OOB 评估，系统会训练单个模型。由于 bagging 在训练期间会从每棵树中留出一些数据，因此 OOB 评估可以使用这些数据来近似交叉验证。

如需了解详情，请参阅决策森林课程中的袋外评估。

P

排列变量重要性

#df

#Metric

一种变量重要性，用于评估在对特征值进行置换后模型预测误差的增加情况。排列变量重要性是一种与模型无关的指标。

R

随机森林

#df

一种由决策树组成的集成，其中每棵决策树都使用特定的随机噪声进行训练，例如 bagging。

随机森林是一种决策森林。

如需了解详情，请参阅决策森林课程中的随机森林。

root

#df

决策树中的起始节点（第一个条件）。按照惯例，图表会将根放在决策树的顶部。例如：

一个包含两个条件和三个叶的决策树。起始条件 (x > 2) 是根。

S

放回抽样

#df

一种从一组候选商品中挑选商品的方法，其中同一商品可以多次被选中。“放回”是指每次选择后，所选项目都会返回到候选项目池中。相反的方法是不放回抽样，这意味着候选商品只能被选中一次。

例如，假设有以下水果集：

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

假设系统随机选择 fig 作为第一个商品。如果采用放回抽样，系统会从以下集合中选择第二个项：

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

是的，这与之前的集合相同，因此系统可能会再次选择 fig。

如果使用不放回抽样，一旦选中某个样本，就无法再次选中该样本。例如，如果系统随机选择 fig 作为第一个样本，则不能再次选择 fig。因此，系统会从以下（缩减的）集合中选择第二个样本：

fruit = {kiwi, apple, pear, cherry, lime, mango}

点击相应图标可查看其他备注。

放回抽样中的“放回”一词让许多人感到困惑。在英语中，replacement 的意思是“substitution”（替换）。不过，放回抽样实际上使用的是法语中“放回”的定义，即“将某物放回”。

英文单词 replacement 翻译为法语单词 remplacement。

收缩

#df

梯度提升中的超参数，用于控制过拟合。梯度提升中的收缩率类似于梯度下降中的学习速率。收缩率是介于 0.0 到 1.0 之间的小数值。与较大的收缩值相比，较小的收缩值可更有效地减少过拟合。

拆分

#df

在决策树中，条件的另一种名称。

分割器

#df

在训练决策树时，负责在每个节点上找到最佳条件的例程（和算法）。

T

test

#df

在决策树中，条件的另一种名称。

阈值（对于决策树）

#df

在轴对齐条件中，特征要比较的值。例如，在以下条件中，75 是阈值：

grade >= 75

如需了解详情，请参阅决策森林课程中的使用数值特征进行二元分类的精确拆分器。

V

变量重要性

#df

#Metric

一组分数，用于指示每个特征对模型的相对重要性。

例如，假设有一个用于估算房价的决策树。假设此决策树使用三个特征：尺寸、年龄和款式。如果计算出的三个特征的一组变量重要性为 {size=5.8, age=2.5, style=4.7}，则对于决策树而言，size 比 age 或 style 更重要。

存在不同的变量重要性指标，可让机器学习专家了解模型的不同方面。

W

群体的智慧

#df

一种理论，认为对一大群人（“大众”）的意见或估计值求平均值通常会产生出人意料的好结果。例如，假设有一款游戏，玩家需要猜测一个大罐子里装了多少颗软糖。虽然大多数个人猜测都不准确，但经验表明，所有猜测的平均值与罐中实际的糖豆数量非常接近。

集成是“群体的智慧”的软件类比。即使单个模型做出的预测非常不准确，但对多个模型的预测结果求平均值通常会生成出人意料的良好预测。例如，虽然单个决策树的预测效果可能不佳，但决策森林的预测效果通常非常好。

机器学习术语表：决策森林 使用集合让一切井井有条 根据您的偏好保存内容并对其进行分类。

A

属性抽样

轴对齐条件

B

装袋

二元条件

C

condition

D

决策森林

决策树

E

熵

F

特征重要性

G

Gini 不纯度

点击相应图标，即可查看有关 Gini 不纯度的数学详细信息。

梯度提升（决策）树 (GBT)

梯度提升

I

推理路径

信息增益

在集合条件中

L

leaf

否

节点（决策树）

非二元性别条件

O

斜向条件

袋外评估（OOB 评估）

P

排列变量重要性

R

随机森林

root

S

放回抽样

点击相应图标可查看其他备注。

收缩

拆分

分割器

T

test

阈值（对于决策树）

V

变量重要性

W

群体的智慧

机器学习术语表：决策森林