机器学习术语表:决策森林

本页包含决策森林术语表中的术语。如需查看所有术语表术语,请点击此处

A

属性采样

#df

一种训练决策森林的策略,其中每个决策树在学习条件时,只考虑可能特征的随机子集。通常,系统会为每个节点采样不同的特征子集。相比之下,在训练不进行属性抽样的决策树时,系统会考虑每个节点的所有可能特征。

轴对齐条件

#df

决策树中,仅涉及单个特征条件。例如,如果 area 是地图项,则以下是轴对齐条件:

area > 200

斜线条件相对。

B

bagging

#df

一种训练集成学习的方法,其中每个组成部分模型都针对按替换抽样的训练示例的随机子集进行训练。例如,随机森林是使用抽样法训练的决策树的集合。

术语“bagging”是“bootstrap aggregating”(自举例集成)的简称。

如需了解详情,请参阅“决策森林”课程中的随机森林部分。

二进制条件

#df

决策树中,只有两个可能结果(通常为“是”或“否”)的条件。例如,以下是二元条件:

temperature >= 100

非二元条件相对。

如需了解详情,请参阅“决策森林”课程中的条件类型

C

condition

#df

决策树中,用于求值的任何节点。例如,决策树的以下部分包含两个条件:

一个由两个条件组成的决策树:(x > 0) 和 (y > 0)。

条件也称为拆分或测试。

对比条件。

另请参阅:

如需了解详情,请参阅“决策森林”课程中的条件类型

D

决策森林

#df

由多个决策树创建的模型。决策森林通过汇总其决策树的预测结果来进行预测。常见的决策森林类型包括随机森林梯度提升树

如需了解详情,请参阅“决策森林”课程中的决策森林部分。

决策树

#df

由一组条件组成的监督式学习模型,这些条件和叶按层次结构进行组织。例如,以下是决策树:

一个决策树,由四个条件组成,这些条件以分层方式排列,并分别对应于五个叶子节点。

E

#df

信息论中,熵是对概率分布不可预测程度的描述。或者,熵也定义为每个示例包含的信息量。当随机变量的所有值都具有相同的概率时,分布具有可能的最大熵。

具有两个可能值“0”和“1”的集合的熵(例如,二元分类问题中的标签)的公式如下:

  H = -p log p - q log q = -p log p - (1-p) * log (1-p)

其中:

  • H 是熵。
  • p 是“1”示例的比例。
  • q 是“0”示例的比例。请注意,q = (1 - p)
  • log 通常为 log2。在本例中,熵单位为比特。

例如,假设情况如下:

  • 100 个示例包含值“1”
  • 300 个示例包含值“0”

因此,熵值为:

  • p = 0.25
  • q = 0.75
  • H = (-0.25)log2(0.25) - (0.75)log2(0.75) = 每例 0.81 比特

完全平衡的集合(例如,200 个“0”和 200 个“1”)的每个示例的熵为 1.0 位。随着集合的不平衡程度增加,其熵会趋近于 0.0。

决策树中,熵有助于制定信息增益,以帮助分屏器在分类决策树生长过程中选择条件

与以下内容比较熵:

熵通常称为 Shannon 熵

如需了解详情,请参阅“决策森林”课程中的适用于包含数值特征的二元分类的完全分屏器

F

特征重要性

#df

变量重要性的含义相同。

G

基尼不纯度

#df

类似的指标。分屏器使用从基尼不纯度或熵派生的值来组合条件,以便对决策树进行分类。信息增益派生自熵。从基尼不纯度派生出来的指标没有普遍接受的等效术语;不过,这个未命名指标与信息增益一样重要。

Gini 杂质也称为 gini 索引,或简称 gini

梯度提升(决策)树 (GBT)

#df

一种决策森林,其中:

如需了解详情,请参阅“决策森林”课程中的梯度提升决策树

梯度提升

#df

一种训练算法,用于训练弱模型,以迭代改进强模型的质量(降低损失)。例如,弱模型可以是线性模型或小型决策树模型。强模型是之前训练的所有弱模型的总和。

在最简单的梯度提升形式中,每次迭代都会训练一个弱模型来预测强模型的损失梯度。然后,通过减去预测的梯度来更新强模型的输出,类似于梯度下降

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

其中:

  • $F_{0}$ 是初始强大模型。
  • $F_{i+1}$ 是下一个强大模型。
  • $F_{i}$ 是当前的强大模型。
  • $\xi$ 是一个介于 0.0 和 1.0 之间的值,称为收缩,类似于梯度下降中的学习率
  • $f_{i}$ 是训练用来预测 $F_{i}$ 的损失梯度的弱模型。

梯度提升的现代变体在计算中还会纳入损失函数的二阶导数 (Hessian)。

决策树通常用作梯度提升中的弱模型。请参阅梯度提升(决策)树

I

推理路径

#df

决策树中,在推理期间,特定示例到其他条件的路径,以结尾。例如,在以下决策树中,较粗的箭头显示了具有以下特征值的示例的推理路径:

  • x = 7
  • y = 12
  • z = -3

下图中的推理路径会经过三个条件,然后到达叶子节点 (Zeta)。

一个由四个条件和五个叶子组成的决策树。
          根条件为 (x > 0)。由于答案为“是”,推理路径会从根节点前往下一个条件 (y > 0)。
          由于答案为“是”,推理路径会转到下一个条件 (z > 0)。由于答案为“否”,推理路径会前往其终端节点,即叶节点 (Zeta)。

三个粗箭头表示推理路径。

如需了解详情,请参阅“决策森林”课程中的决策树部分。

信息增益

#df

决策森林中,节点的与其子节点熵的加权(按示例数)和之间的差值。节点的熵是该节点中示例的熵。

例如,请考虑以下熵值:

  • 父节点的熵 = 0.6
  • 具有 16 个相关示例的一个子节点的熵 = 0.2
  • 另一个子节点的熵(24 个相关示例)= 0.1

因此,40% 的示例位于一个子节点中,60% 的示例位于另一个子节点中。因此:

  • 子节点的加权熵总和 = (0.4 * 0.2) + (0.6 * 0.1) = 0.14

因此,信息增益为:

  • 信息增益 = 父节点的熵 - 子节点的加权熵和
  • 信息增益 = 0.6 - 0.14 = 0.46

大多数分屏器都试图创建能最大限度提高信息增益的条件

在组合中的条件

#df

决策树中,用于测试一组项中是否存在某个项的条件。例如,以下是集合内条件:

  house-style in [tudor, colonial, cape]

在推理过程中,如果住宅风格特征的值为 tudorcolonialcape,则此条件的计算结果为“是”。如果“house-style”地图项的值为其他值(例如 ranch),则此条件的计算结果为“否”。

与测试独热编码特征的条件相比,集合内条件通常会生成更高效的决策树。

L

#df

决策树中的任何端点。与条件不同,叶子不会执行测试。而是叶子是可能的预测结果。叶节点也是推理路径的终端节点

例如,以下决策树包含三个叶子:

一个决策树,其中两个条件分别对应三个叶子节点。

节点(决策树)

#df

决策树中,任何条件

一个包含两个条件和三个叶子的决策树。

非二元性别

#df

包含多于两种可能结果的条件。例如,以下非二元条件包含三个可能的结果:

一个条件(number_of_legs = ?),会导致三种可能的结果。其中一个结果(number_of_legs = 8)会导致名为 spider 的叶子。第二个结果(number_of_legs = 4)会导致名为 dog 的叶子。第三个结果(number_of_legs = 2)会导致一个名为 penguin 的叶子。

O

斜视

#df

决策树中,涉及多个特征条件。例如,如果“height”和“width”都是特征,则以下是斜向条件:

  height > width

与轴对齐的条件相对。

袋外评估 (OOB 评估)

#df

一种机制,用于通过对每个决策树示例在该决策树的训练期间使用)进行测试来评估决策森林的质量。例如,在下图中,请注意系统会使用大约三分之二的示例训练每个决策树,然后使用剩余三分之一的示例进行评估。

由三个决策树组成的决策森林。
          一个决策树使用三分之二的示例进行训练,然后使用剩余三分之一的示例进行 OOB 评估。
          第二个决策树使用与前一个决策树不同的三分之二示例进行训练,然后使用与前一个决策树不同的三分之一示例进行 OOB 评估。

离群值评估是对交叉验证机制的计算高效且保守的近似值。在交叉验证中,每个交叉验证轮都会训练一个模型(例如,在 10 折交叉验证中,会训练 10 个模型)。使用 OOB 评估时,系统会训练单个模型。由于抽样法会在训练期间从每个树中保留一些数据,因此 OOB 评估可以使用这些数据来近似于交叉验证。

P

排列变量重要性

#df

一种变量重要性,用于评估在对特征值进行排列后模型的预测误差增加情况。排列变量重要性是一个与模型无关的指标。

R

随机森林

#df

决策树集成,其中每个决策树都使用特定的随机噪声进行训练,例如bagging

随机森林是一种决策森林

root

#df

决策树中的起始节点(第一个条件)。按照惯例,图表会将根放在决策树的顶部。例如:

一个包含两个条件和三个叶子的决策树。起始条件 (x > 2) 是根。

S

有放回的抽样

#df

从一组候选项中选择项的方法,其中可以多次选择同一项。“有放回”是指每次选择后,所选项都会返回到候选项池。相反的方法是不放回抽样,这意味着候选项只能被选取一次。

例如,请考虑以下水果集:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

假设系统随机选择 fig 作为第一个项。如果使用有放回的抽样,系统会从以下集合中选择第二个项:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

是的,这与之前的集合相同,因此系统可能会再次选择 fig

如果使用无替换抽样,则选取的样本将无法再次被选中。例如,如果系统随机选择 fig 作为第一个样本,则无法再次选择 fig。因此,系统会从以下(经过缩减)集合中选择第二个样本:

fruit = {kiwi, apple, pear, cherry, lime, mango}

收缩

#df

梯度提升中的超参数,用于控制过拟合。梯度提升中的收缩类似于梯度下降法中的学习速率。收缩率是一个介于 0.0 到 1.0 之间的小数值。与较大的收缩值相比,较小的收缩值可更好地减少过拟合。

分屏

#df

决策树中,条件的另一个名称。

分屏器

#df

在训练决策树时,负责在每个节点中查找最佳条件的例程(和算法)。

T

test

#df

决策树中,条件的另一个名称。

阈值(适用于决策树)

#df

与轴对齐的条件中,地图项的比较值。例如,75 是以下条件中的阈值:

grade >= 75

V

变量重要性

#df

一组得分,用于指示每个特征对模型的相对重要性。

例如,假设有一个用于估算房价的决策树。假设此决策树使用三个特征:尺寸、年龄和款式。如果计算出的这三个特征的一组变量重要性为 {size=5.8, age=2.5, style=4.7},则对于决策树而言,size 比 age 或 style 更重要。

存在不同的变量重要性指标,可让机器学习专家了解模型的不同方面。

W

众人之智

#df

该理论认为,对一组人(“群众”)的意见或估算值进行平均处理,通常会产生出乎意料的好结果。例如,假设有一款游戏,玩家需要猜测一个大罐子中装有多少果冻豆。虽然大多数单个猜测结果都会不准确,但经验表明,所有猜测结果的平均值与罐子中实际的果冻豆数出奇地接近。

集成是群体智慧的软件模拟。即使单个模型的预测结果非常不准确,平均多个模型的预测结果通常也会产生出乎意料的准确预测。例如,虽然单个决策树的预测结果可能不准确,但决策森林的预测结果通常非常准确。