机器学习术语表:决策森林

本页面包含“决策森林”术语表术语。如需了解所有术语表术语,请点击此处

应用

属性采样

#df

训练决策树的策略,其中每个决策树在学习条件时,仅考虑随机的特征的随机子集。通常,系统会为每个节点提取不同的特征子集。相比之下,在没有特性采样的情况下训练决策树时,系统会考虑每个节点的所有可能特征。

轴对齐条件

#df

决策树中,只涉及单个特征条件。例如,如果区域是一个地图项,那么以下是轴对齐的条件:

area > 200

倾斜条件形成对比。

B

行李

#df

用于训练一个集成的方法,其中每个组成模型基于一组随机训练示例进行训练采样替换例如,随机森林是经过包装的决策树的集合。

术语“行李”bootstrap aggregat 的缩写。

二进制条件

#df

决策树中,只有两个可能的结果(通常是 yesno)的条件。例如,以下为二元条件:

temperature >= 100

非二元条件对比。

C

condition

#df

决策树中,评估表达式的任何节点例如,决策树的以下部分包含两个条件:

由两个条件组成的决策树:(x > 0) 和 (y > 0)。

条件也称为拆分或测试。

使用设置对比度条件。

另请参阅:

D

决策森林

#df

根据多个决策树创建的模型。 决策森林通过汇总其决策树的预测结果来进行预测。常见的决策林包括随机森林渐变提升树

决策树

#df

一种监督式学习模型,包含一组按层级整理的条件。例如,下方是决策树:

由四个层级构成的决策树,分层排列成五个叶子。

E

#df

信息理论中,对概率分布的不可预测性的说明。或者,熵也定义为每个示例包含多少信息。在随机变量的所有值相等的情况下,分布可能具有最高的熵。

包含两个可能的值(“0”和“1”)的集的熵(例如二元分类问题中的标签)的公式如下:

  H = -p log p - q log q = -p log p - (1-p) * log (1-p)

其中:

  • H 是熵。
  • p 是“1”样本的比例。
  • q 表示“0”表示比例。请注意,q = (1 - p)
  • log 通常为日志2。在本例中,熵单位有点少。

例如,假设情况如下:

  • 100 个示例包含值“1”
  • 300 个示例包含值“0”

因此,熵值是:

  • p = 0.25
  • 质量得分 = 0.75
  • H = (-0.25)log2(0.25) - (0.75)log2(0.75) = 0.81

完全平衡的集合(例如,200 个“0”和 200 个“1”)的熵为每个示例 1.0 位。当集变得越来越不平衡时,其熵向 0.0 移动。

决策树中,熵有助于确定信息增益,帮助拆分器在分类决策树增长期间选择条件

比较熵与:

熵通常称为 Shannon 的熵。

F

特征重要性

#df

可变性重要性的同义词。

G

基尼杂质

#df

类似的指标。拆分器使用派生自基尼杂质或熵的值来组合条件,以对决策树进行分类。信息增益来自熵。对于因基因杂质产生的杂质,没有公认的等效术语;不过,这个未命名的指标与信息增益同样重要。

基尼尔杂质也称为gini 索引,简称 gini

渐变增强

#df

一种训练算法,通过训练算法以迭代方式训练强大模型的质量(降低损失)。例如,弱模型可以是线性决策树或小型决策树模型。强模型将成为之前训练的所有弱模型的总和。

以最简单的梯度提升形式,在每次迭代时训练弱模型,以预测强模型的损失梯度。然后,通过减去预测的渐变来更新强模型的输出,类似于梯度下降法

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

其中:

  • $F_{0}$ 是强效模型的开头。
  • $F_{i+1}$ 是下一个非常出色的模型。
  • $F_{i}$ 是目前的强模型。
  • $\xi$ 是 0.0 到 1.0 之间的值,称为收缩,与梯度下降法中的学习率类似。
  • $f_{i}$ 是经过训练以预测 $F_{i}$ 的损失梯度的弱模型。

渐变提升的现代变体还包含计算中的二次导数(海森)。

决策树通常用作梯度提升的弱模型。请参阅渐变提升(决策)树

渐变提升(决策)树 (GBT)

#df

一种决策森林,其中:

I

推断路径

#df

决策树中,推断期间,特定示例所在的路线从到其他 条件,以 终止。例如,在以下决策树中,较粗的箭头显示具有以下特征值的示例的推断路径:

  • x = 7
  • Y = 12
  • z = -3

下图中的推断路径在到达叶 (Zeta) 之前经过三个条件。

由四个条件和五个叶子组成的决策树。根条件为 (x > 0)。由于答案是肯定的,因此推断路径从根位置前往下一个条件 (y > 0)。
由于答案是肯定的,因此推断路径将转到下一个条件 (z > 0)。由于答案是否,因此推断路径会传输到其终端节点,即叶子 (Zeta)。

三个粗箭头显示推断路径。

信息增益

#df

决策树中,节点的与它其子节点的熵的加权(按示例数)之差。节点的熵是该节点中示例的熵。

例如,请考虑以下熵值:

  • 父节点的熵 = 0.6
  • 16 个相关示例的子节点的熵 = 0.2
  • 包含 24 个相关示例的另一个子节点的熵 = 0.1

因此,40% 的样本位于一个子节点中,60% 的样本位于另一个子节点中。因此:

  • 子节点的加权熵总和 = (0.4 * 0.2) + (0.6 * 0.1) = 0.14

因此,信息增益是:

  • 信息增益 = 父节点的熵 - 子节点的加权熵总和
  • 信息增益 = 0.6 - 0.14 = 0.46

大多数拆分器都会创建能够最大限度提高信息增益的条件

插入条件

#df

决策树中,测试一组项中是否存在某项项的条件例如,以下是一条边衬区条件:

  house-style in [tudor, colonial, cape]

在推断期间,如果房屋样式的地图项的值为 tudorcolonialcape,则此条件的评估结果为“是”。如果房屋样式特征的值是其他值(例如 ranch),则此条件的评估结果为“否”。

相较于测试独热编码特征的条件,边衬区条件通常可以生成更高效的决策树。

L

叶子

#df

决策树中的任何端点。与条件不同,绿叶不执行测试。相比之下,叶子就是一个可能的预测。叶子也是推断路径的终点节点

例如,以下决策树包含三个叶子:

包含两个条件、指向三个叶子的决策树。

节点(决策树)

#df

决策树中,任何条件

包含两个条件和三叶的决策树。

非二元疾病

#df

包含两种可能的结果的条件。 例如,以下非二元条件包含三种可能的结果:

一种可带来三种可能结果的条件 (number_of_legs = ?)。一个结果 (number_of_legs = 8) 将产生一个名为“蜘蛛”的叶子。第二个结果 (number_of_legs = 4) 会导致叶子生成狗狗。第三个结果 (number_of_legs = 2) 会导致一只叶子变成一只企鹅。

O

倾斜条件

#df

决策树中,这是一个涉及多个特征条件。例如,如果高度和宽度都是特征,则存在偏差条件:

  height > width

轴对齐条件形成对比。

包装外评估(OOB 评估)

#df

一种机制,用于对照决策树在训练期间使用的示例 测试决策树,评估该决策树的质量。例如,在下图中,请注意,系统使用大约三分之二的样本训练每个决策树,然后根据剩余三分之一的样本进行评估。

由三个决策树组成的决策森林。一个决策树使用示例的三分之二训练,然后使用其余三分之一进行 OOB 评估。第二个决策树使用与上一个决策树不同的三分之二样本进行训练,然后使用与前一个决策树不同的三分之一进行 OOB 评估。

袋外评估是对交叉验证机制的计算效率和保守型近似值。在交叉验证中,每个交叉验证轮次都训练一个模型(例如,10 个模型在 10 倍交叉验证中得到训练)。通过 OOB 评估,系统会训练单个模型。由于打包会在训练期间保留每个树中的某些数据,因此 OOB 评估可以使用这些数据来粗略进行交叉验证。

P

排列变量重要性

#df

一种变量重要性,用于评估在对特征值进行排列后模型预计会出现的误差增加情况。排列变量重要性与模型无关。

(右)

随机森林

#df

一种决策树集成学习,其中每个决策树都受特定随机噪声(例如包袋)的训练。

随机森林是一种决策树

#df

决策树中的起始节点(第一个条件)。按照惯例,图表会将根置于决策树之上。 例如:

包含两个条件和三叶的决策树。起始条件 (x > 2) 是根。

S

节录并替换

#df

从一组候选项中选择项的这种方法,可多次选择同一项。指令为“有替换”,即每次选择后,所选项都会返回给候选项池。反之,采样而不替换是指某个候选项只能被选择一次。

以下面的水果组合为例:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

假设系统随机选择 fig 作为第一项。如果使用采样替换功能,系统会从以下集合中选择第二项:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

是,这与之前设置相同,因此系统可能会再次选择 fig

如果在不替换样本的情况下使用采样,则样本一经选择便无法选择。例如,如果系统随机选择 fig 作为第一个样本,则无法再次选择 fig。因此,系统会从以下(缩减后)集合中选择第二个样本:

fruit = {kiwi, apple, pear, cherry, lime, mango}

收缩

#df

用于控制过拟合渐变提升中的超参数。渐变提升的收缩与梯度下降法中的学习速率类似。收缩是 0.0 到 1.0 之间的小数值。与较大的压缩值相比,压缩率值越小,过拟合程度越低。

分摊

#df

决策树中,这是条件的另一名称。

分牵绳

#df

在训练决策树时,负责在每个节点上查找最佳条件的例程(和算法)。

T

test

#df

决策树中,这是条件的另一名称。

阈值(用于决策树)

#df

轴对齐的条件中,功能要与之进行对比的值。例如,在以下情况下,阈值为 75:

grade >= 75

V

可变性

#df

表明每个特征对模型的相对重要性的一组分数。

例如,假设有一个决策树,用于估算房价。假设此决策树使用了三个特征:大小、年龄和样式。如果根据这三个特征的一组可变重要性计算为 {size=5.8,age=2.5,style=4.7},则大小对决策树而言比年龄或样式更重要。

不同的可变性指标可以用来向机器学习专家介绍模型的不同方面。

W

群体智慧

#df

取而代之的是,大量人群的意见或估算值(“人群”)通常可以带来意想不到的好结果。 例如,假设有一款游戏,玩家会猜到装在大罐中的果冻豆数量。尽管大多数猜测都不准确,但根据实际经验,所有猜测的平均值结果都异常接近 jar 中实际的果冻豆数量。

Ensembles 是模拟群体智慧的软件。 即使各个模型进行的预测极为不准确,平均许多模型的预测通常也会产生意外的预测。例如,虽然单个决策树的预测能力可能较差,但决策树通常能够做出非常好的预测。