机器学习术语表:决策森林

本页面包含决策森林术语表。如需查看所有术语表术语,请点击此处

A

属性抽样

#df

一种用于训练决策森林的策略,其中每个决策森林在学习条件时只会考虑可能的特征的一个随机子集。通常,系统会为每个节点对不同的特征子集进行采样。相反,在不进行属性采样的情况下训练决策树时,系统会考虑每个节点的所有可能特征。

轴对齐条件

#df

决策树中,仅包含一个特征条件例如,如果面积是一个地图项,那么以下为轴对齐条件:

area > 200

倾斜条件相对。

B

Bagging

#df

一种用于训练集成学习的方法,其中每个组成模型均使用替换抽样的随机子集进行训练。例如,随机森林是用包袋训练的 决策树集合。

术语 baggingbootstrap aggregat 的缩写。

二元条件

#df

决策树中,只有两种可能结果的条件,通常为 yes [是] 或 no [否]。 例如,以下是一个二元条件:

temperature >= 100

非二元条件相对。

C

condition

#df

决策树中,任何用于评估表达式的节点例如,决策树的以下部分包含两个条件:

由以下两个条件组成的决策树:(x > 0) 和 (y > 0)。

条件也称为分屏或测试。

的对比度条件。

另请参阅:

D

决策森林

#df

使用多个决策树创建的模型。决策森林通过聚合其决策树的预测结果来进行预测。常见的决策森林类型包括随机森林梯度提升树

决策树

#df

一种监督式学习模型,由一组以分层方式整理的条件组成。conditionsconditions例如,以下就是一个决策树:

一个决策树,由以分层方式排列的四个条件组成,形成五个叶项。

E

#df

信息理论中,描述概率分布的不可预测程度。此外,熵也可以定义为每个样本包含的信息量。当随机变量的所有值都同等可能时,分布具有尽可能高的熵。

具有两个可能值“0”和“1”的集合(例如二元分类问题中的标签)的熵采用以下公式:

  H = -p log p - q log q = -p log p - (1-p) * log (1-p)

其中:

  • H 是熵。
  • p 表示“1”样本的比例。
  • q 是“0”样本的比例。请注意,q = (1 - p)
  • log 通常是 log2。在本示例中,熵单位有点意义。

例如,假设情况如下:

  • 100 个示例包含值“1”
  • 300 个示例包含值“0”

因此,熵值为:

  • p = 0.25
  • q = 0.75
  • H = (-0.25)log2(0.25) - (0.75)log2(0.75) = 0.81 位/样本

一个完美平衡的集合(例如,200 个“0”和 200 个“1”)样本的熵为 1.0 位。随着集合越来越不平衡,其熵会逐渐接近 0.0。

决策树中,熵有助于用公式表示信息增益,从而帮助分部器在分类决策树成长过程中选择条件

将熵与以下项进行比较:

熵通常称为香农的熵。

F

特征重要性

#df

变量重要性的含义相同。

G

基尼杂质

#df

类似于的指标。分割器使用从基尼杂质或熵衍生的值来构成分类决策树条件信息增益衍生自熵。对于从基尼杂质衍生的指标,并没有公认的等效术语;但是,这个未命名的指标与信息增益同样重要。

基尼杂质也称为“基尼指数”,或简称为“基尼系数”。

梯度增强(决策)树 (GBT)

#df

一种决策森林,其中:

梯度增强

#df

一种训练算法,其中训练弱模型以迭代方式提高强大模型的质量(减少损失)。例如,弱模型可以是线性模型,也可以是小型决策树模型。强模型成为之前训练的所有弱模型的总和。

在最简单的梯度提升法中,每次迭代都会训练一个弱模型,以预测强模型的损失梯度。然后,通过减去预测梯度来更新强模型的输出,类似于梯度下降法

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

其中:

  • $F_{0}$ 是初始的强大模型。
  • $F_{i+1}$ 是下一个强大的模型。
  • $F_{i}$ 是当前强大的模型。
  • $\xi$ 是一个介于 0.0 和 1.0 之间的值,称为缩减,类似于梯度下降法中的学习速率
  • $f_{i}$ 是经过训练的弱模型,用于预测 $F_{i}$ 的损失梯度。

梯度提升的现代变体还在计算中包括损失的二阶导数(海森)。

决策树通常用作梯度提升中的弱模型。请参阅梯度提升(决策)树

I

推理路径

#df

决策树中,在推断期间,特定示例到其他条件的路由会以结束。例如,在下面的决策树中,较粗的箭头显示了具有以下特征值的示例的推理路径:

  • x = 7
  • y = 12
  • z = -3

下图中的推理路径在到达叶子 (Zeta) 之前经过三个条件。

包含四个条件和五个叶的决策树。
          根条件是 (x > 0)。由于答案是“是”,因此推理路径从根到下一个条件 (y > 0)。
由于答案是“是”,因此推断路径会转到下一个条件 (z > 0)。由于答案为“否”,推理路径会到达其终端节点,即叶片 (Zeta)。

三个粗箭头表示推理路径。

信息增益

#df

决策林中,节点的与其子节点的加权(按样本数)的熵和总和。节点的熵就是该节点中样本的熵。

以下面的熵值为例:

  • 父节点的熵 = 0.6
  • 一个包含 16 个相关样本的子节点的熵 = 0.2
  • 包含 24 个相关样本的另一个子节点的熵 = 0.1

因此,40% 的样本位于一个子节点中,60% 的样本位于另一个子节点中。因此:

  • 子节点的加权熵和 = (0.4 * 0.2) + (0.6 * 0.1) = 0.14

因此,信息增益为:

  • 信息增益 = 父节点的熵 - 子节点的加权熵和
  • 信息增益 = 0.6 - 0.14 = 0.46

大多数拆分器都力求创建能够最大限度提高信息增益的条件

内嵌条件

#df

决策树中,一种条件,用于测试一组项中是否存在某一项。例如,以下是一个内嵌条件:

  house-style in [tudor, colonial, cape]

在推理期间,如果房屋样式的地图项的值为 tudorcolonialcape,此条件的评估结果为“是”。如果房屋样式的地图项值为其他值(例如 ranch),则此条件的计算结果为“否”。

与测试独热编码特征的条件相比,内嵌条件通常会生成更高效的决策树。

L

叶子

#df

决策树中的任何端点。与条件不同,叶项并不执行测试。实际上,叶子是一种可能的预测。叶也是推断路径的终端节点

例如,下面的决策树包含三叶:

有两个条件导致三叶的决策树。

节点(决策树)

#df

决策树中,任何条件

包含两个条件和三个叶的决策树。

非二元条件

#df

包含两种以上结果的条件。例如,以下非二元条件包含三种可能的结果:

导致三种可能结果的条件 (number_of_legs = ?)。一种结果 (number_of_legs = 8) 会产生一个名为“蜘蛛”程序的叶子。第二个结果 (number_of_legs = 4) 得到一个名为“dog”的叶项。第三个结果 (number_of_legs = 2) 生成一片名为企鹅的叶子。

O

倾斜条件

#df

决策树中,是指涉及多个特征条件例如,如果高度和宽度都是特征,则以下为倾斜条件:

  height > width

轴对齐条件相对。

开箱评估(OOB 评估)

#df

一种评估决策林质量的机制,方法是对照该决策树的训练中未使用的样本,测试该决策树的决策树例如,在下图中,请注意,系统基于大约三分之二的样本训练每个决策树,然后针对其余的三分之一样本进行评估。

由三个决策树组成的决策森林。一个决策树使用三分之二的样本进行训练,然后将其余三分之一的样本用于 OOB 评估。第二个决策树使用与上一个决策树不同的三分之二样本进行训练,然后使用与上一个决策树不同的三分之一进行 OOB 评估。

袋外评估是对交叉验证机制的一种高效、保守的近似计算。在交叉验证中,对于每一轮交叉验证,系统都会训练一个模型(例如,在 10 次交叉验证中训练 10 个模型)。OOB 评估时,训练单个模型。由于 bagging 会在训练期间从每一树中预扣一些数据,因此 OOB 评估可以使用这些数据来近似进行交叉验证。

P

排列变量重要性

#df

一种变量重要性,用于评估在排列特征值后模型预测误差的增加幅度。排列变量重要性是一种独立于模型的指标。

R

随机森林

#df

一种决策树集成,其中每个决策树都使用特定的随机噪声进行训练,例如打包 (bagging)

随机森林是一种决策森林

#df

决策树中的起始节点(第一个条件)。 按照惯例,图表将根放在决策树的顶部。例如:

包含两个条件和三个叶的决策树。起始条件 (x > 2) 是根。

替换抽样

#df

一种从一组候选项(其中可以多次选择同一项)中选择项的方法。短语“带替换”表示每次选择后,选定项会返回到候选项池。反之,即不替换进行采样,这意味着候选项只能选择一次。

以下面的水果组合为例:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

假设系统随机选择 fig 作为第一项。如果使用带替换的采样,系统会从以下集合中选择第二项:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

是的,这与之前的设置相同,因此系统可能会再次选择 fig

如果使用不替换的抽样,一旦选择了某个样本,便无法再次选择。例如,如果系统随机选择 fig 作为第一个样本,那么就无法再次选择 fig。因此,系统会从以下(简化)集合中选择第二个样本:

fruit = {kiwi, apple, pear, cherry, lime, mango}

缩减

#df

梯度提升中用于控制过拟合超参数。梯度提升中的收缩类似于梯度下降法中的学习速率收缩率为 0.0 到 1.0 之间的小数值。与较大的缩减值相比,较低的收缩值在减少过拟合方面表现得更好。

拆分

#df

决策树中,条件的另一个名称

分割器

#df

训练决策树时,负责在每个节点上查找最佳条件的例程(和算法)。

T

test

#df

决策树中,条件的另一个名称

阈值(适用于决策树)

#df

轴对齐条件中,要与特征进行比较的值。例如,75 是以下条件中的阈值:

grade >= 75

V

变量重要性

#df

一组得分,表示每个特征对模型的相对重要性。

例如,假设某个决策树会估算房价。假设此决策树使用三个特征:尺寸、年龄和风格。如果三个特征的一组可变重要性计算为 {size=5.8, age=2.5, style=4.7},则尺寸对决策树比年龄或样式更重要。

存在不同的可变重要性指标,这些指标可以让机器学习专家了解模型的不同方面。

西

群众的智慧

#df

平均分配大量人(“人群”)的意见或估计往往可以产生出乎意料的出色结果。例如,假设有一个游戏,玩家猜测包装在一个大罐子中的果冻豆的数量。虽然大多数猜测都不准确,但根据经验表明,所有猜测的平均值与罐中的实际果冻豆数量十分接近。

Ensembles 是对人群智慧的模拟。 即使单个模型所做的预测非常不准确,将许多模型的预测结果取平均值往往也会生成出人意料的好预测。例如,虽然单个决策树的预测结果可能很差,但决策森林通常可以做出非常准确的预测。