机器学习术语表:决策森林

本页面包含 Decision Forests 术语表。对于所有术语库术语 点击此处

A

属性抽样

#df

一种训练决策森林的策略,其中每个 决策树仅考虑可能的 特征(在学习条件时使用)。 通常,对于每个类别的特征, 节点。相比之下,在训练决策树时, 在不进行属性采样的情况下,系统会考虑每个节点的所有可能的特征。

轴对齐条件

#df

决策树中,条件 只涉及一项功能。例如,如果区域 为特征,则以下为轴对齐条件:

area > 200

倾斜条件相对。

B

Bagging

#df

一种训练集成学习的方法,其中每个 本体模型对随机选择的训练子集进行训练, 示例通过替换采样。 例如,随机森林是一组 决策树

“bagging”一词是 bootstrap aggregat 的缩写。

二元条件

#df

决策树中,条件 可能的结果有两种,通常为。 例如,以下是二元条件:

temperature >= 100

非二元条件相对。

C

condition

#df

决策树中,任何符合以下条件的节点: 对表达式求值。例如, 决策树包含两个条件:

由两个条件组成的决策树:(x > 0) 和
          (y > 0)。

条件也称为拆分或测试。

使用 leaf 对比条件。

另请参阅:

D

决策森林

#df

根据多个决策树创建的模型。 决策森林通过汇总以下各个方面的预测结果来进行预测 其决策树。常见的决策森林类型包括 随机森林梯度提升树

决策树

#df

一种监督式学习模型, 以分层方式整理的 conditionsleave 属性。 例如,下面是一个决策树:

由四个条件组成的决策树
          层次结构,这可能导致五片叶子。

E

#df

在 <ph type="x-smartling-placeholder"></ph> 信息理论, 即概率的 。或者,熵也定义为 每个示例包含的信息。一个分布有 当一个随机变量的所有值都达到 概率均相同。

有两个可能的值为“0”的集合的熵和“1”(例如, 二元分类问题中的标签) 公式如下:

<ph type="x-smartling-placeholder"></ph> H = -p log p - q log q = -p log p - (1-p) * log (1-p)

其中:

  • H 是熵。
  • p 是“1”的比例示例。
  • q 是“0”的比例示例。请注意,q = (1 - p)
  • log 通常为 log2。在此例中, 单位。

例如,假设情况如下:

  • 100 个示例包含值“1”
  • 300 个示例包含值“0”

因此,熵值为:

  • p = 0.25
  • Q = 0.75
  • H = (-0.25)log2(0.25) - (0.75)log2(0.75) = 每个样本 0.81 位

完全平衡的集合(例如,200 个“0”和 200 个“1”) 每个样本的熵为 1.0 位。随着一组不断 不平衡,则其熵趋近于 0.0。

决策树中,熵有助于公式化 信息获取,帮助 splitter 选择条件 在分类决策树生长过程中出现的概率。

将熵与以下各项进行比较:

熵通常称为香农熵。

F

特征重要性

#df

变量重要性的含义相同。

G

基尼杂质

#df

一个与类似的指标。分割器 使用从基尼杂质或熵衍生出的值 分类条件 决策树信息增益由熵得出。 对于派生的指标,没有公认的等效术语 不过,这个未命名的指标与 信息增益。

基尼杂质也称为 gini 索引,或简称为 gini

梯度提升(决策)树 (GBT)

#df

一种决策林,其中:

梯度增强

#df

一种训练算法,其中弱模型经过训练, 提高有效模型的质量(减少损失)。例如: 而弱模型可以是线性模型,也可以是小型决策树模型。 强模型成为之前训练过的所有弱模型的总和。

在最简单的梯度提升形式中,每次迭代时, 来预测强模型的损失梯度。然后, 通过减去预测的梯度来更新强模型的输出, 类似于梯度下降法

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

其中:

  • $F_{0}$ 为起始强模型。
  • $F_{i+1}$ 是紧随其后的强大模型。
  • $F_{i}$ 是当前的强模型。
  • $\xi$ 是一个介于 0.0 和 1.0 之间的值,称为收缩, 类似于 学习速率: 来训练梯度下降法。
  • $f_{i}$ 是经过训练的弱模型, $F_{i}$。

梯度提升的现代变体也包括第二导数 (海森斯)计算中损失的概率。

决策树 梯度提升。请参阅 梯度提升(决策)树

I

推理路径

#df

决策树中,在推理期间: 特定示例root 改为其他条件,终止以 叶子。例如,在以下决策树中, 较粗的箭头表示示例的推理路径,该示例 特征值:

  • x = 7
  • y = 12
  • z = -3

下图中的推理路径经过三个 条件才会到达叶项 (Zeta)。

一棵决策树,由四个条件和五叶子组成。
          根条件是 (x > 0)。由于答案是“是”,
          推理路径从根到下一个条件 (y > 0)。
          由于答案是“是”,因此推理路径将前往
          下一个条件 (z > 0)。由于答案为“否”,推理路径
          到达其最终节点,即叶子 (Zeta)。

三个粗箭头表示推理路径。

信息增益

#df

决策森林中, 节点的和加权值(通过样本数) 其子节点的熵的总和。节点的熵就是熵 所有样本。

例如,请考虑以下熵值:

  • 父节点的熵 = 0.6
  • 一个含 16 个相关样本的子节点的熵 = 0.2
  • 具有 24 个相关样本的另一个子节点的熵 = 0.1

因此,40% 的样本位于一个子节点中,60% 位于 另一个子节点。因此:

  • 子节点的加权熵和 = (0.4 * 0.2) + (0.6 * 0.1) = 0.14

因此,信息增益为:

  • 信息增益 = 父节点的熵 - 子节点的加权熵总和
  • 信息增益 = 0.6 - 0.14 = 0.46

大多数分隔符都会尝试创建条件 最大程度地获取信息。

内嵌条件

#df

决策树中,条件 用于测试一组项中是否存在某个项。 例如,以下是 in-set 条件:

  house-style in [tudor, colonial, cape]

在推理期间,如果房屋样式feature的值 为 tudorcolonialcape,则此条件的评估结果为“是”。如果 房屋风格地图项的值是其他值(例如 ranch), 则此条件的评估结果为“否”。

相较于预设条件,通常会产生更有效的决策树 用于测试独热编码特征的条件。

L

叶子

#df

决策树中的任何端点。取消喜欢 condition,则叶项不会执行测试。 更确切地说,叶项是一种可能的预测。一片叶子也代表着终端 推理路径的节点

例如,下面的决策树包含三叶树:

一棵决策树,包含两个条件,分别指向三片叶子。

节点(决策树)

#df

决策树中, conditionleaf

一棵有两个条件和三叶树的决策树。

非二元条件

#df

包含两种以上可能结果的条件。 例如,以下非二元条件包含三种可能的 结果:

一种情况 (number_of_legs = ?),可导致三种可能的
          结果。一种结果 (number_of_legs = 8) 引出一片叶子
          名为“蜘蛛”程序第二个结果 (number_of_legs = 4) 导致
          一片名为狗的叶子。第三个结果 (number_of_legs = 2) 导致
          一片名为企鹅的叶子。

O

斜面

#df

决策树中, 包含多个项的条件 feature。例如,如果高度和宽度都是特征, 则以下为倾斜条件:

  height > width

轴对齐条件相对。

开箱评估(OOB 评估)

#df

一种用于评估 决策森林,具体做法是测试每个 决策树 示例 该决策树的训练。例如,在 可以看到,系统会对每个决策树进行训练, 基于三分之二的样本,然后根据 所剩三分之一的样本。

决策森林由三个决策树组成。
          一个决策树针对三分之二的样本进行训练
          然后将剩余的三分之一用于 OOB 评估。
          第二个决策树在不同的三分之二处进行训练
          与上一个决策树相比,
          使用的三分之一用于 OOB 评估,
          先前的决策树。

袋子评估是一种高效且保守的计算方法 交叉验证机制的近似值。 在交叉验证中,每个交叉验证轮次都训练一个模型 (例如,10 次交叉验证中训练了 10 个模型)。 采用 OOB 评估时,只会训练单个模型。因为bagging 会在训练期间从每个树中保留一些数据,OOB 评估可以使用 将数据用于近似交叉验证。

P

排列变量重要性

#df

一种变量重要性,用于评估 将模型进行排列处理后,模型预测误差的增长幅度 特征值。排列变量重要性与模型无关 指标。

R

随机森林

#df

决策树集成学习, 每个决策树都使用特定的随机噪声进行训练, 例如 bagging

随机森林是一种决策森林

#df

起始节点(第一个 条件树)位于决策树中。 按照惯例,图表会将根置于决策树的顶部。 例如:

一棵有两个条件和三叶树的决策树。通过
          起始条件 (x > 2) 为根。

S

采样并替换

#df

一种从一组具有相同候选字词的候选字词中选择字词的方法, 可以被多次选中。短语“带替换”含义 每次选择后,所选内容都会返回到池中 候选字词。反向方法,即不进行替换采样, 表示一个候选项只能被选择一次。

例如,请考虑以下水果组合:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

假设系统随机选择 fig 作为第一项。 如果使用带替换的抽样,则由系统选择 以下集合中的第二项:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

是的,这和之前一样,所以系统可能会 再选择“fig”。

如果使用抽样而不替换,则一旦选取,便无法再抽样 重新选择。例如,如果系统随机选择 fig 作为 第一个样本,则无法再次选择 fig。因此,系统会 从以下(经过缩减的)集合中选择第二个样本:

fruit = {kiwi, apple, pear, cherry, lime, mango}

收缩

#df

以下项目中的超参数梯度增强,用于控制 过拟合。梯度提升中的收缩 类似于梯度下降法。收缩率是小数 介于 0.0 和 1.0 之间的值。较小的收缩值可以降低过拟合 大于较大的收缩值。

拆分

#df

决策树中, condition [使用情况] 属性。

分离器

#df

在训练决策树时,例程 和算法)来找出最合适的 每个节点上的条件

T

test

#df

决策树中, condition [使用情况] 属性。

阈值(适用于决策树)

#df

轴对齐条件中, 正在与feature进行比较。例如,75 表示 阈值条件:

grade >= 75

V

重要性可变

#df

一组分数,指示每个类别的相对重要性 feature

例如,假设有一个决策树, 估算房价。假设这个决策树使用三个 尺寸、适用年龄和样式。如果一组可变重要性 计算这三个特征的值 {size=5.8, age=2.5, style=4.7},那么尺寸对 决策树,而不是年龄或风格。

存在不同的变量重要性指标,这可以作为 机器学习专家,介绍模型的不同方面。

W

群体的智慧

#df

对一个大群体的意见或估计取平均值的想法 的人(群体)通常能取得意想不到的好结果。 例如,假设有一款游戏,玩家需要猜测 将果冻豆打包在一个大罐子里。虽然大多数人 因此所有猜测的平均值 实验结果显示的结果与 罐装果冻豆。

Ensembles 是一种模拟群体智慧的软件。 即使个别模型做出的预测极不准确, 对许多模型的预测取平均值,往往会产生意想不到的 。例如,虽然某个人 决策树可能做出很糟糕的预测, 决策森林通常能够做出非常好的预测。