本页面包含 Decision Forests 术语表。对于所有术语库术语 点击此处。
A
属性抽样
一种训练决策森林的策略,其中每个 决策树仅考虑可能的 特征(在学习条件时使用)。 通常,对于每个类别的特征, 节点。相比之下,在训练决策树时, 在不进行属性采样的情况下,系统会考虑每个节点的所有可能的特征。
轴对齐条件
在决策树中,条件 只涉及一项功能。例如,如果区域 为特征,则以下为轴对齐条件:
area > 200
与倾斜条件相对。
B
Bagging
一种训练集成学习的方法,其中每个 本体模型对随机选择的训练子集进行训练, 示例通过替换采样。 例如,随机森林是一组 决策树。
“bagging”一词是 bootstrap aggregat 的缩写。
二元条件
在决策树中,条件 可能的结果有两种,通常为是或否。 例如,以下是二元条件:
temperature >= 100
与非二元条件相对。
C
condition
在决策树中,任何符合以下条件的节点: 对表达式求值。例如, 决策树包含两个条件:
条件也称为拆分或测试。
使用 leaf 对比条件。
另请参阅:
D
决策森林
根据多个决策树创建的模型。 决策森林通过汇总以下各个方面的预测结果来进行预测 其决策树。常见的决策森林类型包括 随机森林和梯度提升树。
决策树
一种监督式学习模型, 以分层方式整理的 conditions 和 leave 属性。 例如,下面是一个决策树:
E
熵
在 <ph type="x-smartling-placeholder"></ph> 信息理论, 即概率的 。或者,熵也定义为 每个示例包含的信息。一个分布有 当一个随机变量的所有值都达到 概率均相同。
有两个可能的值为“0”的集合的熵和“1”(例如, 二元分类问题中的标签) 公式如下:
<ph type="x-smartling-placeholder"></ph> H = -p log p - q log q = -p log p - (1-p) * log (1-p)
其中:
- H 是熵。
- p 是“1”的比例示例。
- q 是“0”的比例示例。请注意,q = (1 - p)
- log 通常为 log2。在此例中, 单位。
例如,假设情况如下:
- 100 个示例包含值“1”
- 300 个示例包含值“0”
因此,熵值为:
- p = 0.25
- Q = 0.75
- H = (-0.25)log2(0.25) - (0.75)log2(0.75) = 每个样本 0.81 位
完全平衡的集合(例如,200 个“0”和 200 个“1”) 每个样本的熵为 1.0 位。随着一组不断 不平衡,则其熵趋近于 0.0。
在决策树中,熵有助于公式化 信息获取,帮助 splitter 选择条件 在分类决策树生长过程中出现的概率。
将熵与以下各项进行比较:
- 基尼杂质
- 交叉熵损失函数
熵通常称为香农熵。
F
特征重要性
与变量重要性的含义相同。
G
基尼杂质
一个与熵类似的指标。分割器 使用从基尼杂质或熵衍生出的值 分类条件 决策树。 信息增益由熵得出。 对于派生的指标,没有公认的等效术语 不过,这个未命名的指标与 信息增益。
基尼杂质也称为 gini 索引,或简称为 gini。
梯度提升(决策)树 (GBT)
一种决策林,其中:
梯度增强
一种训练算法,其中弱模型经过训练, 提高有效模型的质量(减少损失)。例如: 而弱模型可以是线性模型,也可以是小型决策树模型。 强模型成为之前训练过的所有弱模型的总和。
在最简单的梯度提升形式中,每次迭代时, 来预测强模型的损失梯度。然后, 通过减去预测的梯度来更新强模型的输出, 类似于梯度下降法。
其中:
- $F_{0}$ 为起始强模型。
- $F_{i+1}$ 是紧随其后的强大模型。
- $F_{i}$ 是当前的强模型。
- $\xi$ 是一个介于 0.0 和 1.0 之间的值,称为收缩, 类似于 学习速率: 来训练梯度下降法。
- $f_{i}$ 是经过训练的弱模型, $F_{i}$。
梯度提升的现代变体也包括第二导数 (海森斯)计算中损失的概率。
I
推理路径
在决策树中,在推理期间: 特定示例从 root 改为其他条件,终止以 叶子。例如,在以下决策树中, 较粗的箭头表示示例的推理路径,该示例 特征值:
- x = 7
- y = 12
- z = -3
下图中的推理路径经过三个
条件才会到达叶项 (Zeta
)。
三个粗箭头表示推理路径。
信息增益
在决策森林中, 节点的熵和加权值(通过样本数) 其子节点的熵的总和。节点的熵就是熵 所有样本。
例如,请考虑以下熵值:
- 父节点的熵 = 0.6
- 一个含 16 个相关样本的子节点的熵 = 0.2
- 具有 24 个相关样本的另一个子节点的熵 = 0.1
因此,40% 的样本位于一个子节点中,60% 位于 另一个子节点。因此:
- 子节点的加权熵和 = (0.4 * 0.2) + (0.6 * 0.1) = 0.14
因此,信息增益为:
- 信息增益 = 父节点的熵 - 子节点的加权熵总和
- 信息增益 = 0.6 - 0.14 = 0.46
内嵌条件
在决策树中,条件 用于测试一组项中是否存在某个项。 例如,以下是 in-set 条件:
house-style in [tudor, colonial, cape]
在推理期间,如果房屋样式feature的值
为 tudor
、colonial
或 cape
,则此条件的评估结果为“是”。如果
房屋风格地图项的值是其他值(例如 ranch
),
则此条件的评估结果为“否”。
相较于预设条件,通常会产生更有效的决策树 用于测试独热编码特征的条件。
L
叶子
决策树中的任何端点。取消喜欢 condition,则叶项不会执行测试。 更确切地说,叶项是一种可能的预测。一片叶子也代表着终端 推理路径的节点。
例如,下面的决策树包含三叶树:
否
节点(决策树)
非二元条件
包含两种以上可能结果的条件。 例如,以下非二元条件包含三种可能的 结果:
O
斜面
在决策树中, 包含多个项的条件 feature。例如,如果高度和宽度都是特征, 则以下为倾斜条件:
height > width
与轴对齐条件相对。
开箱评估(OOB 评估)
一种用于评估 决策森林,具体做法是测试每个 决策树 示例 未 该决策树的训练。例如,在 可以看到,系统会对每个决策树进行训练, 基于三分之二的样本,然后根据 所剩三分之一的样本。
袋子评估是一种高效且保守的计算方法 交叉验证机制的近似值。 在交叉验证中,每个交叉验证轮次都训练一个模型 (例如,10 次交叉验证中训练了 10 个模型)。 采用 OOB 评估时,只会训练单个模型。因为bagging 会在训练期间从每个树中保留一些数据,OOB 评估可以使用 将数据用于近似交叉验证。
P
排列变量重要性
一种变量重要性,用于评估 将模型进行排列处理后,模型预测误差的增长幅度 特征值。排列变量重要性与模型无关 指标。
R
随机森林
决策树的集成学习, 每个决策树都使用特定的随机噪声进行训练, 例如 bagging。
随机森林是一种决策森林。
根
起始节点(第一个 条件树)位于决策树中。 按照惯例,图表会将根置于决策树的顶部。 例如:
S
采样并替换
一种从一组具有相同候选字词的候选字词中选择字词的方法, 可以被多次选中。短语“带替换”含义 每次选择后,所选内容都会返回到池中 候选字词。反向方法,即不进行替换采样, 表示一个候选项只能被选择一次。
例如,请考虑以下水果组合:
fruit = {kiwi, apple, pear, fig, cherry, lime, mango}
假设系统随机选择 fig
作为第一项。
如果使用带替换的抽样,则由系统选择
以下集合中的第二项:
fruit = {kiwi, apple, pear, fig, cherry, lime, mango}
是的,这和之前一样,所以系统可能会
再选择“fig
”。
如果使用抽样而不替换,则一旦选取,便无法再抽样
重新选择。例如,如果系统随机选择 fig
作为
第一个样本,则无法再次选择 fig
。因此,系统会
从以下(经过缩减的)集合中选择第二个样本:
fruit = {kiwi, apple, pear, cherry, lime, mango}
收缩
以下项目中的超参数: 梯度增强,用于控制 过拟合。梯度提升中的收缩 类似于中 梯度下降法。收缩率是小数 介于 0.0 和 1.0 之间的值。较小的收缩值可以降低过拟合 大于较大的收缩值。
拆分
在决策树中, condition [使用情况] 属性。
分离器
在训练决策树时,例程 和算法)来找出最合适的 每个节点上的条件。
T
test
在决策树中, condition [使用情况] 属性。
阈值(适用于决策树)
在轴对齐条件中, 正在与feature进行比较。例如,75 表示 阈值条件:
grade >= 75
V
重要性可变
一组分数,指示每个类别的相对重要性 feature。
例如,假设有一个决策树, 估算房价。假设这个决策树使用三个 尺寸、适用年龄和样式。如果一组可变重要性 计算这三个特征的值 {size=5.8, age=2.5, style=4.7},那么尺寸对 决策树,而不是年龄或风格。
存在不同的变量重要性指标,这可以作为 机器学习专家,介绍模型的不同方面。
W
群体的智慧
对一个大群体的意见或估计取平均值的想法 的人(群体)通常能取得意想不到的好结果。 例如,假设有一款游戏,玩家需要猜测 将果冻豆打包在一个大罐子里。虽然大多数人 因此所有猜测的平均值 实验结果显示的结果与 罐装果冻豆。
Ensembles 是一种模拟群体智慧的软件。 即使个别模型做出的预测极不准确, 对许多模型的预测取平均值,往往会产生意想不到的 。例如,虽然某个人 决策树可能做出很糟糕的预测, 决策森林通常能够做出非常好的预测。