下面简要概述了您在本课程中学到的内容:
- 决策树是由一系列以树的形状分层整理的条件组成的模型。条件分为不同类别:
- 训练决策树涉及搜索每个节点的最佳条件。拆分器例程使用信息增益或 Gini 等指标来确定最佳条件。
- 决策林是由多个决策树组成的模式。决策森林的预测是其决策树预测的汇总。
- 随机森林是决策树的集合,其中每个决策树都使用特定的随机噪声进行训练。
- 打包技术采用不同的样本子集来训练随机森林中的每个决策树。
- 随机森林不需要验证数据集。相反,大多数随机林采用out-of-bag-evaluation箱外评估技术来评估模型的质量。
- 梯度提升(决策树)是一种决策森林,通过基于输入决策树的迭代调整进行训练。缩减值用于控制梯度提升(决策)树的学习速率以及可能的过拟合程度。
参考编号
- 贪心函数近似:梯度提升机,J. Friedman。
- 统计学习的元素 (The Elements of Statistical Learning),Trevor Hastie。第 10 章。
- 泛化提升模型:gbm 软件包指南,G. Ridgeway