下面简要总结了本课程中所学内容:
- 决策树是一种由一系列条件组成的模型,这些条件以树形结构分层排列。条件分为以下几类:
- 训练决策树涉及在每个节点中搜索最佳条件。分屏器例程使用信息增益或 基尼系数等指标来确定最佳条件。
- 决策森林是一种由多个决策树组成的模式。决策森林的预测是其决策树预测的汇总。
- 随机森林是一组决策树,其中每个决策树都使用特定的随机噪声进行训练。
- Bagging 是一种技术,其中随机森林中的每个决策树都基于不同的示例子集进行训练。
- 随机森林不需要验证数据集。相反,大多数随机森林使用一种称为“袋外评估”的技术来评估模型质量。out-of-bag-evaluation
- 梯度提升(决策)树是一种通过输入决策树的迭代调整进行训练的决策森林。一个名为收缩的值用于控制梯度提升(决策)树的学习速率以及过拟合程度。
参考
- Greedy Function Approximation: A Gradient Boosting Machine, J. Friedman。
- The Elements of Statistical Learning,作者:Trevor Hastie。第 10 章。
- Generalized Boosted Models: A guide to the gbm package(广义提升模型:gbm 软件包指南),G. Ridgeway