このコースで学んだ内容を簡単にまとめると次のとおりです。
- ディシジョン ツリーは、ツリー状に階層的に編成された条件のコレクションで構成されるモデルです。条件は次のカテゴリに分類されます。
- ディシジョン ツリーをトレーニングするには、各ノードで最適な条件を検索する必要があります。分割ツール ルーティンは、情報量の増加やGini などの指標を使用して、最適な条件を決定します。
- ディシジョン フォレストは、複数のディシジョン ツリーで構成されるモードです。デシジョン フォレストの予測は、そのディシジョン ツリーの予測の集計です。
- ランダム フォレストは、各ディシジョン ツリーが特定のランダム ノイズでトレーニングされるディシジョン ツリーのアンサンブルです。
- Bagging は、ランダム フォレストの各ディシジョン ツリーを異なるサンプルのサブセットでトレーニングする手法です。
- ランダム フォレストには検証データセットは必要ありません。代わりに、ほとんどのランダム フォレストは、out-of-bag-evaluationと呼ばれる手法を使用してモデルの品質を評価します。
- 勾配ブースト(ディシジョン)ツリーは、入力ディシジョン ツリーからの反復調整によってトレーニングされるディシジョン フォレストの一種です。縮小と呼ばれる値は、勾配ブースト(ディシジョン)ツリーの学習率と、過剰適合する程度を制御します。
参照
- Greedy Function Approximation: A Gradient Boosting Machine, J. Friedman 氏。
- The Elements of Statistical Learning、Trevor Hastie。第 10 章。
- Generalized Boosted Models: A guide to the gbm package、G. Ridgeway