このコースで学習した内容のまとめは次のとおりです。
- ディシジョン ツリーは、条件の集合体で構成されるモデルです。条件はツリー状に階層化されます。条件はさまざまなカテゴリに分類されます。
- ディシジョン ツリーをトレーニングするには、各ノードで最適な条件を探します。スプリッター ルーチンは、情報ゲインや Gini などの指標を使用して最適な条件を決定します。
- ディシジョン フォレストは、複数のディシジョン ツリーから構成されるモードです。ディシジョン フォレストの予測は、ディシジョン ツリーの予測の集約です。
- ランダム フォレストは、各ディシジョン ツリーが特定のランダムノイズでトレーニングされるディシジョン ツリーのアンサンブルです。
- バギングは、ランダム フォレスト内の各ディシジョン ツリーが、異なるサンプルのサブセットでトレーニングされる手法です。
- ランダム フォレストには検証データセットは必要ありません。その代わりに、ほとんどのランダムなフォレストでは、out-of-bag-evaluation と呼ばれる手法を使用してモデルの品質を評価します。
- 勾配ブースト(決定)ツリーは、入力ディシジョン ツリーからの反復調整によってトレーニングされたデシジョン フォレストの一種です。圧縮と呼ばれる値は、勾配ブースト(決定)ツリーの学習速度と過学習の度合いを制御します。
参照
- Greedy Function Approximation: A Gradient Boosting Machine、J. Friedman、
- 『The Elements of Statistical Learning』、 Trevor Hastie 氏。チャプター 10.
- Generalized Boosted Models: A guide to the gbm package、G. Ridgeway