このページは Cloud Translation API によって翻訳されました。

コースのまとめ

このコースで学んだ内容を簡単にまとめると次のとおりです。

ディシジョンツリーは、ツリー状に階層的に編成された条件のコレクションで構成されるモデルです。条件は次のカテゴリに分類されます。
- 軸に沿った条件には、1 つの特徴量のみが含まれます。斜めの条件には複数の特徴が関係します。
- バイナリ条件には、2 つの結果が考えられます。バイナリ以外の条件には、2 つ以上の結果が考えられます。
ディシジョンツリーをトレーニングするには、各ノードで最適な条件を検索する必要があります。分割ツール ルーティンは、情報量の増加やGini などの指標を使用して、最適な条件を決定します。
ディシジョンフォレストは、複数のディシジョンツリーで構成されるモードです。デシジョンフォレストの予測は、そのディシジョンツリーの予測の集計です。
ランダムフォレストは、各ディシジョンツリーが特定のランダムノイズでトレーニングされるディシジョンツリーのアンサンブルです。
Bagging は、ランダムフォレストの各ディシジョンツリーを異なるサンプルのサブセットでトレーニングする手法です。
ランダムフォレストには検証データセットは必要ありません。代わりに、ほとんどのランダムフォレストは、out-of-bag-evaluationと呼ばれる手法を使用してモデルの品質を評価します。
勾配ブースト（ディシジョン）ツリーは、入力ディシジョンツリーからの反復調整によってトレーニングされるディシジョンフォレストの一種です。縮小と呼ばれる値は、勾配ブースト（ディシジョン）ツリーの学習率と、過剰適合する程度を制御します。

参照

Greedy Function Approximation: A Gradient Boosting Machine, J. Friedman 氏。
The Elements of Statistical Learning、Trevor Hastie。第 10 章。
Generalized Boosted Models: A guide to the gbm package、G. Ridgeway

過学習と正則化