このページは Cloud Translation API によって翻訳されました。

過学習、正則化、早期停止

ランダムフォレストとは異なり、勾配ブーストツリーは過剰適合する可能性があります。したがって、ニューラルネットワークと同様に、バリデーションデータセットを使用して正則化と早期停止を適用できます。

たとえば、次の図は、GBT モデルをトレーニングする際のトレーニングセットと検証セットの損失曲線と精度曲線を示しています。曲線が大きく分散していることに注目してください。これは、過剰適合の程度が高いことを示しています。

トレーニング損失と検証損失とディシジョンツリーの数の関係を示すグラフ。ディシジョンツリーの数が増えるにつれて、トレーニング損失は徐々に減少します。ただし、検証損失は約 40 個のディシジョンツリーまでしか減少しません。40 を超えるディシジョンツリーを使用すると、検証損失が実際に増加します。400 個の決定木では、トレーニング損失と検証損失の差が非常に大きくなります。

図 29. 損失とディシジョンツリーの数。

トレーニングの精度と検証の精度とディシジョンツリーの数の関係を示すグラフ。トレーニングの精度は、ディシジョンツリーの数が増えるにつれて徐々に増加し、400 個のディシジョンツリーでほぼ 1.0 のピークに達します。検証の精度は、40 個のディシジョンツリーで約 0.86 に増加し、400 個のディシジョンツリーで約 0.83 に徐々に低下します。

図 30. 正確性とディシジョンツリーの数の比較。

勾配ブーストツリーで一般的な正則化パラメータは次のとおりです。

ツリーの最大深度。
収縮率。
各ノードでテストされる属性の比率。
損失に対する L1 係数と L2 係数。

通常、ディシジョンツリーはランダムフォレストモデルよりもはるかに浅く成長します。デフォルトでは、TF-DF の勾配ブーストツリーは深さ 6 に成長します。木が浅いため、リーフあたりの最小サンプル数の影響は少なく、通常はチューニングされません。

トレーニング例の数が少ないと、検証データセットが必要になります。したがって、クロスバリデーションループ内で勾配ブーストツリーをトレーニングするか、モデルが過学習しないことが判明している場合は早期停止を無効にするのが一般的です。

使用例

前章では、小規模なデータセットでランダムフォレストをトレーニングしました。この例では、ランダムフォレストモデルを勾配ブーストツリーモデルに置き換えます。

model = tfdf.keras.GradientBoostedTreesModel()

# Part of the training dataset will be used as validation (and removed
# from training).
model.fit(tf_train_dataset)

# The user provides the validation dataset.
model.fit(tf_train_dataset, validation_data=tf_valid_dataset)

# Disable early stopping and the validation dataset. All the examples are
# used for training.
model.fit(
   tf_train_dataset,
   validation_ratio=0.0,
   early_stopping="NONE")
# Note: When "validation_ratio=0", early stopping is automatically disabled,
# so early_stopping="NONE" is redundant here.

使用と制限事項

勾配ブーストツリーにはいくつかの長所と短所があります。

メリット

決定木と同様に、数値特徴とカテゴリ特徴をネイティブにサポートしており、多くの場合、特徴の前処理は必要ありません。
勾配ブーストツリーには、多くの場合優れた結果をもたらすデフォルトのハイパーパラメータがあります。それでも、これらのハイパーパラメータを調整すると、モデルを大幅に改善できます。
勾配ブーストツリーモデルは通常、（ノード数とメモリ容量が）小さく、実行速度が速いです（多くの場合、1 つの例あたり 1 ～ 2 µs 程度）。

短所

ディシジョンツリーは順番にトレーニングする必要があるため、トレーニングが大幅に遅くなる可能性があります。ただし、トレーニングの速度低下は、決定木が小さくなることである程度相殺されます。
ランダムフォレストと同様に、勾配ブーストツリーは内部表現を学習して再利用できません。各ディシジョンツリー（および各ディシジョンツリーの各分岐）は、データセットパターンを再学習する必要があります。一部のデータセット（特に、画像やテキストなどの非構造化データを含むデータセット）では、このため、勾配ブーストツリーは他の方法よりも悪い結果を示します。

勾配ブースティングアルゴリズム（省略可）

コースのまとめ

過学習、正則化、早期停止 コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

使用例

使用と制限事項

過学習、正則化、早期停止