このページは Cloud Translation API によって翻訳されました。

過学習、正則化、早期停止

ランダムフォレストとは異なり、勾配ブースティングツリーは過学習する可能性があります。したがってニューラルネットワークでは、モデルに正則化と早期停止を検証データセットを渡します。

たとえば、次の図は、トレーニングの損失曲線と精度曲線を示しています。検証セットと検証セットです曲線が発散していることに注目してください過学習の度合いが高いことを示唆しています。

トレーニングの損失と検証の損失を、トレーニングの損失と
ディシジョンツリーを使用します。トレーニングの損失は、トレーニングの損失が
ディシジョンツリーが増加しますただし、検証損失は
ディシジョンツリーは約 40 個です。ディシジョンツリーが 40 以上あるので
検証損失が増加しますディシジョンツリーは 400 本あり、
トレーニングの損失と検証の損失の差が
驚きです。

<ph type="x-smartling-placeholder"></ph> 図 29：損失とディシジョンツリーの数 で確認できます。

トレーニング精度と検証精度を、トレーニングモデルの数と
ディシジョンツリーを使用します。トレーニングの精度は、
ディシジョンツリーが増加し、400 時点でほぼ 1.0 に達する
ディシジョンツリーを使用します。検証精度は 40 度で約 0.86 に向上
ディシジョンツリーが徐々に低下し、400 の判定で約 0.83
学習します。

<ph type="x-smartling-placeholder"></ph> 図 30：精度とディシジョンツリーの数 で確認できます。

勾配ブースティングツリーの一般的な正則化パラメータは次のとおりです。

ツリーの最大深度。
収縮率。
各ノードでテストされた属性の割合。
損失の L1 係数と L2 係数。

通常、ディシジョンツリーはランダムフォレストよりかなり浅くなります構築できますデフォルトでは、TF-DF の勾配ブースティングツリーは深さ 6 まで成長します。ツリーは浅いので、リーフあたりの最小サンプル数はほとんど影響がなく、通常は調整されません。

検証用データセットが必要であることが問題となるのは、例は少なくて済みますそのため、勾配ブースティングディシジョンツリーをトレーニングすることはクロス検証ループ内で実行されるか、モデルがトレーニングを開始したときに過学習でないことが知られています。

使用例

前の章では、小規模なデータセットでランダムフォレストをトレーニングしました。このランダムフォレストモデルを単純に勾配ブースティングツリーモデル:

model = tfdf.keras.GradientBoostedTreesModel()

# Part of the training dataset will be used as validation (and removed
# from training).
model.fit(tf_train_dataset)

# The user provides the validation dataset.
model.fit(tf_train_dataset, validation_data=tf_valid_dataset)

# Disable early stopping and the validation dataset. All the examples are
# used for training.
model.fit(
   tf_train_dataset,
   validation_ratio=0.0,
   early_stopping="NONE")
# Note: When "validation_ratio=0", early stopping is automatically disabled,
# so early_stopping="NONE" is redundant here.

使用方法と制限事項

勾配ブーストツリーには長所と短所があります。

メリット

ディシジョンツリーと同様に、数値とカテゴリをネイティブにサポート特徴の前処理が不要なことがよくあります。
勾配ブーストツリーにはデフォルトのハイパーパラメータがあり、表示されます。それでも、ハイパーパラメータをチューニングすると、モデルを改善します
勾配ブーストツリーモデルは一般に小規模です（ノード数と高速に実行できます（多くの場合、1 サンプルあたりわずか 1 ～数マイクロ秒）。

短所

ディシジョンツリーは順番にトレーニングする必要があるため、トレーニングが遅くなる可能性がある大きく影響しますただし、トレーニングの遅れは、トレーニングデータのディシジョンツリーは小さくなります
ランダムフォレストと同様に、勾配ブースティングツリーは内部的な学習や再利用ができない表現です。各ディシジョンツリー（および各ディシジョンツリーの各ブランチ）データセットパターンを再学習する必要があります。一部のデータセットでは、特に非構造化データ（画像、テキストなど）を使用すると、勾配ブースが他の方法よりも悪い結果を示す傾向があります。

勾配ブースティングアルゴリズム（省略可）

コースのまとめ