回帰問題では、符号付き誤差を予測とラベルの差として定義するのが合理的です。ただし、他の種類の問題では、この戦略では多くの場合、悪い結果につながります。勾配ブーストで使用するより優れた戦略は、次のとおりです。
- ニューラル ネットワークで使用される損失関数と同様の損失関数を定義します。たとえば、分類問題のエントロピー(ログ損失とも呼ばれます)。
- 弱いモデルをトレーニングして、強力なモデル出力による損失の勾配を予測します。
正式に、損失関数 $L(y,p)$ として $y$ がラベル、$p$ が予測である場合、ステップ $i$ で弱いモデルのトレーニングに使用される疑似レスポンス $z_i$ は次のようになります。
ここで
- $F_i$ は、強いモデルの予測です。
上記の例は回帰問題でした。目標は数値を予測することです。回帰の場合、二乗誤差が一般的な損失関数です。
この場合、グラデーションは次のようになります。
言い換えると、勾配は係数 2 によるこの例の符号付き誤差になります。縮小されるため、一定の係数は重要ではありません。この同等性は、二乗誤差損失を持つ回帰問題にのみ当てはまります。他の教師あり学習の問題(分類、ランキング、パーセンタイル損失を伴う回帰など)では、勾配と符号付き誤差の間で同等性はありません。
ニュートン法のステップによるリーフと構造の最適化
ニュートン法は勾配降下法のような最適化方法です。ただし、最適化に関数の勾配のみを使用する勾配降下法とは異なり、ニュートン法では最適化に関数の勾配(一次導関数)と二次導関数の両方を使用します。
勾配降下法のステップは次のとおりです。
次のようにニュートン法を解釈します。
オプションとして、ニュートンの方法は次の 2 つの方法で勾配ブーストツリーのトレーニングに統合できます。
- ツリーがトレーニングされると、ニュートンのステップが各リーフに適用され、その値をオーバーライドします。ツリー構造は変更されず、リーフの値のみが変更されます。
- ツリーの成長中は、ニュートンの式の要素を含むスコアに従って条件が選択されます。ツリーの構造も影響を受けます
- YDF は常にニュートン ステップをリーフに適用します(オプション 1)。
- オプション 2 は
use_hessian_gain=True
で有効にできます。