ロジスティック回帰: 損失と正則化

ロジスティック回帰 モデルは同じプロセスでトレーニングされ、 線形回帰 主な違いは 2 つあります。

以降のセクションでは、この 2 つの考慮事項について詳しく説明します。

ログ損失

線形回帰モジュールでは、 二乗損失(別名: L2 損失)を 損失関数。 二乗損失は線形回帰の場合に このモデルでは、出力値の変化率が一定です。たとえば 線形モデル $y' で= b + 3x_1$ となり、入力をインクリメントするたびに 出力値 $y'$ が 3 ずつ増加します。

しかし、ロジスティック回帰モデルの変化率は一定ではありません確率の計算で説明したように、 シグモイド曲線は S 字型 線形ではなく対数オッズ($z$)の値が 0 に近いほど、 $z$ の増加は、$z$ が大きいときよりも $y$ の変動が大きくなります。 正または負の数。次の表は、シグモイド関数の 5 ~ 10 の入力値に対する出力、および対応する精度 必要があります。

入力 ロジスティック出力 必要な精度の桁数
5 0.993 3
6 0.997 3
7 0.999 3
8 0.9997 4
9 0.9999 4
10 0.99998 5

二乗損失を使ってシグモイド関数の誤差を計算した場合、 出力が 01 に次第に近づくと、次の処理を行うためにより多くのメモリが必要になります。 値を追跡するために必要な精度を維持します。

代わりに、ロジスティック回帰の損失関数は、 ログ損失。「 対数損失の方程式は、変化の大きさの対数を返します。 単なる距離ではありませんログ損失は次のように計算されます。 次のようになります。

\(\text{Log Loss} = \sum_{(x,y)\in D} -y\log(y') - (1 - y)\log(1 - y')\)

ここで

  • \((x,y)\in D\) は、ラベル付けされた多数のサンプルを含むデータセットです。 \((x,y)\) ペア。
  • \(y\) は、ラベル付きサンプルのラベルです。これはロジスティック回帰なので \(y\) のすべての値は 0 または 1 にする必要があります。
  • \(y'\) は、次の式に対するモデルの予測(0 と 1 の間)です。 の \(x\)機能。

ロジスティック回帰での正則化

正則化: トレーニング中にモデルの複雑さにペナルティをかけることは、ロジスティック 説明します正則化しないと、ロジスティックの漸近的な性質が 回帰は 0 に向かって損失を誘導し続けることになる 学習します。そのため、ほとんどのロジスティック回帰モデルでは、 次の 2 つの戦略のうちのどれに該当するかを示します。

  • L2 正則化
  • 早期停止: 損失が発生してもトレーニングを停止するトレーニング ステップの数を制限すると、 減少し続けています
で確認できます。