過学習: L2 正則化

L2 正則化 は一般的な正則化指標で、次の式を使用しています。

$$L_2\text{ regularization } = {w_1^2 + w_2^2 + ... + w_n^2}$$

たとえば、次の表は L2 の計算を示しています。 6 つの重みを持つモデルの場合、

二乗値
1 0.2 0.04
2 -0.5 0.25
3 5.0 25.0
4 -1.2 1.44
5 0.3 0.09
6 -0.1 0.01
    26.83 = 合計

0 に近い重みは L2 正則化に影響しないことに注目 重みが大きいと影響が大きくなります。たとえば、 上記の計算:

  • 単一の重み(w3)が重みの約 93% を占める 複雑になります。
  • 他の 5 つの重みを合わせると、全体の約 7% にすぎない。 複雑になります。

L2 正則化は重みを 0 に向けるよう促すが、決してプッシュしない ゼロまで行えばよいのです

演習:理解度をチェックする

モデルのトレーニング中に L2 正則化を使用する場合、 モデルの全体的な複雑さに起因します
システムの全体的な複雑さがおそらく軽減されるでしょう。
L2 正則化では 0 への重みが推奨されるため、 全体的な複雑さがおそらく軽減されます。
モデルの全体的な複雑さは変わらないでしょう。 あります。
可能性はとても低いです。
モデルの全体的な複雑さが増すことが予想されます。
可能性は低いです。L2 正則化を思い出してください。 0 への重みが推奨されます。
モデルのトレーニング中に L2 正則化を使用する場合、 一部の特徴量はモデルから削除されます
正しい
L2 正則化によって一部の重みは非常に大きくなりますが、 重みがゼロになることはありません。 そのため、どの特徴量も 行います。
False
L2 正則化では重みが最終的に あります。

正則化率(ラムダ)

前述のように、トレーニングでは損失と複雑さの組み合わせを最小限に抑えることを目指します。

$$\text{minimize(loss} + \text{ complexity)}$$

モデル開発者は、複雑なことがモデル トレーニングに及ぼす全体的な影響を調整 値にスカラーを掛けます。 正則化率。 ギリシャ文字のラムダは通常、正則化率を表します。

つまり、モデル デベロッパーは次のことを目指します。

$$\text{minimize(loss} + \lambda \text{ complexity)}$$

正則化率が高い:

  • 正則化の効果を強化して、正規化によって 学習します。
  • 次の値を持つモデルの重みのヒストグラムを生成することが多い 特徴: <ph type="x-smartling-placeholder">
      </ph>
    • 正規分布
    • 0 とします。

正則化率が低い:

  • 正則化の影響を軽減して、正規化によって 学習します。
  • 平坦な分布でモデルの重みのヒストグラムを生成することが多い

たとえば、正則化率が高い場合のモデルの重みのヒストグラムは 図 18 のようになります

図 18:平均値が 0 の場合のモデルの重みのヒストグラム
            正規分布になります
図 18. 正則化率が高い場合の重みヒストグラム。 平均はゼロです。正規分布。

 

対照的に、正則化率が低いと、ヒストグラムが平坦になる傾向があります。 示しています。

図 19:平均値が 0 のモデルの重みのヒストグラム。
            分布は平坦な分布と
            分散します
図 19. 正則化率が低い場合の重みヒストグラム。 平均はゼロの場合もあれば、ゼロでない場合もあります。

 

正則化率の選択

理想的な正則化率は、入力値に基づいて適切に一般化される 新しい、未知のデータです。 あいにくその理想値はデータによって異なります なんらかの処理を します。

早期停止: 複雑さに基づく正則化の代替手段

早期停止は、 複雑さの計算を必要としない正則化手法です。 早期停止とは、単にモデルの前にトレーニングを終了することを意味します。 完全に収束します。たとえば、トレーニングを終了するには、損失曲線が 増加し始める(傾きが正になる)。

通常、早期停止によってトレーニングの損失は増加しますが、 テスト損失です。

早期停止は、高速ですが、めったに最適な正則化の形態ではありません。 結果として得られるモデルが、トレーニングしたモデルと同じくらい優れている可能性は極めて低い 理想的な正則化率について見ていきます

学習率と正則化率の平衡を見つける

学習率と 正則化率は正反対の重みで 説明します。学習率が高いと、多くの場合、重みをゼロから遠ざけます。 正則化率が高いと、重みはゼロに近づきます。

学習率に対して正則化率が高い場合は 重みが弱いと、モデルの精度が低下する傾向にあります。 逆に、正則化に関する学習率が高い場合は、 重みが強いと、過学習モデルになる傾向があります。

目標は、学習率と学習率のバランスが 正則化率です。この作業は簡単ではありません。最悪なことに 最終的には学習率を変える必要があるかもしれません。 学習率を変更する場合は、ここでも最適な 正則化率です。