シンプルさのための正則化: ラムダ

モデルデベロッパーは、ラムダと呼ばれるスカラー（正則化率とも呼ばれます）をその値に乗算することで、正則化項の全体的な影響を調整します。つまり、モデルのデベロッパーは次のことを目指します。

$$\text{minimize(Loss(Data|Model)} + \lambda \text{ complexity(Model))}$$

L₂ 正則化を実行すると、モデルに次のような影響があります。

重み値を 0 に近づけます（ただし、厳密な 0 ではない）。
正規（ベル型またはガウス）分布で、重みの平均を 0 にすることを推奨します。

ラムダ値を増やすと、正則化効果が強くなります。たとえば、ラムダの値が高い場合の重みのヒストグラムは、図 2 のようになります。

図 2. 重みのヒストグラム

ラムダの値を小さくすると、図 3 に示すように、ヒストグラムが平坦になる傾向があります。

図 3. 低いラムダ値で生成された重みのヒストグラム。

ラムダ値を選択するときの目標は、シンプルさとトレーニングデータの適合の適切なバランスを取ることです。

ラムダ値が大きすぎると、モデルは単純になりますが、データが過学習されるリスクがあります。モデルは有用な予測を行うのにトレーニングデータを十分に学習できません
ラムダ値が低すぎると、モデルが複雑になり、データが過学習されるリスクがあります。モデルはトレーニングデータの特異性について学習しすぎ、新しいデータに合わせて一般化できなくなります。

ラムダの理想的な値により、未知の新しいデータに対してうまく一般化されるモデルが生成されます。残念ながら、そのラムダの理想的な値はデータに依存するため、手動または自動でのチューニング。

プラスアイコンをクリックして、L₂ 正則化と学習率の詳細をご覧ください。

学習率とラムダには密接な関係があります。強い L₂ 正則化値ほど、特徴の重みが 0 に近づく傾向があります。学習率を低く設定しても（早期停止あり）、0 から離れるステップはそれほど大きくないため、同じ結果になることがよくあります。そのため、学習率とラムダを同時に微調整すると、混乱を招く可能性があります。

早期停止とは、モデルが完全に収束する前にトレーニングを終了することを意味します。実際には、オンライン（連続）方式でトレーニングを行うと、暗黙的な早期停止が発生します。つまり新しいトレンドの中には収束するのに十分なデータがないものがあります

前述のように、正則化パラメータの変更による影響は、学習率または反復回数の変更による影響と混同される場合があります。一定量のデータでトレーニングする場合、早期の停止が問題にならないほど十分な回数の反復処理を行うのが有効なプラクティスです。

L2 正規化

プレイグラウンドエクササイズ: L2 正規化

シンプルさのための正則化: ラムダ

プラスアイコンをクリックして、L2 正則化と学習率の詳細をご覧ください。

プラスアイコンをクリックして、L₂ 正則化と学習率の詳細をご覧ください。