過学習: 損失曲線の解釈

すべてのタスクを処理できれば、 損失曲線 初めてモデルをトレーニングしたときは次のようになります。

図 20:トレーニング時の理想的な損失曲線を示すプロット
            学習します損失曲線は y 軸に損失をプロットする
            X 軸をトレーニング ステップ数と対比して示しています。数値
            トレーニング ステップが増加し、損失が最初に高く始めてから減少する
            最終的にはフラット化して最小数に達する
            損失です。
図 20. 理想的な損失曲線

残念ながら、多くの場合、損失曲線の解釈は困難です。次を使用: 損失曲線についての知識が必要です

演習 1: 振動損失曲線

図 21:損失曲線(y 軸の損失、トレーニング回数)
            ステップ)で示され、損失が平坦化されることはありません。
            むしろ、損失は不規則に変動します。
図 21. 振動する損失曲線。
損失曲線を改善するために試すことができる 3 つのことは何ですか。 示しています。
データをデータスキーマと照合して不適切な例を検出する トレーニング セットから不適切なサンプルを除去します。
はい。これはすべてのモデルにおすすめです。
学習率を下げます。
はい。アプリケーションをデバッグする際は、学習率を下げると 学習します。
トレーニング セットを信頼できる少数のサンプルに減らす。
この手法は人工的のように見えますが、実際には 考えていますモデルが小さな単語群に収束すると サンプルを徐々に追加していきます。 損失曲線の原因となる例を発見することで 変動します
トレーニング セットのサンプルの数を増やす。
この考えは魅力的ではあるものの、修正することはほぼ不可能です。 解決できます。
学習率を上げる。
一般に、モデルの予測値 y が変化したときに学習率を 問題があることを示しています。

演習 2.急激な上昇を伴う損失曲線

図 22:損失が最大 50% まで減少することを示す損失曲線のプロット
            一定のトレーニング ステップ数が増えた後、
            トレーニングステップに進みます
図 22. 損失の急激な増加。
次の記述のうち、考えられるものを 2 つ選択してください。 図 22 に示したような爆発的な損失の理由の 1 つです。
入力データに 1 つ以上の NaN(値など)が含まれている ゼロ除算の結果です
これは予想以上に一般的です。
入力データに外れ値のバーストが含まれている。
バッチの不適切なシャッフルが原因で、バッチが 多数の外れ値が含まれている可能性があります。
学習率が低すぎます。
学習率が非常に低いとトレーニング時間が長くなる可能性がありますが、 不自然な損失曲線の原因ではありません
正則化率が高すぎます。
正解です。正則化が非常に高いと、モデルの予測力を converging;モデルの不思議な損失曲線や 示しています。

演習 3.テストの損失とトレーニングの損失の差

図 23:トレーニングの損失曲線は収束しているように見えますが、
            一定の回数のトレーニング後、検証損失が増加し始める
            できます。
図 23. 検証損失の急激な増加。
次の記述のうち、最も当てはまるものを1 つ選択してください。 トレーニング データの損失曲線と どうすればよいでしょうか。
モデルがトレーニング セットを過学習している。
はい、おそらくそうでしょう。考えられる解決策:
  • モデルを簡素化する(場合によっては 学びました。
  • 正則化率を上げます。
  • トレーニング セットとテストセットが統計的であることを確認する 相当します。
学習率が高すぎます。
学習率が高すぎると、トレーニング セットの損失曲線 期待どおりに動作しなかった可能性があります

演習 4.損失曲線が停滞する

図 24:損失曲線のグラフで、損失から
            トレーニングで収束しますが、モデルに直結する
            長方形の波のように見えるでしょう
図 24. 一定数のステップの後、無秩序な損失が起こる。
次の記述のうち、最も可能性が高いものを1 つ選んでください。 図 24 に示した不安定な損失曲線とは何でしょうか。
トレーニング セットには、サンプルの繰り返しシーケンスが含まれています。
可能性があります。サンプルのシャッフルを確認する 十分でしょう
正則化率が高すぎます。
これが原因である可能性は低くなります。
トレーニング セットに含まれる特徴が多すぎます。
これが原因である可能性は低くなります。