過学習とは、モデルを作成すること トレーニング セットなので、 予測できないことを意味します。 過学習モデルは、研究室でうまく機能する発明に似ていますが、 価値がないからです
図 11 において、各幾何学的形状が木の位置を表すとします。 四角い森の中で青いひし形は、健全な木の位置を示します。 オレンジ色の円は、病気の木の位置を示しています。
直線、曲線、楕円など、さまざまな図形を頭の中で描いて、 発見します。次に、次の行を開いて、 可能性があります
図 12 に示した複雑な形状では、2 種類を除くすべてを正しく分類できました。 向上します形状をモデルと考えてみると モデルです。
いや、それは間違いないの?真に優れたモデルは、新しいサンプルを適切に分類します。 図 13 は、同じモデルが新しいデータセットで予測を行った場合にどうなるかを示しています。 例:
そのため、図 12 に示す複雑なモデルは、トレーニング セットでうまく機能しています。 テストセットではなかなかうまくいきませんこれはモデルの典型的な例で、 過学習を学習させます。
適合、過学習、過学習
モデルは、新しいデータに対して適切な予測を行う必要があります。 つまり、目的は「適合する」モデルの作成です。作成します
これまで見てきたように、過学習モデルはトレーニング データに対して優れた予測を行います。 予測精度が低くなるという問題もあります「 学習不足モデル トレーニングデータに対しても 良い予測も行えません過学習モデルが ラボではうまく機能するものの 現実には役に立たないプロダクトのように 学習不足モデルは予測がうまくいかず 説明します。
一般化は、 過学習の反対ですつまり、うまく一般化できるモデルほど良い 新しいデータに対する予測です。目標は、次の式を一般化するモデルを作成することです。 うまくいくことを願っています
過学習の検出
次の曲線は過学習の検出に役立ちます。
- 損失曲線
- 一般化曲線
損失曲線はモデルの損失をプロットする トレーニングのイテレーション回数で表します 2 つ以上の損失曲線を示すグラフを一般化 曲線をご覧ください。次の 一般化曲線には 2 つの損失曲線が表示されます。
2 つの損失曲線は初めは同じように振る舞い、その後発散していることがわかります。 すなわち、一定の反復回数で損失が減少したり、 トレーニング セットでは一定(収束)するが、 使用します。これは過学習を示唆しています。
これに対して、適合モデルの一般化曲線には 2 つの損失曲線が 似通っています。
過学習の原因
大まかに言うと、過学習は次の 1 つまたは両方が原因で発生します 問題:
- トレーニング セットは実際のデータ(または 検証セットやテストセットなど)。
- モデルが複雑すぎる。
一般化条件
モデルはトレーニング セットでトレーニングしますが、モデルの価値が実際に試されるのは、 特に実世界のデータで、新しい例に対する予測を行います。 モデルの開発中は、テストセットが実世界のデータのプロキシとして機能します。 十分に一般化されるモデルのトレーニングは、次のようなデータセット条件を前提としています。
- 例は次である必要があります。 独立同分布 簡単に言うと 例が互いに影響を与えることはできません。
- データセットは 静止では、 データセットが 経時的に大きく変化しないことです
- データセットのパーティションの分布は同じです。 つまり、トレーニング セット内のサンプルは、トレーニング セット内のサンプルと 検証セット、テストセット、実世界のデータに含まれる 1 つのサンプルを集めたものです。
次の演習で上記の条件を確認します。
演習:理解度をチェックする
チャレンジ演習
乗客が購入に至る理想的な日を予測するモデルを作成しています 特定のルートの電車の乗車券をたとえば、予測された単語の ユーザーが 7 月 23 日に出発する列車のチケットを 7 月 8 日に購入したとします。 この鉄道会社はさまざまな情報に基づいて、1 時間ごとに料金を更新しています 主な要因は現在の空席数です具体的には、次のことが求められます。
- 空席が多い場合、航空券は通常、低価格になります。
- 空席が少ない場合、航空券は通常高額になります。
解答: 現実世界のモデルは、 フィードバック ループ。
たとえば、ユーザーが 7 月 8 日にチケットを購入することをモデルが推奨しているとします。 モデルの推奨に従って、一部の乗客は 8 時 30 分にチケットを購入します。 7 月 8 日の午前中列車が 9:00 に値上げしたのは、 空席が減りました。モデルのレコメンデーションを使用する乗客は、 変更されます。夕方になると、航空券は 表示されます。