過学習

過学習とは、モデルを作成すること トレーニング セットなので、 予測できないことを意味します。 過学習モデルは、研究室でうまく機能する発明に似ていますが、 価値がないからです

図 11 において、各幾何学的形状が木の位置を表すとします。 四角い森の中で青いひし形は、健全な木の位置を示します。 オレンジ色の円は、病気の木の位置を示しています。

図 11. この数字には約 60 個のドットがあり、その半分は
            残り半分は病気の木です。
            健全な樹木は主に北東象限にありますが、
            健全な木が北西の象限に忍び込んでいます。枯れた木
            主に南東の象限にありますが、病気の木の
            他の象限に移りましょう
図 11. トレーニング セット: 四角い森の中にある健全な樹木と傷んだ樹木の位置。

 

直線、曲線、楕円など、さまざまな図形を頭の中で描いて、 発見します。次に、次の行を開いて、 可能性があります

図 12 に示した複雑な形状では、2 種類を除くすべてを正しく分類できました。 向上します形状をモデルと考えてみると モデルです。

いや、それは間違いないの?真に優れたモデルは、新しいサンプルを適切に分類します。 図 13 は、同じモデルが新しいデータセットで予測を行った場合にどうなるかを示しています。 例:

図 13. 健康な木と病気の木の新しいバッチが写真の上に重ねられている
            データモデルを作成します。モデルは多くのカテゴリを
            学習します。 <ph type="x-smartling-placeholder">
</ph> 図 13. テストセット: 病気と健全な樹木を区別するための複雑なモデル

 

そのため、図 12 に示す複雑なモデルは、トレーニング セットでうまく機能しています。 テストセットではなかなかうまくいきませんこれはモデルの典型的な例で、 過学習を学習させます。

適合、過学習、過学習

モデルは、新しいデータに対して適切な予測を行う必要があります。 つまり、目的は「適合する」モデルの作成です。作成します

これまで見てきたように、過学習モデルはトレーニング データに対して優れた予測を行います。 予測精度が低くなるという問題もあります「 学習不足モデル トレーニングデータに対しても 良い予測も行えません過学習モデルが ラボではうまく機能するものの 現実には役に立たないプロダクトのように 学習不足モデルは予測がうまくいかず 説明します。

図 14. デカルト プロット。X 軸に「予測の質」というラベルが付いている
            表示されますY 軸には「予測の品質」というラベルが付きます。
            実世界のデータです」曲線は原点から始まり 徐々に
            落ちてきます曲線の左下部分
            (実世界のデータに対する予測の質も低いものの、
            「過小適合モデル」というラベルが付けられます。「
            グラフの右下部分(1 対 1 の予測品質が低い)
            トレーニング セットに対する予測の質が高い)
            「過学習モデル」というラベルが付けられます。曲線のピーク(高品質の
            実世界のデータに対する予測の信頼度と中程度の品質の予測
            「モデルの適合」というラベルが付けられます。
図 14. 過学習、適合、過学習のモデル

 

一般化は、 過学習の反対ですつまり、うまく一般化できるモデルほど良い 新しいデータに対する予測です。目標は、次の式を一般化するモデルを作成することです。 うまくいくことを願っています

過学習の検出

次の曲線は過学習の検出に役立ちます。

  • 損失曲線
  • 一般化曲線

損失曲線はモデルの損失をプロットする トレーニングのイテレーション回数で表します 2 つ以上の損失曲線を示すグラフを一般化 曲線をご覧ください。次の 一般化曲線には 2 つの損失曲線が表示されます。

図 15:トレーニング セットの損失関数は、
            不承認となります。検証セットの損失関数も低下します
            一定の反復回数後に上昇し始めます
図 15. 過学習を強く示唆する一般化曲線。

 

2 つの損失曲線は初めは同じように振る舞い、その後発散していることがわかります。 すなわち、一定の反復回数で損失が減少したり、 トレーニング セットでは一定(収束)するが、 使用します。これは過学習を示唆しています。

これに対して、適合モデルの一般化曲線には 2 つの損失曲線が 似通っています。

過学習の原因

大まかに言うと、過学習は次の 1 つまたは両方が原因で発生します 問題:

  • トレーニング セットは実際のデータ(または 検証セットやテストセットなど)。
  • モデルが複雑すぎる。

一般化条件

モデルはトレーニング セットでトレーニングしますが、モデルの価値が実際に試されるのは、 特に実世界のデータで、新しい例に対する予測を行います。 モデルの開発中は、テストセットが実世界のデータのプロキシとして機能します。 十分に一般化されるモデルのトレーニングは、次のようなデータセット条件を前提としています。

  • 例は次である必要があります。 独立同分布 簡単に言うと 例が互いに影響を与えることはできません。
  • データセットは 静止では、 データセットが 経時的に大きく変化しないことです
  • データセットのパーティションの分布は同じです。 つまり、トレーニング セット内のサンプルは、トレーニング セット内のサンプルと 検証セット、テストセット、実世界のデータに含まれる 1 つのサンプルを集めたものです。

次の演習で上記の条件を確認します。

演習:理解度をチェックする

次のデータセット パーティションについて考えてみましょう。
3 つに分割された水平バー: バーの 70%
                     15% が検証セット、15% が検証セット、15% が
                     テストセット
トレーニング セットのサンプルが確実に ここに示されている例と統計的分布が どうなるでしょうか
データセット内のサンプルを広くシャッフルしてから、 パーティショニングします。
はい。サンプルを適切にシャッフルすることで、パーティションが大幅に増える 統計的に類似している可能性が高くなります
サンプルを古い順に並べ替えてください。
データセット内のサンプルが静止していない場合は、 並べ替えによってパーティションが少なくなります よく似ています。
何もしない。十分な数の例があれば、平均の法則は 予測された分布が意図したとおりに 統計的に類似しています
残念ながら、それはそうではありません。例 データセットの一部のセクションが、他のセクションの できます。
ストリーミング サービスで人気度を予測するモデルを開発中 今後 3 年間に制作する可能性のある新しいテレビ番組の数。「 データセットでモデルをトレーニングするストリーミング サービス計画 2 億 1, 000 万の例を含むデータセットを 10 年になりますこのモデルで問題が発生することはありますか?
おそらく、閲覧者過去の行動ではあり得ない方法で 嗜好が変わる 予測します。
はい。視聴者の好みは固定ではありません。常に変化しています。
全然ちがうよ。データセットが十分に大きい 説明します。
残念ながら、味覚は静止していません
おそらく、そうではありません。閲覧者予測的に周期的に変化します 10 年分のデータでモデルによる優れた予測が可能になる 予測します
エンターテイメントの側面はやや周期的ですが、 過去のエンターテインメントの歴史からトレーニングしたモデルは、 今後数年間を予測するのに苦労しています。
モデルが 1 マイル歩くのにかかる時間を予測すること 気象データ(気温、露点温度、 降水量) 大きく変化していますここからモデルを構築してテストできるか 予測が急激に変化するにもかかわらず、 シーズン?
はい。このデータセットからモデルを構築してテストできます。 必要な作業は、データを均等に分割することだけです。 4 シーズンすべてのデータが均等に分散され、 異なるパーティションに分割されます
いいえ
このデータセットに十分な数の温度の例が含まれていると仮定すると、 降水量からモデルを作成してテストできます 作成します。必要な作業は、データが確実に 4 つのシーズンのすべてのデータが均等に分散されるようにします。 分割されます

チャレンジ演習

乗客が購入に至る理想的な日を予測するモデルを作成しています 特定のルートの電車の乗車券をたとえば、予測された単語の ユーザーが 7 月 23 日に出発する列車のチケットを 7 月 8 日に購入したとします。 この鉄道会社はさまざまな情報に基づいて、1 時間ごとに料金を更新しています 主な要因は現在の空席数です具体的には、次のことが求められます。

  • 空席が多い場合、航空券は通常、低価格になります。
  • 空席が少ない場合、航空券は通常高額になります。
モデルの性能が低い 検証セットとテストセットの損失ですが 予測できないという結果になりました理由
こちらをクリックして正解を確認してください