過学習: モデルの複雑さ

前のユニットで紹介した次のモデルは、多くの分類を間違えていました。 次の式を実行します。

図 16:図 13 と同じ画像。これは複雑な形状で、
            多くの木が誤って分類されています。
図 16. 前のユニットで動作が悪かった複雑なモデル。

上のモデルには複雑な形状が多数含まれています。もっとシンプルな どうすればよいでしょうか?複雑なモデルを 直線の単純なモデルを作成します

図 17:優れた性能を発揮する直線モデル
            病気の木と健康の木を分けます。
図 17. はるかにシンプルなモデルです。

新しいデータに対する一般化は、複雑なモデルよりもシンプルです。つまり テストセットに対する予測は、単純なモデルの方が複雑なモデルよりも優れています。

長い間、シンプルさは複雑さに打ち勝つものでした。実際、 シンプルさが好まれたのは古代ギリシャの頃でした。それから何世紀も経ち、 オッカムのウィリアムという 14 世紀の修道士が、 Occam の かみそり。この理念は、 多くの科学において重要な基本原則であり続けています。 ML

演習:理解度をチェックする

物理方程式を作成しています。次の数式のうち、 忠実に再現しているか?
3 つの変数を持つ数式。
12 個の変数よりも 3 個の変数の方が Occam にとってメリットがあります。
12 個の変数を含む数式。
12 個の変数は複雑に思えるかもしれません。 史上最も有名な 2 つの物理公式(F=ma と E=mc2)には、変数が 3 つだけ含まれます。
まったく新しい機械学習プロジェクトに参加しています。これから ご紹介しました。特徴量をいくつから選べばよいでしょうか。
強い予測能力がありそうな特徴を 1 つか 3 つ選んでください。
データ収集パイプラインは 1 つまたは複数の 2 つの機能があります。これは、ML モデルが意図したとおりに機能することを確認するのに役立ちます。 また、いくつかの特徴からベースラインを構築する際、 進歩しているように感じるでしょう。
高い予測能力がありそうな特徴を 4 ~ 6 個選びます。
最終的にはこのような多くの機能を使用する可能性はありますが、 少数から始めます特徴量の数が少ないほど、通常は不要なものが減る 役立ちます
できるだけ多くの特徴を選択して、どの特徴が 予測能力が最も高くなります
小さく始める。新機能のたびにトレーニングに新しい次元が追加される 見てみましょう。次元を増やすと、空間の体積は 増加が非常に速いため、利用可能なトレーニング データがスパースになります。「 データがスパースな場合、モデルがその関係を学習するのが 重要な特徴とラベルの間の差ですこの現象は 「次元の呪い」と呼ばれています。

正則化

ML モデルは、相反する 2 つの目標を同時に満たす必要があります。

  • データをうまく適合させる
  • できるだけシンプルにデータを適合させる。

モデルをシンプルに保つ方法の一つは、複雑なモデルにペナルティをかけることです。つまり トレーニング中にモデルを単純化できます。ペナルティが複雑 正則化の一種です。

損失と複雑さ

これまでのところ、このコースでは、トレーニングの唯一の目標は、 損失を最小限に抑える。つまり:

$$\text{minimize(loss)}$$

これまで見てきたように、損失の最小化だけに焦点を当てたモデルは、過学習する傾向があります。 トレーニング最適化アルゴリズムが優れていると、次の組み合わせが最小限に抑えられる。 損失と複雑さです。

$$\text{minimize(loss + complexity)}$$

残念ながら、損失と複雑さは通常、逆相関です。として 複雑さが増し、損失が減少します複雑さが軽減するにつれ、損失も増加します。 モデルが良い結果を出せる妥当な中間点を見つける必要があります。 トレーニング データと実世界データの両方に対して予測を行います。 すなわち、モデルは妥当な妥協点を見つける 大きく関係しています

複雑さとは?

損失を定量化する方法はいくつかすでに見てきました。どのように 複雑さを数値化できるでしょうか次の演習で探索を始めましょう。

演習:直感をチェック

これまでのところ、複雑さについて、 あります次のうち、正しいと思うアイデアはどれですか。 複雑さの指標は何でしょうか。
複雑さはモデルの重みの関数です。
はい。これは一部のモデルを測定する方法の一つです。複雑になります。 この指標は L1 正則化。
複雑さは、モデルの重みの 2 乗の関数です。
はい。一部のモデルについては、複雑さを軽減できますこの指標 呼ばれるのは L2 正則化
複雑さは、モデルのすべての特徴のバイアスの関数で、 モデルです。
バイアスは複雑さを測定するものではありません。