トレーニングとテストセット: プレイグラウンドの演習

トレーニングセットとテストセット

Playground に戻り、トレーニングセットとテストセットをテストします。

プラスアイコンをクリックすると、オレンジ色と青色の点の意味を再確認できます。

ビジュアリゼーションで次のようにします。

青い点はそれぞれ、あるクラスのデータ（スパムなど）の一例を示しています。
オレンジ色の各点は、別のクラスのデータの例（スパムではないなど）を示しています。
背景色は、その色の例がある場所に対するモデルの予測を表します。背景が青い点の周りが青い点は、モデルがこの例を正しく予測していることを意味します。逆に、青い点の周りがオレンジ色の場合は、そのサンプルでモデルが正しく予測していないことを意味します。

この演習では、同じデータセットから取得したテストセットとトレーニングセットの両方を使用します。デフォルトでは、トレーニングセットのみが表示されます。テストセットも表示する場合は、ビジュアリゼーションのすぐ下にある [テストデータを表示] チェックボックスをオンにします。可視化では、次の違いに注意してください。

トレーニングサンプルの枠線は白です。
テスト例の枠線は黒です。

タスク 1: 次の手順で、所定の設定でプレイグラウンドを実行します。

実行/一時停止ボタンをクリックします。
テストの損失とトレーニングの損失の値の変化を確認します。
テストの損失とトレーニングの損失の値が変化しなくなるか、またはたまにしか変更されない場合は、[実行/一時停止] ボタンをもう一度押してプレイグラウンドを一時停止します。

テストの損失とトレーニングの損失の差に注意してください。次のタスクで、この差分の軽減を試みます。

タスク 2: 以下を行います。

リセットボタンを押します。
[学習率] を変更します。
実行/一時停止ボタンを押します。
プレイグラウンドを少なくとも 150 エポック実行します。

この新しい学習率と比較して、テストの損失とトレーニングの損失の差は増減しますか？学習率とバッチサイズの両方を変更するとどうなるでしょうか。

オプションのタスク 3: [トレーニングデータの割合] というラベルの付いたスライダーを使用すると、テストデータに対するトレーニングデータの割合を制御できます。たとえば、90% に設定すると、データの 90% がトレーニングセットに、残りの 10% がテストセットに使用されます。

手順は次のとおりです。

[トレーニングデータの割合] を 50% から 10% に減らします。
学習率とバッチサイズをテストして、検出結果をメモします。

トレーニングデータの割合を変更すると、タスク 2 で発見した最適な学習設定も変わるか。「はい」の場合、それはなぜですか？

タスク 1 の回答のプラスアイコンをクリックします。

学習率を 3（初期設定）に設定した場合、テスト損失はトレーニング損失よりも著しく高くなります。

タスク 2 の回答のプラスアイコンをクリックします。

学習率を（たとえば 0.001 に）下げると、テストの損失はトレーニングの損失にかなり近い値まで低下します。ほとんどの実行では、バッチサイズを増やしてもトレーニングの損失やテストの損失に大きく影響することはありません。ただし、ごく一部の実行でバッチサイズを 20 以上に増やすと、テストの損失がトレーニングの損失をわずかに下回ります。

プレイグラウンドのデータセットはランダムに生成されます。したがって、Google の回答は、実際の回答と必ずしも一致するとは限りません。

タスク 3 の答えのプラスアイコンをクリックします。

トレーニングデータの割合を 50% から 10% に減らすと、トレーニングセット内のデータポイントの数が大幅に減少します。データがほとんどない場合、バッチサイズが高く、学習率が高いため、トレーニングモデルが無秩序に跳ね上がります（最小ポイントから繰り返しジャンプします）。

データの分割

直感を確認する