2024 年 8 月に、機械学習集中講座の改良された新しいバージョンがリリースされます。今後の情報にご注目ください。
トレーニング セットとテストセット
Playground に戻り、トレーニング セットとテストセットをテストします。
プラスアイコンをクリックすると、オレンジ色と青色の点の意味を再確認できます。
ビジュアリゼーションで次のようにします。
- 青い点はそれぞれ、あるクラスのデータ(スパムなど)の一例を示しています。
- オレンジ色の各点は、別のクラスのデータの例(スパムではないなど)を示しています。
- 背景色は、その色の例がある場所に対するモデルの予測を表します。背景が青い点の周りが青い点は、モデルがこの例を正しく予測していることを意味します。逆に、青い点の周りがオレンジ色の場合は、そのサンプルでモデルが正しく予測していないことを意味します。
この演習では、同じデータセットから取得したテストセットとトレーニング セットの両方を使用します。デフォルトでは、トレーニング セットのみが表示されます。テストセットも表示する場合は、ビジュアリゼーションのすぐ下にある [テストデータを表示] チェックボックスをオンにします。可視化では、次の違いに注意してください。
- トレーニング サンプルの枠線は白です。
- テスト例の枠線は黒です。
タスク 1: 次の手順で、所定の設定でプレイグラウンドを実行します。
- 実行/一時停止ボタン をクリックします。
- テストの損失とトレーニングの損失の値の変化を確認します。
- テストの損失とトレーニングの損失の値が変化しなくなるか、またはたまにしか変更されない場合は、[実行/一時停止] ボタンをもう一度押してプレイグラウンドを一時停止します。
テストの損失とトレーニングの損失の差に注意してください。次のタスクで、この差分の軽減を試みます。
タスク 2: 以下を行います。
- リセットボタンを押します。
- [学習率] を変更します。
- 実行/一時停止ボタンを押します。
- プレイグラウンドを少なくとも 150 エポック実行します。
この新しい学習率と比較して、テストの損失とトレーニングの損失の差は増減しますか?学習率とバッチサイズの両方を変更するとどうなるでしょうか。
オプションのタスク 3: [トレーニング データの割合] というラベルの付いたスライダーを使用すると、テストデータに対するトレーニング データの割合を制御できます。たとえば、90% に設定すると、データの 90% がトレーニング セットに、残りの 10% がテストセットに使用されます。
手順は次のとおりです。
- [トレーニング データの割合] を 50% から 10% に減らします。
- 学習率とバッチサイズをテストして、検出結果をメモします。
トレーニング データの割合を変更すると、タスク 2 で発見した最適な学習設定も変わるか。「はい」の場合、それはなぜですか?
タスク 1 の回答のプラスアイコンをクリックします。
学習率を 3(初期設定)に設定した場合、テスト損失はトレーニング損失よりも著しく高くなります。
タスク 2 の回答のプラスアイコンをクリックします。
学習率を(たとえば 0.001 に)下げると、テストの損失はトレーニングの損失にかなり近い値まで低下します。ほとんどの実行では、バッチサイズを増やしてもトレーニングの損失やテストの損失に大きく影響することはありません。ただし、ごく一部の実行でバッチサイズを 20 以上に増やすと、テストの損失がトレーニングの損失をわずかに下回ります。
プレイグラウンドのデータセットはランダムに生成されます。したがって、Google の回答は、実際の回答と必ずしも一致するとは限りません。
タスク 3 の答えのプラスアイコンをクリックします。
トレーニング データの割合を 50% から 10% に減らすと、トレーニング セット内のデータポイントの数が大幅に減少します。データがほとんどない場合、バッチサイズが高く、学習率が高いため、トレーニング モデルが無秩序に跳ね上がります(最小ポイントから繰り返しジャンプします)。