ニュース記事の例に示すように、純粋なランダム分割が常に正しいアプローチであるとは限りません。
オンライン システムでは、データを時間で分割するのが一般的です。たとえば、次のようなことを行います。
- 30 日分のデータを収集します。
- 1 ~ 29 日目のデータをトレーニングする。
- 30 日目のデータで評価します。
オンライン システムの場合、トレーニング データは提供データよりも古いため、この手法では、検証セットがトレーニングとサービス提供のラグを確実に反映します。ただし、時間ベースの分割は、数千万件のサンプルなど、非常に大規模なデータセットに最適です。データが少ないプロジェクトでは、トレーニング、検証、テストの分布が大きく異なります。
また、機械学習集中講座で紹介した機械学習の文献プロジェクトにあるデータ分割の欠点を思い出してください。データは 3 人の著者の 1 人によって文献が作成され、主な 3 つのグループに分けられました。チームはランダム分割を適用したため、各グループのデータはトレーニング セット、評価セット、テストセットに存在していたため、モデルは必ずしも予測時に得られない情報から学習しました。この問題は、データが時系列データとしてグループ化されるか、他の基準でクラスタ化されるかにかかわらず、いつでも発生する可能性があります。ドメインに関する知識があれば、データの分割方法を知ることができます。
詳細については、機械学習集中講座の次のモジュールをご覧ください。