データの収集: 理解度チェック

次の質問については、目的の矢印をクリックして答えを確認してください。

広告関連の機械学習モデルに取り組んでおり、1 月の広告主の費用を予測したいとします。ディスクに保管できるデータ量には上限があるため、使用可能なデータのサブセットのみを使用する必要があります。前月の 12 か月間の直近のデータはすべて使用できます。過去 1 年間にサンプルをサンプリングした人もいます。どちらが良いか、またその理由は何ですか?
前月(12 月)のデータ
このデータは比較的新しい時期のデータですが、12 月の年末年始までの広告主様の支出にまつわる季節的影響の影響を受ける可能性があります。
年間を通じてサンプリングされたデータ
古いデータですが、12 月の年末年始までの広告主様の支出が季節によって及ぼす影響はほとんどありません。
ユーザーが視聴したいと思う動画を表示したい。ユーザーが YouTube で視聴した動画をラベルとして使用できます。このラベルは直接ですか、それとも派生していますか?
派生
このラベルは、予測する予測と完全には一致しないために派生したものです。ユーザーが動画を開いたものの、すぐに閉じている可能性があります。このイベントは、ユーザーが動画を視聴していなくても視聴回数としてカウントされます。場合によっては、このようなヒューリスティックが唯一の選択肢ですが、ラベルの種類(直接または派生)と、予測の制限に注意してください。
直接
ほとんどの場合、このラベルは正確な予測結果が得られますが、正確に予測するものではありません。