收集数据:检查您的理解情况

对于以下问题,请点击所需的箭头以查看您的答案:

假设您正在开发一个与广告相关的机器学习模型,并希望预测 1 月份的广告客户支出。您可以存储在磁盘上的数据量有限制,因此您只能使用部分可用数据。您可以使用自 12 月上个月以来的所有最新数据。有人建议您在过去一年内对数据进行抽样。哪个更好?为什么?
上个月的数据(12 月)
虽然此数据为最新数据,但可能会受到广告客户在 12 月节日季之前支出的季节性影响的影响。
全年采样数据
虽然这些数据较旧,但不太可能受到广告客户在 12 月节日季之前支出的季节性影响的影响。
您想要展示用户想要观看的视频。您可以使用他们在 YouTube 上观看过的视频作为标签。此标签是直接标签还是衍生标签?
派生
之所以派生此标签,是因为它与您要进行的预测并非完全相同。或许用户打开了视频,但不久之后就关闭了。即使用户没有观看视频,此事件仍会计为一次观看。在某些情况下,诸如此类的启发法可能是您的唯一选择,但是请留意您的标签类型(直接或派生)及其如何限制预测。
直接
虽然该标签在多数情况下都能产生准确的预测结果,但它并不是您要做的确切预测。