收集資料:測驗您的理解程度

針對以下問題,按一下想要的箭頭即可查看答案:

假設您正在處理廣告相關機器學習模型,且想要預測廣告客戶 1 月份的支出。磁碟上可儲存的資料量有限,因此您只能使用可用資料的一部分。您可以使用 12 月前一個月的所有資料。其他人建議您在過去一年中取樣資料。你比較喜歡哪個部分?為什麼?
上個月的資料 (12 月)
雖然這是較新的資料,但可能會受到廣告客戶支出在 12 月節慶前的季節性影響所影響。
全年取樣的資料
雖然這是過時的資料,但較不可能受到廣告客戶 12 月節慶假期的季節性影響而受到影響。
您想要顯示使用者想觀看的影片。你會使用他們在 YouTube 上看過的影片做為標籤。這個標籤是直接還是衍生的?
衍生
這個標籤是衍生的,因為並非您想要產生的確切預測。使用者開啟影片後不久就會關閉。即使使用者並未觀看影片,這個事件仍計為一次觀看。在某些情況下,可能會成為這類經驗法則,但請特別留意標籤類型 (直接或衍生類型),以及其如何限制預測。
直接
儘管該標籤通常大多都會準確完成預測,但這並非您想要準確預測。