Raccolta dei dati: verifica le tue conoscenze

Per le seguenti domande, fai clic sulla freccia desiderata per controllare la tua risposta:

Supponiamo che tu stia lavorando a un modello di machine learning correlato alla pubblicità e che voglia prevedere la spesa degli inserzionisti per gennaio. Hai dei limiti relativi alla quantità di dati che puoi archiviare su disco, quindi devi utilizzare solo un sottoinsieme di dati disponibili. Puoi utilizzare tutti i dati più recenti, risalenti al mese precedente a dicembre. Qualcun altro ti suggerisce di campionare i dati nel corso dell'ultimo anno. Quale potrebbe essere la migliore e perché?
Dati del mese precedente (dicembre)
Questi dati sono più recenti, ma potrebbero essere influenzati dagli effetti stagionali della spesa degli inserzionisti prima delle festività di dicembre.
Dati campionati nel corso dell'anno
Anche se questi dati sono datati, hanno meno probabilità di essere influenzati dagli effetti stagionali della spesa degli inserzionisti prima delle festività di dicembre.
Vuoi mostrare video che gli utenti vogliono guardare. Utilizzi i video che hanno visualizzato su YouTube come etichetta. Questa etichetta è diretta o derivata?
Derivato
Questa etichetta è derivata perché non è la previsione esatta che vuoi fare. Forse l'utente ha aperto il video, ma l'ha chiuso poco dopo. Questo evento viene conteggiato come una visualizzazione anche se l'utente non ha guardato il video. In alcuni casi, un'euristica come questa potrebbe essere l'unica opzione per te, ma tieni presente il tipo di etichetta (diretta o derivata) e il modo in cui limita le previsioni.
Diretto
Anche se l'etichetta può garantire una previsione accurata per la maggior parte del tempo, non è la previsione esatta che vuoi fare.