Thu thập dữ liệu: Kiểm tra mức độ hiểu biết của bạn

Đối với các câu hỏi sau, hãy nhấp vào mũi tên mong muốn để kiểm tra câu trả lời:

Giả sử bạn đang tìm hiểu về một mô hình máy học liên quan đến quảng cáo và muốn dự đoán mức chi tiêu của nhà quảng cáo trong tháng 1. Do có giới hạn về lượng dữ liệu lưu trữ trên ổ đĩa, bạn chỉ nên sử dụng một lượng nhỏ dữ liệu có sẵn. Bạn có thể sử dụng tất cả dữ liệu gần đây nhất, tức là dữ liệu từ tháng trước trong tháng 12. Một người khác đề xuất bạn lấy mẫu dữ liệu trong suốt năm qua. Phương pháp nào có thể tốt hơn và vì sao?
Dữ liệu của tháng trước (tháng 12)
Mặc dù dữ liệu này mới hơn, nhưng dữ liệu này có thể chịu ảnh hưởng của mức tác động theo mùa của mức chi tiêu của nhà quảng cáo trước dịp lễ Giáng sinh.
Dữ liệu được lấy mẫu trong suốt cả năm
Mặc dù dữ liệu này đã cũ, nhưng ít có khả năng bị ảnh hưởng bởi mức độ tác động theo mùa của mức chi tiêu của nhà quảng cáo trước ngày lễ vào tháng 12.
Bạn muốn hiển thị những video mà người dùng muốn xem. Bạn sử dụng các video mà họ đã xem trên YouTube để làm nhãn. Nhãn này trực tiếp hay bắt nguồn từ nhãn?
Bắt nguồn
Nhãn này được dẫn xuất vì đây không phải là dự đoán chính xác mà bạn muốn đưa ra. Có thể người dùng đã mở video nhưng đóng video ngay sau đó. Sự kiện này sẽ được tính là một lượt xem mặc dù người dùng không xem video. Trong một số trường hợp, phỏng đoán như thế này có thể là tuỳ chọn duy nhất của bạn, nhưng hãy lưu ý đến loại nhãn (trực tiếp hoặc xuất phát) và giới hạn dự đoán của bạn.
Trực tiếp
Mặc dù nhãn đó có thể dẫn đến một cụm từ gợi ý chính xác trong nhiều thời gian, nhưng đó không phải là cụm từ gợi ý chính xác mà bạn muốn đưa ra.