Tóm tắt

Khoá học này đã đề cập đến nhiều bẫy dữ liệu thường gặp, từ chất lượng tập dữ liệu đến tư duy trực quan hoá và phân tích thống kê.

Chuyên viên công nghệ học máy nên hỏi:

  • Tôi hiểu rõ các đặc điểm của tập dữ liệu và những điều kiện nào khi thu thập dữ liệu đó?
  • Dữ liệu của tôi có vấn đề gì về chất lượng hoặc độ thiên lệch? Là các yếu tố gây nhiễu hiện tại không?
  • Các vấn đề tiềm ẩn về hạ nguồn có thể phát sinh từ việc sử dụng tập dữ liệu?
  • Khi huấn luyện một mô hình đưa ra dự đoán hoặc phân loại: tập dữ liệu mà mô hình được huấn luyện có chứa tất cả các biến có liên quan không?

Bất kể phát hiện gì, chuyên viên học máy luôn phải kiểm tra tự xác định thiên kiến, sau đó kiểm tra kết quả của họ so với trực giác và sự hợp lý, cũng như điều tra bất cứ nơi nào dữ liệu đang mâu thuẫn bằng các tính năng này.

Đọc thêm

Cairo, Alberto. Cách biểu đồ nói dối: Giúp thông tin trực quan trở nên thông minh hơn. New York: T.W. Norton, 2019.

Hừm, Darrell. Cách nói dối với số liệu thống kê. New York: W.W. Norton, 1954.

Monmonier, Mark. Cách nói dối với Maps, thế hệ thứ 3. Chicago: U of Chicago P, năm 2018.

Jones, Ben. Tránh các cạm bẫy dữ liệu. Hoboken, New Jersey: Wiley, năm 2020.

Wheelan, Charles. Dữ liệu thống kê không rõ ràng: Loại bỏ dữ liệu đáng sợ khỏi dữ liệu. New York: T.W. Norton, 2013