Dữ liệu số: Tua

Cây táo cho ra hỗn hợp các loại trái cây tuyệt vời và sâu bọ. Vậy mà táo trong các cửa hàng bách hoá cao cấp lại trưng bày trái cây hoàn hảo 100%. Giữa vườn cây ăn quả và hàng tạp hoá, có người dành thời gian đáng kể để dọn dẹp những quả táo xấu hoặc phun một chút sáp lên những quả táo có thể cứu được. Là một kỹ sư công nghệ học máy, bạn sẽ dành rất nhiều thời gian loại bỏ các ví dụ xấu và loại bỏ những ví dụ có thể cứu được. Ngay cả một vài trái táo xấu cũng có thể làm hỏng một tập dữ liệu lớn.

Nhiều ví dụ trong các tập dữ liệu không đáng tin cậy do một hoặc nhiều những vấn đề sau:

Danh mục vấn đề Ví dụ:
Giá trị bị bỏ qua Nhân viên điều tra dân số không ghi lại được tuổi của cư dân.
Ví dụ về trùng lặp Một máy chủ sẽ tải cùng một nhật ký lên hai lần.
Giá trị đối tượng nằm ngoài phạm vi. Một người vô tình nhập thêm một chữ số.
Nhãn không hợp lệ Một người đánh giá đã gắn nhãn sai cho một bức ảnh của cây sồi là cây phong.

Bạn có thể viết một chương trình hoặc tập lệnh để phát hiện bất kỳ vấn đề nào sau đây:

  • Giá trị bị bỏ qua
  • Ví dụ về trùng lặp
  • Giá trị đối tượng nằm ngoài phạm vi

Ví dụ: tập dữ liệu sau đây chứa sáu giá trị lặp lại:

Hình 15. Sáu giá trị đầu tiên được lặp lại. Tám vòng chung kết
            thì các giá trị khác nhau.
Hình 15. Sáu giá trị đầu tiên được lặp lại.

Một ví dụ khác, giả sử phạm vi nhiệt độ cho một tính năng nhất định phải nằm trong khoảng từ 10 đến 30 độ. Nhưng tai nạn có thể xảy ra, có thể là nhiệt kế tạm thời tiếp xúc với ánh nắng mặt trời và điều này gây ra hiện tượng ngoại lai xấu. Chương trình hoặc tập lệnh của bạn phải xác định các giá trị nhiệt độ nhỏ hơn 10 trở lên lớn hơn 30:

Hình 16. 19 giá trị trong dải ô và 1 giá trị nằm ngoài dải ô.
Hình 16. Một giá trị nằm ngoài phạm vi.

Khi nhãn được tạo bởi nhiều người, bạn nên sử dụng các số liệu thống kê để xác định xem mỗi người đánh giá có tạo ra các bộ nhãn tương đương hay không. Có thể một người đánh giá nghiêm ngặt hơn những người đánh giá khác hoặc một bộ tiêu chí chấm điểm khác?

Khi bị phát hiện, bạn thường "khắc phục" ví dụ về các tính năng không hợp lệ hoặc nhãn không hợp lệ bằng cách xoá các nhãn đó khỏi tập dữ liệu hoặc áp dụng giá trị của chúng. Để biết chi tiết, hãy xem Đặc điểm dữ liệu của Tập dữ liệu, tổng quát hoá và điều chỉnh quá mức .