Gỡ lỗi dữ liệu và tính năng

Dữ liệu chất lượng thấp sẽ ảnh hưởng đáng kể đến hiệu suất của mô hình. Sẽ dễ dàng hơn rất nhiều khi phát hiện dữ liệu chất lượng thấp ở đầu vào thay vì đoán thời gian tồn tại của dữ liệu đó sau khi mô hình của bạn dự đoán sai. Theo dõi dữ liệu của bạn bằng cách làm theo lời khuyên trong phần này.

Xác thực dữ liệu đầu vào bằng giản đồ dữ liệu

Để theo dõi dữ liệu, bạn nên liên tục kiểm tra dữ liệu của mình dựa trên giá trị thống kê dự kiến bằng cách viết các quy tắc mà dữ liệu phải đáp ứng. Tập hợp các quy tắc này được gọi là giản đồ dữ liệu. Xác định một giản đồ dữ liệu bằng cách làm theo các bước sau:

  1. Đối với dữ liệu tính năng, hãy hiểu rõ phạm vi và phạm vi phân phối. Đối với các tính năng phân loại, hãy tìm hiểu tập hợp các giá trị có thể có.
  2. Mã hoá kiến thức của bạn thành các quy tắc được định nghĩa trong giản đồ. Ví dụ về các quy tắc như sau:

    • Đảm bảo rằng điểm xếp hạng do người dùng gửi luôn nằm trong khoảng từ 1 đến 5.
    • Kiểm tra để đảm bảo rằng cụm từ "the" xuất hiện thường xuyên nhất (đối với một tính năng văn bản bằng tiếng Anh).
    • Kiểm tra để đảm bảo rằng các tính năng danh mục có giá trị từ một tập hợp cố định.
  3. Kiểm tra dữ liệu của bạn dựa trên giản đồ dữ liệu. Giản đồ của bạn sẽ phát hiện lỗi dữ liệu như:

    • điểm bất thường
    • các giá trị không mong muốn của biến danh mục
    • phân phối dữ liệu không mong muốn

Đảm bảo chất lượng chia tách chất lượng tốt

Phần tách kiểm thử và chương trình đào tạo của bạn phải giống nhau về dữ liệu đầu vào của bạn. Nếu phần tách kiểm thử và đào tạo có sự khác biệt về mặt thống kê, thì dữ liệu đào tạo sẽ không giúp dự đoán dữ liệu thử nghiệm. Để tìm hiểu cách lấy mẫu và chia tách dữ liệu, hãy xem phần Lấy mẫu và tách dữ liệu trong phần Chuẩn bị dữ liệu và Kỹ thuật tính năng trong khoá học ML.

Theo dõi các thuộc tính thống kê của thông tin phân tách. Nếu các thuộc tính khác biệt, hãy treo cờ. Ngoài ra, hãy kiểm tra để đảm bảo tỷ lệ ví dụ trong mỗi phần tách là không đổi. Ví dụ: nếu dữ liệu của bạn được chia cho 80:20 thì tỷ lệ đó sẽ không thay đổi.

Kiểm thử dữ liệu được kỹ sư kiểm tra

Mặc dù dữ liệu thô có thể hợp lệ, mô hình của bạn chỉ thấy dữ liệu tính năng được thiết kế. Vì dữ liệu được thiết kế có vẻ rất khác so với dữ liệu đầu vào thô, nên bạn cần kiểm tra riêng dữ liệu được thiết kế. Dựa trên hiểu biết của bạn về dữ liệu được kỹ thuật, hãy viết kiểm thử đơn vị. Ví dụ: bạn có thể viết mã kiểm thử đơn vị để kiểm tra các điều kiện sau:

  • Tất cả các đối tượng dạng số đều được điều chỉnh theo tỷ lệ, ví dụ: từ 0 đến 1.
  • Vectơ mã hoá một lần chỉ chứa một số 1 và N-1.
  • Dữ liệu bị thiếu được thay thế bằng các giá trị trung bình hoặc mặc định.
  • Việc phân phối dữ liệu sau khi chuyển đổi phù hợp với các kỳ vọng. Ví dụ: nếu bạn đã chuẩn hoá bằng cách sử dụng điểm số z thì giá trị trung bình của điểm số z là 0.
  • Các điểm ngoại lai được xử lý, chẳng hạn như bằng cách điều chỉnh tỷ lệ hoặc cắt.