Dữ liệu phân loại: Các vấn đề thường gặp

Dữ liệu số thường được ghi lại bằng các công cụ khoa học hoặc phương pháp đo lường tự động. Mặt khác, dữ liệu phân loại thường được phân loại theo con người hoặc theo mô hình học máy (ML). Ai quyết định các danh mục và nhãn cũng như cách họ đưa ra các quyết định đó sẽ ảnh hưởng đến độ tin cậy và tính hữu ích của dữ liệu đó.

Người đánh giá

Dữ liệu do con người gắn nhãn theo cách thủ công thường được gọi là nhãn vàng và được coi là mong muốn hơn so với dữ liệu do máy gắn nhãn để huấn luyện mô hình, do chất lượng dữ liệu tương đối tốt hơn.

Điều này không có nghĩa là mọi tập dữ liệu do con người gắn nhãn đều có chất lượng cao. Lỗi, thiên vị và ác ý có thể xuất hiện tại thời điểm thu thập dữ liệu hoặc trong khi làm sạch và xử lý dữ liệu. Hãy kiểm tra các lỗi này trước khi huấn luyện.

Hai người bất kỳ có thể gắn nhãn cùng một ví dụ theo cách khác nhau. Sự khác biệt giữa quyết định của nhân viên đánh giá được gọi là thoả thuận giữa các đánh giá. Bạn có thể nắm được sự khác biệt trong ý kiến của người đánh giá bằng cách sử dụng nhiều người đánh giá cho mỗi ví dụ và đo lường mức độ đồng thuận giữa các người đánh giá.

Trình đánh giá bằng máy

Dữ liệu được gắn nhãn bằng máy, trong đó các danh mục được xác định tự động bằng một hoặc nhiều mô hình phân loại, thường được gọi là nhãn bạc. Chất lượng của dữ liệu do máy gắn nhãn có thể rất khác nhau. Hãy kiểm tra để đảm bảo tính chính xác và sai lệch, mà còn xem có vi phạm lẽ thường, thực tế và ý định hay không. Ví dụ: nếu một mô hình thị giác máy tính gắn nhãn sai một bức ảnh chó chihuahua là bánh nướng hoặc một bức ảnh bánh nướng là chó chihuahua, thì các mô hình được huấn luyện dựa trên dữ liệu được gắn nhãn đó sẽ có chất lượng thấp hơn.

Tương tự, một công cụ phân tích cảm xúc cho điểm các từ trung lập là -0,25, khi 0,0 là giá trị trung lập, có thể đang cho điểm tất cả các từ bằng một độ lệch âm bổ sung không thực sự có trong dữ liệu. Một trình phát hiện nội dung độc hại quá nhạy có thể gắn cờ nhầm nhiều câu nhận định trung lập là độc hại. Hãy cố gắng nắm bắt chất lượng và độ sai lệch của nhãn máy và chú giải trong dữ liệu trước khi huấn luyện.

Số chiều cao

Dữ liệu phân loại có xu hướng tạo ra các vectơ đặc trưng có nhiều chiều; tức là các vectơ đối tượng có số lượng phần tử lớn. Số chiều cao làm tăng chi phí huấn luyện và khiến việc huấn luyện trở nên khó khăn hơn. Vì những lý do này, các chuyên gia máy học thường tìm cách giảm số lượng phương diện trước khi đào tạo.

Đối với dữ liệu ngôn ngữ tự nhiên, phương pháp chính để giảm kích thước là chuyển đổi vectơ đặc điểm thành vectơ nhúng. Nội dung này được thảo luận trong Học phần nhúng ở phần sau của khoá học này.