Dữ liệu phân loại: Các vấn đề thường gặp

Dữ liệu số thường được ghi lại bằng các công cụ khoa học hoặc đo lường tự động. Mặt khác, dữ liệu phân loại thường được phân loại theo con người hoặc theo mô hình học máy (ML). Ai quyết định về danh mục và nhãn cũng như cách họ đưa ra các quyết định đó, sẽ ảnh hưởng đến độ tin cậy và tính hữu ích của dữ liệu đó.

Nhân viên đánh giá

Dữ liệu do con người gắn nhãn theo cách thủ công thường được gọi là nhãn vàng, và được xem là cần thiết hơn so với dữ liệu được gắn nhãn máy cho các mô hình huấn luyện, do chất lượng dữ liệu tương đối tốt hơn.

Điều này không nhất thiết có nghĩa là bất kỳ tập dữ liệu nào có nhãn do con người đều có mức độ chất lượng. Sai sót, thiên kiến và ác ý có thể xuất hiện ngay từ lúc này trong quá trình thu thập dữ liệu hoặc trong quá trình làm sạch và xử lý dữ liệu. Kiểm tra để tìm trước khi huấn luyện.

Bất kỳ hai người nào cũng có thể gắn nhãn cùng một ví dụ theo cách khác nhau. Điểm khác biệt giữa những người đánh giá quyết định được gọi là người đánh giá liên quan Google Cloud. Bạn có thể hiểu được sự chênh lệch theo phương thức xếp hạng bằng cách sử dụng nhiều người đánh giá cho mỗi ví dụ và đo lường sự thoả thuận giữa các người đánh giá.

Người đánh giá máy

Dữ liệu được gắn nhãn máy, trong đó các danh mục được tự động xác định theo một hoặc nhiều mô hình phân loại hơn, thường được gọi là nhãn bạc. Dữ liệu được gắn nhãn máy có thể có chất lượng rất khác nhau. Hãy kiểm tra để đảm bảo tính chính xác và thành kiến mà còn vi phạm lẽ thường, thực tế và ý định. Cho Ví dụ: nếu mô hình thị giác máy tính gắn sai nhãn cho một bức ảnh chihuahua làm bánh muffin hoặc hình ảnh bánh nướng xốp như chihuahua, các mô hình được huấn luyện dựa trên dữ liệu được gắn nhãn đó sẽ có chất lượng thấp hơn.

Tương tự như vậy, công cụ phân tích quan điểm cho điểm các từ trung lập là -0,25, khi 0 là giá trị trung tính có thể cho điểm tất cả các từ có thêm độ thiên vị tiêu cực không thực sự có trong dữ liệu. Máy phát hiện độc tính quá nhạy cảm có thể gắn cờ sai nhiều tuyên bố trung lập là độc hại. Cố gắng nắm bắt chất lượng và độ sai lệch của nhãn máy và chú thích trong dữ liệu của bạn trước khi được đào tạo về nó.

Có tính đa dạng

Dữ liệu phân loại có xu hướng tạo ra các vectơ đối tượng có chiều cao; tức là các vectơ đặc trưng có số lượng phần tử lớn. Việc sử dụng nhiều phương diện làm tăng chi phí đào tạo và tăng tỷ lệ đào tạo trở nên khó khăn. Vì những lý do này, các chuyên gia học máy thường tìm cách giảm thiểu về kích thước trước khi huấn luyện.

Đối với dữ liệu về ngôn ngữ tự nhiên, phương pháp chính để giảm số lượng phương diện là để chuyển đổi vectơ đối tượng thành vectơ nhúng. Điều này được thảo luận trong Nhúng mô-đun vào lúc khác khóa học này.