Tập dữ liệu: Nhãn

Phần này tập trung vào nhãn.

Nhãn trực tiếp so với nhãn đại diện

Hãy cân nhắc hai loại nhãn:

  • Nhãn trực tiếp, là các nhãn giống hệt với dự đoán mà mô hình của bạn đang cố gắng đưa ra. Tức là, dự đoán mà mô hình của bạn đang cố gắng đưa ra sẽ xuất hiện chính xác dưới dạng một cột trong tập dữ liệu. Ví dụ: cột có tên bicycle owner sẽ là nhãn trực tiếp cho mô hình phân loại nhị phân dự đoán xem một người có sở hữu xe đạp hay không.
  • Nhãn proxy là các nhãn tương tự nhưng không giống với dự đoán mà mô hình của bạn đang cố gắng đưa ra. Ví dụ: một người đăng ký tạp chí Bicycle Bizarre có thể (nhưng không chắc chắn) sở hữu một chiếc xe đạp.

Nhãn trực tiếp thường tốt hơn nhãn proxy. Nếu tập dữ liệu của bạn cung cấp nhãn trực tiếp có thể dùng được, bạn nên sử dụng nhãn đó. Tuy nhiên, thường thì bạn không thể sử dụng nhãn trực tiếp.

Nhãn proxy luôn là một giải pháp trung gian – một giá trị gần đúng không hoàn hảo của nhãn trực tiếp. Tuy nhiên, một số nhãn proxy có độ gần đúng đủ để hữu ích. Các mô hình sử dụng nhãn proxy chỉ hữu ích bằng mối liên kết giữa nhãn proxy và thông tin dự đoán.

Hãy nhớ rằng mọi nhãn phải được biểu thị dưới dạng số dấu phẩy động trong vectơ đặc trưng (vì về cơ bản, học máy chỉ là một tập hợp lớn các phép toán). Đôi khi, nhãn trực tiếp tồn tại nhưng không thể dễ dàng biểu thị dưới dạng số dấu phẩy động trong vectơ đặc điểm. Trong trường hợp này, hãy sử dụng nhãn proxy.

Bài tập: Kiểm tra mức độ hiểu bài

Công ty của bạn muốn làm những việc sau:

Gửi phiếu giảm giá ("Đổi xe đạp cũ lấy xe đạp mới với giá ưu đãi 15%") cho chủ sở hữu xe đạp.

Vì vậy, mô hình của bạn phải làm như sau:

Dự đoán những người sở hữu xe đạp.

Rất tiếc, tập dữ liệu không chứa cột có tên bike owner. Tuy nhiên, tập dữ liệu này có chứa một cột có tên là recently bought a bicycle.

recently bought a bicycle có phải là nhãn proxy tốt hay nhãn proxy không tốt cho mô hình này không?
Nhãn đại diện phù hợp
Cột recently bought a bicycle là một nhãn proxy tương đối tốt. Xét cho cùng, hầu hết những người mua xe đạp hiện đều sở hữu xe đạp. Tuy nhiên, giống như tất cả các nhãn proxy, ngay cả những nhãn rất tốt, recently bought a bicycle cũng không hoàn hảo. Xét cho cùng, người mua một mặt hàng không phải lúc nào cũng là người sử dụng (hoặc sở hữu) mặt hàng đó. Ví dụ: đôi khi, người dùng mua xe đạp làm quà tặng.
Nhãn đại diện không rõ ràng
Giống như tất cả các nhãn proxy, recently bought a bicycle không hoàn hảo (một số xe đạp được mua làm quà tặng và tặng cho người khác). Tuy nhiên, recently bought a bicycle vẫn là một chỉ báo tương đối tốt cho biết một người sở hữu xe đạp.

Dữ liệu do con người tạo

Một số dữ liệu là do con người tạo ra; tức là một hoặc nhiều người kiểm tra một số thông tin và cung cấp giá trị, thường là cho nhãn. Ví dụ: một hoặc nhiều nhà khí tượng học có thể kiểm tra hình ảnh bầu trời và xác định các loại mây.

Ngoài ra, một số dữ liệu được tạo tự động. Tức là phần mềm (có thể là một mô hình học máy khác) xác định giá trị. Ví dụ: mô hình học máy có thể kiểm tra hình ảnh bầu trời và tự động xác định các loại mây.

Phần này khám phá ưu và khuyết điểm của dữ liệu do con người tạo ra.

Ưu điểm

  • Người đánh giá có thể thực hiện nhiều nhiệm vụ mà ngay cả các mô hình học máy phức tạp cũng khó có thể làm được.
  • Quy trình này buộc chủ sở hữu tập dữ liệu phải phát triển các tiêu chí rõ ràng và nhất quán.

Nhược điểm

  • Bạn thường phải trả phí cho người đánh giá, vì vậy, dữ liệu do con người tạo ra có thể tốn kém.
  • Lỗi là không tránh khỏi. Do đó, nhiều người đánh giá có thể phải đánh giá cùng một dữ liệu.

Hãy suy nghĩ kỹ về các câu hỏi sau để xác định nhu cầu của bạn:

  • Người đánh giá phải có kỹ năng như thế nào? (Ví dụ: Người đánh giá có phải biết một ngôn ngữ cụ thể không? Bạn có cần nhà ngôn ngữ học cho các ứng dụng trò chuyện hoặc NLP không?
  • Bạn cần bao nhiêu ví dụ được gắn nhãn? Khi nào bạn cần chúng?
  • Ngân sách của bạn là bao nhiêu?

Luôn kiểm tra kỹ các nhân viên đánh giá. Ví dụ: tự gắn nhãn cho 1.000 ví dụ và xem kết quả của bạn khớp với kết quả của những người đánh giá khác như thế nào. Nếu có sự khác biệt, đừng giả định rằng điểm xếp hạng của bạn là chính xác, đặc biệt là nếu có liên quan đến việc đánh giá giá trị. Nếu người đánh giá đã mắc lỗi, hãy cân nhắc việc thêm hướng dẫn để giúp họ và thử lại.