Tập dữ liệu: Nhãn

Phần này tập trung vào nhãn.

Nhãn trực tiếp so với nhãn proxy

Hãy cân nhắc hai loại nhãn khác nhau:

  • Nhãn trực tiếp, là các nhãn giống với thông tin dự đoán mà mô hình của bạn đang cố gắng thực hiện. Tức là, dự đoán mà mô hình của bạn đang cố gắng đưa ra là hiển thị chính xác dưới dạng cột trong tập dữ liệu. Ví dụ: cột có tên bicycle owner sẽ là nhãn trực tiếp cho mô hình phân loại nhị phân dự đoán xem một người có sở hữu hay không một chiếc xe đạp.
  • Nhãn proxy, là các nhãn tương tự nhau nhưng không giống với dự đoán mà mô hình của bạn đang cố gắng đưa ra. Ví dụ: một người đăng ký tạp chí bike Bizarre có thể, nhưng không chắc chắn là bạn có xe đạp.

Nhãn trực tiếp thường hiệu quả hơn nhãn proxy. Nếu tập dữ liệu của bạn cung cấp một nhãn trực tiếp, bạn có thể nên sử dụng nhãn đó. Tuy nhiên, thông thường, nhãn trực tiếp sẽ không hoạt động.

Các nhãn proxy luôn là sự xâm phạm—một cách ước lượng không hoàn hảo của nhãn trực tiếp. Tuy nhiên, một số nhãn proxy tương đối gần đúng trở nên hữu ích. Các mô hình sử dụng nhãn proxy chỉ hữu ích như giữa nhãn proxy và thông tin dự đoán.

Hãy nhớ rằng mọi nhãn phải được biểu diễn dưới dạng số dấu phẩy động trong vectơ đặc trưng (vì về cơ bản, công nghệ học máy chỉ là một sự kết hợp khổng lồ các công nghệ toán học hoạt động). Đôi khi, nhãn trực tiếp tồn tại nhưng không thể dễ dàng được biểu thị dưới dạng số dấu phẩy động trong vectơ đối tượng. Trong trường hợp này, hãy sử dụng nhãn proxy.

Bài tập: Kiểm tra kiến thức

Công ty của bạn muốn làm những việc sau:

Gửi phiếu giảm giá qua thư ("Bán xe đạp cũ lấy giảm giá 15% khi mua xe đạp mới") cho chủ sở hữu xe đạp.

Vì vậy, mô hình của bạn phải thực hiện những việc sau:

Dự đoán những người sở hữu xe đạp.

Rất tiếc, tập dữ liệu không chứa cột có tên bike owner. Tuy nhiên, tập dữ liệu có chứa một cột có tên recently bought a bicycle.

recently bought a bicycle có phải là nhãn proxy phù hợp không hay có một nhãn proxy không tốt cho mô hình này?
Nhãn proxy tốt
Cột recently bought a bicycle là một nhãn proxy tương đối tốt. Suy cho cùng, hầu hết mọi người những người mua xe đạp bây giờ sở hữu xe đạp. Tuy nhiên, giống như tất cả các nhãn proxy, ngay cả những nhãn rất tốt, recently bought a bicycle không hoàn hảo. Suy cho cùng, người mua một mục không phải lúc nào cũng là người sử dụng (hoặc sở hữu) mục đó. Ví dụ: đôi khi mọi người mua xe đạp làm quà tặng.
Nhãn proxy kém
Giống như tất cả các nhãn proxy, recently bought a bicycle không hoàn hảo (một số xe đạp được mua làm quà tặng và được tặng cho khác). Tuy nhiên, recently bought a bicycle là vẫn là một chỉ báo tương đối tốt cho biết ai đó sở hữu chiếc xe đạp.

Dữ liệu do con người tạo

Một số dữ liệu là do con người tạo; tức là một hoặc nhiều người kiểm tra một vài và cung cấp giá trị, thường là cho nhãn. Ví dụ: một hoặc nhiều nhà khí tượng học có thể kiểm tra hình ảnh bầu trời và xác định đám mây.

Ngoài ra, một số dữ liệu được tạo tự động. Tức là phần mềm (có thể là một mô hình học máy khác) sẽ xác định giá trị. Ví dụ: một mô hình học máy này có thể kiểm tra hình ảnh bầu trời và tự động xác định đám mây.

Phần này tìm hiểu các ưu và nhược điểm của dữ liệu do con người tạo.

Ưu điểm

  • Nhân viên đánh giá có thể thực hiện rất nhiều loại nhiệm vụ cho dù là tinh vi các mô hình học máy có thể gặp khó khăn.
  • Quá trình này buộc chủ sở hữu của tập dữ liệu phải rõ ràng và với các tiêu chí nhất quán.

Nhược điểm

  • Bạn thường trả tiền cho nhân viên đánh giá, vì vậy, dữ liệu do con người tạo ra có thể rất tốn kém.
  • Lỗi là con người. Do đó, nhiều nhân viên đánh giá có thể phải xem xét dữ liệu giống nhau.

Hãy cân nhắc những câu hỏi sau để xác định nhu cầu của bạn:

  • Người đánh giá của bạn phải có kỹ năng như thế nào? (Ví dụ: phải là người đánh giá biết một ngôn ngữ cụ thể? Bạn cần ngôn ngữ học để đối thoại hay NLP ứng dụng?)
  • Bạn cần bao nhiêu ví dụ được gắn nhãn? Khi nào bạn cần chúng?
  • Ngân sách của bạn là bao nhiêu?

Luôn kiểm tra kỹ nhân viên đánh giá. Ví dụ: nhãn 1.000 ví dụ của bạn và xem kết quả của bạn khớp với những người đánh giá khác như thế nào kết quả. Nếu có sự khác biệt xuất hiện, đừng cho rằng điểm xếp hạng của bạn là chính xác, đặc biệt là khi cần đánh giá giá trị. Nếu người đánh giá đã giới thiệu lỗi, hãy cân nhắc thêm hướng dẫn để giúp họ và thử lại.