Đóng khung: Kiểm tra kiến thức của bạn

Học tập có giám sát

Hãy khám phá các lựa chọn bên dưới.

Giả sử bạn muốn phát triển một mô hình máy học có giám sát để dự đoán một email cụ thể có phải là "spam&quot hay không &"không phải thư rác." Câu nào sau đây là đúng?
Email không được đánh dấu là "spam" hoặc "không phải spam" là các ví dụ không được gắn nhãn.
Do nhãn của chúng tôi bao gồm các giá trị "spam" và "không phải spam", mọi email chưa được đánh dấu là spam hoặc không phải spam đều là một ví dụ chưa gắn nhãn.
Các từ trong tiêu đề chủ đề sẽ tạo nhãn tốt.
Các từ trong tiêu đề chủ đề có thể tạo ra các tính năng tuyệt vời, nhưng từ đó sẽ không tạo ra nhãn tốt.
Chúng tôi sẽ sử dụng các ví dụ chưa gắn nhãn để đào tạo mô hình.
Chúng tôi sẽ sử dụng các ví dụ có gắn nhãn để đào tạo mô hình. Sau đó, chúng tôi có thể chạy mô hình đã huấn luyện dựa trên các ví dụ chưa được gắn nhãn để suy luận xem email có nhãn không được gắn nhãn là thư rác hay không.
Nhãn được áp dụng cho một số ví dụ có thể không đáng tin cậy.
Chắc chắn rồi. Điều quan trọng là bạn phải kiểm tra độ tin cậy của dữ liệu. Nhãn cho tập dữ liệu này có thể đến từ những người dùng email đánh dấu các email cụ thể là thư rác. Vì hầu hết người dùng không đánh dấu mọi email đáng ngờ là thư rác, nên chúng tôi có thể khó xác định được một email có phải là thư rác hay không. Hơn nữa, những kẻ vi phạm có thể cố ý đầu độc mô hình của chúng tôi bằng cách cung cấp các nhãn bị lỗi.

Tính năng và nhãn

Hãy khám phá các lựa chọn bên dưới.

Giả sử một cửa hàng giày trực tuyến muốn tạo một mô hình máy học được giám sát để cung cấp các đề xuất giày tùy chỉnh cho người dùng. Như vậy, mô hình sẽ đề xuất một số đôi giày cho Marty và nhiều loại giày cho Janet. Hệ thống sẽ sử dụng dữ liệu hành vi của người dùng trước đây để tạo dữ liệu huấn luyện. Câu nào sau đây là đúng?
"Shoe size" là một tính năng hữu ích.
"Shoe size" là một tín hiệu có thể định lượng và có thể tác động mạnh mẽ đến việc liệu người dùng có thích đôi giày được đề xuất hay không. Ví dụ: Nếu Marty đi cỡ 9, thì người mẫu này không nên chọn giày cỡ 7.
"Shoe Beauty" là một tính năng hữu ích.
Các tính năng tốt sẽ cụ thể và có thể đo lường được. Làm đẹp là một khái niệm quá mơ hồ để phục vụ như một tính năng hữu ích. Làm đẹp có thể là sự kết hợp một số đặc điểm cụ thể, chẳng hạn như phong cách và màu sắc. Phong cách và màu sắc sẽ là những tính năng tốt hơn so với việc làm đẹp.
"Người dùng nhấp vào nội dung mô tả giày" là một nhãn hữu ích.
Người dùng có thể chỉ muốn đọc thêm về những đôi giày họ thích. Do đó, số lượt nhấp của người dùng là một chỉ số có thể quan sát được và có thể định lượng, có thể đóng vai trò là một nhãn đào tạo hiệu quả. Vì dữ liệu huấn luyện của chúng tôi bắt nguồn từ hành vi của người dùng trước đây, nên nhãn của chúng tôi cần xuất phát từ các hành vi khách quan như các lượt nhấp có liên quan chặt chẽ đến lựa chọn ưu tiên của người dùng.
"Giày mà người dùng yêu thích" là một nhãn hữu ích.
Adors không phải là một chỉ số có thể quan sát và có thể định lượng. Cách tốt nhất chúng ta có thể làm là tìm kiếm các chỉ số proxy có thể quan sát được.