Học phần này đã tìm hiểu những cách thức ánh xạ dữ liệu thô thành vectơ đặc trưng. Các tính năng phù hợp với số lượng người dùng chia sẻ chất lượng được mô tả trong phần này.
Có tên rõ ràng
Mỗi tính năng đều phải có một ý nghĩa rõ ràng, dễ hiểu và dễ thấy đối với bất kỳ người dùng nào dự án. Ví dụ: ý nghĩa của giá trị tính năng sau là gây nhầm lẫn:
Không nên
tuổi_nhà: 851472000
Ngược lại, tên và giá trị của tính năng sau đây rõ ràng hơn nhiều:
Recommended (Nên dùng)
27 tuổi
Được kiểm tra hoặc kiểm tra trước khi đào tạo
Mặc dù mô-đun này đã dành nhiều thời gian để
các điểm ngoại lai, chủ đề là
cũng đủ quan trọng để được đề cập cuối cùng. Trong một số trường hợp, dữ liệu không hợp lệ
(thay vì các lựa chọn kỹ thuật kém) sẽ gây ra các giá trị không rõ ràng. Ví dụ:
user_age_in_years
sau đây đến từ một nguồn không kiểm tra
giá trị thích hợp:
Không nên
user_age_in_years: 224
Nhưng mọi người có thể 24 tuổi:
Recommended (Nên dùng)
user_age_in_years: 24
Hãy kiểm tra dữ liệu của bạn!
Dễ nhận biết
"Giá trị kỳ diệu" là sự gián đoạn có mục đích trong một diễn biến liên tục
của chúng tôi. Ví dụ: giả sử một đối tượng liên tục có tên watch_time_in_seconds
có thể giữ bất kỳ giá trị dấu phẩy động nào từ 0 đến 30 nhưng thể hiện không có
của phép đo có giá trị thần kỳ -1:
Không nên
watch_time_in_seconds: -1
watch_time_in_seconds
là -1 sẽ buộc mô hình phải cố gắng tìm hiểu
tìm hiểu ý nghĩa của việc xem một bộ phim trong quá khứ. Mô hình thu được sẽ
có thể sẽ không đưa ra dự đoán chính xác.
Một kỹ thuật hay hơn là tạo một tính năng Boolean riêng biệt cho biết
có phải là watch_time_in_seconds
hay không
. Ví dụ:
Recommended (Nên dùng)
watch_time_in_seconds: 4,82
is_watch_time_in_seconds_defined=Truewatch_time_in_seconds: 0
is_watch_time_in_seconds_defined=False
Bây giờ, hãy cân nhắc sử dụng một sự tách biệt đối tượng số mà giá trị của chúng phải thuộc về một tập hợp giá trị hữu hạn. Trong phần này trường hợp, khi thiếu một giá trị, biểu thị rằng thiếu giá trị bằng cách sử dụng một giá trị mới trong tập hữu hạn. Với một tính năng riêng biệt, mô hình này sẽ học các trọng số khác nhau cho từng giá trị, bao gồm cả trọng số ban đầu cho các đối tượng bị thiếu.