Dữ liệu số: Tính chất của các đối tượng số tốt

Học phần này đã tìm hiểu những cách thức ánh xạ dữ liệu thô thành vectơ đặc trưng. Các tính năng phù hợp với số lượng người dùng chia sẻ chất lượng được mô tả trong phần này.

Có tên rõ ràng

Mỗi tính năng đều phải có một ý nghĩa rõ ràng, dễ hiểu và dễ thấy đối với bất kỳ người dùng nào dự án. Ví dụ: ý nghĩa của giá trị tính năng sau là gây nhầm lẫn:

Không nên

tuổi_nhà: 851472000

Ngược lại, tên và giá trị của tính năng sau đây rõ ràng hơn nhiều:

Recommended (Nên dùng)

27 tuổi

Được kiểm tra hoặc kiểm tra trước khi đào tạo

Mặc dù mô-đun này đã dành nhiều thời gian để các điểm ngoại lai, chủ đề là cũng đủ quan trọng để được đề cập cuối cùng. Trong một số trường hợp, dữ liệu không hợp lệ (thay vì các lựa chọn kỹ thuật kém) sẽ gây ra các giá trị không rõ ràng. Ví dụ: user_age_in_years sau đây đến từ một nguồn không kiểm tra giá trị thích hợp:

Không nên

user_age_in_years: 224

Nhưng mọi người có thể 24 tuổi:

Recommended (Nên dùng)

user_age_in_years: 24

Hãy kiểm tra dữ liệu của bạn!

Dễ nhận biết

"Giá trị kỳ diệu" là sự gián đoạn có mục đích trong một diễn biến liên tục của chúng tôi. Ví dụ: giả sử một đối tượng liên tục có tên watch_time_in_seconds có thể giữ bất kỳ giá trị dấu phẩy động nào từ 0 đến 30 nhưng thể hiện không có của phép đo có giá trị thần kỳ -1:

Không nên

watch_time_in_seconds: -1

watch_time_in_seconds là -1 sẽ buộc mô hình phải cố gắng tìm hiểu tìm hiểu ý nghĩa của việc xem một bộ phim trong quá khứ. Mô hình thu được sẽ có thể sẽ không đưa ra dự đoán chính xác.

Một kỹ thuật hay hơn là tạo một tính năng Boolean riêng biệt cho biết có phải là watch_time_in_seconds hay không . Ví dụ:

Recommended (Nên dùng)

watch_time_in_seconds: 4,82
is_watch_time_in_seconds_defined=True

watch_time_in_seconds: 0
is_watch_time_in_seconds_defined=False

Bây giờ, hãy cân nhắc sử dụng một sự tách biệt đối tượng số mà giá trị của chúng phải thuộc về một tập hợp giá trị hữu hạn. Trong phần này trường hợp, khi thiếu một giá trị, biểu thị rằng thiếu giá trị bằng cách sử dụng một giá trị mới trong tập hữu hạn. Với một tính năng riêng biệt, mô hình này sẽ học các trọng số khác nhau cho từng giá trị, bao gồm cả trọng số ban đầu cho các đối tượng bị thiếu.