Mô hình học máy không thể trực tiếp xem, nghe hoặc nhận biết các ví dụ nhập dữ liệu. Thay vào đó, bạn phải tạo bản trình bày dữ liệu để cung cấp cho mô hình điểm thuận lợi hữu ích về các đặc điểm chính của dữ liệu. Điều này nghĩa là để huấn luyện một mô hình, bạn phải chọn tập hợp tính năng thể hiện dữ liệu chính xác nhất.
Bản trình bày
Từ dữ liệu thô đến các tính năng
Ý tưởng là ánh xạ từng phần của vectơ ở bên trái vào một hoặc nhiều trường vào vectơ đối tượng ở bên phải.
Từ dữ liệu thô đến các tính năng
Từ dữ liệu thô đến các tính năng
Từ dữ liệu thô đến các tính năng
- Từ điển ánh xạ từng tên đường phố thành một số nguyên trong {0, ...,V-1}
- Bây giờ, hãy biểu thị vectơ một nóng ở trên dưới dạng <i>
Các thuộc tính của một tính năng tốt
Các giá trị của tính năng phải xuất hiện cùng với các giá trị khác 0 trong tập dữ liệu, tức là lớn hơn một phần nhỏ.
my_device_id:8SK982ZZ1242Z
device_model:galaxy_s6
Các thuộc tính của một tính năng tốt
Tính năng phải có ý nghĩa rõ ràng.
user_age:23
user_age:123456789
Các thuộc tính của một tính năng tốt
Các tính năng không được nhận giá trị "ma thuật"
(thay vào đó, hãy sử dụng một tính năng boolean bổ sung như watch_time_is_Define!)
watch_time: -1.0
watch_time: 1.023
watch_time_is_defined: 1.0
Các thuộc tính của một tính năng tốt
Định nghĩa về một đối tượng không được thay đổi theo thời gian.
(Hãy chú ý đến việc phụ thuộc vào các hệ thống học máy khác!)
city_id:"br/sao_paulo"
inferred_city_cluster_id:219
Các thuộc tính của một tính năng tốt
Phân phối không được có quá nhiều điểm ngoại lai
Lý tưởng nhất là tất cả các đặc điểm đều được biến đổi thành một phạm vi tương tự, như (-1, 1) hoặc (0, 5).
Trò chơi đấu giá
Trò chơi đấu giá
- Tạo một vài thùng boolean, mỗi khoảng ánh xạ đến một tính năng riêng biệt mới
- Cho phép mô hình điều chỉnh một giá trị khác nhau cho mỗi thùng
Thói quen tốt
TÌM HIỂU DỮ LIỆU CỦA BẠN
- Hình ảnh hoá: Vẽ biểu đồ, xếp hạng phổ biến nhất đến ít phổ biến nhất.
- Gỡ lỗi: Các ví dụ trùng lặp? Thiếu giá trị? Điểm ngoại lai? Dữ liệu phù hợp với trang tổng quan? Dữ liệu Đào tạo và Xác thực có giống nhau không?
- Theo dõi: Có các số phân vị, số lượng ví dụ theo thời gian?