Bản trình bày

Mô hình học máy không thể trực tiếp xem, nghe hoặc nhận biết các ví dụ nhập dữ liệu. Thay vào đó, bạn phải tạo bản trình bày dữ liệu để cung cấp cho mô hình điểm thuận lợi hữu ích về các đặc điểm chính của dữ liệu. Điều này nghĩa là để huấn luyện một mô hình, bạn phải chọn tập hợp tính năng thể hiện dữ liệu chính xác nhất.

Bản trình bày

Ý tưởng là ánh xạ từng phần của vectơ ở bên trái vào một hoặc nhiều trường vào vectơ đối tượng ở bên phải.

Dữ liệu thô được ánh xạ tới vectơ đối tượng thông qua một quá trình được gọi là kỹ thuật đối tượng.
Ví dụ về một tính năng có thể được sao chép trực tiếp từ dữ liệu thô
Ví dụ về một đối tượng chuỗi (tên đường phố) không thể sao chép trực tiếp từ dữ liệu thô
Ánh xạ giá trị chuỗi (
  • Từ điển ánh xạ từng tên đường phố thành một số nguyên trong {0, ...,V-1}
  • Bây giờ, hãy biểu thị vectơ một nóng ở trên dưới dạng <i>

Các giá trị của tính năng phải xuất hiện cùng với các giá trị khác 0 trong tập dữ liệu, tức là lớn hơn một phần nhỏ.

my_device_id:8SK982ZZ1242Z

device_model:galaxy_s6

Tính năng phải có ý nghĩa rõ ràng.

user_age:23

user_age:123456789

Các tính năng không được nhận giá trị "ma thuật"

(thay vào đó, hãy sử dụng một tính năng boolean bổ sung như watch_time_is_Define!)

watch_time: -1.0

watch_time: 1.023

watch_time_is_defined: 1.0

Định nghĩa về một đối tượng không được thay đổi theo thời gian.

(Hãy chú ý đến việc phụ thuộc vào các hệ thống học máy khác!)

city_id:"br/sao_paulo"

inferred_city_cluster_id:219

Phân phối không được có quá nhiều điểm ngoại lai

Lý tưởng nhất là tất cả các đặc điểm đều được biến đổi thành một phạm vi tương tự, như (-1, 1) hoặc (0, 5).

Phân phối bằng các điểm ngoại lai và phân phối có giới hạn
Biểu đồ thể hiện sự phân phối có đường cong phù hợp dựa trên vị trí
Biểu đồ thể hiện sự phân phối có đường cong phù hợp dựa trên vị trí
  • Tạo một vài thùng boolean, mỗi khoảng ánh xạ đến một tính năng riêng biệt mới
  • Cho phép mô hình điều chỉnh một giá trị khác nhau cho mỗi thùng

TÌM HIỂU DỮ LIỆU CỦA BẠN

  • Hình ảnh hoá: Vẽ biểu đồ, xếp hạng phổ biến nhất đến ít phổ biến nhất.
  • Gỡ lỗi: Các ví dụ trùng lặp? Thiếu giá trị? Điểm ngoại lai? Dữ liệu phù hợp với trang tổng quan? Dữ liệu Đào tạo và Xác thực có giống nhau không?
  • Theo dõi: Có các số phân vị, số lượng ví dụ theo thời gian?