Dữ liệu phân loại: Các tính năng kết hợp

Các kết hợp tính năng được tạo bởi chéo (lấy tích của Descartes của) hai hoặc nhiều phân loại hoặc phân giỏ các tính năng của tập dữ liệu. Như đa thức biến đổi, giao điểm giữa các đối tượng cho phép mô hình tuyến tính xử lý các hành vi phi tuyến tính. Kết hợp nhiều tính năng cũng mã hoá tương tác giữa các tính năng.

Ví dụ: hãy xem xét một tập dữ liệu lá có các tính năng phân loại:

  • edges, chứa các giá trị smooth, toothedlobed
  • arrangement, chứa các giá trị oppositealternate

Giả sử thứ tự trên là thứ tự của các cột đối tượng trong bảng tính ưu tiên biểu diễn sao cho một chiếc lá có smooth cạnh và opposite cách sắp xếp được biểu diễn dưới dạng {(1, 0, 0), (1, 0)}.

Tính năng kết hợp, hoặc sản phẩm của Descartes, trong hai tính năng này sẽ là:

{Smooth_Opposite, Smooth_Alternate, Toothed_Opposite, Toothed_Alternate, Lobed_Opposite, Lobed_Alternate}

trong đó giá trị của mỗi số hạng là tích của các giá trị đối tượng cơ sở, chẳng hạn như rằng:

  • Smooth_Opposite = edges[0] * arrangement[0]
  • Toothed_Opposite = edges[1] * arrangement[0]
  • Lobed_Alternate = edges[2] * arrangement[1]

Đối với bất kỳ ví dụ cho trước nào trong tập dữ liệu, dấu chữ thập của đối tượng sẽ chỉ bằng 1 nếu cả hai tính năng cơ sở vectơ một nóng ban đầu là 1 cho các danh mục chéo. Tức là một chiếc lá sồi có cạnh xẻ thuỳ và cách sắp xếp khác sẽ có giá trị là 1 chỉ cho Lobed_Alternate và chữ thập ở trên sẽ là:

{0, 0, 0, 0, 0, 1}

Tập dữ liệu này có thể được dùng để phân loại lá theo loài cây, vì các đặc điểm không thay đổi của một loài.

Khi nào nên sử dụng các kết hợp tính năng

Kiến thức về miền có thể gợi ý cho bạn một tổ hợp hữu ích giữa các tính năng để vượt qua. Nếu không có kiến thức về miền đó, sẽ rất khó để xác định đối tượng có hiệu quả hoặc biến đổi đa thức bằng tay. Thường là có thể, nếu tính toán tốn kém, hãy sử dụng mạng nơron để tự động tìm và áp dụng các tổ hợp tính năng hữu ích trong quá trình huấn luyện.

Hãy thận trọng—việc kết hợp hai đối tượng thưa thớt sẽ tạo ra một đối tượng mới càng thưa thớt hơn hơn hai tính năng ban đầu. Ví dụ: nếu tính năng A là Tính năng thưa 100 phần tử và tính năng B là tính năng thưa 200 phần tử, sự giao nhau tính năng của A và B tạo ra tính năng thưa 20.000 phần tử.