Các kết hợp tính năng được tạo bằng chéo (lấy tích của Descartes của) hai hoặc nhiều phân loại hoặc phân giỏ các tính năng của tập dữ liệu. Như đa thức biến đổi, giao điểm giữa các đối tượng cho phép mô hình tuyến tính xử lý các hành vi phi tuyến tính. Kết hợp nhiều tính năng cũng mã hoá tương tác giữa các tính năng.
Ví dụ: hãy xem xét một tập dữ liệu lá có các tính năng phân loại:
edges
, chứa các giá trịsmooth
,toothed
vàlobed
arrangement
, chứa các giá trịopposite
vàalternate
Giả sử thứ tự trên là thứ tự của các cột đối tượng trong bảng tính ưu tiên
biểu diễn sao cho một chiếc lá có smooth
cạnh và opposite
cách sắp xếp
được biểu diễn dưới dạng {(1, 0, 0), (1, 0)}
.
Tính năng kết hợp, hoặc sản phẩm của Descartes, trong hai tính năng này sẽ là:
{Smooth_Opposite, Smooth_Alternate, Toothed_Opposite, Toothed_Alternate,
Lobed_Opposite, Lobed_Alternate}
trong đó giá trị của mỗi số hạng là tích của các giá trị đối tượng cơ sở, chẳng hạn như rằng:
Smooth_Opposite = edges[0] * arrangement[0]
Toothed_Opposite = edges[1] * arrangement[0]
Lobed_Alternate = edges[2] * arrangement[1]
Đối với bất kỳ ví dụ cho trước nào trong tập dữ liệu, dấu chữ thập của đối tượng sẽ chỉ bằng 1 nếu
cả hai tính năng cơ sở vectơ một nóng ban đầu là 1 cho các danh mục chéo.
Tức là một chiếc lá sồi có cạnh xẻ thuỳ và cách sắp xếp khác sẽ có
giá trị là 1 chỉ cho Lobed_Alternate
và chữ thập ở trên sẽ là:
{0, 0, 0, 0, 0, 1}
Tập dữ liệu này có thể được dùng để phân loại lá theo loài cây, vì các đặc điểm không thay đổi của một loài.
Khi nào nên sử dụng các kết hợp tính năng
Kiến thức về miền có thể gợi ý cho bạn một tổ hợp hữu ích giữa các tính năng để vượt qua. Nếu không có kiến thức về miền đó, sẽ rất khó để xác định đối tượng có hiệu lực hoặc biến đổi đa thức bằng tay. Thường là có thể, nếu tính toán tốn kém, hãy sử dụng mạng nơron để tự động tìm và áp dụng các tổ hợp tính năng hữu ích trong quá trình huấn luyện.
Hãy thận trọng—việc kết hợp hai đối tượng thưa thớt sẽ tạo ra một đối tượng mới càng thưa thớt hơn hơn hai tính năng ban đầu. Ví dụ: nếu tính năng A là Tính năng thưa 100 phần tử và tính năng B là tính năng thưa 200 phần tử, sự giao nhau tính năng của A và B tạo ra tính năng thưa 20.000 phần tử.