Persimpangan fitur dibuat dengan menyilang (mengambil produk Kartesius) dua atau beberapa fitur kategoris atau bucket dari set data. Seperti transformasi polinomial, persilangan fitur memungkinkan model linear menangani non-linearitas. Persilangan fitur juga mengenkode interaksi antar-fitur.
Misalnya, pertimbangkan set data daun dengan fitur kategoris:
edges
, yang berisi nilaismooth
,toothed
, danlobed
arrangement
, yang berisi nilaiopposite
danalternate
Asumsikan urutan di atas adalah urutan kolom fitur dalam representasi
one-hot, sehingga node daun dengan tepi smooth
dan pengaturan opposite
ditampilkan sebagai {(1, 0, 0), (1, 0)}
.
Persilangan fitur, atau produk Kartesius, dari kedua fitur ini adalah:
{Smooth_Opposite, Smooth_Alternate, Toothed_Opposite, Toothed_Alternate,
Lobed_Opposite, Lobed_Alternate}
dengan nilai setiap istilah adalah produk dari nilai fitur dasar, sehingga:
Smooth_Opposite = edges[0] * arrangement[0]
Smooth_Alternate = edges[0] * arrangement[1]
Toothed_Opposite = edges[1] * arrangement[0]
Toothed_Alternate = edges[1] * arrangement[1]
Lobed_Opposite = edges[2] * arrangement[0]
Lobed_Alternate = edges[2] * arrangement[1]
Misalnya, jika daun memiliki tepi lobed
dan pengaturan alternate
, vektor silang fitur akan memiliki nilai 1 untuk Lobed_Alternate
, dan nilai
0 untuk semua istilah lainnya:
{0, 0, 0, 0, 0, 1}
Set data ini dapat digunakan untuk mengklasifikasikan daun menurut spesies pohon, karena karakteristik ini tidak bervariasi dalam satu spesies.
Kapan harus menggunakan fitur silang
Pengetahuan domain dapat menyarankan kombinasi fitur yang berguna untuk dilintasi. Tanpa pengetahuan domain tersebut, akan sulit untuk menentukan tumpang-tindih fitur atau transformasi polinomial yang efektif secara manual. Sering kali, jika komputasinya mahal, Anda dapat menggunakan jaringan saraf untuk otomatis menemukan dan menerapkan kombinasi fitur yang berguna selama pelatihan.
Berhati-hatilah—menyilangkan dua fitur jarang akan menghasilkan fitur baru yang lebih jarang lagi daripada dua fitur asli. Misalnya, jika fitur A adalah fitur jarang 100 elemen dan fitur B adalah fitur jarang 200 elemen, persilangan fitur A dan B menghasilkan fitur jarang 20.000 elemen.