Data kategorikal: Persilangan fitur

Persilangan fitur dibuat oleh menyeberang (mengambil hasil Kartesius dari) dua atau lebih kategoris atau kelompok fitur-fitur dari {i>dataset <i}tersebut. Seperti polinomial mengubah, persilangan fitur memungkinkan model linear untuk menangani nonlinearitas. Persilangan fitur juga mengenkode interaksi antar fitur.

Misalnya, pertimbangkan set data daun dengan fitur kategorikal:

  • edges, yang berisi nilai smooth, toothed, dan lobed
  • arrangement, yang berisi nilai opposite dan alternate

Asumsikan bahwa urutan di atas adalah urutan kolom fitur dalam tampilan, sehingga daun dengan tepi smooth dan susunan opposite direpresentasikan sebagai {(1, 0, 0), (1, 0)}.

Persilangan fitur, atau produk Kartesius, dari kedua fitur ini adalah:

{Smooth_Opposite, Smooth_Alternate, Toothed_Opposite, Toothed_Alternate, Lobed_Opposite, Lobed_Alternate}

di mana nilai setiap istilah adalah hasil dari nilai fitur dasar, bahwa:

  • Smooth_Opposite = edges[0] * arrangement[0]
  • Toothed_Opposite = edges[1] * arrangement[0]
  • Lobed_Alternate = edges[2] * arrangement[1]

Untuk setiap contoh yang diberikan dalam {i>dataset<i}, persilangan fitur akan sama dengan 1 hanya jika dari kedua fitur dasar vektor one-hot asli adalah 1 untuk kategori silang. Yaitu, daun ek dengan tepi berlekuk dan pengaturan alternatif akan memiliki 1 hanya untuk Lobed_Alternate, dan persilangan fitur di atasnya adalah:

{0, 0, 0, 0, 0, 1}

Kumpulan data ini dapat digunakan untuk mengklasifikasikan daun berdasarkan spesies pohon, karena karakteristiknya tidak bervariasi dalam suatu spesies.

Kapan harus menggunakan persilangan fitur

Pengetahuan domain dapat menyarankan kombinasi fitur yang berguna untuk menyeberang. Tanpa pengetahuan domain itu, akan sulit untuk menentukan persilangan fitur yang efektif atau transformasi polinomial dengan tangan. Sering kali memungkinkan, jika mahal secara komputasi, gunakan jaringan neural secara otomatis menemukan dan menerapkan kombinasi fitur yang berguna selama pelatihan.

Hati-hati—menyeimbangkan dua fitur renggang akan menghasilkan dibandingkan kedua fitur aslinya. Misalnya, jika fitur A adalah Fitur sparse 100 elemen dan fitur B adalah fitur sparse 200 elemen, persilangan fitur A dan B menghasilkan fitur renggang sebanyak 20.000 elemen.