ข้อมูลเชิงหมวดหมู่: เครื่องหมายกากบาทของฟีเจอร์

ข้ามฟีเจอร์สร้างขึ้นโดย ข้าม (คูณผลคูณคาร์ทีเซียน) ตั้งแต่ 2 รายการขึ้นไป ของชุดข้อมูล เช่น พหุนาม การเปลี่ยนรูปแบบ กากบาทฟีเจอร์ทำให้โมเดลเชิงเส้นจัดการกับสิ่งที่ไม่เป็นเชิงเส้นได้ กากบาทคุณลักษณะ เข้ารหัสการโต้ตอบระหว่างฟีเจอร์ต่างๆ ด้วย

ตัวอย่างเช่น ลองพิจารณาชุดข้อมูล Leaf ที่มีฟีเจอร์เชิงหมวดหมู่ดังนี้

  • edges ซึ่งมีค่า smooth, toothed และ lobed
  • arrangement ซึ่งมีค่า opposite และ alternate

สมมติว่าลำดับข้างต้นเป็นลำดับของคอลัมน์ฟีเจอร์ในความร้อนครั้งเดียว เพื่อให้ใบไม้ที่มีขอบsmoothและการจัดเรียงopposite จะแสดงเป็น {(1, 0, 0), (1, 0)}

ข้ามคุณลักษณะหรือผลิตภัณฑ์คาร์ทีเซียนของคุณลักษณะทั้งสองนี้จะเป็น:

{Smooth_Opposite, Smooth_Alternate, Toothed_Opposite, Toothed_Alternate, Lobed_Opposite, Lobed_Alternate}

โดยที่ค่าของแต่ละพจน์เป็นผลคูณของค่าคุณลักษณะพื้นฐาน เช่น ซึ่ง:

  • Smooth_Opposite = edges[0] * arrangement[0]
  • Toothed_Opposite = edges[1] * arrangement[0]
  • Lobed_Alternate = edges[2] * arrangement[1]

สำหรับตัวอย่างหนึ่งๆ ในชุดข้อมูล เครื่องหมายกากบาทของฟีเจอร์จะเท่ากับ 1 เฉพาะในกรณีต่อไปนี้ ทั้ง 2 ฟีเจอร์ เวกเตอร์ที่ร้อนแรงเดิมต้นฉบับเท่ากับ 1 สำหรับหมวดหมู่ที่ถูกขีดทับ กล่าวคือใบโอ๊กที่มีขอบหยักและมีการจัดเรียงแบบสลับกัน ค่า 1 เท่านั้นสำหรับ Lobed_Alternate และฟีเจอร์รูปข้ามด้านบนจะเป็น

{0, 0, 0, 0, 0, 1}

ชุดข้อมูลนี้ใช้ในการแยกประเภทใบตามชนิดของต้นไม้ได้ เนื่องจากชนิดเหล่านี้ ไม่แตกต่างกันในสปีชีส์

เมื่อใดที่ควรใช้การข้ามฟีเจอร์

ความรู้เกี่ยวกับโดเมนจะช่วยแนะนำการผสมผสานฟีเจอร์ที่มีประโยชน์ เพื่อข้าม หากไม่มีความรู้เกี่ยวกับโดเมนดังกล่าว อาจเป็นเรื่องยากที่จะระบุ กากบาทคุณลักษณะที่มีประสิทธิภาพ หรือการแปลงพหุนามด้วยตนเอง เป็นไปได้บ่อยครั้ง หากการประมวลผลมีราคาแพง โครงข่ายระบบประสาทเทียมเพื่อ ค้นหาและใช้การผสมผสานฟีเจอร์ที่เป็นประโยชน์ได้โดยอัตโนมัติในระหว่างการฝึก

ระวังให้ดี การข้ามสองคุณลักษณะที่กระจัดกระจายทำให้เกิดความคลุมเครือมากยิ่งขึ้น มากกว่าฟีเจอร์ดั้งเดิม 2 รายการ ตัวอย่างเช่น ถ้าฟีเจอร์ A คือ ฟีเจอร์คร่าวๆ ที่มี 100 องค์ประกอบ และฟีเจอร์ B เป็นฟีเจอร์คร่าวๆ ที่มี 200 องค์ประกอบ ข้ามจุดสนใจของ A และ B จะมีองค์ประกอบที่กระจัดกระจาย 20,000 องค์ประกอบ