ตอนนี้เราเน้นฟีเจอร์ข้าม 2 ฟีเจอร์ ในทางปฏิบัติ โมเดลแมชชีนเลิร์นนิงจะไม่ค่อยในแต่ละ
ฟีเจอร์ต่อเนื่องกัน อย่างไรก็ตาม โมเดลของแมชชีนเลิร์นนิงมักมีเวกเตอร์ของฟีเจอร์หนึ่งที่ได้รับความนิยม ให้คิดว่าไม้กางเขนของฟีเจอร์
เวกเตอร์เวกเตอร์ที่ได้รับความนิยม ตัวอย่างเช่น สมมติว่าเรามี 2 ฟีเจอร์ ได้แก่ ประเทศและภาษา การเข้ารหัส 1 ช็อตสําหรับแต่ละรายการจะสร้างเวกเตอร์ที่มีฟีเจอร์ไบนารีที่สามารถตีความเป็น country=USA, country=France
หรือ language=English, language=Spanish
ได้
และหากคุณสร้างลักษณะที่มีการเข้ารหัสแบบเผด็จการเหล่านี้ คุณจะได้รับฟีเจอร์ไบนารีที่สามารถตีความว่าเป็นการรวมเชิงตรรกะ เช่น
country:usa AND language:spanish
อย่างเช่นในอีกตัวอย่างหนึ่ง สมมติว่าคุณใช้ละติจูดและลองจิจูดเพื่อผลิต เวกเตอร์เวกเตอร์ของเอลิเมนต์แบบ 1 องค์ประกอบที่ร้อนแยกกัน เช่น ละติจูดและลองจิจูดอาจแสดงดังนี้
binned_latitude = [0, 0, 0, 1, 0] binned_longitude = [0, 1, 0, 0, 0]
สมมติว่าคุณสร้างกากบาทสําหรับคุณลักษณะของเวกเตอร์ของคุณลักษณะทั้งสองนี้:
binned_latitude X binned_longitude
ฟีเจอร์กากบาทคือเวกเตอร์ 1 องค์ประกอบ 25 องค์ประกอบที่ได้รับความนิยม (24 เลขศูนย์และ 1 เลข 1)
1
ไม้กางเขนเดี่ยวแสดงละติจูดและลองจิจูดเฉพาะกัน จากนั้น โมเดลจะสามารถเรียนรู้การเชื่อมโยงบางอย่าง
เกี่ยวกับการรวมดังกล่าว
สมมติว่าเราจํากัดละติจูดและลองจิจูดให้ใกล้เคียงกันขึ้นอย่างมาก ดังนี้
binned_latitude(lat) = [ 0 < lat <= 10 10 < lat <= 20 20 < lat <= 30 ] binned_longitude(lon) = [ 0 < lon <= 15 15 < lon <= 30 ]
การสร้างไม้กางเขนแบบกว้างๆ สําหรับถังที่หยาบๆ เหล่านั้นจะทําให้สิ่งสังเคราะห์ มีความหมายดังนี้
binned_latitude_X_longitude(lat, lon) = [ 0 < lat <= 10 AND 0 < lon <= 15 0 < lat <= 10 AND 15 < lon <= 30 10 < lat <= 20 AND 0 < lon <= 15 10 < lat <= 20 AND 15 < lon <= 30 20 < lat <= 30 AND 0 < lon <= 15 20 < lat <= 30 AND 15 < lon <= 30 ]
สมมติว่าโมเดลของเราจําเป็นต้องคาดคะเนว่าเจ้าของสุนัขจะพึงพอใจกับสุนัข เมื่อพิจารณาจากฟีเจอร์ 2 อย่างต่อไปนี้หรือไม่
- ประเภทพฤติกรรม (การเห่า การร้องไห้ การจับกุม ฯลฯ)
- ช่วงเวลาของวัน
หากเราสร้างฟีเจอร์จากทั้ง 2 ฟีเจอร์ต่อไปนี้
[behavior type X time of day]
จากนั้นเราจะมีความสามารถในการคาดการณ์มากมาย มากกว่าตัวฟีเจอร์ในตัวของมันเอง เช่น ถ้าสุนัขร้องไห้ (มีความสุข) เวลา 17:00 น. เมื่อเจ้าของกลับจากที่ทํางานก็น่าจะเป็นผู้คาดการณ์เรื่องความพอใจได้อย่างยอดเยี่ยม การร้องไห้ (อาจใช่) เวลา 3.00 น. เมื่อเจ้าของนอนหลับสนิท มีแนวโน้มที่จะเป็นการคาดการณ์เชิงลบอย่างมากต่อความพึงพอใจของเจ้าของ
ผู้เรียนเชิงเส้นจะปรับขนาดได้ดีจนมีข้อมูลจํานวนมาก การใช้ไม้กางเขนฟีเจอร์กับชุดข้อมูลขนาดใหญ่เป็นกลยุทธ์ที่มีประสิทธิภาพอย่างหนึ่งในการเรียนรู้โมเดลที่ซับซ้อนมาก เครือข่ายประสาท ใช้กลยุทธ์อื่น