การออกกําลังกายโดยใช้การวัดความคล้ายกันด้วยตนเอง

แบบฝึกหัดต่อไปนี้จะอธิบายขั้นตอนการสร้างมาตรวัดความคล้ายคลึงกันด้วยตนเอง

ลองนึกภาพคุณมีชุดข้อมูลง่ายๆ ในบ้าน

ฟีเจอร์ประเภท
ราคาจำนวนเต็มบวก
ขนาด ค่าจุดลอยตัวบวกในหน่วยตารางเมตร
รหัสไปรษณีย์จำนวนเต็ม
จำนวนห้องนอนจำนวนเต็ม
ประเภทบ้านค่าข้อความจาก "single_family", "multifamily", "partment," "condo"
โรงจอดรถ0/1 สําหรับไม่/ใช่
สีหมวดหมู่ที่หลากหลาย: อย่างน้อย 1 ค่าจากสีมาตรฐาน ได้แก่ "สีขาว" "สีเหลือง" "เขียว" เป็นต้น

การประมวลผลล่วงหน้า

ขั้นแรกคือการประมวลผลฟีเจอร์ตัวเลขล่วงหน้า ได้แก่ ราคา ขนาด จํานวนห้องนอน และรหัสไปรษณีย์ สําหรับฟีเจอร์แต่ละรายการ คุณจะต้องดําเนินการแตกต่างกันไป เช่น ในกรณีนี้ ให้สมมติว่าข้อมูลราคาเป็นไปตามการกระจายแบบทวิภาค สิ่งที่ควรดำเนินการต่อ

คุณควรดําเนินการอย่างไรหากข้อมูลเป็นไปตามการกระจายแบบทวิภาค
สร้างเชิงปริมาณจากข้อมูลและปรับขนาดเป็น [0,1]
ขั้นตอนนี้เป็นขั้นตอนที่ควรทําเมื่อข้อมูลเป็นไปตามการกระจายแบบทวิภาค
บันทึกการเปลี่ยนรูปแบบและปรับขนาดเป็น [0,1]
ขั้นตอนนี้เป็นขั้นตอนที่ต้องดําเนินการเมื่อข้อมูลเป็นไปตามการกระจายพลังงาน
ปรับสเกลให้เป็นมาตรฐานเป็น [0,1]
นี่คือขั้นตอนที่คุณต้องดําเนินการเมื่อข้อมูลเป็นไปตามการกระจายของเกาส์เชียน

ในช่องด้านล่าง ลองอธิบายว่าคุณจะประมวลผลข้อมูลขนาดอย่างไร

ในช่องด้านล่าง ลองอธิบายวิธีที่คุณจะประมวลผลข้อมูลเกี่ยวกับจํานวนห้องนอน

คุณควรระบุรหัสไปรษณีย์อย่างไร แปลงรหัสไปรษณีย์เป็น ลองจิจูดและละติจูด แล้วประมวลผลค่าเหล่านั้นเหมือนที่คุณประมวลผล ค่าตัวเลขอื่นๆ

กําลังคํานวณฟีเจอร์ที่คล้ายกันของแต่ละฟีเจอร์

ตอนนี้ก็ถึงเวลาคํานวณความคล้ายคลึงกันของฟีเจอร์แต่ละรายการแล้ว สําหรับฟีเจอร์ตัวเลข คุณจะเห็นความแตกต่าง สําหรับฟีเจอร์แบบไบนารี เช่น หากบ้านมีโรงรถ คุณก็จะเห็นความแตกต่างเพื่อรับ 0 หรือ 1 แล้วฟีเจอร์ เชิงหมวดหมู่ล่ะ ตอบคําถามด้านล่างเพื่อค้นหา

ฟีเจอร์ใดต่อไปนี้เป็นหลายค่า (อาจมีได้หลายค่า)
สี
ที่อยู่อาศัยหนึ่งๆ อาจมีมากกว่า 1 สี เช่น สีน้ําเงินที่มีการตัดสีขาว ดังนั้นสีจึงเป็นฟีเจอร์ที่มีหลากหลาย
รหัสไปรษณีย์
ที่อยู่อาศัยมีรหัสไปรษณีย์ได้เพียงรายการเดียว นี่เป็นฟีเจอร์ที่ไม่แพร่หลาย
ประเภท
บ้านของคุณต้องเป็นบ้าน อพาร์ตเมนต์ คอนโด ฯลฯ เพียงประเภทเดียว ซึ่งหมายความว่าเป็นฟีเจอร์ที่ไม่มีประโยชน์
คุณควรใช้มาตรวัดความใกล้เคียงกันประเภทใดในการคํานวณความคล้ายคลึงกันสําหรับฟีเจอร์ที่หลากหลาย
ความคล้ายคลึงกันของ Jaccard
สมมติว่าบ้านได้รับการกําหนดสีจากชุดสีแบบคงที่ จากนั้นคํานวณความคล้ายคลึงกันโดยใช้อัตราส่วนของค่าทั่วไป (ความคล้ายคลึงกันของบัตร)
ระยะทางแบบยุโรป
สําหรับฟีเจอร์ "รหัสไปรษณีย์" และ "ประเภท" ที่มีค่าเพียงค่าเดียว (ฟีเจอร์ที่ไม่ระบุตัวบุคคล) หากฟีเจอร์ดังกล่าวตรงกัน การวัดความคล้ายคลึงคือ 0 ไม่เช่นนั้นมาตรวัดความคล้ายคลึงคือ 1

กําลังคํานวณความคล้ายคลึงกันโดยรวม

คุณได้คํานวณความคล้ายคลึงกันของทุกฟีเจอร์เป็นตัวเลข แต่อัลกอริทึมการจัดกลุ่มต้องมีความคล้ายคลึงกันโดยรวมเมื่อเทียบกับกลุ่มบ้าน คํานวณความคล้ายคลึงกันโดยรวมของบ้านแต่ละคู่โดยการรวมความคล้ายคลึงกันของแต่ละฟีเจอร์เข้าด้วยกันโดยใช้ข้อผิดพลาดกําลังสองเฉลี่ย (RMSE) ซึ่งก็คือ\(s_1,s_2,\ldots,s_N\) ความคล้ายคลึงกันของ \(N\) ฟีเจอร์

\[\text{RMSE} = \sqrt{\frac{s_1^2+s_2^2+\ldots+s_N^2}{N}}\]

ข้อจํากัดของมาตรวัดความคล้ายคลึงของตัวเอง

แบบฝึกหัดนี้แสดงให้เห็นว่าข้อมูลมีความซับซ้อนในการประมวลผลและรวมข้อมูลเพื่อวัดความคล้ายคลึงกันอย่างมีความหมายได้ยากขึ้นเรื่อยๆ พิจารณาข้อมูลสี สีควรเป็นหมวดหมู่หรือไม่ หรือเราควรกําหนดสี เช่น สีแดงและสีแดงเข้มเพื่อให้มีความคล้ายคลึงกันมากกว่าสีขาวดํา การรวมข้อมูลเข้าด้วยกันนั้น เราเพียงให้น้ําหนักฟีเจอร์ โรงจอดรถอย่างเท่าเทียมกันกับราคาบ้าน แต่ราคาบ้านนั้นสําคัญกว่าการมีโรงรถอย่างมาก การชั่งน้ําหนักอย่างเท่าเทียมเป็นสิ่งสําคัญไหม

หากสร้างการวัดความคล้ายคลึงที่ไม่ได้แสดงถึงตัวอย่างความคล้ายคลึงกันอย่างแท้จริง คลัสเตอร์ที่ได้มาของคุณจะไม่มีความหมาย กรณีเช่นนี้มักจะเกี่ยวข้องกับข้อมูลเชิงหมวดหมู่และนําเราไปสู่มาตรการที่มีการควบคุมดูแล