แบบฝึกหัดต่อไปนี้จะอธิบายขั้นตอนการสร้างมาตรวัดความคล้ายคลึงกันด้วยตนเอง
ลองนึกภาพคุณมีชุดข้อมูลง่ายๆ ในบ้าน
ฟีเจอร์ | ประเภท |
---|---|
ราคา | จำนวนเต็มบวก |
ขนาด | ค่าจุดลอยตัวบวกในหน่วยตารางเมตร |
รหัสไปรษณีย์ | จำนวนเต็ม |
จำนวนห้องนอน | จำนวนเต็ม |
ประเภทบ้าน | ค่าข้อความจาก "single_family", "multifamily", "partment," "condo" |
โรงจอดรถ | 0/1 สําหรับไม่/ใช่ |
สี | หมวดหมู่ที่หลากหลาย: อย่างน้อย 1 ค่าจากสีมาตรฐาน ได้แก่ "สีขาว" "สีเหลือง" "เขียว" เป็นต้น |
การประมวลผลล่วงหน้า
ขั้นแรกคือการประมวลผลฟีเจอร์ตัวเลขล่วงหน้า ได้แก่ ราคา ขนาด จํานวนห้องนอน และรหัสไปรษณีย์ สําหรับฟีเจอร์แต่ละรายการ คุณจะต้องดําเนินการแตกต่างกันไป เช่น ในกรณีนี้ ให้สมมติว่าข้อมูลราคาเป็นไปตามการกระจายแบบทวิภาค สิ่งที่ควรดำเนินการต่อ
ในช่องด้านล่าง ลองอธิบายว่าคุณจะประมวลผลข้อมูลขนาดอย่างไร
ในช่องด้านล่าง ลองอธิบายวิธีที่คุณจะประมวลผลข้อมูลเกี่ยวกับจํานวนห้องนอน
คุณควรระบุรหัสไปรษณีย์อย่างไร แปลงรหัสไปรษณีย์เป็น ลองจิจูดและละติจูด แล้วประมวลผลค่าเหล่านั้นเหมือนที่คุณประมวลผล ค่าตัวเลขอื่นๆ
กําลังคํานวณฟีเจอร์ที่คล้ายกันของแต่ละฟีเจอร์
ตอนนี้ก็ถึงเวลาคํานวณความคล้ายคลึงกันของฟีเจอร์แต่ละรายการแล้ว สําหรับฟีเจอร์ตัวเลข คุณจะเห็นความแตกต่าง สําหรับฟีเจอร์แบบไบนารี เช่น หากบ้านมีโรงรถ คุณก็จะเห็นความแตกต่างเพื่อรับ 0 หรือ 1 แล้วฟีเจอร์ เชิงหมวดหมู่ล่ะ ตอบคําถามด้านล่างเพื่อค้นหา
กําลังคํานวณความคล้ายคลึงกันโดยรวม
คุณได้คํานวณความคล้ายคลึงกันของทุกฟีเจอร์เป็นตัวเลข แต่อัลกอริทึมการจัดกลุ่มต้องมีความคล้ายคลึงกันโดยรวมเมื่อเทียบกับกลุ่มบ้าน คํานวณความคล้ายคลึงกันโดยรวมของบ้านแต่ละคู่โดยการรวมความคล้ายคลึงกันของแต่ละฟีเจอร์เข้าด้วยกันโดยใช้ข้อผิดพลาดกําลังสองเฉลี่ย (RMSE) ซึ่งก็คือ\(s_1,s_2,\ldots,s_N\) ความคล้ายคลึงกันของ \(N\) ฟีเจอร์
\[\text{RMSE} = \sqrt{\frac{s_1^2+s_2^2+\ldots+s_N^2}{N}}\]
ข้อจํากัดของมาตรวัดความคล้ายคลึงของตัวเอง
แบบฝึกหัดนี้แสดงให้เห็นว่าข้อมูลมีความซับซ้อนในการประมวลผลและรวมข้อมูลเพื่อวัดความคล้ายคลึงกันอย่างมีความหมายได้ยากขึ้นเรื่อยๆ พิจารณาข้อมูลสี สีควรเป็นหมวดหมู่หรือไม่ หรือเราควรกําหนดสี เช่น สีแดงและสีแดงเข้มเพื่อให้มีความคล้ายคลึงกันมากกว่าสีขาวดํา การรวมข้อมูลเข้าด้วยกันนั้น เราเพียงให้น้ําหนักฟีเจอร์ โรงจอดรถอย่างเท่าเทียมกันกับราคาบ้าน แต่ราคาบ้านนั้นสําคัญกว่าการมีโรงรถอย่างมาก การชั่งน้ําหนักอย่างเท่าเทียมเป็นสิ่งสําคัญไหม
หากสร้างการวัดความคล้ายคลึงที่ไม่ได้แสดงถึงตัวอย่างความคล้ายคลึงกันอย่างแท้จริง คลัสเตอร์ที่ได้มาของคุณจะไม่มีความหมาย กรณีเช่นนี้มักจะเกี่ยวข้องกับข้อมูลเชิงหมวดหมู่และนําเราไปสู่มาตรการที่มีการควบคุมดูแล