หน้านี้ได้รับการแปลโดย Cloud Translation API

การออกกําลังกายโดยใช้การวัดความคล้ายกันด้วยตนเอง

แบบฝึกหัดต่อไปนี้จะอธิบายขั้นตอนการสร้างมาตรวัดความคล้ายคลึงกันด้วยตนเอง

ลองนึกภาพคุณมีชุดข้อมูลง่ายๆ ในบ้าน

ฟีเจอร์	ประเภท
ราคา	จำนวนเต็มบวก
ขนาด	ค่าจุดลอยตัวบวกในหน่วยตารางเมตร
รหัสไปรษณีย์	จำนวนเต็ม
จำนวนห้องนอน	จำนวนเต็ม
ประเภทบ้าน	ค่าข้อความจาก "single_family", "multifamily", "partment," "condo"
โรงจอดรถ	0/1 สําหรับไม่/ใช่
สี	หมวดหมู่ที่หลากหลาย: อย่างน้อย 1 ค่าจากสีมาตรฐาน ได้แก่ "สีขาว" "สีเหลือง" "เขียว" เป็นต้น

การประมวลผลล่วงหน้า

ขั้นแรกคือการประมวลผลฟีเจอร์ตัวเลขล่วงหน้า ได้แก่ ราคา ขนาด จํานวนห้องนอน และรหัสไปรษณีย์ สําหรับฟีเจอร์แต่ละรายการ คุณจะต้องดําเนินการแตกต่างกันไป เช่น ในกรณีนี้ ให้สมมติว่าข้อมูลราคาเป็นไปตามการกระจายแบบทวิภาค สิ่งที่ควรดำเนินการต่อ

คุณควรดําเนินการอย่างไรหากข้อมูลเป็นไปตามการกระจายแบบทวิภาค

สร้างเชิงปริมาณจากข้อมูลและปรับขนาดเป็น [0,1]

ขั้นตอนนี้เป็นขั้นตอนที่ควรทําเมื่อข้อมูลเป็นไปตามการกระจายแบบทวิภาค

บันทึกการเปลี่ยนรูปแบบและปรับขนาดเป็น [0,1]

ขั้นตอนนี้เป็นขั้นตอนที่ต้องดําเนินการเมื่อข้อมูลเป็นไปตามการกระจายพลังงาน

ปรับสเกลให้เป็นมาตรฐานเป็น [0,1]

นี่คือขั้นตอนที่คุณต้องดําเนินการเมื่อข้อมูลเป็นไปตามการกระจายของเกาส์เชียน

ในช่องด้านล่าง ลองอธิบายว่าคุณจะประมวลผลข้อมูลขนาดอย่างไร

ฉันจะประมวลผลข้อมูลขนาดล่วงหน้าตาม

คลิกไอคอนเครื่องหมายบวกเพื่อดูคําตอบ

ตรวจสอบว่าขนาดเป็นไปตามเครื่องจ่ายไฟฟ้า ตู้ปศุสัตว์ หรือเกาส์เชียน

Power-law: เปลี่ยนรูปแบบการแปลงและปรับขนาดเป็น [0,1]
Poisson: สร้างปริมาณและปรับขนาดเป็น [0,1]
เกาส์เซียน: ทําให้เป็นมาตรฐานและปรับขนาดเป็น [0,1]

ในช่องด้านล่าง ลองอธิบายวิธีที่คุณจะประมวลผลข้อมูลเกี่ยวกับจํานวนห้องนอน

ฉันจะประมวลผลจํานวนห้องนอนล่วงหน้าโดยทําดังนี้

คลิกไอคอนเครื่องหมายบวกเพื่อดูคําตอบ

ตรวจสอบการกระจายสําหรับจํานวนห้องนอน โดยส่วนใหญ่แล้ว การตัดคลิปค่าที่ผิดปกติและการปรับสเกลเป็น [0,1] ถือว่าเพียงพอแล้ว แต่หากพบการกระจายสัญญาณไฟฟ้า อาจต้องเปลี่ยนรูปแบบการบันทึก

คุณควรระบุรหัสไปรษณีย์อย่างไร แปลงรหัสไปรษณีย์เป็น ลองจิจูดและละติจูด แล้วประมวลผลค่าเหล่านั้นเหมือนที่คุณประมวลผล ค่าตัวเลขอื่นๆ

กําลังคํานวณฟีเจอร์ที่คล้ายกันของแต่ละฟีเจอร์

ตอนนี้ก็ถึงเวลาคํานวณความคล้ายคลึงกันของฟีเจอร์แต่ละรายการแล้ว สําหรับฟีเจอร์ตัวเลข คุณจะเห็นความแตกต่าง สําหรับฟีเจอร์แบบไบนารี เช่น หากบ้านมีโรงรถ คุณก็จะเห็นความแตกต่างเพื่อรับ 0 หรือ 1 แล้วฟีเจอร์ เชิงหมวดหมู่ล่ะ ตอบคําถามด้านล่างเพื่อค้นหา

ฟีเจอร์ใดต่อไปนี้เป็นหลายค่า (อาจมีได้หลายค่า)

สี

ที่อยู่อาศัยหนึ่งๆ อาจมีมากกว่า 1 สี เช่น สีน้ําเงินที่มีการตัดสีขาว ดังนั้นสีจึงเป็นฟีเจอร์ที่มีหลากหลาย

รหัสไปรษณีย์

ที่อยู่อาศัยมีรหัสไปรษณีย์ได้เพียงรายการเดียว นี่เป็นฟีเจอร์ที่ไม่แพร่หลาย

ประเภท

บ้านของคุณต้องเป็นบ้าน อพาร์ตเมนต์ คอนโด ฯลฯ เพียงประเภทเดียว ซึ่งหมายความว่าเป็นฟีเจอร์ที่ไม่มีประโยชน์

คุณควรใช้มาตรวัดความใกล้เคียงกันประเภทใดในการคํานวณความคล้ายคลึงกันสําหรับฟีเจอร์ที่หลากหลาย

ความคล้ายคลึงกันของ Jaccard

สมมติว่าบ้านได้รับการกําหนดสีจากชุดสีแบบคงที่ จากนั้นคํานวณความคล้ายคลึงกันโดยใช้อัตราส่วนของค่าทั่วไป (ความคล้ายคลึงกันของบัตร)

ระยะทางแบบยุโรป

สําหรับฟีเจอร์ "รหัสไปรษณีย์" และ "ประเภท" ที่มีค่าเพียงค่าเดียว (ฟีเจอร์ที่ไม่ระบุตัวบุคคล) หากฟีเจอร์ดังกล่าวตรงกัน การวัดความคล้ายคลึงคือ 0 ไม่เช่นนั้นมาตรวัดความคล้ายคลึงคือ 1

กําลังคํานวณความคล้ายคลึงกันโดยรวม

คุณได้คํานวณความคล้ายคลึงกันของทุกฟีเจอร์เป็นตัวเลข แต่อัลกอริทึมการจัดกลุ่มต้องมีความคล้ายคลึงกันโดยรวมเมื่อเทียบกับกลุ่มบ้าน คํานวณความคล้ายคลึงกันโดยรวมของบ้านแต่ละคู่โดยการรวมความคล้ายคลึงกันของแต่ละฟีเจอร์เข้าด้วยกันโดยใช้ข้อผิดพลาดกําลังสองเฉลี่ย (RMSE) ซึ่งก็คือ\(s_1,s_2,\ldots,s_N\) ความคล้ายคลึงกันของ \(N\) ฟีเจอร์

\[\text{RMSE} = \sqrt{\frac{s_1^2+s_2^2+\ldots+s_N^2}{N}}\]

ข้อจํากัดของมาตรวัดความคล้ายคลึงของตัวเอง

แบบฝึกหัดนี้แสดงให้เห็นว่าข้อมูลมีความซับซ้อนในการประมวลผลและรวมข้อมูลเพื่อวัดความคล้ายคลึงกันอย่างมีความหมายได้ยากขึ้นเรื่อยๆ พิจารณาข้อมูลสี สีควรเป็นหมวดหมู่หรือไม่ หรือเราควรกําหนดสี เช่น สีแดงและสีแดงเข้มเพื่อให้มีความคล้ายคลึงกันมากกว่าสีขาวดํา การรวมข้อมูลเข้าด้วยกันนั้น เราเพียงให้น้ําหนักฟีเจอร์ โรงจอดรถอย่างเท่าเทียมกันกับราคาบ้าน แต่ราคาบ้านนั้นสําคัญกว่าการมีโรงรถอย่างมาก การชั่งน้ําหนักอย่างเท่าเทียมเป็นสิ่งสําคัญไหม

หากสร้างการวัดความคล้ายคลึงที่ไม่ได้แสดงถึงตัวอย่างความคล้ายคลึงกันอย่างแท้จริง คลัสเตอร์ที่ได้มาของคุณจะไม่มีความหมาย กรณีเช่นนี้มักจะเกี่ยวข้องกับข้อมูลเชิงหมวดหมู่และนําเราไปสู่มาตรการที่มีการควบคุมดูแล

การวัดความคล้ายคลึงกันด้วยตนเอง

การออกกําลังกายโดยใช้โปรแกรมที่คล้ายกัน