ขณะนี้คุณมีการฝังสำหรับตัวอย่างทุกคู่แล้ว ความคล้ายคลึงกันภายใต้การควบคุมดูแล การวัดผลจะใช้การฝังเหล่านี้และแสดงผลตัวเลขที่วัดความคล้ายคลึงกัน โปรดจำไว้ว่าการฝังเป็นเวกเตอร์ของตัวเลข เพื่อหาความคล้ายคลึงระหว่าง 2 เวกเตอร์ A=[a1,a2,...,an] และ B=[b1,b2,...,bn] เลือกการวัดค่าความคล้ายคลึงกัน 1 ใน 3 ข้อต่อไปนี้
วัดระยะทาง | ความหมาย | สูตร | เมื่อความคล้ายคลึงกันเพิ่มมากขึ้น มาตรการนี้... |
---|---|---|---|
ระยะทางยุคลิด | ระยะห่างระหว่างจุดสิ้นสุดของเวกเตอร์ | √(a1−b1)2+(a2−b2)2+...+(aN−bN)2 | ลดลง |
โคไซน์ | โคไซน์ของมุม θ ระหว่างเวกเตอร์ | aTb|a|⋅|b| | เพิ่มขึ้น |
ผลิตภัณฑ์ Dot | โคไซน์คูณด้วยความยาวของเวกเตอร์ทั้งสอง | a1b1+a2b2+...+anbn =|a||b|cos(θ) | เพิ่มขึ้น และจะเพิ่มขึ้นตามความยาวของเวกเตอร์ |
การเลือกมาตรวัดความคล้ายคลึงกัน
ผลคูณของจุดจะมีสัดส่วนกับความยาวเวกเตอร์ ซึ่งตรงข้ามกับโคไซน์ สิ่งนี้มีความสำคัญเนื่องจากตัวอย่างที่ปรากฏบ่อยครั้งในการฝึก ที่ตั้งค่า (ตัวอย่างเช่น วิดีโอ YouTube ยอดนิยม) มักจะมีการฝังเวกเตอร์ที่มี ยาวๆ หากคุณ ต้องการรักษาความนิยม แล้วเลือกผลิตภัณฑ์แบบจุด แต่ความเสี่ยงก็คือ ตัวอย่างที่ได้รับความนิยมอาจบิดเบือนเมตริกความคล้ายคลึงกัน ในการทำให้ความเอียงนี้สมดุล คุณสามารถ เพิ่มความยาวเป็นเลขชี้กำลัง α <1 เพื่อคำนวณผลคูณของจุด เป็น |a|α|b|αcos(θ)
เพื่อให้เข้าใจได้ดีขึ้นว่าความยาวของเวกเตอร์เปลี่ยนแปลงการวัดความคล้ายคลึงกันอย่างไร ให้ทำให้เป็นมาตรฐาน เวกเตอร์มีความยาวถึง 1 และสังเกตว่าหน่วยวัดทั้ง 3 กลายเป็นสัดส่วน กันอยู่เสมอ
- ระยะทางยุคลิด = ||a−b||=√||a||2+||b||2−2aTb=√2−2cos(θab)
- ผลคูณของจุด = |a||b|cos(θab)=1⋅1⋅cos(θab)=cos(θab)
- โคไซน์ = cos(θab)
การตรวจสอบการวัดความคล้ายคลึงกัน
การวัดความคล้ายคลึงกันจะระบุปริมาณความคล้ายคลึงระหว่างคู่ของ ตัวอย่างที่เกี่ยวข้องกับตัวอย่างคู่อื่นๆ ประเภทการตั้งค่า 2 ประเภท ได้แก่ การติดตามด้วยตนเองและ มีการควบคุมดูแลโดยเปรียบเทียบไว้ด้านล่าง
ประเภท | วิธีสร้าง | เหมาะสำหรับ | ผลกระทบ |
---|---|---|---|
กำหนดเอง | รวมข้อมูลฟีเจอร์ด้วยตนเอง | ชุดข้อมูลขนาดเล็กซึ่งมีคุณลักษณะที่ง่ายต่อการรวม | ให้ข้อมูลเชิงลึกเกี่ยวกับผลลัพธ์ของการคำนวณความคล้ายคลึงกัน หากฟีเจอร์ การเปลี่ยนแปลงข้อมูล คุณต้องอัปเดตการวัดความคล้ายคลึงกันด้วยตนเอง |
มีการควบคุมดูแล | วัดระยะทางระหว่างการฝังที่สร้างขึ้น DNN ที่มีการควบคุมดูแล | ชุดข้อมูลขนาดใหญ่พร้อมฟีเจอร์ที่ผสานกันได้ยาก | ไม่มีข้อมูลเชิงลึกเกี่ยวกับผลลัพธ์ อย่างไรก็ตาม DNN สามารถปรับตัว การเปลี่ยนแปลงข้อมูลฟีเจอร์ |