การวัดความคล้ายคลึงจากการฝัง

ขณะนี้คุณมีการฝังสำหรับตัวอย่างทุกคู่แล้ว ความคล้ายคลึงกันภายใต้การควบคุมดูแล การวัดผลจะใช้การฝังเหล่านี้และแสดงผลตัวเลขที่วัดความคล้ายคลึงกัน โปรดจำไว้ว่าการฝังเป็นเวกเตอร์ของตัวเลข เพื่อหาความคล้ายคลึงระหว่าง 2 เวกเตอร์ A=[a1,a2,...,an] และ B=[b1,b2,...,bn] เลือกการวัดค่าความคล้ายคลึงกัน 1 ใน 3 ข้อต่อไปนี้

วัดระยะทางความหมายสูตร เมื่อความคล้ายคลึงกันเพิ่มมากขึ้น มาตรการนี้...
ระยะทางยุคลิดระยะห่างระหว่างจุดสิ้นสุดของเวกเตอร์ (a1b1)2+(a2b2)2+...+(aNbN)2 ลดลง
โคไซน์โคไซน์ของมุม θ ระหว่างเวกเตอร์ aTb|a||b| เพิ่มขึ้น
ผลิตภัณฑ์ Dotโคไซน์คูณด้วยความยาวของเวกเตอร์ทั้งสอง a1b1+a2b2+...+anbn =|a||b|cos(θ) เพิ่มขึ้น และจะเพิ่มขึ้นตามความยาวของเวกเตอร์

การเลือกมาตรวัดความคล้ายคลึงกัน

ผลคูณของจุดจะมีสัดส่วนกับความยาวเวกเตอร์ ซึ่งตรงข้ามกับโคไซน์ สิ่งนี้มีความสำคัญเนื่องจากตัวอย่างที่ปรากฏบ่อยครั้งในการฝึก ที่ตั้งค่า (ตัวอย่างเช่น วิดีโอ YouTube ยอดนิยม) มักจะมีการฝังเวกเตอร์ที่มี ยาวๆ หากคุณ ต้องการรักษาความนิยม แล้วเลือกผลิตภัณฑ์แบบจุด แต่ความเสี่ยงก็คือ ตัวอย่างที่ได้รับความนิยมอาจบิดเบือนเมตริกความคล้ายคลึงกัน ในการทำให้ความเอียงนี้สมดุล คุณสามารถ เพิ่มความยาวเป็นเลขชี้กำลัง α <1 เพื่อคำนวณผลคูณของจุด เป็น |a|α|b|αcos(θ)

เพื่อให้เข้าใจได้ดีขึ้นว่าความยาวของเวกเตอร์เปลี่ยนแปลงการวัดความคล้ายคลึงกันอย่างไร ให้ทำให้เป็นมาตรฐาน เวกเตอร์มีความยาวถึง 1 และสังเกตว่าหน่วยวัดทั้ง 3 กลายเป็นสัดส่วน กันอยู่เสมอ

หลักฐาน: สัดส่วนของการวัดความคล้ายคลึงกัน
หลังจากทำให้ทั้ง a และ b เป็นมาตรฐานที่ ||a||=1 และ ||b||=1แล้ว มาตรการ 3 มาตรการนี้เกี่ยวข้องกันดังนี้
  • ระยะทางยุคลิด = ||ab||=||a||2+||b||22aTb=22cos(θab)
  • ผลคูณของจุด = |a||b|cos(θab)=11cos(θab)=cos(θab)
  • โคไซน์ = cos(θab)
ดังนั้น การวัดความคล้ายคลึงกันทั้ง 3 ข้อจึงเทียบเท่ากันเนื่องจาก ได้สัดส่วนกับ cos(θab)

การตรวจสอบการวัดความคล้ายคลึงกัน

การวัดความคล้ายคลึงกันจะระบุปริมาณความคล้ายคลึงระหว่างคู่ของ ตัวอย่างที่เกี่ยวข้องกับตัวอย่างคู่อื่นๆ ประเภทการตั้งค่า 2 ประเภท ได้แก่ การติดตามด้วยตนเองและ มีการควบคุมดูแลโดยเปรียบเทียบไว้ด้านล่าง

ประเภทวิธีสร้างเหมาะสำหรับผลกระทบ
กำหนดเองรวมข้อมูลฟีเจอร์ด้วยตนเอง ชุดข้อมูลขนาดเล็กซึ่งมีคุณลักษณะที่ง่ายต่อการรวม ให้ข้อมูลเชิงลึกเกี่ยวกับผลลัพธ์ของการคำนวณความคล้ายคลึงกัน หากฟีเจอร์ การเปลี่ยนแปลงข้อมูล คุณต้องอัปเดตการวัดความคล้ายคลึงกันด้วยตนเอง
มีการควบคุมดูแลวัดระยะทางระหว่างการฝังที่สร้างขึ้น DNN ที่มีการควบคุมดูแล ชุดข้อมูลขนาดใหญ่พร้อมฟีเจอร์ที่ผสานกันได้ยาก ไม่มีข้อมูลเชิงลึกเกี่ยวกับผลลัพธ์ อย่างไรก็ตาม DNN สามารถปรับตัว การเปลี่ยนแปลงข้อมูลฟีเจอร์