การวัดความคล้ายคลึงจากการฝัง

ขณะนี้คุณมีการฝังสำหรับตัวอย่างทุกคู่แล้ว ความคล้ายคลึงกันภายใต้การควบคุมดูแล การวัดผลจะใช้การฝังเหล่านี้และแสดงผลตัวเลขที่วัดความคล้ายคลึงกัน โปรดจำไว้ว่าการฝังเป็นเวกเตอร์ของตัวเลข เพื่อหาความคล้ายคลึงระหว่าง 2 เวกเตอร์ \(A = [a_1,a_2,...,a_n]\) และ \(B = [b_1,b_2,...,b_n]\) เลือกการวัดค่าความคล้ายคลึงกัน 1 ใน 3 ข้อต่อไปนี้

วัดระยะทางความหมายสูตร เมื่อความคล้ายคลึงกันเพิ่มมากขึ้น มาตรการนี้...
ระยะทางยุคลิดระยะห่างระหว่างจุดสิ้นสุดของเวกเตอร์ \(\sqrt{(a_1-b_1)^2+(a_2-b_2)^2+...+(a_N-b_N)^2}\) ลดลง
โคไซน์โคไซน์ของมุม \(\theta\) ระหว่างเวกเตอร์ \(\frac{a^T b}{|a| \cdot |b|}\) เพิ่มขึ้น
ผลิตภัณฑ์ Dotโคไซน์คูณด้วยความยาวของเวกเตอร์ทั้งสอง \(a_1b_1+a_2b_2+...+a_nb_n\) \(=|a||b|cos(\theta)\) เพิ่มขึ้น และจะเพิ่มขึ้นตามความยาวของเวกเตอร์

การเลือกมาตรวัดความคล้ายคลึงกัน

ผลคูณของจุดจะมีสัดส่วนกับความยาวเวกเตอร์ ซึ่งตรงข้ามกับโคไซน์ สิ่งนี้มีความสำคัญเนื่องจากตัวอย่างที่ปรากฏบ่อยครั้งในการฝึก ที่ตั้งค่า (ตัวอย่างเช่น วิดีโอ YouTube ยอดนิยม) มักจะมีการฝังเวกเตอร์ที่มี ยาวๆ หากคุณ ต้องการรักษาความนิยม แล้วเลือกผลิตภัณฑ์แบบจุด แต่ความเสี่ยงก็คือ ตัวอย่างที่ได้รับความนิยมอาจบิดเบือนเมตริกความคล้ายคลึงกัน ในการทำให้ความเอียงนี้สมดุล คุณสามารถ เพิ่มความยาวเป็นเลขชี้กำลัง \(\alpha\ < 1\) เพื่อคำนวณผลคูณของจุด เป็น \(|a|^{\alpha}|b|^{\alpha}\cos(\theta)\)

เพื่อให้เข้าใจได้ดีขึ้นว่าความยาวของเวกเตอร์เปลี่ยนแปลงการวัดความคล้ายคลึงกันอย่างไร ให้ทำให้เป็นมาตรฐาน เวกเตอร์มีความยาวถึง 1 และสังเกตว่าหน่วยวัดทั้ง 3 กลายเป็นสัดส่วน กันอยู่เสมอ

หลักฐาน: สัดส่วนของการวัดความคล้ายคลึงกัน
หลังจากทำให้ทั้ง a และ b เป็นมาตรฐานที่ \(||a||=1\) และ \(||b||=1\)แล้ว มาตรการ 3 มาตรการนี้เกี่ยวข้องกันดังนี้
  • ระยะทางยุคลิด = \(||a-b|| = \sqrt{||a||^2 + ||b||^2 - 2a^{T}b} = \sqrt{2-2\cos(\theta_{ab})}\)
  • ผลคูณของจุด = \( |a||b| \cos(\theta_{ab}) = 1\cdot1\cdot \cos(\theta_{ab}) = cos(\theta_{ab})\)
  • โคไซน์ = \(\cos(\theta_{ab})\)
ดังนั้น การวัดความคล้ายคลึงกันทั้ง 3 ข้อจึงเทียบเท่ากันเนื่องจาก ได้สัดส่วนกับ \(cos(\theta_{ab})\)

การตรวจสอบการวัดความคล้ายคลึงกัน

การวัดความคล้ายคลึงกันจะระบุปริมาณความคล้ายคลึงระหว่างคู่ของ ตัวอย่างที่เกี่ยวข้องกับตัวอย่างคู่อื่นๆ ประเภทการตั้งค่า 2 ประเภท ได้แก่ การติดตามด้วยตนเองและ มีการควบคุมดูแลโดยเปรียบเทียบไว้ด้านล่าง

ประเภทวิธีสร้างเหมาะสำหรับผลกระทบ
กำหนดเองรวมข้อมูลฟีเจอร์ด้วยตนเอง ชุดข้อมูลขนาดเล็กซึ่งมีคุณลักษณะที่ง่ายต่อการรวม ให้ข้อมูลเชิงลึกเกี่ยวกับผลลัพธ์ของการคำนวณความคล้ายคลึงกัน หากฟีเจอร์ การเปลี่ยนแปลงข้อมูล คุณต้องอัปเดตการวัดความคล้ายคลึงกันด้วยตนเอง
มีการควบคุมดูแลวัดระยะทางระหว่างการฝังที่สร้างขึ้น DNN ที่มีการควบคุมดูแล ชุดข้อมูลขนาดใหญ่พร้อมฟีเจอร์ที่ผสานกันได้ยาก ไม่มีข้อมูลเชิงลึกเกี่ยวกับผลลัพธ์ อย่างไรก็ตาม DNN สามารถปรับตัว การเปลี่ยนแปลงข้อมูลฟีเจอร์