ขณะนี้คุณมีการฝังสำหรับตัวอย่างทุกคู่แล้ว ความคล้ายคลึงกันภายใต้การควบคุมดูแล การวัดผลจะใช้การฝังเหล่านี้และแสดงผลตัวเลขที่วัดความคล้ายคลึงกัน โปรดจำไว้ว่าการฝังเป็นเวกเตอร์ของตัวเลข เพื่อหาความคล้ายคลึงระหว่าง 2 เวกเตอร์ \(A = [a_1,a_2,...,a_n]\) และ \(B = [b_1,b_2,...,b_n]\) เลือกการวัดค่าความคล้ายคลึงกัน 1 ใน 3 ข้อต่อไปนี้
วัดระยะทาง | ความหมาย | สูตร | เมื่อความคล้ายคลึงกันเพิ่มมากขึ้น มาตรการนี้... |
---|---|---|---|
ระยะทางยุคลิด | ระยะห่างระหว่างจุดสิ้นสุดของเวกเตอร์ | \(\sqrt{(a_1-b_1)^2+(a_2-b_2)^2+...+(a_N-b_N)^2}\) | ลดลง |
โคไซน์ | โคไซน์ของมุม \(\theta\) ระหว่างเวกเตอร์ | \(\frac{a^T b}{|a| \cdot |b|}\) | เพิ่มขึ้น |
ผลิตภัณฑ์ Dot | โคไซน์คูณด้วยความยาวของเวกเตอร์ทั้งสอง | \(a_1b_1+a_2b_2+...+a_nb_n\) \(=|a||b|cos(\theta)\) | เพิ่มขึ้น และจะเพิ่มขึ้นตามความยาวของเวกเตอร์ |
การเลือกมาตรวัดความคล้ายคลึงกัน
ผลคูณของจุดจะมีสัดส่วนกับความยาวเวกเตอร์ ซึ่งตรงข้ามกับโคไซน์ สิ่งนี้มีความสำคัญเนื่องจากตัวอย่างที่ปรากฏบ่อยครั้งในการฝึก ที่ตั้งค่า (ตัวอย่างเช่น วิดีโอ YouTube ยอดนิยม) มักจะมีการฝังเวกเตอร์ที่มี ยาวๆ หากคุณ ต้องการรักษาความนิยม แล้วเลือกผลิตภัณฑ์แบบจุด แต่ความเสี่ยงก็คือ ตัวอย่างที่ได้รับความนิยมอาจบิดเบือนเมตริกความคล้ายคลึงกัน ในการทำให้ความเอียงนี้สมดุล คุณสามารถ เพิ่มความยาวเป็นเลขชี้กำลัง \(\alpha\ < 1\) เพื่อคำนวณผลคูณของจุด เป็น \(|a|^{\alpha}|b|^{\alpha}\cos(\theta)\)
เพื่อให้เข้าใจได้ดีขึ้นว่าความยาวของเวกเตอร์เปลี่ยนแปลงการวัดความคล้ายคลึงกันอย่างไร ให้ทำให้เป็นมาตรฐาน เวกเตอร์มีความยาวถึง 1 และสังเกตว่าหน่วยวัดทั้ง 3 กลายเป็นสัดส่วน กันอยู่เสมอ
- ระยะทางยุคลิด = \(||a-b|| = \sqrt{||a||^2 + ||b||^2 - 2a^{T}b} = \sqrt{2-2\cos(\theta_{ab})}\)
- ผลคูณของจุด = \( |a||b| \cos(\theta_{ab}) = 1\cdot1\cdot \cos(\theta_{ab}) = cos(\theta_{ab})\)
- โคไซน์ = \(\cos(\theta_{ab})\)
การตรวจสอบการวัดความคล้ายคลึงกัน
การวัดความคล้ายคลึงกันจะระบุปริมาณความคล้ายคลึงระหว่างคู่ของ ตัวอย่างที่เกี่ยวข้องกับตัวอย่างคู่อื่นๆ ประเภทการตั้งค่า 2 ประเภท ได้แก่ การติดตามด้วยตนเองและ มีการควบคุมดูแลโดยเปรียบเทียบไว้ด้านล่าง
ประเภท | วิธีสร้าง | เหมาะสำหรับ | ผลกระทบ |
---|---|---|---|
กำหนดเอง | รวมข้อมูลฟีเจอร์ด้วยตนเอง | ชุดข้อมูลขนาดเล็กซึ่งมีคุณลักษณะที่ง่ายต่อการรวม | ให้ข้อมูลเชิงลึกเกี่ยวกับผลลัพธ์ของการคำนวณความคล้ายคลึงกัน หากฟีเจอร์ การเปลี่ยนแปลงข้อมูล คุณต้องอัปเดตการวัดความคล้ายคลึงกันด้วยตนเอง |
มีการควบคุมดูแล | วัดระยะทางระหว่างการฝังที่สร้างขึ้น DNN ที่มีการควบคุมดูแล | ชุดข้อมูลขนาดใหญ่พร้อมฟีเจอร์ที่ผสานกันได้ยาก | ไม่มีข้อมูลเชิงลึกเกี่ยวกับผลลัพธ์ อย่างไรก็ตาม DNN สามารถปรับตัว การเปลี่ยนแปลงข้อมูลฟีเจอร์ |