ตอนนี้คุณมีข้อมูลเชิงลึกสําหรับคู่ตัวอย่างแล้ว มาตรการความคล้ายคลึงแบบควบคุมจะนําข้อมูลเชิงลึกเหล่านี้ไปแสดงผลเป็นตัวเลขที่วัดความคล้ายคลึง โปรดทราบว่าการฝังเป็นเวกเตอร์ของตัวเลข หากต้องการหาความคล้ายคลึงระหว่างเวกเตอร์ 2 รายการ \(A = [a_1,a_2,...,a_n]\) และ \(B = [b_1,b_2,...,b_n]\)ให้เลือกการวัดความคล้ายคลึง 1 ใน 3 รายการต่อไปนี้
วัดผล | ความหมาย | สูตร | เมื่อความคล้ายคลึงเพิ่มขึ้น การวัดนี้... |
---|---|---|---|
ระยะทางแบบยุคลิด | ระยะห่างระหว่างปลายเวกเตอร์ | \(\sqrt{(a_1-b_1)^2+(a_2-b_2)^2+...+(a_N-b_N)^2}\) | ลดลง |
โคไซน์ | โคไซน์ของมุม \(\theta\) ระหว่างเวกเตอร์ | \(\frac{a^T b}{|a| \cdot |b|}\) | เพิ่มขึ้น |
ผลคูณจุด | โคไซน์คูณด้วยความยาวของทั้ง 2 เวกเตอร์ | \(a_1b_1+a_2b_2+...+a_nb_n\) \(=|a||b|cos(\theta)\) | เพิ่มขึ้น และเพิ่มขึ้นตามความยาวของเวกเตอร์ |
การเลือกการวัดความคล้ายคลึง
ซึ่งแตกต่างจากโคไซน์ตรงที่ผลคูณจุดจะแปรผันตามความยาวเวกเตอร์ ขั้นตอนนี้สำคัญเนื่องจากตัวอย่างที่ปรากฏบ่อยมากในชุดการฝึก (เช่น วิดีโอ YouTube ที่ได้รับความนิยม) มีแนวโน้มที่จะเวกเตอร์การฝังที่มีความยาวมาก หากต้องการจับความนิยม ให้เลือกผลิตภัณฑ์จุด อย่างไรก็ตาม ความเสี่ยงคือตัวอย่างยอดนิยมอาจทำให้เมตริกความคล้ายคลึงบิดเบือน หากต้องการปรับสมดุลความเอียงนี้ คุณสามารถยกกำลังความยาวเป็นเลขยกกำลัง \(\alpha\ < 1\) เพื่อคำนวณผลคูณแบบดอท \(|a|^{\alpha}|b|^{\alpha}\cos(\theta)\)
หากต้องการทําความเข้าใจได้ดียิ่งขึ้นว่าความยาวเวกเตอร์ทําให้การวัดความคล้ายคลึงเปลี่ยนแปลงไปอย่างไร ให้นอร์มาไลซ์ความยาวเวกเตอร์เป็น 1 และสังเกตว่าค่าทั้ง 3 รายการจะสัดส่วนกัน
- ระยะทางแบบยุคลิด = \(||a-b|| = \sqrt{||a||^2 + ||b||^2 - 2a^{T}b} = \sqrt{2-2\cos(\theta_{ab})}\)
- ผลคูณจุด = \( |a||b| \cos(\theta_{ab}) = 1\cdot1\cdot \cos(\theta_{ab}) = cos(\theta_{ab})\)
- โคไซน์ = \(\cos(\theta_{ab})\)
การตรวจสอบการวัดความคล้ายคลึง
การวัดความคล้ายคลึงจะวัดความคล้ายคลึงระหว่างคู่ตัวอย่างหนึ่งๆ เทียบกับคู่ตัวอย่างอื่นๆ ด้านล่างนี้คือข้อมูลเปรียบเทียบระหว่างการตรวจสอบด้วยตนเองและการตรวจสอบที่มีการควบคุม
ประเภท | วิธีสร้าง | เหมาะสำหรับ | ผลกระทบ |
---|---|---|---|
กำหนดเอง | รวมข้อมูลฟีเจอร์ด้วยตนเอง | ชุดข้อมูลขนาดเล็กที่มีฟีเจอร์ที่รวมเข้าด้วยกันได้ง่าย | ให้ข้อมูลเชิงลึกเกี่ยวกับผลลัพธ์ของการคำนวณความคล้ายคลึง หากข้อมูลฟีเจอร์มีการเปลี่ยนแปลง คุณต้องอัปเดตการวัดความคล้ายคลึงด้วยตนเอง |
มีการควบคุมดูแล | วัดระยะห่างระหว่างการฝังที่สร้างขึ้นโดย DNN ที่มีการควบคุม | ชุดข้อมูลขนาดใหญ่ที่มีฟีเจอร์ที่รวมเข้าด้วยกันได้ยาก | ไม่ได้ให้ข้อมูลเชิงลึกเกี่ยวกับผลลัพธ์ อย่างไรก็ตาม DNN สามารถปรับตัวให้เข้ากับข้อมูลฟีเจอร์ที่เปลี่ยนแปลงไปได้โดยอัตโนมัติ |