การวัดความคล้ายคลึงจากการฝัง

ตอนนี้คุณมีข้อมูลเชิงลึกสําหรับคู่ตัวอย่างแล้ว มาตรการความคล้ายคลึงแบบควบคุมจะนําข้อมูลเชิงลึกเหล่านี้ไปแสดงผลเป็นตัวเลขที่วัดความคล้ายคลึง โปรดทราบว่าการฝังเป็นเวกเตอร์ของตัวเลข หากต้องการหาความคล้ายคลึงระหว่างเวกเตอร์ 2 รายการ \(A = [a_1,a_2,...,a_n]\) และ \(B = [b_1,b_2,...,b_n]\)ให้เลือกการวัดความคล้ายคลึง 1 ใน 3 รายการต่อไปนี้

วัดผลความหมายสูตร เมื่อความคล้ายคลึงเพิ่มขึ้น การวัดนี้...
ระยะทางแบบยุคลิดระยะห่างระหว่างปลายเวกเตอร์ \(\sqrt{(a_1-b_1)^2+(a_2-b_2)^2+...+(a_N-b_N)^2}\) ลดลง
โคไซน์โคไซน์ของมุม \(\theta\) ระหว่างเวกเตอร์ \(\frac{a^T b}{|a| \cdot |b|}\) เพิ่มขึ้น
ผลคูณจุดโคไซน์คูณด้วยความยาวของทั้ง 2 เวกเตอร์ \(a_1b_1+a_2b_2+...+a_nb_n\) \(=|a||b|cos(\theta)\) เพิ่มขึ้น และเพิ่มขึ้นตามความยาวของเวกเตอร์

การเลือกการวัดความคล้ายคลึง

ซึ่งแตกต่างจากโคไซน์ตรงที่ผลคูณจุดจะแปรผันตามความยาวเวกเตอร์ ขั้นตอนนี้สำคัญเนื่องจากตัวอย่างที่ปรากฏบ่อยมากในชุดการฝึก (เช่น วิดีโอ YouTube ที่ได้รับความนิยม) มีแนวโน้มที่จะเวกเตอร์การฝังที่มีความยาวมาก หากต้องการจับความนิยม ให้เลือกผลิตภัณฑ์จุด อย่างไรก็ตาม ความเสี่ยงคือตัวอย่างยอดนิยมอาจทำให้เมตริกความคล้ายคลึงบิดเบือน หากต้องการปรับสมดุลความเอียงนี้ คุณสามารถยกกำลังความยาวเป็นเลขยกกำลัง \(\alpha\ < 1\) เพื่อคำนวณผลคูณแบบดอท \(|a|^{\alpha}|b|^{\alpha}\cos(\theta)\)

หากต้องการทําความเข้าใจได้ดียิ่งขึ้นว่าความยาวเวกเตอร์ทําให้การวัดความคล้ายคลึงเปลี่ยนแปลงไปอย่างไร ให้นอร์มาไลซ์ความยาวเวกเตอร์เป็น 1 และสังเกตว่าค่าทั้ง 3 รายการจะสัดส่วนกัน

หลักฐาน: ความสอดคล้องของมาตรการความคล้าย
หลังจากทำให้ a และ b เป็นมาตรฐานโดยที่ \(||a||=1\) และ \(||b||=1\)แล้ว การวัดค่าทั้ง 3 รายการนี้มีความเกี่ยวข้องกันดังนี้
  • ระยะทางแบบยุคลิด = \(||a-b|| = \sqrt{||a||^2 + ||b||^2 - 2a^{T}b} = \sqrt{2-2\cos(\theta_{ab})}\)
  • ผลคูณจุด = \( |a||b| \cos(\theta_{ab}) = 1\cdot1\cdot \cos(\theta_{ab}) = cos(\theta_{ab})\)
  • โคไซน์ = \(\cos(\theta_{ab})\)
ดังนั้น ดัชนีความคล้ายคลึงทั้ง 3 รายการจึงเทียบเท่ากันเนื่องจากมีสัดส่วนกับ \(cos(\theta_{ab})\)

การตรวจสอบการวัดความคล้ายคลึง

การวัดความคล้ายคลึงจะวัดความคล้ายคลึงระหว่างคู่ตัวอย่างหนึ่งๆ เทียบกับคู่ตัวอย่างอื่นๆ ด้านล่างนี้คือข้อมูลเปรียบเทียบระหว่างการตรวจสอบด้วยตนเองและการตรวจสอบที่มีการควบคุม

ประเภทวิธีสร้างเหมาะสำหรับผลกระทบ
กำหนดเองรวมข้อมูลฟีเจอร์ด้วยตนเอง ชุดข้อมูลขนาดเล็กที่มีฟีเจอร์ที่รวมเข้าด้วยกันได้ง่าย ให้ข้อมูลเชิงลึกเกี่ยวกับผลลัพธ์ของการคำนวณความคล้ายคลึง หากข้อมูลฟีเจอร์มีการเปลี่ยนแปลง คุณต้องอัปเดตการวัดความคล้ายคลึงด้วยตนเอง
มีการควบคุมดูแลวัดระยะห่างระหว่างการฝังที่สร้างขึ้นโดย DNN ที่มีการควบคุม ชุดข้อมูลขนาดใหญ่ที่มีฟีเจอร์ที่รวมเข้าด้วยกันได้ยาก ไม่ได้ให้ข้อมูลเชิงลึกเกี่ยวกับผลลัพธ์ อย่างไรก็ตาม DNN สามารถปรับตัวให้เข้ากับข้อมูลฟีเจอร์ที่เปลี่ยนแปลงไปได้โดยอัตโนมัติ