การวัดความคล้ายคลึงจากการฝัง

ตอนนี้คุณมีข้อมูลเชิงลึกสําหรับคู่ตัวอย่างแล้ว มาตรการความคล้ายคลึงแบบควบคุมจะนําข้อมูลเชิงลึกเหล่านี้ไปแสดงผลเป็นตัวเลขที่วัดความคล้ายคลึง โปรดทราบว่าการฝังเป็นเวกเตอร์ของตัวเลข หากต้องการหาความคล้ายคลึงระหว่างเวกเตอร์ 2 รายการ A=[a1,a2,...,an] และ B=[b1,b2,...,bn]ให้เลือกการวัดความคล้ายคลึง 1 ใน 3 รายการต่อไปนี้

วัดผลความหมายสูตร เมื่อความคล้ายคลึงเพิ่มขึ้น การวัดนี้...
ระยะทางแบบยุคลิดระยะห่างระหว่างปลายเวกเตอร์ (a1b1)2+(a2b2)2+...+(aNbN)2 ลดลง
โคไซน์โคไซน์ของมุม θ ระหว่างเวกเตอร์ aTb|a||b| เพิ่มขึ้น
ผลคูณจุดโคไซน์คูณด้วยความยาวของทั้ง 2 เวกเตอร์ a1b1+a2b2+...+anbn =|a||b|cos(θ) เพิ่มขึ้น และเพิ่มขึ้นตามความยาวของเวกเตอร์

การเลือกการวัดความคล้ายคลึง

ซึ่งแตกต่างจากโคไซน์ตรงที่ผลคูณจุดจะแปรผันตามความยาวเวกเตอร์ ขั้นตอนนี้สำคัญเนื่องจากตัวอย่างที่ปรากฏบ่อยมากในชุดการฝึก (เช่น วิดีโอ YouTube ที่ได้รับความนิยม) มีแนวโน้มที่จะเวกเตอร์การฝังที่มีความยาวมาก หากต้องการจับความนิยม ให้เลือกผลิตภัณฑ์จุด อย่างไรก็ตาม ความเสี่ยงคือตัวอย่างยอดนิยมอาจทำให้เมตริกความคล้ายคลึงบิดเบือน หากต้องการปรับสมดุลความเอียงนี้ คุณสามารถยกกำลังความยาวเป็นเลขยกกำลัง α <1 เพื่อคำนวณผลคูณแบบดอท |a|α|b|αcos(θ)

หากต้องการทําความเข้าใจได้ดียิ่งขึ้นว่าความยาวเวกเตอร์ทําให้การวัดความคล้ายคลึงเปลี่ยนแปลงไปอย่างไร ให้นอร์มาไลซ์ความยาวเวกเตอร์เป็น 1 และสังเกตว่าค่าทั้ง 3 รายการจะสัดส่วนกัน

หลักฐาน: ความสอดคล้องของมาตรการความคล้าย
หลังจากทำให้ a และ b เป็นมาตรฐานโดยที่ ||a||=1 และ ||b||=1แล้ว การวัดค่าทั้ง 3 รายการนี้มีความเกี่ยวข้องกันดังนี้
  • ระยะทางแบบยุคลิด = ||ab||=||a||2+||b||22aTb=22cos(θab)
  • ผลคูณจุด = |a||b|cos(θab)=11cos(θab)=cos(θab)
  • โคไซน์ = cos(θab)
ดังนั้น ดัชนีความคล้ายคลึงทั้ง 3 รายการจึงเทียบเท่ากันเนื่องจากมีสัดส่วนกับ cos(θab)

การตรวจสอบการวัดความคล้ายคลึง

การวัดความคล้ายคลึงจะวัดความคล้ายคลึงระหว่างคู่ตัวอย่างหนึ่งๆ เทียบกับคู่ตัวอย่างอื่นๆ ด้านล่างนี้คือข้อมูลเปรียบเทียบระหว่างการตรวจสอบด้วยตนเองและการตรวจสอบที่มีการควบคุม

ประเภทวิธีสร้างเหมาะสำหรับผลกระทบ
กำหนดเองรวมข้อมูลฟีเจอร์ด้วยตนเอง ชุดข้อมูลขนาดเล็กที่มีฟีเจอร์ที่รวมเข้าด้วยกันได้ง่าย ให้ข้อมูลเชิงลึกเกี่ยวกับผลลัพธ์ของการคำนวณความคล้ายคลึง หากข้อมูลฟีเจอร์มีการเปลี่ยนแปลง คุณต้องอัปเดตการวัดความคล้ายคลึงด้วยตนเอง
มีการควบคุมดูแลวัดระยะห่างระหว่างการฝังที่สร้างขึ้นโดย DNN ที่มีการควบคุม ชุดข้อมูลขนาดใหญ่ที่มีฟีเจอร์ที่รวมเข้าด้วยกันได้ยาก ไม่ได้ให้ข้อมูลเชิงลึกเกี่ยวกับผลลัพธ์ อย่างไรก็ตาม DNN สามารถปรับตัวให้เข้ากับข้อมูลฟีเจอร์ที่เปลี่ยนแปลงไปได้โดยอัตโนมัติ