ตอนนี้คุณมีข้อมูลเชิงลึกสําหรับคู่ตัวอย่างแล้ว มาตรการความคล้ายคลึงแบบควบคุมจะนําข้อมูลเชิงลึกเหล่านี้ไปแสดงผลเป็นตัวเลขที่วัดความคล้ายคลึง โปรดทราบว่าการฝังเป็นเวกเตอร์ของตัวเลข หากต้องการหาความคล้ายคลึงระหว่างเวกเตอร์ 2 รายการ และ ให้เลือกการวัดความคล้ายคลึง 1 ใน 3 รายการต่อไปนี้
วัดผล | ความหมาย | สูตร | เมื่อความคล้ายคลึงเพิ่มขึ้น การวัดนี้... |
---|---|---|---|
ระยะทางแบบยุคลิด | ระยะห่างระหว่างปลายเวกเตอร์ | ลดลง | |
โคไซน์ | โคไซน์ของมุม ระหว่างเวกเตอร์ | เพิ่มขึ้น | |
ผลคูณจุด | โคไซน์คูณด้วยความยาวของทั้ง 2 เวกเตอร์ | เพิ่มขึ้น และเพิ่มขึ้นตามความยาวของเวกเตอร์ |
การเลือกการวัดความคล้ายคลึง
ซึ่งแตกต่างจากโคไซน์ตรงที่ผลคูณจุดจะแปรผันตามความยาวเวกเตอร์ ขั้นตอนนี้สำคัญเนื่องจากตัวอย่างที่ปรากฏบ่อยมากในชุดการฝึก (เช่น วิดีโอ YouTube ที่ได้รับความนิยม) มีแนวโน้มที่จะเวกเตอร์การฝังที่มีความยาวมาก หากต้องการจับความนิยม ให้เลือกผลิตภัณฑ์จุด อย่างไรก็ตาม ความเสี่ยงคือตัวอย่างยอดนิยมอาจทำให้เมตริกความคล้ายคลึงบิดเบือน หากต้องการปรับสมดุลความเอียงนี้ คุณสามารถยกกำลังความยาวเป็นเลขยกกำลัง เพื่อคำนวณผลคูณแบบดอท
หากต้องการทําความเข้าใจได้ดียิ่งขึ้นว่าความยาวเวกเตอร์ทําให้การวัดความคล้ายคลึงเปลี่ยนแปลงไปอย่างไร ให้นอร์มาไลซ์ความยาวเวกเตอร์เป็น 1 และสังเกตว่าค่าทั้ง 3 รายการจะสัดส่วนกัน
- ระยะทางแบบยุคลิด =
- ผลคูณจุด =
- โคไซน์ =
การตรวจสอบการวัดความคล้ายคลึง
การวัดความคล้ายคลึงจะวัดความคล้ายคลึงระหว่างคู่ตัวอย่างหนึ่งๆ เทียบกับคู่ตัวอย่างอื่นๆ ด้านล่างนี้คือข้อมูลเปรียบเทียบระหว่างการตรวจสอบด้วยตนเองและการตรวจสอบที่มีการควบคุม
ประเภท | วิธีสร้าง | เหมาะสำหรับ | ผลกระทบ |
---|---|---|---|
กำหนดเอง | รวมข้อมูลฟีเจอร์ด้วยตนเอง | ชุดข้อมูลขนาดเล็กที่มีฟีเจอร์ที่รวมเข้าด้วยกันได้ง่าย | ให้ข้อมูลเชิงลึกเกี่ยวกับผลลัพธ์ของการคำนวณความคล้ายคลึง หากข้อมูลฟีเจอร์มีการเปลี่ยนแปลง คุณต้องอัปเดตการวัดความคล้ายคลึงด้วยตนเอง |
มีการควบคุมดูแล | วัดระยะห่างระหว่างการฝังที่สร้างขึ้นโดย DNN ที่มีการควบคุม | ชุดข้อมูลขนาดใหญ่ที่มีฟีเจอร์ที่รวมเข้าด้วยกันได้ยาก | ไม่ได้ให้ข้อมูลเชิงลึกเกี่ยวกับผลลัพธ์ อย่างไรก็ตาม DNN สามารถปรับตัวให้เข้ากับข้อมูลฟีเจอร์ที่เปลี่ยนแปลงไปได้โดยอัตโนมัติ |