หน้านี้ได้รับการแปลโดย Cloud Translation API

การวัดความคล้ายคลึงจากการฝัง

ตอนนี้คุณมีข้อมูลเชิงลึกสําหรับคู่ตัวอย่างแล้ว มาตรการความคล้ายคลึงแบบควบคุมจะนําข้อมูลเชิงลึกเหล่านี้ไปแสดงผลเป็นตัวเลขที่วัดความคล้ายคลึง โปรดทราบว่าการฝังเป็นเวกเตอร์ของตัวเลข หากต้องการหาความคล้ายคลึงระหว่างเวกเตอร์ 2 รายการ \(A = [a_1,a_2,...,a_n]\) และ \(B = [b_1,b_2,...,b_n]\)ให้เลือกการวัดความคล้ายคลึง 1 ใน 3 รายการต่อไปนี้

วัดผล	ความหมาย	สูตร	เมื่อความคล้ายคลึงเพิ่มขึ้น การวัดนี้...
ระยะทางแบบยุคลิด	ระยะห่างระหว่างปลายเวกเตอร์	\(\sqrt{(a_1-b_1)^2+(a_2-b_2)^2+...+(a_N-b_N)^2}\)	ลดลง
โคไซน์	โคไซน์ของมุม \(\theta\) ระหว่างเวกเตอร์	\(\frac{a^T b}{\|a\| \cdot \|b\|}\)	เพิ่มขึ้น
ผลคูณจุด	โคไซน์คูณด้วยความยาวของทั้ง 2 เวกเตอร์	\(a_1b_1+a_2b_2+...+a_nb_n\) \(=\|a\|\|b\|cos(\theta)\)	เพิ่มขึ้น และเพิ่มขึ้นตามความยาวของเวกเตอร์

การเลือกการวัดความคล้ายคลึง

ซึ่งแตกต่างจากโคไซน์ตรงที่ผลคูณจุดจะแปรผันตามความยาวเวกเตอร์ ขั้นตอนนี้สำคัญเนื่องจากตัวอย่างที่ปรากฏบ่อยมากในชุดการฝึก (เช่น วิดีโอ YouTube ที่ได้รับความนิยม) มีแนวโน้มที่จะเวกเตอร์การฝังที่มีความยาวมาก หากต้องการจับความนิยม ให้เลือกผลิตภัณฑ์จุด อย่างไรก็ตาม ความเสี่ยงคือตัวอย่างยอดนิยมอาจทำให้เมตริกความคล้ายคลึงบิดเบือน หากต้องการปรับสมดุลความเอียงนี้ คุณสามารถยกกำลังความยาวเป็นเลขยกกำลัง \(\alpha\ < 1\) เพื่อคำนวณผลคูณแบบดอท \(|a|^{\alpha}|b|^{\alpha}\cos(\theta)\)

หากต้องการทําความเข้าใจได้ดียิ่งขึ้นว่าความยาวเวกเตอร์ทําให้การวัดความคล้ายคลึงเปลี่ยนแปลงไปอย่างไร ให้นอร์มาไลซ์ความยาวเวกเตอร์เป็น 1 และสังเกตว่าค่าทั้ง 3 รายการจะสัดส่วนกัน

หลักฐาน: ความสอดคล้องของมาตรการความคล้าย

หลังจากทำให้ a และ b เป็นมาตรฐานโดยที่ \(||a||=1\) และ \(||b||=1\)แล้ว การวัดค่าทั้ง 3 รายการนี้มีความเกี่ยวข้องกันดังนี้

ระยะทางแบบยุคลิด = \(||a-b|| = \sqrt{||a||^2 + ||b||^2 - 2a^{T}b} = \sqrt{2-2\cos(\theta_{ab})}\)
ผลคูณจุด = \( |a||b| \cos(\theta_{ab}) = 1\cdot1\cdot \cos(\theta_{ab}) = cos(\theta_{ab})\)
โคไซน์ = \(\cos(\theta_{ab})\)

ดังนั้น ดัชนีความคล้ายคลึงทั้ง 3 รายการจึงเทียบเท่ากันเนื่องจากมีสัดส่วนกับ \(cos(\theta_{ab})\)

การตรวจสอบการวัดความคล้ายคลึง

การวัดความคล้ายคลึงจะวัดความคล้ายคลึงระหว่างคู่ตัวอย่างหนึ่งๆ เทียบกับคู่ตัวอย่างอื่นๆ ด้านล่างนี้คือข้อมูลเปรียบเทียบระหว่างการตรวจสอบด้วยตนเองและการตรวจสอบที่มีการควบคุม

ประเภท	วิธีสร้าง	เหมาะสำหรับ	ผลกระทบ
กำหนดเอง	รวมข้อมูลฟีเจอร์ด้วยตนเอง	ชุดข้อมูลขนาดเล็กที่มีฟีเจอร์ที่รวมเข้าด้วยกันได้ง่าย	ให้ข้อมูลเชิงลึกเกี่ยวกับผลลัพธ์ของการคำนวณความคล้ายคลึง หากข้อมูลฟีเจอร์มีการเปลี่ยนแปลง คุณต้องอัปเดตการวัดความคล้ายคลึงด้วยตนเอง
มีการควบคุมดูแล	วัดระยะห่างระหว่างการฝังที่สร้างขึ้นโดย DNN ที่มีการควบคุม	ชุดข้อมูลขนาดใหญ่ที่มีฟีเจอร์ที่รวมเข้าด้วยกันได้ยาก	ไม่ได้ให้ข้อมูลเชิงลึกเกี่ยวกับผลลัพธ์ อย่างไรก็ตาม DNN สามารถปรับตัวให้เข้ากับข้อมูลฟีเจอร์ที่เปลี่ยนแปลงไปได้โดยอัตโนมัติ

โปรแกรมเปลี่ยนไฟล์อัตโนมัติ ตัวคาดการณ์ และการฝัง

ทดสอบความเข้าใจ