एम्बेडिंग से समानता मापी जा रही है

अब आपके पास उदाहरणों के किसी भी जोड़े के लिए एम्बेड करने की सुविधा है. समानता का यह माप, इन एम्बेडिंग को लेता है और उनकी समानता को मापने वाली संख्या देता है. याद रखें कि एम्बेड करना बस नंबरों के वेक्टर हैं. दो वेक्टर \(A = [a_1,a_2,...,a_n]\) और \(B = [b_1,b_2,...,b_n]\)के बीच समानता खोजने के लिए, आपके पास चुनने के तीन तरीके हैं, जैसा कि नीचे दी गई टेबल में बताया गया है.

मेज़रलिंकफ़ॉर्मूलासमानता बढ़ाने पर
इयूक्लिडीन दूरीवेक्टर के सिरों के बीच की दूरी \(\sqrt{(a_1-b_1)^2+(a_2-b_2)^2+...+(a_N-b_N)^2}\) घटता है
कोसाइनकोसाइन के कोण और \(\theta\) के बीच \(\frac{a^T b}{|a| \cdot |b|}\) बढ़ता है
डॉट प्रॉडक्टकोसाइन को दोनों वेक्टर की लंबाई से गुणा करना \(a_1b_1+a_2b_2+...+a_nb_n\) \(=|a||b|cos(\theta)\) बढ़ता है. इससे वेक्टर की लंबाई भी बढ़ती है.

समानता का मूल्यांकन चुनना

कोसाइन के उलट, बिंदु वाला प्रॉडक्ट वेक्टर की लंबाई के अनुपात में होता है. ऐसा इसलिए ज़रूरी है, क्योंकि ट्रेनिंग सेट में (उदाहरण के लिए, लोकप्रिय YouTube वीडियो) अक्सर दिखाए जाने वाले उदाहरणों में, ज़्यादा दूरी वाली एम्बेड करने वाले वेक्टर होते हैं. अगर आपको लोकप्रियता को कैप्चर करना है, तो बिंदु वाला प्रॉडक्ट चुनें. हालांकि, जोखिम यह है कि लोकप्रिय उदाहरण, मिलते-जुलते मेट्रिक को गलत बना सकते हैं. इस स्क्यू को संतुलित करने के लिए, आप बिंदु के प्रॉडक्ट की गणना \(|a|^{\alpha}|b|^{\alpha}\cos(\theta)\)के रूप में करने के लिए \(\alpha\ < 1\) एक्सपोनंट की लंबाई बढ़ा सकते हैं.

यह समझने के लिए कि वेक्टर की लंबाई समानता को कैसे बदलती है, वेक्टर की लंबाई को 1 पर सामान्य करें और देखें कि तीनों माप एक-दूसरे के अनुपात में आ जाते हैं.

सबूत: समानता के माप का अनुपात
a और b को सामान्य बनाने के बाद, \(||a||=1\) और \(||b||=1\) ये तीन तरीके एक-दूसरे से जुड़े होते हैं:
  • यूकेडियन दूरी = \(||a-b|| = \sqrt{||a||^2 + ||b||^2 - 2a^{T}b} = \sqrt{2-2\cos(\theta_{ab})}\).
  • डॉट प्रॉडक्ट = \( |a||b| \cos(\theta_{ab}) = 1\cdot1\cdot \cos(\theta_{ab}) = cos(\theta_{ab})\).
  • कोसाइन = \(\cos(\theta_{ab})\).
इस तरह, तीनों मिलते-जुलते तरीके एक जैसे होते हैं, क्योंकि वे \(cos(\theta_{ab})\)के अनुपात में होते हैं.