अब आपके पास उदाहरणों के किसी भी जोड़े के लिए एम्बेड करने की सुविधा है. समानता का यह माप, इन एम्बेडिंग को लेता है और उनकी समानता को मापने वाली संख्या देता है. याद रखें कि एम्बेड करना बस नंबरों के वेक्टर हैं. दो वेक्टर \(A = [a_1,a_2,...,a_n]\) और \(B = [b_1,b_2,...,b_n]\)के बीच समानता खोजने के लिए, आपके पास चुनने के तीन तरीके हैं, जैसा कि नीचे दी गई टेबल में बताया गया है.
मेज़र | लिंक | फ़ॉर्मूला | समानता बढ़ाने पर |
---|---|---|---|
इयूक्लिडीन दूरी | वेक्टर के सिरों के बीच की दूरी | \(\sqrt{(a_1-b_1)^2+(a_2-b_2)^2+...+(a_N-b_N)^2}\) | घटता है |
कोसाइन | कोसाइन के कोण और \(\theta\) के बीच | \(\frac{a^T b}{|a| \cdot |b|}\) | बढ़ता है |
डॉट प्रॉडक्ट | कोसाइन को दोनों वेक्टर की लंबाई से गुणा करना | \(a_1b_1+a_2b_2+...+a_nb_n\) \(=|a||b|cos(\theta)\) | बढ़ता है. इससे वेक्टर की लंबाई भी बढ़ती है. |
समानता का मूल्यांकन चुनना
कोसाइन के उलट, बिंदु वाला प्रॉडक्ट वेक्टर की लंबाई के अनुपात में होता है. ऐसा इसलिए ज़रूरी है, क्योंकि ट्रेनिंग सेट में (उदाहरण के लिए, लोकप्रिय YouTube वीडियो) अक्सर दिखाए जाने वाले उदाहरणों में, ज़्यादा दूरी वाली एम्बेड करने वाले वेक्टर होते हैं. अगर आपको लोकप्रियता को कैप्चर करना है, तो बिंदु वाला प्रॉडक्ट चुनें. हालांकि, जोखिम यह है कि लोकप्रिय उदाहरण, मिलते-जुलते मेट्रिक को गलत बना सकते हैं. इस स्क्यू को संतुलित करने के लिए, आप बिंदु के प्रॉडक्ट की गणना \(|a|^{\alpha}|b|^{\alpha}\cos(\theta)\)के रूप में करने के लिए \(\alpha\ < 1\) एक्सपोनंट की लंबाई बढ़ा सकते हैं.
यह समझने के लिए कि वेक्टर की लंबाई समानता को कैसे बदलती है, वेक्टर की लंबाई को 1 पर सामान्य करें और देखें कि तीनों माप एक-दूसरे के अनुपात में आ जाते हैं.
- यूकेडियन दूरी = \(||a-b|| = \sqrt{||a||^2 + ||b||^2 - 2a^{T}b} = \sqrt{2-2\cos(\theta_{ab})}\).
- डॉट प्रॉडक्ट = \( |a||b| \cos(\theta_{ab}) = 1\cdot1\cdot \cos(\theta_{ab}) = cos(\theta_{ab})\).
- कोसाइन = \(\cos(\theta_{ab})\).