एम्बेड किए गए कॉन्टेंट से समानता का पता लगाना

अब आपके पास किसी भी उदाहरण के जोड़े के लिए एम्बेडिंग हैं. मॉनिटर की गई मिलती-जुलती चीज़ों का आकलन करने वाली सुविधा, इन एम्बेड को लेती है और उनकी मिलती-जुलती चीज़ों का आकलन करने वाली संख्या दिखाती है. याद रखें कि एम्बेड, संख्याओं के वेक्टर होते हैं. दो वैक्टर \(A = [a_1,a_2,...,a_n]\) और \(B = [b_1,b_2,...,b_n]\)के बीच समानता का पता लगाने के लिए, इन तीन में से कोई एक मेज़र चुनें:

मापेंमतलबफ़ॉर्मूला जैसे-जैसे मिलते-जुलते कॉन्टेंट की संख्या बढ़ती है, यह मेज़र...
इयूक्लिडीन दूरीवेक्टर के सिरों के बीच की दूरी \(\sqrt{(a_1-b_1)^2+(a_2-b_2)^2+...+(a_N-b_N)^2}\) कम हो जाती है
कोसाइन \(\theta\) वेक्टर के बीच के कोण का कोसाइन \(\frac{a^T b}{|a| \cdot |b|}\) बढ़ता है
डॉट उत्पादकोसाइन को दोनों वेक्टर की लंबाई से गुणा करना \(a_1b_1+a_2b_2+...+a_nb_n\) \(=|a||b|cos(\theta)\) बढ़ जाती है. वेक्टर की लंबाई बढ़ने पर भी यह बढ़ता है.

मिलती-जुलती चीज़ों को मेज़र करने का तरीका चुनना

कोसाइन के उलट, डॉट प्रॉडक्ट सदिश की लंबाई के अनुपात में होता है. यह ज़रूरी है, क्योंकि ट्रेनिंग सेट में अक्सर दिखने वाले उदाहरणों (उदाहरण के लिए, लोकप्रिय YouTube वीडियो) में, लंबी अवधि वाले एम्बेडिंग वेक्टर होते हैं. अगर आपको किसी प्रॉडक्ट की लोकप्रियता का पता लगाना है, तो डॉट प्रॉडक्ट चुनें. हालांकि, इस बात का खतरा है कि लोकप्रिय उदाहरणों की वजह से, मिलती-जुलती कॉन्टेंट वाली मेट्रिक में गड़बड़ी हो सकती है. इस असंतुलन को ठीक करने के लिए, लंबाई को एक्सपोनेंट में बढ़ाया जा सकता है \(\alpha\ < 1\) , ताकि डॉट प्रॉडक्ट का हिसाब \(|a|^{\alpha}|b|^{\alpha}\cos(\theta)\)के तौर पर लगाया जा सके.

यह समझने के लिए कि वेक्टर की लंबाई, मिलती-जुलती वैल्यू को कैसे बदलती है, वेक्टर की लंबाई को 1 पर नॉर्मलाइज़ करें. साथ ही, ध्यान दें कि तीनों मेज़र एक-दूसरे के अनुपात में हो जाते हैं.

सबूत: मिलते-जुलते कॉन्टेंट के मेज़र का अनुपात
a और b को सामान्य बनाने के बाद, \(||a||=1\) और \(||b||=1\), इन तीन मेज़र का संबंध इस तरह है:
  • यूक्लिडियन दूरी = \(||a-b|| = \sqrt{||a||^2 + ||b||^2 - 2a^{T}b} = \sqrt{2-2\cos(\theta_{ab})}\).
  • डॉट प्रॉडक्ट = \( |a||b| \cos(\theta_{ab}) = 1\cdot1\cdot \cos(\theta_{ab}) = cos(\theta_{ab})\).
  • कोसाइन = \(\cos(\theta_{ab})\).
इसलिए, मिलते-जुलते कॉन्टेंट को मेज़र करने के ये तीनों तरीके एक जैसे हैं, क्योंकि ये \(cos(\theta_{ab})\)के हिसाब से होते हैं.

मिलते-जुलते कॉन्टेंट का पता लगाने के तरीकों की समीक्षा

मिलते-जुलते उदाहरणों की संख्या, एक-दूसरे से मिलते-जुलते उदाहरणों के जोड़े के मुकाबले, एक-दूसरे से मिलते-जुलते उदाहरणों के जोड़े के बीच की समानता को मेज़र करती है. मैन्युअल और सुपरवाइज़ की गई, दोनों तरह की जांच की तुलना यहां की गई है:

टाइपबनाने का तरीकाइन स्थितियों में बेहतर हैतात्पर्य
मैन्युअलसुविधा के डेटा को मैन्युअल तरीके से जोड़ना. ऐसे छोटे डेटासेट जिनमें ऐसी सुविधाएं होती हैं जिन्हें आसानी से जोड़ा जा सकता है. मिलती-जुलती चीज़ों के हिसाब लगाने के नतीजों की जानकारी देता है. अगर सुविधा के डेटा में बदलाव होता है, तो आपको मैन्युअल तरीके से मिलती-जुलती चीज़ों के मेज़र को अपडेट करना होगा.
निगरानी में हैसुपरवाइज़्ड डीएनएन की मदद से जनरेट किए गए एम्बेडिंग के बीच की दूरी का पता लगाएं. ऐसे बड़े डेटासेट जिनमें ऐसी सुविधाएं होती हैं जिन्हें आपस में जोड़ना मुश्किल होता है. इससे नतीजों के बारे में कोई जानकारी नहीं मिलती. हालांकि, डीएनएन, बदलते हुए सुविधा डेटा के हिसाब से अपने-आप बदल सकता है.