अब आपके पास किसी भी उदाहरण के जोड़े के लिए एम्बेडिंग हैं. मॉनिटर की गई मिलती-जुलती चीज़ों का आकलन करने वाली सुविधा, इन एम्बेड को लेती है और उनकी मिलती-जुलती चीज़ों का आकलन करने वाली संख्या दिखाती है. याद रखें कि एम्बेड, संख्याओं के वेक्टर होते हैं. दो वैक्टर \(A = [a_1,a_2,...,a_n]\) और \(B = [b_1,b_2,...,b_n]\)के बीच समानता का पता लगाने के लिए, इन तीन में से कोई एक मेज़र चुनें:
मापें | मतलब | फ़ॉर्मूला | जैसे-जैसे मिलते-जुलते कॉन्टेंट की संख्या बढ़ती है, यह मेज़र... |
---|---|---|---|
इयूक्लिडीन दूरी | वेक्टर के सिरों के बीच की दूरी | \(\sqrt{(a_1-b_1)^2+(a_2-b_2)^2+...+(a_N-b_N)^2}\) | कम हो जाती है |
कोसाइन | \(\theta\) वेक्टर के बीच के कोण का कोसाइन | \(\frac{a^T b}{|a| \cdot |b|}\) | बढ़ता है |
डॉट उत्पाद | कोसाइन को दोनों वेक्टर की लंबाई से गुणा करना | \(a_1b_1+a_2b_2+...+a_nb_n\) \(=|a||b|cos(\theta)\) | बढ़ जाती है. वेक्टर की लंबाई बढ़ने पर भी यह बढ़ता है. |
मिलती-जुलती चीज़ों को मेज़र करने का तरीका चुनना
कोसाइन के उलट, डॉट प्रॉडक्ट सदिश की लंबाई के अनुपात में होता है. यह ज़रूरी है, क्योंकि ट्रेनिंग सेट में अक्सर दिखने वाले उदाहरणों (उदाहरण के लिए, लोकप्रिय YouTube वीडियो) में, लंबी अवधि वाले एम्बेडिंग वेक्टर होते हैं. अगर आपको किसी प्रॉडक्ट की लोकप्रियता का पता लगाना है, तो डॉट प्रॉडक्ट चुनें. हालांकि, इस बात का खतरा है कि लोकप्रिय उदाहरणों की वजह से, मिलती-जुलती कॉन्टेंट वाली मेट्रिक में गड़बड़ी हो सकती है. इस असंतुलन को ठीक करने के लिए, लंबाई को एक्सपोनेंट में बढ़ाया जा सकता है \(\alpha\ < 1\) , ताकि डॉट प्रॉडक्ट का हिसाब \(|a|^{\alpha}|b|^{\alpha}\cos(\theta)\)के तौर पर लगाया जा सके.
यह समझने के लिए कि वेक्टर की लंबाई, मिलती-जुलती वैल्यू को कैसे बदलती है, वेक्टर की लंबाई को 1 पर नॉर्मलाइज़ करें. साथ ही, ध्यान दें कि तीनों मेज़र एक-दूसरे के अनुपात में हो जाते हैं.
- यूक्लिडियन दूरी = \(||a-b|| = \sqrt{||a||^2 + ||b||^2 - 2a^{T}b} = \sqrt{2-2\cos(\theta_{ab})}\).
- डॉट प्रॉडक्ट = \( |a||b| \cos(\theta_{ab}) = 1\cdot1\cdot \cos(\theta_{ab}) = cos(\theta_{ab})\).
- कोसाइन = \(\cos(\theta_{ab})\).
मिलते-जुलते कॉन्टेंट का पता लगाने के तरीकों की समीक्षा
मिलते-जुलते उदाहरणों की संख्या, एक-दूसरे से मिलते-जुलते उदाहरणों के जोड़े के मुकाबले, एक-दूसरे से मिलते-जुलते उदाहरणों के जोड़े के बीच की समानता को मेज़र करती है. मैन्युअल और सुपरवाइज़ की गई, दोनों तरह की जांच की तुलना यहां की गई है:
टाइप | बनाने का तरीका | इन स्थितियों में बेहतर है | तात्पर्य |
---|---|---|---|
मैन्युअल | सुविधा के डेटा को मैन्युअल तरीके से जोड़ना. | ऐसे छोटे डेटासेट जिनमें ऐसी सुविधाएं होती हैं जिन्हें आसानी से जोड़ा जा सकता है. | मिलती-जुलती चीज़ों के हिसाब लगाने के नतीजों की जानकारी देता है. अगर सुविधा के डेटा में बदलाव होता है, तो आपको मैन्युअल तरीके से मिलती-जुलती चीज़ों के मेज़र को अपडेट करना होगा. |
निगरानी में है | सुपरवाइज़्ड डीएनएन की मदद से जनरेट किए गए एम्बेडिंग के बीच की दूरी का पता लगाएं. | ऐसे बड़े डेटासेट जिनमें ऐसी सुविधाएं होती हैं जिन्हें आपस में जोड़ना मुश्किल होता है. | इससे नतीजों के बारे में कोई जानकारी नहीं मिलती. हालांकि, डीएनएन, बदलते हुए सुविधा डेटा के हिसाब से अपने-आप बदल सकता है. |