एम्बेड किए गए कॉन्टेंट से समानता का पता लगाना

अब आपके पास किसी भी उदाहरण के जोड़े के लिए एम्बेडिंग हैं. मॉनिटर की गई मिलती-जुलती चीज़ों का आकलन करने वाली सुविधा, इन एम्बेड को लेती है और उनकी मिलती-जुलती चीज़ों का आकलन करने वाली संख्या दिखाती है. याद रखें कि एम्बेड, संख्याओं के वेक्टर होते हैं. दो वैक्टर A=[a1,a2,...,an] और B=[b1,b2,...,bn]के बीच समानता का पता लगाने के लिए, इन तीन में से कोई एक मेज़र चुनें:

मापेंमतलबफ़ॉर्मूला जैसे-जैसे मिलते-जुलते कॉन्टेंट की संख्या बढ़ती है, यह मेज़र...
इयूक्लिडीन दूरीवेक्टर के सिरों के बीच की दूरी (a1b1)2+(a2b2)2+...+(aNbN)2 कम हो जाती है
कोसाइन θ वेक्टर के बीच के कोण का कोसाइन aTb|a||b| बढ़ता है
डॉट उत्पादकोसाइन को दोनों वेक्टर की लंबाई से गुणा करना a1b1+a2b2+...+anbn =|a||b|cos(θ) बढ़ जाती है. वेक्टर की लंबाई बढ़ने पर भी यह बढ़ता है.

मिलती-जुलती चीज़ों को मेज़र करने का तरीका चुनना

कोसाइन के उलट, डॉट प्रॉडक्ट सदिश की लंबाई के अनुपात में होता है. यह ज़रूरी है, क्योंकि ट्रेनिंग सेट में अक्सर दिखने वाले उदाहरणों (उदाहरण के लिए, लोकप्रिय YouTube वीडियो) में, लंबी अवधि वाले एम्बेडिंग वेक्टर होते हैं. अगर आपको किसी प्रॉडक्ट की लोकप्रियता का पता लगाना है, तो डॉट प्रॉडक्ट चुनें. हालांकि, इस बात का खतरा है कि लोकप्रिय उदाहरणों की वजह से, मिलती-जुलती कॉन्टेंट वाली मेट्रिक में गड़बड़ी हो सकती है. इस असंतुलन को ठीक करने के लिए, लंबाई को एक्सपोनेंट में बढ़ाया जा सकता है α <1 , ताकि डॉट प्रॉडक्ट का हिसाब |a|α|b|αcos(θ)के तौर पर लगाया जा सके.

यह समझने के लिए कि वेक्टर की लंबाई, मिलती-जुलती वैल्यू को कैसे बदलती है, वेक्टर की लंबाई को 1 पर नॉर्मलाइज़ करें. साथ ही, ध्यान दें कि तीनों मेज़र एक-दूसरे के अनुपात में हो जाते हैं.

सबूत: मिलते-जुलते कॉन्टेंट के मेज़र का अनुपात
a और b को सामान्य बनाने के बाद, ||a||=1 और ||b||=1, इन तीन मेज़र का संबंध इस तरह है:
  • यूक्लिडियन दूरी = ||ab||=||a||2+||b||22aTb=22cos(θab).
  • डॉट प्रॉडक्ट = |a||b|cos(θab)=11cos(θab)=cos(θab).
  • कोसाइन = cos(θab).
इसलिए, मिलते-जुलते कॉन्टेंट को मेज़र करने के ये तीनों तरीके एक जैसे हैं, क्योंकि ये cos(θab)के हिसाब से होते हैं.

मिलते-जुलते कॉन्टेंट का पता लगाने के तरीकों की समीक्षा

मिलते-जुलते उदाहरणों की संख्या, एक-दूसरे से मिलते-जुलते उदाहरणों के जोड़े के मुकाबले, एक-दूसरे से मिलते-जुलते उदाहरणों के जोड़े के बीच की समानता को मेज़र करती है. मैन्युअल और सुपरवाइज़ की गई, दोनों तरह की जांच की तुलना यहां की गई है:

टाइपबनाने का तरीकाइन स्थितियों में बेहतर हैतात्पर्य
मैन्युअलसुविधा के डेटा को मैन्युअल तरीके से जोड़ना. ऐसे छोटे डेटासेट जिनमें ऐसी सुविधाएं होती हैं जिन्हें आसानी से जोड़ा जा सकता है. मिलती-जुलती चीज़ों के हिसाब लगाने के नतीजों की जानकारी देता है. अगर सुविधा के डेटा में बदलाव होता है, तो आपको मैन्युअल तरीके से मिलती-जुलती चीज़ों के मेज़र को अपडेट करना होगा.
निगरानी में हैसुपरवाइज़्ड डीएनएन की मदद से जनरेट किए गए एम्बेडिंग के बीच की दूरी का पता लगाएं. ऐसे बड़े डेटासेट जिनमें ऐसी सुविधाएं होती हैं जिन्हें आपस में जोड़ना मुश्किल होता है. इससे नतीजों के बारे में कोई जानकारी नहीं मिलती. हालांकि, डीएनएन, बदलते हुए सुविधा डेटा के हिसाब से अपने-आप बदल सकता है.