एम्बेड किए गए कॉन्टेंट से समानता का पता लगाना

अब आपके पास उदाहरणों के किसी भी जोड़े के लिए एम्बेड करने की सुविधा उपलब्ध है. निगरानी में रखी गई समानता माप इन एम्बेडिंग को लेता है और उनकी समानता को मापने वाली संख्या देता है. याद रखें कि एम्बेड करना संख्याओं का सदिश होता है. इनके बीच समानता का पता लगाने के लिए दो वेक्टर \(A = [a_1,a_2,...,a_n]\) और \(B = [b_1,b_2,...,b_n]\), समानता के इन तीन तरीकों में से किसी एक को चुनें:

मापेंमतलबफ़ॉर्मूला जैसे-जैसे समानता बढ़ती जाएगी, यह आकलन...
इयूक्लिडीन दूरीसदिशों (वेक्टर) के सिरों के बीच की दूरी \(\sqrt{(a_1-b_1)^2+(a_2-b_2)^2+...+(a_N-b_N)^2}\) घटता है
कोसाइनसदिशों के बीच \(\theta\) कोज्या का कोण \(\frac{a^T b}{|a| \cdot |b|}\) बढ़ जाता है
डॉट उत्पादकोसाइन (कोसाइन) को दोनों वेक्टर की लंबाई से गुणा किया गया \(a_1b_1+a_2b_2+...+a_nb_n\) \(=|a||b|cos(\theta)\) बढ़ जाता है. वेक्टर की लंबाई के साथ-साथ बढ़ता है.

समानता का माप चुनना

कोसाइन (cos) के उलट, डॉट प्रॉडक्ट वेक्टर की लंबाई के अनुपात में होता है. ऐसा करना ज़रूरी है, क्योंकि ट्रेनिंग के दौरान ऐसे उदाहरण कई बार दिखते हैं सेट (उदाहरण के लिए, लोकप्रिय YouTube वीडियो) में एम्बेडिंग वेक्टर होता है बड़ी लंबाई. अगर आपको लोकप्रिय बनाना चाहते हैं, तो डॉट प्रॉडक्ट चुनें. हालांकि, जोखिम यह है कि लोकप्रिय उदाहरणों से समानता की मेट्रिक पर असर पड़ सकता है. इस अंतर को संतुलित करने के लिए, बिंदु का गुणनफल ज्ञात करने के लिए \(\alpha\ < 1\) लंबा को घातांक तक बढ़ाएं \(|a|^{\alpha}|b|^{\alpha}\cos(\theta)\)के तौर पर.

सदिश की लंबाई, समानता के माप को कैसे बदलती है, इसे बेहतर ढंग से समझने के लिए वेक्टर की लंबाई 1 है और ध्यान दें कि तीन मापे अनुपात में हो जाते हैं एक-दूसरे को जानकारी देते हैं.

सबूत: समानता के मापदंडों का अनुपात
a और b को इस तरह नॉर्मलाइज़ करने के बाद कि \(||a||=1\) और \(||b||=1\), ये तीन तरीके इस तरह से जुड़े हैं:
  • इयूक्लिडीन दूरी = \(||a-b|| = \sqrt{||a||^2 + ||b||^2 - 2a^{T}b} = \sqrt{2-2\cos(\theta_{ab})}\).
  • डॉट प्रॉडक्ट = \( |a||b| \cos(\theta_{ab}) = 1\cdot1\cdot \cos(\theta_{ab}) = cos(\theta_{ab})\).
  • कोसाइन = \(\cos(\theta_{ab})\).
इस प्रकार, सभी तीनों समानता माप एक जैसे हैं, क्योंकि वे \(cos(\theta_{ab})\)के समानुपात है.

समानता के उपायों की समीक्षा

समानता का माप, दो जोड़ों के बीच समानता को मापता है उदाहरण के लिए, दूसरी जोड़ी के मुकाबले. दो तरह के, मैन्युअल और इनकी तुलना नीचे की गई है:

टाइपबनाने का तरीकाइन स्थितियों में बेहतर हैतात्पर्य
मैन्युअलसुविधा डेटा को मैन्युअल रूप से जोड़ें. सुविधाओं वाले छोटे डेटासेट, जिन्हें आसानी से जोड़ा जा सकता है. समानता की गणना के नतीजों के बारे में अहम जानकारी देता है. अगर सुविधा डेटा में बदलाव होता है, तो आपको समानता के माप को मैन्युअल तौर पर अपडेट करना होगा.
निगरानी में हैइससे जनरेट हुए एम्बेडिंग के बीच की दूरी मापें निगरानी में रखा गया DNN. ऐसे बड़े डेटासेट जिनमें जोड़ने में मुश्किल होती है. नतीजों के बारे में कोई अहम जानकारी नहीं देता. हालांकि, DNN अपने-आप बदलाव कर सकता है में बदलाव करना है.