अब आपके पास उदाहरणों के किसी भी जोड़े के लिए एम्बेड करने की सुविधा उपलब्ध है. निगरानी में रखी गई समानता माप इन एम्बेडिंग को लेता है और उनकी समानता को मापने वाली संख्या देता है. याद रखें कि एम्बेड करना संख्याओं का सदिश होता है. इनके बीच समानता का पता लगाने के लिए दो वेक्टर \(A = [a_1,a_2,...,a_n]\) और \(B = [b_1,b_2,...,b_n]\), समानता के इन तीन तरीकों में से किसी एक को चुनें:
मापें | मतलब | फ़ॉर्मूला | जैसे-जैसे समानता बढ़ती जाएगी, यह आकलन... |
---|---|---|---|
इयूक्लिडीन दूरी | सदिशों (वेक्टर) के सिरों के बीच की दूरी | \(\sqrt{(a_1-b_1)^2+(a_2-b_2)^2+...+(a_N-b_N)^2}\) | घटता है |
कोसाइन | सदिशों के बीच \(\theta\) कोज्या का कोण | \(\frac{a^T b}{|a| \cdot |b|}\) | बढ़ जाता है |
डॉट उत्पाद | कोसाइन (कोसाइन) को दोनों वेक्टर की लंबाई से गुणा किया गया | \(a_1b_1+a_2b_2+...+a_nb_n\) \(=|a||b|cos(\theta)\) | बढ़ जाता है. वेक्टर की लंबाई के साथ-साथ बढ़ता है. |
समानता का माप चुनना
कोसाइन (cos) के उलट, डॉट प्रॉडक्ट वेक्टर की लंबाई के अनुपात में होता है. ऐसा करना ज़रूरी है, क्योंकि ट्रेनिंग के दौरान ऐसे उदाहरण कई बार दिखते हैं सेट (उदाहरण के लिए, लोकप्रिय YouTube वीडियो) में एम्बेडिंग वेक्टर होता है बड़ी लंबाई. अगर आपको लोकप्रिय बनाना चाहते हैं, तो डॉट प्रॉडक्ट चुनें. हालांकि, जोखिम यह है कि लोकप्रिय उदाहरणों से समानता की मेट्रिक पर असर पड़ सकता है. इस अंतर को संतुलित करने के लिए, बिंदु का गुणनफल ज्ञात करने के लिए \(\alpha\ < 1\) लंबा को घातांक तक बढ़ाएं \(|a|^{\alpha}|b|^{\alpha}\cos(\theta)\)के तौर पर.
सदिश की लंबाई, समानता के माप को कैसे बदलती है, इसे बेहतर ढंग से समझने के लिए वेक्टर की लंबाई 1 है और ध्यान दें कि तीन मापे अनुपात में हो जाते हैं एक-दूसरे को जानकारी देते हैं.
- इयूक्लिडीन दूरी = \(||a-b|| = \sqrt{||a||^2 + ||b||^2 - 2a^{T}b} = \sqrt{2-2\cos(\theta_{ab})}\).
- डॉट प्रॉडक्ट = \( |a||b| \cos(\theta_{ab}) = 1\cdot1\cdot \cos(\theta_{ab}) = cos(\theta_{ab})\).
- कोसाइन = \(\cos(\theta_{ab})\).
समानता के उपायों की समीक्षा
समानता का माप, दो जोड़ों के बीच समानता को मापता है उदाहरण के लिए, दूसरी जोड़ी के मुकाबले. दो तरह के, मैन्युअल और इनकी तुलना नीचे की गई है:
टाइप | बनाने का तरीका | इन स्थितियों में बेहतर है | तात्पर्य |
---|---|---|---|
मैन्युअल | सुविधा डेटा को मैन्युअल रूप से जोड़ें. | सुविधाओं वाले छोटे डेटासेट, जिन्हें आसानी से जोड़ा जा सकता है. | समानता की गणना के नतीजों के बारे में अहम जानकारी देता है. अगर सुविधा डेटा में बदलाव होता है, तो आपको समानता के माप को मैन्युअल तौर पर अपडेट करना होगा. |
निगरानी में है | इससे जनरेट हुए एम्बेडिंग के बीच की दूरी मापें निगरानी में रखा गया DNN. | ऐसे बड़े डेटासेट जिनमें जोड़ने में मुश्किल होती है. | नतीजों के बारे में कोई अहम जानकारी नहीं देता. हालांकि, DNN अपने-आप बदलाव कर सकता है में बदलाव करना है. |