कैंडिडेट जनरेशन के बारे में खास जानकारी

कैंडिडेट जनरेट करना, सुझाव देने का पहला चरण है. क्वेरी को देखते हुए, सिस्टम, काम के उम्मीदवारों का एक सेट जनरेट करता है. नीचे दी गई टेबल में दो पैरामीटर दिखाए गए हैं कैंडिडेट जनरेशन के लिए आम तौर पर इस्तेमाल होने वाले तरीके:

टाइपपरिभाषाउदाहरण
कॉन्टेंट के हिसाब से फ़िल्टर करना आइटम के सुझाव देने के लिए आइटम के बीच समानता का इस्तेमाल करता है पसंद है. अगर उपयोगकर्ता A बिल्ली के दो प्यारे वीडियो देखता है, तो सिस्टम उस दर्शक को जानवरों के प्यारे वीडियो के सुझाव दे सकता है.
कोलैब के हिसाब से फ़िल्टर करना क्वेरी और आइटम के बीच एक साथ समानताओं का इस्तेमाल करता है सुझाव देने के लिए. अगर उपयोगकर्ता A, उपयोगकर्ता B से मिलता-जुलता है और उपयोगकर्ता B को वीडियो 1 पसंद है, तो सिस्टम, उपयोगकर्ता A को वीडियो 1 का सुझाव दे सकता है. भले ही, उपयोगकर्ता A ने पहले वीडियो से मिलता-जुलता कोई वीडियो देखा है).

एम्बेड करने की जगह

कॉन्टेंट पर आधारित और साथ मिलकर काम करने के लिए फ़िल्टर करने की सुविधा, दोनों में हर आइटम और क्वेरी को मैप किया जाता है किसी आम एम्बेडिंग स्पेस में, एम्बेड करने वाले वेक्टर से (या कॉन्टेक्स्ट) जोड़ें \(E = \mathbb R^d\). आम तौर पर, एम्बेड करने की जगह लो-डाइमेंशन में होती है (इसका मतलब है कि \(d\) , कॉर्पस (संग्रह) के साइज़ से बहुत छोटा है) और आइटम या क्वेरी सेट का कुछ लेटेंट स्ट्रक्चर. मिलते-जुलते आइटम, जैसे कि YouTube आम तौर पर, एक ही व्यक्ति जिन वीडियो को देखता है वे एक-दूसरे के करीब रखे जाते हैं. एम्बेड करने की जगह. "निकटता" की धारणा को समानता के माप से तय किया जाता है.

समानता के माप

समानता का माप एक ऐसा फ़ंक्शन है \(s : E \times E \to \mathbb R\) कि एम्बेड की एक जोड़ी लेता है और उनकी समानता का आकलन करने के लिए एक अदिश दिखाता है. एम्बेड किए गए कॉन्टेंट का इस्तेमाल, कैंडिडेट जनरेशन के लिए इस तरह से किया जा सकता है: क्वेरी एम्बेडिंग \(q \in E\), सिस्टम आइटम एम्बेडिंग खोजता है \(x \in E\) जो \(q\)के आस-पास है, यानी कि बेहतरीन वीडियो समानता \(s(q, x)\).

मिलते-जुलते आंकड़ों का पता लगाने के लिए, सुझाव देने वाले ज़्यादातर सिस्टम इनमें से एक या ज़्यादा पर:

  • कोज्या
  • डॉट प्रॉडक्ट
  • इयूक्लिडीन दूरी

कोसाइन

यह बस दोनों के बीच के कोण की कोसाइन है वेक्टर, \(s(q, x) = \cos(q, x)\)

डॉट उत्पाद

दो सदिशों का डॉट गुणनफल है \(s(q, x) = \langle q, x \rangle = \sum_{i = 1}^d q_i x_i\). यह \(s(q, x) = \|x\| \|q\| \cos(q, x)\) (इसकी कोसाइन मानदंड के गुणनफल से गुणा किया गया कोण). इस तरह, अगर एम्बेडिंग नॉर्मलाइज़ किया जाता है, फिर डॉट-प्रॉडक्ट और कोसाइन (cosine) से मेल खाते हैं.

इयूक्लिडीन दूरी

यह इयूक्लिडीन में सामान्य दूरी है स्पेस, \(s(q, x) = \|q - x\| = \left[ \sum_{i = 1}^d (q_i - x_i)^2\right]^{\frac{1}{2}}\). कम दूरी का मतलब है ज़्यादा समानता. ध्यान दें कि जब एम्बेडिंग सामान्य बनाया जाता है, तो वर्गाकार यूक्लिडीन दूरी और बिंदु-प्रॉडक्ट (डॉट-प्रॉडक्ट) एक-दूसरे से मेल खाते हैं (और कोसाइन) स्थिर रखें, क्योंकि केस \(\frac{1}{2}\|q - x\|^2 = 1 - \langle q, x \rangle\).

इमेज में दो डाइमेंशन में एम्बेड करने की जगह दिख रही है. इसमें एक क्वेरी एम्बेड और तीन विकल्प वाले आइटम हैं.

समानता के मापों की तुलना करना

दाईं ओर दी गई इमेज में दिए गए उदाहरण पर गौर करें. काले रंग का वेक्टर, क्वेरी एम्बेड करना. अन्य तीन एम्बेडिंग वेक्टर (आइटम A, आइटम B, आइटम C) उम्मीदवार के आइटम दिखाते हैं. समानता के माप के आधार पर, आइटम की रैंकिंग अलग हो सकती है.

इमेज का इस्तेमाल करके, इन तीनों का इस्तेमाल करके आइटम की रैंकिंग तय करने की कोशिश करें समानता के माप: कोसाइन, डॉट प्रॉडक्ट, और यूक्लिडीन दूरी.

समानता का कौनसा आकलन?

कोसाइन (cos) की तुलना में, डॉट प्रॉडक्ट की समानता इसके प्रति संवेदनशील है एम्बेड करने का मानक. इसका मतलब है कि एम्बेडिंग, समानता (एक्यूट ऐंगल वाले आइटम के लिए) जितनी ज़्यादा होगी और उस आइटम के सुझाए जाने की संभावना भी उतनी ही ज़्यादा होगी. इसका असर पड़ सकता है ये सुझाव दिए गए हैं:

  • ऐसे आइटम जो ट्रेनिंग सेट में बार-बार दिखते हैं (उदाहरण के लिए, लोकप्रिय YouTube वीडियो) में एम्बेड किए गए वीडियो बड़े पैमाने पर होते हैं. अगर लोकप्रियता की जानकारी कैप्चर करना ज़रूरी है, तो आपको डॉट प्रॉडक्ट को प्राथमिकता दें. हालांकि, यदि आप सावधान नहीं हैं, तो आइटम के सुझाव, सुझावों पर हावी हो सकते हैं. व्यावहारिक तौर पर, आप समानता के ऐसे अन्य तरीकों का इस्तेमाल कर सकते हैं जो कम जोर देते हैं आइटम के मानदंड पर. उदाहरण के लिए, इसके लिए\(s(q, x) = \|q\|^\alpha \|x\|^\alpha \cos(q, x)\) कुछ \(\alpha \in (0, 1)\).

  • हो सकता है कि के दौरान बहुत कम दिखाई देने वाले आइटम बार-बार अपडेट न किए जाएं ट्रेनिंग ली हुई है. इस वजह से, अगर उन्हें बड़े पैमाने पर शुरू किया जाता है, तो सिस्टम, ज़्यादा काम के आइटम के बजाय, खास आइटम के सुझाव दे सकता है. इससे बचने के लिए कोई समस्या है, तो इनिशलाइज़ेशन को एम्बेड करने के बारे में सावधान रहें. साथ ही, सही तरीके का इस्तेमाल करें रेगुलराइज़ेशन. हम पहले अभ्यास में इस समस्या के बारे में बताएंगे.