Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

वापस पाना

मान लें कि आपके पास एम्बेड करने वाला मॉडल है. किसी उपयोगकर्ता के लिए, यह कैसे तय किया जाएगा कि कौनसे आइटम सुझाए जाएं?

क्वेरी देखते समय, इनमें से कोई एक काम करके शुरुआत की जा सकती है:

मैट्रिक फ़ैक्टरिज़ेशन मॉडल के लिए, क्वेरी (या उपयोगकर्ता) एम्बेडिंग को स्टैटिक तौर पर जाना जाता है. सिस्टम, उपयोगकर्ता एम्बेडिंग मैट्रिक से इसे आसानी से देख सकता है.
डीडीएन मॉडल के लिए, सिस्टम फ़ीचर वेक्टर पर नेटवर्क चलाकर, क्वेरी एम्बेडिंग \(\psi(x)\) को दिखाने के समय कैलकुलेट करता है \(x\).

क्वेरी एम्बेड करने के बाद \(q\), एम्बेडिंग स्पेस में ऐसे आइटम एम्बेड\(V_j\) खोजें जो \(q\) के करीब हों. यह नियरेस्ट नेबर समस्या है. उदाहरण के लिए, मिलते-जुलते आइटम के स्कोर के हिसाब से, सबसे ज़्यादा k आइटम दिखाए जा सकते हैं \(s(q, V_j)\).

दो डाइमेंशन वाली स्पेक्ट्रम की इमेज, जिसमें कई फ़िल्में और उपयोगकर्ता दिखाए गए हैं. इन्हें बच्चों की फ़िल्मों से लेकर वयस्कों की फ़िल्मों तक, और आर्टहाउस से लेकर ब्लॉकबस्टर तक के हिसाब से व्यवस्थित किया गया है. एक उपयोगकर्ता और आस-पास की दो फ़िल्मों को हाइलाइट किया गया है.

मिलते-जुलते आइटम के सुझावों में भी इसी तरह का तरीका अपनाया जा सकता है. उदाहरण के लिए, जब कोई उपयोगकर्ता YouTube वीडियो देख रहा हो, तो सिस्टम सबसे पहले उस आइटम को एम्बेड करने का तरीका देख सकता है. इसके बाद, एम्बेड करने के लिए उपलब्ध जगह के आस-पास मौजूद,\(V_j\) अन्य आइटम को एम्बेड करने का तरीका देख सकता है.

बड़े पैमाने पर डेटा वापस पाना

एम्बेडिंग स्पेस में सबसे मिलते-जुलते वैरिएंट का हिसाब लगाने के लिए, सिस्टम हर संभावित वैरिएंट को स्कोर कर सकता है. बहुत बड़े कॉर्पोरा के लिए काफ़ी स्कोरिंग महंगा हो सकता है, लेकिन इसे ज़्यादा असरदार बनाने के लिए इनमें से किसी भी रणनीति का इस्तेमाल किया जा सकता है:

अगर क्वेरी एम्बेडिंग को स्टैटिक तौर पर जाना जाता है, तो सिस्टम ऑफ़लाइन स्कोरिंग कर सकता है. साथ ही, हर क्वेरी के लिए सबसे अच्छे उम्मीदवारों की सूची को पहले से कैलकुलेट और सेव कर सकता है. मिलते-जुलते आइटम के सुझाव के लिए, यह एक आम तरीका है.
आस-पास के अनुमानित लोगों का इस्तेमाल करें. Google, GitHub पर एक ओपन-सोर्स टूल उपलब्ध कराता है. इसे ScaNN कहा जाता है (Scalable Nearest Neighbors). यह टूल, बड़े पैमाने पर वेक्टर के मिलते-जुलते कॉन्टेंट को खोजने में काफ़ी असरदार है.

वापस पाना संग्रह की मदद से व्यवस्थित रहें अपनी प्राथमिकताओं के आधार पर, कॉन्टेंट को सेव करें और कैटगरी में बांटें.

बड़े पैमाने पर डेटा वापस पाना

वापस पाना