embedding कम डाइमेंशन वाला स्पेस जिसमें अनुवाद किया जा सकता है हाई-डाइमेंशन वाले वेक्टर. हाई-डायमेंशनल बनाम निम्न-आयामी डेटा, कैटगरिकल डेटा मॉड्यूल का इस्तेमाल नहीं किया जाएगा.
एम्बेड करने की सुविधा से, मशीन लर्निंग के लिए ज़्यादा से ज़्यादा फ़ीचर वेक्टर, जैसे इसका मतलब है कि कम जानकारी वाले वेक्टर, खाने में इस्तेमाल होने वाले उन आइटम को दिखाते हैं जिनके बारे में पिछला सेक्शन. आम तौर पर, एम्बेड करने से एक जैसे इनपुट को पास में रखकर, इनपुट के सिमेंटिक्स एक साथ जोड़ सकते हैं. उदाहरण के लिए, एक अच्छी एम्बेडिंग "कार" शब्द "गेराज" के पास नहीं होती. एम्बेड करने की ट्रेनिंग दी जा सकती है और कई मॉडल में फिर से इस्तेमाल किया जा सकता है.
यह अनुमान लगाने के लिए कि एम्बेड करने वाले वेक्टर जानकारी को कैसे दिखाते हैं, इन बातों पर गौर करें पकवानों को एक डाइमेंशन वाले तरीके से दिखाया गया है. हॉट डॉग, पिज़्ज़ा, सलाद, शावर्मा, और बोर्स्ट, "कम से कम सैंडविच" से लेकर "सबसे ज़्यादा सैंडविच की तरह" हैं. "सैंडविच" ही एक डाइमेंशन होता है.
इस लाइन में जहां
सेब का स्ट्रूडल
गिरना? आम तौर पर, इसे hot dog
और shawarma
के बीच रखा जा सकता है. लेकिन सेब
ऐसा लगता है कि स्ट्रडल में स्वीटनेस का एक और अतिरिक्त डाइमेंशन है.
खाना है) या मिठाई (वह खाना कितना मिठाई है) जो
अन्य विकल्पों से बहुत अलग होता है. नीचे दिए गए डायग्राम में यह दिखाया गया है
इसके लिए "मिठाइयों" का उपयोग करें डाइमेंशन:
एम्बेड करने से हर आइटम को n-डाइमेंशन वाले स्पेस में n के साथ दिखाया जाता है फ़्लोटिंग-पॉइंट नंबर (आम तौर पर –1 से 1 या 0 से 1 की रेंज में). उदाहरण के लिए, चौथी इमेज में एम्बेड किए गए हिस्से से, प्रॉडक्ट के हर उस आइटम के बारे में पता चलता है जो दो निर्देशांक वाला द्वि-आयामी स्पेस. आइटम "सेब स्ट्रूडल" में है ग्राफ़ के ऊपरी-दाएं क्वाड्रेंट में, जिसे पॉइंट (0.5, 0.3) असाइन किया जा सकता है, जबकि "हॉट डॉग" ग्राफ़ के निचले दाएं क्वाड्रेंट में है और पॉइंट (0.2, –0.5) असाइन किया जा सकता है.
एम्बेड करते समय, दो आइटम के बीच की दूरी का हिसाब लगाया जा सकता है
गणितीय तौर पर,
और उन्हें इन दोनों की मिलती-जुलती समानता के तौर पर देखा जा सकता है
आइटम. दो चीज़ें जो एक-दूसरे के करीब हैं, जैसे shawarma
और hot dog
इमेज 4 में, ये दो चीज़ों से ज़्यादा संबंधित हैं. ये चीज़ें, हर एक इमेज से ज़्यादा दूर हैं
अन्य, जैसे कि apple strudel
और borscht
.
यह भी ध्यान दें कि इमेज 4 में, 2D स्पेस में apple strudel
, इससे बहुत दूर है
shawarma
और hot dog
की तुलना में 1D स्पेस में होने वाला खर्च
इंट्यूशन: apple strudel
, हॉट डॉग या शावर्मा जितना हॉट डॉग से मिलता-जुलता नहीं है
कुत्ते और शावरमा एक-दूसरे के लिए अहमियत रखते हैं.
अब बोर्स्ट के बारे में सोचें, जो बाकी चीज़ों की तुलना में ज़्यादा लिक्विड है. यह एक तीसरे डाइमेंशन के बारे में बताता है, लिक्विडनेस यानी खाना कितना तरल है. उस डाइमेंशन को जोड़ने पर, आइटम को इस तरह से 3D में विज़ुअलाइज़ किया जा सकता है:
इस 3D स्पेस में यह काम कहां होता टैंगयुआन जाओ? यह समय है सूपी, जैसे कि बोर्स्ट और एक मीठा मिठाई, जैसे कि सेब स्ट्रूडल और निश्चित रूप से सैंडविच नहीं. यहां एक संभावित प्लेसमेंट दिया गया है:
ध्यान दें कि इन तीन डाइमेंशन में कितनी जानकारी दी गई है. आपके पास अतिरिक्त डाइमेंशन की कल्पना करने का भी विकल्प है, जैसे कि मीटनेस या बेक्डनेस.
असल दुनिया के कॉन्टेंट को एम्बेड करने की जगहें
जैसा कि आपने ऊपर दिए गए खाने के उदाहरणों में देखा कि एक छोटी सी कई डाइमेंशन वाली जगह वाक्यात्मक रूप से समान आइटमों को एक साथ रखने और उन्हें एक-दूसरे से काफ़ी दूर हैं. वेक्टर में स्थिति (दूरी और दिशा) स्पेस एक अच्छी एम्बेडिंग में सिमेंटिक्स को कोड में बदल सकता है. उदाहरण के लिए, निम्न असल एम्बेड करने के विज़ुअलाइज़ेशन, ज्यामितीय संबंधों को दिखाते हैं एक देश और उसकी राजधानी के लिए शब्दों के बीच में अंतर होता है. आप देख सकते हैं कि "कनाडा" से "ओटावा" के लिए "तुर्किये" से दूरी करीब समान है से "अंकारा".
बेहतर एम्बेड करने की जगह से, मशीन लर्निंग मॉडल को पैटर्न का पता लगाने में मदद मिलती है ट्रेनिंग के दौरान.
कसरत
इस अभ् यास में, आप एम्बेडिंग ऐप् लिकेशन किसी शब्द को विज़ुअलाइज़ करने के लिए प्रोजेक्टर टूल word2vec नाम के एम्बेड किए गए वीडियो को वेक्टर स्पेस में अंग्रेज़ी के 70,000 से ज़्यादा शब्दों का प्रतिनिधित्व करता है.
कार्य 1
नीचे दिए गए काम करें और फिर नीचे दिए गए सवाल का जवाब दें.
एम्बेडिंग प्रोजेक्टर टूल खोलें.
दाएं पैनल में, सर्च फ़ील्ड में एटम शब्द डालें. इसके बाद नीचे दिए गए (चार मैच में दिए गए) नतीजे में से, atom शब्द पर क्लिक करें. आपका स्क्रीन, इमेज 8 जैसी दिखनी चाहिए.
फिर से दाएं पैनल में, 101 पॉइंट अलग करें बटन (ऊपर) पर क्लिक करें खोज फ़ील्ड), atom के लिए सबसे नज़दीक के 100 शब्द दिखाने के लिए इस्तेमाल किया जाता है. आपकी स्क्रीन को चित्र 9 की तरह दिखना चाहिए.
अब, ओरिजनल स्पेस में सबसे नज़दीकी पॉइंट में दिए गए शब्द देखें. आप इन शब्दों के बारे में कैसे बताएंगे?
हमारे जवाब के लिए यहां क्लिक करें
सबसे नज़दीकी शब्द ज़्यादातर ऐसे शब्द होते हैं जो आम तौर पर मिलते-जुलते होते हैं जैसे कि बहुवचन रूप "परमाणु", और ये शब्द "इलेक्ट्रॉन" "मॉलिक्यूल" और "न्यूक्लियस" का इस्तेमाल किया जाता है.
कार्य 2
ये काम करें और इसके बाद इस सवाल का जवाब दें:
डेटा रीसेट करने के लिए दाएं पैनल में सभी डेटा दिखाएं बटन पर क्लिक करें विज़ुअलाइज़ेशन को टास्क 1 से लिया गया है.
दाएं पैनल के, खोजें फ़ील्ड में यूरेनियम शब्द डालें. आपकी स्क्रीन 10वीं इमेज की तरह दिखनी चाहिए.
ओरिजनल स्पेस में सबसे नज़दीकी पॉइंट में दिए गए शब्द देखें. ऑफ़र कैसे दें क्या ये शब्द atom के लिए सबसे नज़दीकी शब्दों से अलग हैं?
हमारे जवाब के लिए यहां क्लिक करें
यूरेनियम का मतलब है खास रेडियोऐक्टिव केमिकल एलिमेंट और मिलते-जुलते बहुत से शब्दों में से कई अन्य एलिमेंट हैं. जैसे, ज़िंक, मैंगनीज़, कॉपर, और एल्युमिनियम.
कार्य 3
ये काम करें और इसके बाद इस सवाल का जवाब दें:
डेटा रीसेट करने के लिए दाएं पैनल में सभी डेटा दिखाएं बटन पर क्लिक करें विज़ुअलाइज़ेशन को टास्क 2 से लिया गया है.
दाएं पैनल के, खोजें फ़ील्ड में नारंगी शब्द डालें. आपका स्क्रीन, 11वीं इमेज की तरह दिखनी चाहिए.
ओरिजनल स्पेस में सबसे नज़दीकी पॉइंट में दिए गए शब्द देखें. यहां दिखाए गए शब्दों के टाइप और शब्दों के टाइप के बारे में आपको क्या पता चला क्या आपको यहां नहीं दिखाया गया है?
हमारे जवाब के लिए यहां क्लिक करें
तकरीबन सभी नज़दीकी शब्द दूसरे रंग होते हैं, जैसे कि "पीला", "हरा," "नीला," "बैंगनी," और "लाल". निकटतम शब्दों में से केवल एक ("जूस") शब्द का अन्य मतलब देखें (खट्टे फल). अन्य फल आपको उम्मीद दिख सकती है, जैसे कि "सेब" और "केला" सूची नहीं बनाई सबसे नज़दीक के शब्द हैं.
इस उदाहरण में, स्टैटिक एम्बेडिंग से जुड़ी एक मुख्य समस्या के बारे में बताया गया है जैसे कि Word2vec. किसी शब्द के सभी संभावित मतलब एक ही तरीके से दिखाए जाते हैं वेक्टर स्पेस में पॉइंट करते हैं, इसलिए जब "ऑरेंज" के लिए समानता का विश्लेषण किया जाता है, यह किसी खास जानकारी के लिए सबसे पास के पॉइंट को अलग करना संभव नहीं है जैसे कि "नारंगी" (फल) लेकिन "नारंगी" नहीं (रंग).