एम्बेड करना: लोअर-डाइमेंशन वाले स्पेस में अनुवाद करना

embedding कम डाइमेंशन वाला स्पेस जिसमें अनुवाद किया जा सकता है हाई-डाइमेंशन वाले वेक्टर. हाई-डायमेंशनल बनाम निम्न-आयामी डेटा, कैटगरिकल डेटा मॉड्यूल का इस्तेमाल नहीं किया जाएगा.

एम्बेड करने की सुविधा से, मशीन लर्निंग के लिए ज़्यादा से ज़्यादा फ़ीचर वेक्टर, जैसे इसका मतलब है कि कम जानकारी वाले वेक्टर, खाने में इस्तेमाल होने वाले उन आइटम को दिखाते हैं जिनके बारे में पिछला सेक्शन. आम तौर पर, एम्बेड करने से एक जैसे इनपुट को पास में रखकर, इनपुट के सिमेंटिक्स एक साथ जोड़ सकते हैं. उदाहरण के लिए, एक अच्छी एम्बेडिंग "कार" शब्द "गेराज" के पास नहीं होती. एम्बेड करने की ट्रेनिंग दी जा सकती है और कई मॉडल में फिर से इस्तेमाल किया जा सकता है.

यह अनुमान लगाने के लिए कि एम्बेड करने वाले वेक्टर जानकारी को कैसे दिखाते हैं, इन बातों पर गौर करें पकवानों को एक डाइमेंशन वाले तरीके से दिखाया गया है. हॉट डॉग, पिज़्ज़ा, सलाद, शावर्मा, और बोर्स्ट, "कम से कम सैंडविच" से लेकर "सबसे ज़्यादा सैंडविच की तरह" हैं. "सैंडविच" ही एक डाइमेंशन होता है.

चित्र 3.  सैंडविच के किसी भी ऐक्सिस के आस-पास, सबसे कम से लेकर सबसे ज़्यादा:
    बॉर्श, सलाद, पिज़्ज़ा, हॉट डॉग, शावर्मा.
तीसरी इमेज. "सैंडविच" के काल्पनिक आयाम के साथ भोजन.

इस लाइन में जहां सेब का स्ट्रूडल गिरना? आम तौर पर, इसे hot dog और shawarma के बीच रखा जा सकता है. लेकिन सेब ऐसा लगता है कि स्ट्रडल में स्वीटनेस का एक और अतिरिक्त डाइमेंशन है. खाना है) या मिठाई (वह खाना कितना मिठाई है) जो अन्य विकल्पों से बहुत अलग होता है. नीचे दिए गए डायग्राम में यह दिखाया गया है इसके लिए "मिठाइयों" का उपयोग करें डाइमेंशन:

चित्र 4.  पहले की तरह ही चित्र, लेकिन ऊर्ध्वाधर अक्ष के साथ
    मीठापन. सेब का स्ट्रूडल, हॉट डॉग और शावर्मा के बीच है, लेकिन ये लगातार बढ़ रहे हैं
    हॉरिज़ॉन्टल ऐक्सिस पर, लेकिन डेज़र्टनेस ऐक्सिस से ऊपर.
चौथी इमेज. "सैंडविच" दोनों की मदद से बनाया गया खाना और "मिठाइयों" का हिस्सा हो.

एम्बेड करने से हर आइटम को n-डाइमेंशन वाले स्पेस में n के साथ दिखाया जाता है फ़्लोटिंग-पॉइंट नंबर (आम तौर पर –1 से 1 या 0 से 1 की रेंज में). उदाहरण के लिए, चौथी इमेज में एम्बेड किए गए हिस्से से, प्रॉडक्ट के हर उस आइटम के बारे में पता चलता है जो दो निर्देशांक वाला द्वि-आयामी स्पेस. आइटम "सेब स्ट्रूडल" में है ग्राफ़ के ऊपरी-दाएं क्वाड्रेंट में, जिसे पॉइंट (0.5, 0.3) असाइन किया जा सकता है, जबकि "हॉट डॉग" ग्राफ़ के निचले दाएं क्वाड्रेंट में है और पॉइंट (0.2, –0.5) असाइन किया जा सकता है.

एम्बेड करते समय, दो आइटम के बीच की दूरी का हिसाब लगाया जा सकता है गणितीय तौर पर, और उन्हें इन दोनों की मिलती-जुलती समानता के तौर पर देखा जा सकता है आइटम. दो चीज़ें जो एक-दूसरे के करीब हैं, जैसे shawarma और hot dog इमेज 4 में, ये दो चीज़ों से ज़्यादा संबंधित हैं. ये चीज़ें, हर एक इमेज से ज़्यादा दूर हैं अन्य, जैसे कि apple strudel और borscht.

यह भी ध्यान दें कि इमेज 4 में, 2D स्पेस में apple strudel, इससे बहुत दूर है shawarma और hot dog की तुलना में 1D स्पेस में होने वाला खर्च इंट्यूशन: apple strudel, हॉट डॉग या शावर्मा जितना हॉट डॉग से मिलता-जुलता नहीं है कुत्ते और शावरमा एक-दूसरे के लिए अहमियत रखते हैं.

अब बोर्स्ट के बारे में सोचें, जो बाकी चीज़ों की तुलना में ज़्यादा लिक्विड है. यह एक तीसरे डाइमेंशन के बारे में बताता है, लिक्विडनेस यानी खाना कितना तरल है. उस डाइमेंशन को जोड़ने पर, आइटम को इस तरह से 3D में विज़ुअलाइज़ किया जा सकता है:

चित्र 5.  इमेज पहले जैसी ही है, लेकिन लिक्विडनेस का तीसरा ऐक्सिस है
    अन्य दो के लिए ऑर्थोगोनल और बोर्स्ट उस अक्ष के साथ बहुत दूर चला गया.
पांचवीं इमेज. "सैंडविच" की मदद से बनाए गए खाने-पीने की चीज़ें "मिठाइयों," और "लिक्विडनेस."

इस 3D स्पेस में यह काम कहां होता टैंगयुआन जाओ? यह समय है सूपी, जैसे कि बोर्स्ट और एक मीठा मिठाई, जैसे कि सेब स्ट्रूडल और निश्चित रूप से सैंडविच नहीं. यहां एक संभावित प्लेसमेंट दिया गया है:

छठी इमेज. पहले की तरह ही चित्र, लेकिन टैंगयुआन के साथ
    मीठा और तरल पदार्थ, और सैंडविच कम.
छठी इमेज. पिछली इमेज में टैंगयुआन को जोड़ा जा रहा है, ऊपर "मिठाइयों" और "लिक्विडनेस" और कम से कम "सैंडविच" का अनुभव मिलता है.

ध्यान दें कि इन तीन डाइमेंशन में कितनी जानकारी दी गई है. आपके पास अतिरिक्त डाइमेंशन की कल्पना करने का भी विकल्प है, जैसे कि मीटनेस या बेक्डनेस.

असल दुनिया के कॉन्टेंट को एम्बेड करने की जगहें

जैसा कि आपने ऊपर दिए गए खाने के उदाहरणों में देखा कि एक छोटी सी कई डाइमेंशन वाली जगह वाक्यात्मक रूप से समान आइटमों को एक साथ रखने और उन्हें एक-दूसरे से काफ़ी दूर हैं. वेक्टर में स्थिति (दूरी और दिशा) स्पेस एक अच्छी एम्बेडिंग में सिमेंटिक्स को कोड में बदल सकता है. उदाहरण के लिए, निम्न असल एम्बेड करने के विज़ुअलाइज़ेशन, ज्यामितीय संबंधों को दिखाते हैं एक देश और उसकी राजधानी के लिए शब्दों के बीच में अंतर होता है. आप देख सकते हैं कि "कनाडा" से "ओटावा" के लिए "तुर्किये" से दूरी करीब समान है से "अंकारा".

सातवीं इमेज. शब्द एम्बेड करने के तीन उदाहरण, जो शब्द के बारे में बताते हैं
      ज्यामितीय संबंध: लिंग (पुरुष/महिला और राजा/रानी मोटे तौर पर
      समान लंबाई), क्रिया काल (चलना/चलना और तैरना/स्वैम मोटे तौर पर)
      समान लम्बाई) और राजधानी शहर (तुर्किये/अंकारा और वियतनाम/हनोई)
      लंबाई के बराबर है).
सातवीं इमेज. कॉन्टेंट को एम्बेड करने से, शानदार आइडिया मिल सकते हैं.

बेहतर एम्बेड करने की जगह से, मशीन लर्निंग मॉडल को पैटर्न का पता लगाने में मदद मिलती है ट्रेनिंग के दौरान.

कसरत

इस अभ् यास में, आप एम्बेडिंग ऐप् लिकेशन किसी शब्द को विज़ुअलाइज़ करने के लिए प्रोजेक्टर टूल word2vec नाम के एम्बेड किए गए वीडियो को वेक्टर स्पेस में अंग्रेज़ी के 70,000 से ज़्यादा शब्दों का प्रतिनिधित्व करता है.

कार्य 1

नीचे दिए गए काम करें और फिर नीचे दिए गए सवाल का जवाब दें.

  1. एम्बेडिंग प्रोजेक्टर टूल खोलें.

  2. दाएं पैनल में, सर्च फ़ील्ड में एटम शब्द डालें. इसके बाद नीचे दिए गए (चार मैच में दिए गए) नतीजे में से, atom शब्द पर क्लिक करें. आपका स्क्रीन, इमेज 8 जैसी दिखनी चाहिए.

    आठवीं इमेज. 'परमाणु' वाले एम्बेडिंग प्रोजेक्टर टूल का स्क्रीनशॉट
    दर्ज किया गया है (लाल रंग से बनाया गया). में मौजूद विज़ुअलाइज़ेशन
    अब टूल के बीच में, किसी एक पॉइंट के साथ 'ऐटम' शब्द जोड़ा गया है,
    और आस-पास के बिंदुओं के लिए वर्ड एनोटेशन भी जोड़ता है. 'नज़दीकी' में
    अंक' सूची, शब्द 'परमाणु', 'अणु' और 'इलेक्ट्रॉन' सूची में हैं
    वेक्टर स्पेस में 'atom' के नज़दीक वाले शब्द होते हैं.
    आठवीं इमेज. "ऐटम" शब्द के साथ प्रोजेक्टर टूल एम्बेड करना जोड़ा गया डालें.
  3. फिर से दाएं पैनल में, 101 पॉइंट अलग करें बटन (ऊपर) पर क्लिक करें खोज फ़ील्ड), atom के लिए सबसे नज़दीक के 100 शब्द दिखाने के लिए इस्तेमाल किया जाता है. आपकी स्क्रीन को चित्र 9 की तरह दिखना चाहिए.

    नौवीं इमेज. एम्बेड करने के प्रोजेक्टर टूल का स्क्रीनशॉट, जो अब
    '101 पॉइंट अलग करें' क्लिक किया गया (लाल रंग से सर्कल किया गया बटन). विज़ुअलाइज़ेशन
    अब चित्र 8 में से 'परमाणु' शब्द दिखाने के लिए अपडेट किया गया है और
    सदिश स्पेस में 100 निकटतम शब्द, जिनमें 'atoms' शब्द शामिल हैं,
    'नाभिक' और 'कण'.
    नौवीं इमेज. प्रोजेक्टर टूल एम्बेड किया जा रहा है, अब "101 पॉइंट अलग करें" के साथ क्लिक किया गया (लाल रंग से घेरा गया).

अब, ओरिजनल स्पेस में सबसे नज़दीकी पॉइंट में दिए गए शब्द देखें. आप इन शब्दों के बारे में कैसे बताएंगे?

हमारे जवाब के लिए यहां क्लिक करें

सबसे नज़दीकी शब्द ज़्यादातर ऐसे शब्द होते हैं जो आम तौर पर मिलते-जुलते होते हैं जैसे कि बहुवचन रूप "परमाणु", और ये शब्द "इलेक्ट्रॉन" "मॉलिक्यूल" और "न्यूक्लियस" का इस्तेमाल किया जाता है.

कार्य 2

ये काम करें और इसके बाद इस सवाल का जवाब दें:

  1. डेटा रीसेट करने के लिए दाएं पैनल में सभी डेटा दिखाएं बटन पर क्लिक करें विज़ुअलाइज़ेशन को टास्क 1 से लिया गया है.

  2. दाएं पैनल के, खोजें फ़ील्ड में यूरेनियम शब्द डालें. आपकी स्क्रीन 10वीं इमेज की तरह दिखनी चाहिए.

    इमेज 10. 'यूरेनियम' वाले प्रोजेक्टर टूल को एम्बेड करने का स्क्रीनशॉट
    आपने खोज फ़ील्ड में डाला हुआ है. इसके बीच में मौजूद विज़ुअलाइज़ेशन
    यह टूल किसी एक पॉइंट के बारे में 'यूरेनियम' शब्द के साथ बताता है, और
    आस-पास के बिंदुओं के लिए शब्द व्याख्याएं. 'नज़दीकी जगह' में सूची,
    शब्द 'कोयला', 'आइसोटॉप', 'निकल', 'ऑक्साइड', 'ओर', 'ज़िंक', और
    'मैंगनीज़' वेक्टर स्पेस में सबसे नज़दीकी शब्दों के तौर पर सूची में शामिल किए जाते हैं
    'यूरेनियम'.
    10वीं इमेज. प्रोजेक्टर टूल एम्बेड करना, जिसमें "यूरेनियम" शब्द हो को खोज फ़ील्ड में जोड़ा गया.

ओरिजनल स्पेस में सबसे नज़दीकी पॉइंट में दिए गए शब्द देखें. ऑफ़र कैसे दें क्या ये शब्द atom के लिए सबसे नज़दीकी शब्दों से अलग हैं?

हमारे जवाब के लिए यहां क्लिक करें

यूरेनियम का मतलब है खास रेडियोऐक्टिव केमिकल एलिमेंट और मिलते-जुलते बहुत से शब्दों में से कई अन्य एलिमेंट हैं. जैसे, ज़िंक, मैंगनीज़, कॉपर, और एल्युमिनियम.

कार्य 3

ये काम करें और इसके बाद इस सवाल का जवाब दें:

  1. डेटा रीसेट करने के लिए दाएं पैनल में सभी डेटा दिखाएं बटन पर क्लिक करें विज़ुअलाइज़ेशन को टास्क 2 से लिया गया है.

  2. दाएं पैनल के, खोजें फ़ील्ड में नारंगी शब्द डालें. आपका स्क्रीन, 11वीं इमेज की तरह दिखनी चाहिए.

    इमेज 11. 'ऑरेंज' वाले एम्बेडिंग प्रोजेक्टर टूल का स्क्रीनशॉट
    आपने खोज फ़ील्ड में डाला हुआ है. टूल के बीच में मौजूद विज़ुअलाइज़ेशन
    'ऑरेंज' शब्द के साथ किसी एक पॉइंट के बारे में बताता है, और शब्द भी जोड़ता है
    आस-पास के पॉइंट के लिए एनोटेशन. 'नज़दीकी जगह' में सूची,
    'पीला', 'हरा', 'नीला', 'बैंगनी', और 'रंग' शब्द सूची में हैं
    को सदिश स्पेस में 'नारंगी' के निकटतम शब्दों के रूप में लिखना चाहिए.
    11वीं इमेज. "ऑरेंज" शब्द के साथ प्रोजेक्टर टूल एम्बेड करना को खोज फ़ील्ड में जोड़ा गया.

ओरिजनल स्पेस में सबसे नज़दीकी पॉइंट में दिए गए शब्द देखें. यहां दिखाए गए शब्दों के टाइप और शब्दों के टाइप के बारे में आपको क्या पता चला क्या आपको यहां नहीं दिखाया गया है?

हमारे जवाब के लिए यहां क्लिक करें

तकरीबन सभी नज़दीकी शब्द दूसरे रंग होते हैं, जैसे कि "पीला", "हरा," "नीला," "बैंगनी," और "लाल". निकटतम शब्दों में से केवल एक ("जूस") शब्द का अन्य मतलब देखें (खट्टे फल). अन्य फल आपको उम्मीद दिख सकती है, जैसे कि "सेब" और "केला" सूची नहीं बनाई सबसे नज़दीक के शब्द हैं.

इस उदाहरण में, स्टैटिक एम्बेडिंग से जुड़ी एक मुख्य समस्या के बारे में बताया गया है जैसे कि Word2vec. किसी शब्द के सभी संभावित मतलब एक ही तरीके से दिखाए जाते हैं वेक्टर स्पेस में पॉइंट करते हैं, इसलिए जब "ऑरेंज" के लिए समानता का विश्लेषण किया जाता है, यह किसी खास जानकारी के लिए सबसे पास के पॉइंट को अलग करना संभव नहीं है जैसे कि "नारंगी" (फल) लेकिन "नारंगी" नहीं (रंग).