एलएलएम: बड़ा लैंग्वेज मॉडल क्या है?

एक नई टेक्नोलॉजी, बड़े लैंग्वेज मॉडल (एलएलएम) टोकन या टोकन के क्रम का अनुमान लगाते हैं, कभी-कभी तो किसी एक अनुमानित टोकन. याद रखें कि टोकन कोई शब्द या सबवर्ड (एक सबसेट एक शब्द), या कोई एक वर्ण भी शामिल हो सकता है. एलएलएम की मदद से, बेहतर अनुमान लगाए जा सकते हैं बार-बार दोहराए जाने वाले न्यूरल नेटवर्क की तुलना में, N-ग्राम लैंग्वेज मॉडल और बार-बार होने वाले न्यूरल नेटवर्क की तुलना में ऐसा होता है. इसकी वजह यह है कि:

  • एलएलएम में काफ़ी ज़्यादा पैरामीटर होते हैं बार-बार होने वाले मॉडल की तुलना में ज़्यादा है.
  • एलएलएम से ज़्यादा जानकारी मिलती है.

इस सेक्शन में, सबसे सफल और बड़े पैमाने पर इस्तेमाल किए जाने वाले आर्किटेक्चर के बारे में बताया गया है ट्रांसफ़ॉर्मर: एलएलएम बनाने के लिए.

ट्रांसफ़ॉर्मर क्या है?

ट्रांसफ़ॉर्मर यहां की आधुनिक वास्तुकला का एक बेहतरीन नमूना है. भाषा मॉडल अनुप्रयोग, जैसे अनुवाद:

चित्र 1.  इनपुट है: मैं एक अच्छा कुत्ता हूं. ट्रांसफ़ॉर्मर पर आधारित
            अनुवादक उस इनपुट को आउटपुट में बदल देता है: Je suis un bon
            चिएन, जो वही वाक्य है जिसका फ़्रेंच में अनुवाद किया गया है.
पहला डायग्राम. ट्रांसफ़ॉर्मर पर आधारित ऐप्लिकेशन जो इससे अनुवाद करता है अंग्रेज़ी से फ़्रेंच.

 

फ़ुल ट्रांसफ़ॉर्मर में एक एन्कोडर और डिकोडर होता है:

  • एन्कोडर ग्राहक को बदल देता है इंटरमीडिएट प्रज़ेंटेशन में टेक्स्ट डालें. एन्कोडर एक बहुत बड़ा काम है न्यूरल नेट.
  • डीकोडर का इस्तेमाल करके कन्वर्ज़न मेज़र किया जा सकता है उसे उपयोगी टेक्स्ट के रूप में दिखाना ज़रूरी है. डिकोडर, न्यूरल नेट.

उदाहरण के लिए, किसी अनुवादक में:

  • एन्कोडर, इनपुट टेक्स्ट (उदाहरण के लिए, अंग्रेज़ी वाक्य) को प्रोसेस करता है बीच के लेवल पर शामिल होना.
  • डिकोडर उस इंटरमीडिएट प्रज़ेंटेशन को आउटपुट टेक्स्ट में बदल देता है ( उदाहरण के लिए, फ़्रेंच वाक्य का मिलता-जुलता वाक्य).
चित्र 2.  ट्रांसफ़ॉर्मर पर आधारित अनुवाद करने वाला टूल, एन्कोडर से शुरू होता है.
            इससे अंग्रेज़ी के एक सामान्य विषय का प्रतिनिधित्व
            वाक्य. डिकोडर, इंटरमीडिएट रिप्रज़ेंटेशन को
            फ़्रेंच आउटपुट वाक्य.
दूसरी इमेज. पूरे ट्रांसफ़ॉर्मर में एन्कोडर और डिकोडर, दोनों मौजूद हैं.

 

खुद का ध्यान रखना क्या है?

कॉन्टेक्स्ट को बेहतर बनाने के लिए, ट्रांसफ़ॉर्मर मुख्य रूप से खुद का ध्यान रखना. खुद पर ध्यान देने के लिए, असरदार तरीके से हर इनपुट के लिए ज़रूरी होता है नीचे दिया गया सवाल:

"इनपुट का एक-दूसरे टोकन, इसकी व्याख्या पर कितना असर डालता है टोकन?"

खुद के बारे में "खुद का ध्यान रखना" में इनपुट क्रम को दिखाता है. थोड़ा ध्यान देना मेकेनिज़्म, इनपुट टोकन के टोकन के साथ आउटपुट सीक्वेंस में, अनुवाद या किसी अन्य क्रम में टोकन के लिए. लेकिन सिर्फ़ खुद का ध्यान रखना इनपुट क्रम में टोकन के बीच के संबंधों की अहमियत को हाइलाइट करता है.

मामलों को आसान बनाने के लिए, मान लें कि हर टोकन एक शब्द है और पूरा संदर्भ सिर्फ़ एक वाक्य है. इस वाक्य पर गौर करें:

The animal didn't cross the street because it was too tired.

पिछले वाक्य में ग्यारह शब्द हैं. ग्यारह शब्दों में से हर वह बाकी दस शब्दों पर ध्यान दे रहा है और सोच रहा है कि उन दस शब्दों में से हर अपने लिए मायने रखती है. उदाहरण के लिए, देखें कि वाक्य में सर्वनाम है इसे. सर्वनामों का मतलब साफ़ तौर पर नहीं पता होता. आम तौर पर, it सर्वनाम का मतलब है हाल की संज्ञा या संज्ञा वाक्यांश, लेकिन उदाहरण में दिए गए वाक्य में, जो हाल ही की संज्ञा क्या वह किसी जानवर से जुड़ा है या सड़क?

खुद पर ध्यान देने की सुविधा से यह तय किया जाता है कि आस-पास के हर शब्द को सर्वनाम it. इमेज 3 में नतीजे दिखाए गए हैं—लाइन जितनी नीली होगी, उतने ही ज़्यादा नतीजे दिखेंगे ज़रूरी है कि शब्द, सर्वनाम इट के लिए हो. इसका मतलब है कि जानवर सर्वनाम it के लिए सड़क की जगह ज़रूरी है.

चित्र 3.  वाक्य के ग्यारह शब्दों में से हर एक की प्रासंगिकता:
            'जानवर ने सड़क पार नहीं की, क्योंकि वह बहुत थका हुआ था'
            सर्वनाम 'it' के लिए. 'पशु' शब्द सबसे ज़्यादा काम का है,
            सर्वनाम 'it'.
तीसरी इमेज. सर्वनाम it के लिए खुद का ध्यान रखना. इन्होंने भेजा: Transformer: अ नॉवल न्यूरल नेटवर्क आर्किटेक्चर भाषा की समझ.

 

इसके उलट, मान लें कि वाक्य का आखिरी शब्द इस तरह बदल जाता है:

The animal didn't cross the street because it was too wide.

इस बदले गए वाक्य में, खुद पर ध्यान देने से सड़क की रेटिंग इस तरह से हो सकती है: तो, सर्वनाम यह के मुकाबले ज़्यादा काम का होता है.

खुद पर ध्यान देने के कुछ तरीके दो-तरफ़ा होते हैं, यानी कि टोकन के लिए प्रासंगिकता के स्कोर की गणना पहले से शुरू औरपहले शब्द को इन इवेंट में हिस्सा लिया. उदाहरण के लिए, चित्र 3 में, ध्यान दें कि इसकी जांच की जाती है. इसलिए, दो तरीकों से खुद पर ध्यान देने की सुविधा की मदद से, जिस शब्द में शब्द इस्तेमाल किया जा रहा है उसके दोनों ओर मौजूद संदर्भ. इसके उलट, एकतरफ़ा खुद पर ध्यान देने की सुविधा, सिर्फ़ शब्दों से संदर्भ इकट्ठा कर सकती है उन शब्दों के एक तरफ़ मौजूद है, जिनमें हिस्सा लिया जा रहा है. दो तरीकों से खुद का ध्यान रखना यह खास तौर पर तब मददगार होता है, जब पूरी क्रमों को दिखाना हो. टोकन-दर-टोकन सीक्वेंस जनरेट करने वाले ऐप्लिकेशन के लिए एकतरफ़ा होना ज़रूरी है अपना ध्यान खींचना. इस वजह से, एन्कोडर बाय-डायरेक्शनल सेल्फ़-अटेंशन का इस्तेमाल करते हैं. जबकि डिकोडर एकतरफ़ा का इस्तेमाल करते हैं.

मल्टी-हेड सेल्फ़-अटेंशन क्या है?

खुद पर ध्यान देने की हर लेयर में, आम तौर पर कई चीज़ें शामिल होती हैं सेल्फ़-अटेंशन हेड. लेयर का आउटपुट, एक गणितीय प्रक्रिया होती है (उदाहरण के लिए, भारित औसत या डॉट प्रॉडक्ट) सिर अलग-अलग है.

खुद पर ध्यान देने वाली हर लेयर को रैंडम वैल्यू से शुरू किया जाता है, इसलिए अलग-अलग हेड जिन शब्दों को सीखने में हिस्सा लिया गया है उनके और आस-पास के शब्द. उदाहरण के लिए, ऊपर बताई गई सेक्शन में यह तय किया जाता है कि उस सर्वनाम का इस्तेमाल किस संज्ञा के लिए किया गया है. हालांकि, खुद पर ध्यान देने वाली अन्य लेयर, एक शब्द को दूसरे शब्द के साथ मिलाने या अन्य इंटरैक्शन के बारे में जानने के लिए.

ट्रांसफ़ॉर्मर इतने बड़े क्यों हैं?

ट्रांसफ़ॉर्मर में अरबों या खरबों हज़ार पैरामीटर. आम तौर पर, इस कोर्स में छोटे साइज़ वाले बिल्डिंग मॉडल के सुझाव दिए जाते हैं पैरामीटर की संख्या को, बड़ी संख्या वाले पैरामीटर की तुलना में शामिल करना. आखिरकार, कम पैरामीटर वाला मॉडल कम संसाधनों का इस्तेमाल करता है का इस्तेमाल करें. हालांकि, रिसर्च से पता चलता है कि ज़्यादा पैरामीटर वाले ट्रांसफ़ॉर्मर कम पैरामीटर वाले ट्रांसफ़ॉर्मर से लगातार बेहतर प्रदर्शन करती है.

हालाँकि, एलएलएम से टेक्स्ट जनरेट करने का तरीक़ा क्या है?

आपने देखा है कि कैसे शोधकर्ता एक या दो शब्द छूट जाने का अनुमान लगाने के लिए, एलएलएम को ट्रेनिंग देते हैं शायद वे आपसे प्रभावित न हों. आखिरकार, एक या दो शब्द का अनुमान लगाना अपने-आप पूरा होने वाली सुविधा शामिल है. आपको लग रहा होगा कि एलएलएम, वाक्य या पैराग्राफ़ कैसे जनरेट कर सकते हैं या आर्बिट्रेज के बारे में हाइकु.

एलएलएम असल में ऑटोकंप्लीट की सुविधा देते हैं. ये ऑटोकंप्लीट की सुविधा देते हैं हज़ारों टोकन का अनुमान लगाकर (पूरा हुआ) करें. उदाहरण के लिए, किसी वाक्य पर विचार करें इसके बाद, मास्क वाला वाक्य:

My dog, Max, knows how to perform many traditional dog tricks.
___ (masked sentence)

एलएलएम, मास्क वाले वाक्य के लिए प्रॉबबिलिटी जनरेट कर सकता है. इनमें ये शामिल हैं:

प्रॉबेबिलिटी शब्द
3.1% उदाहरण के लिए, वह बैठ सकता है, रह सकता है और को घुमाएं.
2.9% उदाहरण के लिए, वह जानता है कि कैसे बैठना, ठहरना, और को घुमाएं.

ज़रूरत के मुताबिक बड़ा एलएलएम, पैराग्राफ़ और पूरे पैराग्राफ़ के लिए प्रॉबबिलिटी जनरेट कर सकता है निबंध. एलएलएम से किसी व्यक्ति के सवालों को "दिया गया" वाक्य काल्पनिक मास्क लगाएं. उदाहरण के लिए:

User's question: What is the easiest trick to teach a dog?
LLM's response:  ___

एलएलएम, अलग-अलग संभावित जवाबों के लिए प्रॉबबिलिटी जनरेट करता है.

इसका एक और उदाहरण है. एलएलएम ने गणित के कई "शब्द" समस्या" यह जटिल गणितीय रीज़निंग का उदाहरण हो सकता है. हालांकि, इन एलएलएम में शब्दों के सवाल से जुड़े सवाल अपने-आप पूरे होते हैं.

एलएलएम के फ़ायदे

एलएलएम, दुनिया भर के लोगों के लिए सटीक और समझने में आसान टेक्स्ट जनरेट कर सकते हैं को टारगेट किया जा सकता है. एलएलएम, अपने टास्क का अनुमान लगा सकते हैं खास तौर पर ट्रेनिंग दी गई. कुछ रिसर्चर का दावा है कि एलएलएम से उन इनपुट के लिए अनुमानों के बारे में भी बताया गया था जिनके लिए उन्हें साफ़ तौर पर ट्रेनिंग नहीं दी गई थी. हालांकि, रिसर्चर ने इस दावे को खारिज किया है.

एलएलएम से जुड़ी समस्याएं

एलएलएम की ट्रेनिंग के दौरान, कई समस्याएं आती हैं. जैसे:

  • एक बहुत बड़ा ट्रेनिंग सेट इकट्ठा किया जा रहा है.
  • कई महीनों और बहुत सारे कंप्यूटेशनल रिसॉर्स और बिजली.
  • साथ मिलकर काम करने से जुड़ी चुनौतियों को हल करना. अभी तक किसी भी व्यक्ति ने चेक इन नहीं किया है

एलएलएम का इस्तेमाल करके, अनुमान लगाने में ये समस्याएं होती हैं:

  • एलएलएम गलत जानकारी देते हैं, इसका मतलब है कि उनके अनुमानों में अक्सर गलतियां हो सकती हैं.
  • एलएलएम में कंप्यूटेशनल संसाधनों के साथ-साथ बिजली की बहुत ज़्यादा खपत होती है. बड़े डेटासेट पर एलएलएम की ट्रेनिंग से, आम तौर पर यह पता लगाने के लिए ज़रूरी संसाधनों की संख्या है. हालांकि, काफ़ी बड़ी ट्रेनिंग सेट पर ट्रेनिंग के और संसाधन आते हैं.
  • एमएल मॉडल के अन्य सभी मॉडल की तरह, एलएलएम में भी कई तरह का पूर्वाग्रह हो सकता है.

व्यायाम: अपनी समझ की जांच करें

मान लीजिए कि एक ट्रांसफ़ॉर्मर एक अरब दस्तावेज़ों पर प्रशिक्षित है, जिसमें ये शामिल हैं ऐसे हज़ारों दस्तावेज़ जिनमें शब्द का कम से कम एक उदाहरण हो हाथी. इनमें से कौनसी बातें सही हैं?
बबूल के पेड़, जो हाथी के आहार का एक महत्वपूर्ण हिस्सा होता है, हाथी.
हां और इससे ट्रांसफ़ॉर्मर, सवालों के जवाब दे पाएगा किसी हाथी का आहार.
ट्रांसफ़ॉर्मर एलिमेंट शब्द को मुहावरे, जिनमें हाथी शब्द शामिल होता है.
हां, सिस्टम खुद पर निगरानी रखने के लिए ज़्यादा स्कोर जोड़ना शुरू कर देगा हाथी शब्द और अन्य शब्दों के बीच हाथी मुहावरे.
ट्रांसफ़ॉर्मर, धीरे-धीरे व्यंग्य या कटाक्ष को नज़रअंदाज़ करना सीख जाएगा ट्रेनिंग के डेटा में एलिफेंट शब्द का इस्तेमाल किया गया हो.
काफ़ी बड़े ट्रांसफ़ॉर्मर, काफ़ी बड़े पैमाने पर काम करते हैं ट्रेनिंग सेट में व्यंग्य, हंसी-मज़ाक़, और और व्यंग्य है. इसलिए, व्यंग्य और तंज़ को अनदेखा करने के बजाय, ट्रांसफ़ॉर्मर इससे सीखता है.
अभी तक किसी भी व्यक्ति ने चेक इन नहीं किया है