इस पेज का अनुवाद Cloud Translation API से किया गया है.

एलएलएम: बड़ा लैंग्वेज मॉडल क्या है?

नई टेक्नोलॉजी, लार्ज लैंग्वेज मॉडल (एलएलएम), टोकन या टोकन के क्रम का अनुमान लगाती है. कभी-कभी, अनुमानित टोकन कई पैराग्राफ़ के बराबर होते हैं. ध्यान रखें कि कोई टोकन एक शब्द, एक सबवर्ड (किसी शब्द का सबसेट) या एक वर्ण भी हो सकता है. एलएलएम, एन-ग्राम लैंग्वेज मॉडल या रिकरंट न्यूरल नेटवर्क की तुलना में बेहतर अनुमान लगाते हैं. इसकी वजह यह है कि:

एलएलएम में, रिकरंट मॉडल की तुलना में कहीं ज़्यादा पैरामीटर होते हैं.
एलएलएम, ज़्यादा जानकारी इकट्ठा करते हैं.

इस सेक्शन में, एलएलएम बनाने के लिए सबसे ज़्यादा इस्तेमाल किए जाने वाले और सबसे असरदार आर्किटेक्चर के बारे में बताया गया है: ट्रांसफ़ॉर्मर.

ट्रांसफ़ॉर्मर क्या है?

ट्रांसफ़ॉर्मर, कई तरह के लैंग्वेज मॉडल ऐप्लिकेशन के लिए सबसे बेहतरीन आर्किटेक्चर हैं. जैसे, अनुवाद करना:

इमेज 1. इनपुट यह है: मैं एक अच्छा कुत्ता हूँ. ट्रांसफ़ॉर्मर पर आधारित अनुवादक, उस इनपुट को आउटपुट में बदल देता है: Je suis un bon chien. यह वही वाक्य है जिसका फ़्रेंच में अनुवाद किया गया है. — **इमेज 1.** यह ट्रांसफ़ॉर्मर पर आधारित एक ऐप्लिकेशन है, जो अंग्रेज़ी से फ़्रेंच में अनुवाद करता है.

फ़ुल ट्रांसफ़ॉर्मर में एक एन्कोडर और एक डिकोडर होता है:

एनकोडर, इनपुट टेक्स्ट को इंटरमीडिएट फ़ॉर्मैट में बदलता है. एन्कोडर एक बहुत बड़ा न्यूरल नेट होता है.
डिकोडर, उस इंटरमीडिएट रिप्रेजेंटेशन को काम के टेक्स्ट में बदलता है. डीकोडर भी एक बहुत बड़ा न्यूरल नेट होता है.

उदाहरण के लिए, अनुवादक में:

एनकोडर, इनपुट टेक्स्ट (उदाहरण के लिए, अंग्रेज़ी का कोई वाक्य) को किसी इंटरमीडिएट फ़ॉर्मैट में बदलता है.
डिकोडर, इंटरमीडिएट रिप्रज़ेंटेशन को आउटपुट टेक्स्ट में बदलता है. उदाहरण के लिए, फ़्रेंच में मौजूद वाक्य.

इमेज 2. ट्रांसफ़ॉर्मर पर आधारित अनुवादक, एन्कोडर से शुरू होता है. यह एन्कोडर, अंग्रेज़ी के वाक्य का इंटरमीडिएट वर्शन जनरेट करता है. डिकोडर, इंटरमीडिएट रिप्रज़ेंटेशन को फ़्रेंच भाषा के आउटपुट वाक्य में बदलता है. — **दूसरी इमेज.** पूरे ट्रांसफ़ॉर्मर में, एनकोडर और डिकोडर, दोनों शामिल होते हैं.

सिर्फ़ पैरामीटर और मैक्रो को माइग्रेट करने के बारे में ज़्यादा जानने के लिए, आइकॉन पर क्लिक करें.

इस मॉड्यूल में, पूरे ट्रांसफ़ॉर्मर पर फ़ोकस किया गया है. इनमें एन्कोडर और डिकोडर, दोनों शामिल होते हैं. हालांकि, सिर्फ़ एन्कोडर और सिर्फ़ डिकोडर वाले आर्किटेक्चर भी मौजूद हैं:

सिर्फ़ एन्कोडर वाले आर्किटेक्चर, इनपुट टेक्स्ट को इंटरमीडिएट रिप्रेज़ेंटेशन (अक्सर, एक एंबेडिंग लेयर) में मैप करते हैं. सिर्फ़ एनकोडर आर्किटेक्चर के इस्तेमाल के उदाहरणों में ये शामिल हैं:
- इनपुट सीक्वेंस में किसी भी टोकन का अनुमान लगाना (जो कि भाषा मॉडल की पारंपरिक भूमिका है).
- बेहतर तरीके से एम्बेड करना, जिसका इस्तेमाल किसी अन्य सिस्टम के इनपुट के तौर पर किया जा सकता है. जैसे, क्लासिफ़ायर.
डिकोडर-ओनली आर्किटेक्चर, पहले से जनरेट किए गए टेक्स्ट से नए टोकन जनरेट करते हैं. डिकोडर-ओनली मॉडल, आम तौर पर सीक्वेंस जनरेट करने में बेहतर होते हैं; डिकोडर-ओनली मॉडल, जनरेट करने की अपनी क्षमता का इस्तेमाल करके, बातचीत के इतिहास और अन्य प्रॉम्प्ट को जारी रख सकते हैं.

सेल्फ़-अटेंशन क्या है?

टेक्स्ट के कॉन्टेक्स्ट को बेहतर बनाने के लिए, ट्रांसफ़ॉर्मर सेल्फ़-अटेंशन नाम के कॉन्सेप्ट पर काफ़ी हद तक निर्भर करते हैं. इनपुट के हर टोकन के लिए, सेल्फ़-अटेंशन यह सवाल पूछता है:

"इनपुट के हर दूसरे टोकन का, इस टोकन की व्याख्या पर कितना असर पड़ता है?"

"सेल्फ़-अटेंशन" में "सेल्फ़" का मतलब इनपुट सीक्वेंस से है. अटेंशन मैकेनिज़्म के कुछ तरीके, इनपुट टोकन के संबंधों को आउटपुट सीक्वेंस में मौजूद टोकन के साथ तौलते हैं. जैसे, अनुवाद या किसी अन्य सीक्वेंस में मौजूद टोकन. हालांकि, सेल्फ़-अटेंशन सिर्फ़ इनपुट सीक्वेंस में मौजूद टोकन के बीच के संबंधों को ध्यान में रखता है.

इसे आसान बनाने के लिए, मान लें कि हर टोकन एक शब्द है और पूरा कॉन्टेक्स्ट सिर्फ़ एक वाक्य है. इस वाक्य पर ध्यान दें:

The animal didn't cross the street because it was too tired.

ऊपर दिए गए वाक्य में ग्यारह शब्द हैं. यहां दिए गए ग्यारह शब्दों में से हर शब्द, बाकी दस शब्दों पर ध्यान दे रहा है. साथ ही, यह सोच रहा है कि उन दस शब्दों में से हर शब्द उसके लिए कितना ज़रूरी है. उदाहरण के लिए, ध्यान दें कि वाक्य में सर्वनाम यह शामिल है. सर्वनाम अक्सर अस्पष्ट होते हैं. सर्वनाम it का इस्तेमाल आम तौर पर हाल ही में इस्तेमाल किए गए संज्ञा या संज्ञा वाक्यांश के लिए किया जाता है. हालांकि, उदाहरण के तौर पर दिए गए वाक्य में, हाल ही में इस्तेमाल की गई किस संज्ञा के लिए it का इस्तेमाल किया गया है—जानवर या सड़क?

सेल्फ़-अटेंशन मैकेनिज़्म से यह पता चलता है कि हर आस-पास का शब्द, सर्वनाम यह से कितना मिलता-जुलता है. तीसरी इमेज में नतीजे दिखाए गए हैं. लाइन जितनी नीली होगी, उस शब्द की भूमिका सर्वनाम it के लिए उतनी ही अहम होगी. इसका मतलब है कि सर्वनाम it के लिए, street की तुलना में animal ज़्यादा अहम है.

इमेज 3. वाक्य में मौजूद ग्यारह शब्दों में से हर शब्द, सर्वनाम 'यह' से कितना मिलता-जुलता है:
'जानवर सड़क पार नहीं कर सका, क्योंकि वह बहुत थका हुआ था' 'यह' सर्वनाम के लिए, 'जानवर' शब्द सबसे ज़्यादा काम का है. — **इमेज 3.** सर्वनाम it के लिए सेल्फ़-अटेंशन. From Transformer: A Novel Neural Network Architecture for Language Understanding.

इसके उलट, मान लें कि वाक्य का आखिरी शब्द इस तरह बदलता है:

The animal didn't cross the street because it was too wide.

बदले गए इस वाक्य में, उम्मीद है कि सेल्फ-अटेंशन, यह सर्वनाम के लिए जानवर की तुलना में सड़क को ज़्यादा काम का मानेगा.

सेल्फ़-अटेंशन के कुछ तरीके द्विदिश होते हैं. इसका मतलब है कि वे उस शब्द से पहले और बाद आने वाले टोकन के लिए, काम के होने के स्कोर का हिसाब लगाते हैं जिस पर ध्यान दिया जा रहा है. उदाहरण के लिए, तीसरे डायग्राम में देखें कि it के दोनों ओर के शब्दों की जांच की गई है. इसलिए, दोनों दिशाओं में काम करने वाला सेल्फ़-अटेंशन मैकेनिज़्म, किसी शब्द के दोनों ओर मौजूद शब्दों से कॉन्टेक्स्ट इकट्ठा कर सकता है. इसके उलट, एकतरफ़ा सेल्फ़-अटेंशन मैकेनिज़्म, सिर्फ़ उन शब्दों से कॉन्टेक्स्ट इकट्ठा कर सकता है जो उस शब्द के एक तरफ़ मौजूद हैं जिस पर ध्यान दिया जा रहा है. दोनों दिशाओं में ध्यान देने की सुविधा, पूरी सीक्वेंस के बारे में जानकारी जनरेट करने के लिए खास तौर पर उपयोगी होती है. वहीं, टोकन-बाय-टोकन सीक्वेंस जनरेट करने वाले ऐप्लिकेशन के लिए, एक ही दिशा में ध्यान देने की सुविधा ज़रूरी होती है. इस वजह से, एनकोडर में दोनों दिशाओं में काम करने वाले सेल्फ़-अटेंशन का इस्तेमाल किया जाता है, जबकि डिकोडर में एक ही दिशा में काम करने वाले सेल्फ़-अटेंशन का इस्तेमाल किया जाता है.

मल्टी-हेड मल्टी-लेयर सेल्फ़-अटेंशन क्या है?

आम तौर पर, हर सेल्फ-अटेंशन लेयर में कई सेल्फ़-अटेंशन हेड होते हैं. किसी लेयर का आउटपुट, अलग-अलग हेड के आउटपुट पर की गई गणितीय कार्रवाई (उदाहरण के लिए, वेटेड एवरेज या डॉट प्रॉडक्ट) होता है.

हर हेड के पैरामीटर को रैंडम वैल्यू पर सेट किया जाता है. इसलिए, अलग-अलग हेड, हर शब्द और उसके आस-पास के शब्दों के बीच अलग-अलग संबंध सीख सकते हैं. उदाहरण के लिए, पिछले सेक्शन में बताए गए सेल्फ़-अटेंशन हेड का फ़ोकस यह पता लगाने पर था कि सर्वनाम it किस संज्ञा के लिए इस्तेमाल किया गया है. हालांकि, उसी लेयर में मौजूद अन्य सेल्फ़-अटेंशन हेड, हर शब्द के लिए व्याकरण के हिसाब से सही शब्द के बारे में जान सकते हैं या अन्य इंटरैक्शन के बारे में जान सकते हैं.

एक ट्रांसफ़ॉर्मर मॉडल में, एक के ऊपर एक कई सेल्फ़-अटेंशन लेयर होती हैं. पिछली लेयर का आउटपुट, अगली लेयर के लिए इनपुट बन जाता है. इस स्टैकिंग की मदद से मॉडल, टेक्स्ट को ज़्यादा जटिल और अमूर्त तरीके से समझ पाता है. शुरुआती लेयर में, बुनियादी सिंटैक्स पर फ़ोकस किया जा सकता है. वहीं, डीपर लेयर में उस जानकारी को इंटिग्रेट किया जा सकता है, ताकि बारीकी से समझने वाले कॉन्सेप्ट को समझा जा सके. जैसे, पूरे इनपुट में भावना, कॉन्टेक्स्ट, और थीमैटिक लिंक.

एलएलएम के लिए Big O के बारे में जानने के लिए, आइकॉन पर क्लिक करें.

सेल्फ़-अटेंशन की वजह से, कॉन्टेक्स्ट में मौजूद हर शब्द को यह पता चलता है कि कॉन्टेक्स्ट में मौजूद बाकी शब्द कितने ज़रूरी हैं. इसलिए, इसे O(N²) समस्या के तौर पर देखा जा सकता है. यहां:

N, कॉन्टेक्स्ट में मौजूद टोकन की संख्या है.

अगर इससे पहले वाला Big O काफ़ी नहीं था, तो Transformers में कई सेल्फ़-अटेंशन लेयर और हर सेल्फ़-अटेंशन लेयर के लिए कई सेल्फ़-अटेंशन हेड होते हैं. इसलिए, Big O असल में यह है:

O(N² · S · D)

कहां:

S, सेल्फ़-अटेंशन लेयर की संख्या है.
D, हर लेयर के लिए हेड की संख्या है.

एलएलएम को ट्रेनिंग देने के तरीके के बारे में ज़्यादा जानने के लिए, आइकॉन पर क्लिक करें.

शायद ही कभी आपको एलएलएम को शुरू से ट्रेन करने की ज़रूरत पड़े. इंडस्ट्रियल-स्ट्रेंथ एलएलएम को ट्रेन करने के लिए, एमएल के बारे में बहुत ज़्यादा जानकारी, कंप्यूटेशनल रिसॉर्स, और समय की ज़रूरत होती है. आपने ज़्यादा जानने के लिए आइकॉन पर क्लिक किया है. इसलिए, हम आपको इसकी वजह बताएंगे.

एलएलएम बनाने के लिए, ट्रेनिंग डेटा (टेक्स्ट) की बहुत ज़्यादा मात्रा की ज़रूरत होती है. आम तौर पर, यह डेटा कुछ हद तक फ़िल्टर किया गया होता है. ट्रेनिंग के पहले फ़ेज़ में, आम तौर पर ट्रेनिंग डेटा पर बिना निगरानी वाली लर्निंग का इस्तेमाल किया जाता है. खास तौर पर, मॉडल को मास्क किए गए अनुमानों के आधार पर ट्रेन किया जाता है. इसका मतलब है कि ट्रेनिंग डेटा में मौजूद कुछ टोकन को जान-बूझकर छिपाया जाता है. मॉडल, उन छूटे हुए टोकन का अनुमान लगाकर ट्रेन होता है. उदाहरण के लिए, मान लें कि यहां दिया गया वाक्य ट्रेनिंग डेटा का हिस्सा है:

The residents of the sleepy town weren't prepared for what came next.

रैंडम टोकन हटा दिए जाते हैं. उदाहरण के लिए:

The ___ of the sleepy town weren't prepared for ___ came next.

एलएलएम सिर्फ़ एक न्यूरल नेट होता है. इसलिए, लॉस (मास्क किए गए टोकन की वह संख्या जिसे मॉडल ने सही माना) से यह पता चलता है कि बैकप्रॉपैगेशन, पैरामीटर वैल्यू को किस हद तक अपडेट करता है.

ट्रांसफ़ॉर्मर पर आधारित मॉडल को, धीरे-धीरे मौजूद न होने वाले डेटा का अनुमान लगाने के लिए ट्रेन किया जाता है. यह मॉडल, डेटा में पैटर्न और हायर-ऑर्डर स्ट्रक्चर का पता लगाना सीखता है, ताकि मौजूद न होने वाले टोकन के बारे में सुराग मिल सके. मास्क किए गए इंस्टेंस का यह उदाहरण देखें:

Oranges are traditionally ___ by hand. Once clipped from a tree, __ don't ripen.

मास्क किए गए उदाहरणों की बड़ी संख्या में ट्रेनिंग देने से, एलएलएम यह जान पाता है कि "harvested" या "picked" पहले टोकन के लिए सबसे सही मैच हैं. साथ ही, "oranges" या "they" दूसरे टोकन के लिए अच्छे विकल्प हैं.

निर्देशों के मुताबिक काम करने की सुविधा नाम की एक वैकल्पिक ट्रेनिंग से, एलएलएम को निर्देशों के मुताबिक काम करने में मदद मिलती है.

ट्रांसफ़ॉर्मर इतने बड़े क्यों होते हैं?

ट्रांसफ़ॉर्मर में, सैकड़ों अरब या खरबों पैरामीटर होते हैं. इस कोर्स में, आम तौर पर ज़्यादा पैरामीटर वाले मॉडल के बजाय कम पैरामीटर वाले मॉडल बनाने का सुझाव दिया गया है. आखिरकार, कम पैरामीटर वाला मॉडल, ज़्यादा पैरामीटर वाले मॉडल की तुलना में अनुमान लगाने के लिए कम संसाधनों का इस्तेमाल करता है. हालांकि, रिसर्च से पता चलता है कि ज़्यादा पैरामीटर वाले ट्रांसफ़ॉर्मर, कम पैरामीटर वाले ट्रांसफ़ॉर्मर से बेहतर परफ़ॉर्म करते हैं.

लेकिन, एलएलएम टेक्स्ट कैसे जनरेट करता है?

आपने देखा कि रिसर्चर, एलएलएम को एक या दो शब्दों का अनुमान लगाने के लिए कैसे ट्रेन करते हैं. हालांकि, आपको यह तरीका पसंद नहीं आया होगा. आखिरकार, एक या दो शब्दों का अनुमान लगाना, टेक्स्ट, ईमेल, और ऑथरिंग सॉफ़्टवेयर में शामिल अपने-आप पूरा होने वाली सुविधा है. आपके मन में यह सवाल उठ रहा होगा कि एलएलएम, आर्बिट्राज के बारे में वाक्य, पैराग्राफ़ या हाइकू कैसे जनरेट कर सकते हैं.

दरअसल, एलएलएम, ऑटोकंप्लीट करने के ऐसे तरीके हैं जो हज़ारों टोकन का अपने-आप अनुमान लगा सकते हैं (पूरा कर सकते हैं). उदाहरण के लिए, इस वाक्य को देखें. इसके बाद, मास्क किया गया वाक्य देखें:

My dog, Max, knows how to perform many traditional dog tricks.
___ (masked sentence)

एलएलएम, मास्क किए गए वाक्य के लिए ये संभावनाएं जनरेट कर सकता है:

प्रॉबेबिलिटी	शब्द
3.1%	उदाहरण के लिए, वह बैठ सकता है, रुक सकता है, और करवट ले सकता है.
2.9%	उदाहरण के लिए, उसे बैठने, रुकने, और करवट बदलने का तरीका पता है.

एलएलएम काफ़ी बड़ा होने पर, पैराग्राफ़ और पूरे निबंध के लिए संभावनाएं जनरेट कर सकता है. किसी एलएलएम से उपयोगकर्ता के पूछे गए सवालों को "दिया गया" वाक्य माना जा सकता है. इसके बाद, एक काल्पनिक मास्क होता है. उदाहरण के लिए:

User's question: What is the easiest trick to teach a dog?
LLM's response:  ___

एलएलएम, अलग-अलग जवाबों के लिए संभावनाएँ जनरेट करता है.

एक अन्य उदाहरण के तौर पर, गणित की "इबारती समस्याओं" के बड़े डेटासेट पर ट्रेन किया गया एलएलएम, गणितीय तर्क को बेहतर तरीके से हल कर सकता है. हालांकि, वे एलएलएम मूल रूप से, शब्द से जुड़ी समस्या के प्रॉम्प्ट को अपने-आप पूरा कर रहे हैं.

एलएलएम के फ़ायदे

एलएलएम, टारगेट ऑडियंस की अलग-अलग कैटगरी के लिए, साफ़ तौर पर और आसानी से समझ में आने वाला टेक्स्ट जनरेट कर सकते हैं. एलएलएम, उन टास्क के बारे में अनुमान लगा सकते हैं जिनके लिए उन्हें साफ़ तौर पर ट्रेनिंग दी गई है. कुछ शोधकर्ताओं का दावा है कि एलएलएम, ऐसे इनपुट के लिए भी अनुमान लगा सकते हैं जिनके लिए उन्हें साफ़ तौर पर ट्रेन नहीं किया गया है. हालांकि, अन्य शोधकर्ताओं ने इस दावे को खारिज कर दिया है.

एलएलएम से जुड़ी समस्याएं

एलएलएम को ट्रेन करने में कई समस्याएं आती हैं. जैसे:

ट्रेनिंग के लिए बहुत बड़ा डेटा सेट इकट्ठा करना.
इसमें कई महीने लगते हैं. साथ ही, इसमें बहुत ज़्यादा कंप्यूटेशनल संसाधनों और बिजली की खपत होती है.
पैरललिज़्म से जुड़ी समस्याओं को हल करना.

अनुमान लगाने के लिए एलएलएम का इस्तेमाल करने से, ये समस्याएं होती हैं:

एलएलएम भ्रमित हो जाते हैं. इसका मतलब है कि उनके अनुमानों में अक्सर गलतियां होती हैं.
एलएलएम को बहुत ज़्यादा कंप्यूटेशनल रिसॉर्स और बिजली की ज़रूरत होती है. आम तौर पर, बड़े डेटासेट पर एलएलएम को ट्रेन करने से, अनुमान लगाने के लिए ज़रूरी संसाधनों की संख्या कम हो जाती है. हालांकि, बड़े ट्रेनिंग सेट के लिए ज़्यादा ट्रेनिंग संसाधनों की ज़रूरत होती है.
सभी एमएल मॉडल की तरह, एलएलएम में भी हर तरह का पूर्वाग्रह दिख सकता है.

एक्सरसाइज़: देखें कि आपको कितना समझ आया

मान लें कि किसी ट्रांसफ़ॉर्मर को एक अरब दस्तावेज़ों पर ट्रेन किया गया है. इनमें ऐसे हज़ारों दस्तावेज़ शामिल हैं जिनमें कम से कम एक बार हाथी शब्द का इस्तेमाल किया गया है. इनमें से कौनसी बातें सही हो सकती हैं?

बबूल के पेड़, हाथी के खाने का एक अहम हिस्सा हैं. हाथी शब्द के साथ, बबूल के पेड़ों को धीरे-धीरे ज़्यादा सेल्फ़-अटेंशन स्कोर मिलेगा.

हां. इससे ट्रांसफ़ॉर्मर को हाथी के खाने के बारे में सवालों के जवाब देने में मदद मिलेगी.

ट्रांसफ़ॉर्मर, हाथी शब्द को उन मुहावरों से जोड़ेगा जिनमें हाथी शब्द शामिल है.

हां, सिस्टम हाथी शब्द और हाथी से जुड़े मुहावरों में इस्तेमाल किए गए अन्य शब्दों के बीच, ज़्यादा से ज़्यादा सेल्फ़-अटेंशन स्कोर अटैच करना शुरू कर देगा.

ट्रेनिंग डेटा में हाथी शब्द का व्यंग्यात्मक या कटाक्ष के तौर पर इस्तेमाल होने पर, ट्रांसफ़ॉर्मर धीरे-धीरे इसे अनदेखा करना सीख जाएगा.

बड़े ट्रांसफ़ॉर्मर मॉडल को बड़े ट्रेनिंग सेट पर ट्रेन किया जाता है. इसलिए, वे व्यंग्य, मज़ाक़, और तंज़ को आसानी से पहचान लेते हैं. इसलिए, व्यंग्य और तंज़ को अनदेखा करने के बजाय, Transformer इनसे सीखता है.

पीछे जाएं

परिचय: लैंग्वेज मॉडल क्या है? (10 मिनट)

आगे बढ़ें

बेहतर बनाने, डेटा को छोटा करने, और प्रॉम्प्ट इंजीनियरिंग के बारे में जानकारी (10 मिनट)