एलएलएम: बड़ा लैंग्वेज मॉडल क्या है?

बड़े लैंग्वेज मॉडल (एलएलएम) एक नई टेक्नोलॉजी है. इससे, किसी टोकन या टोकन के क्रम का अनुमान लगाया जाता है. कभी-कभी, कई पैराग्राफ़ के अनुमानित टोकन मिलते हैं. याद रखें कि टोकन कोई शब्द, कोई सबवर्ड (किसी शब्द का सबसेट) या एक वर्ण भी हो सकता है. एलएलएम, एन-ग्राम लैंग्वेज मॉडल या बार-बार इस्तेमाल होने वाले न्यूरल नेटवर्क के मुकाबले काफ़ी बेहतर अनुमान लगाते हैं, क्योंकि:

  • बार-बार इस्तेमाल होने वाले मॉडल की तुलना में, एलएलएम में कहीं ज़्यादा पैरामीटर होते हैं.
  • एलएलएम से ज़्यादा जानकारी मिलती है.

इस सेक्शन में, एलएलएम बनाने के लिए सबसे सफल और ज़्यादा इस्तेमाल किए जाने वाले आर्किटेक्चर के बारे में बताया गया है: ट्रांसफ़ॉर्मर.

ट्रांसफ़ॉर्मर क्या है?

ट्रांसफ़ॉर्मर, अनुवाद जैसे कई भाषाओं के मॉडल ऐप्लिकेशन के लिए सबसे बेहतरीन आर्किटेक्चर हैं:

चित्र 1.  इनपुट: I am a good dog. ट्रांसफ़ॉर्मर पर आधारित अनुवादक, उस इनपुट को आउटपुट में बदल देता है: Je suis un bon
            chien, जो कि फ़्रेंच में अनुवाद किया गया वही वाक्य है.
पहला डायग्राम. यह ट्रांसफ़ॉर्मर पर आधारित ऐप्लिकेशन है, जो अंग्रेज़ी से फ़्रेंच में अनुवाद करता है.

 

फ़ुल ट्रांसफ़ॉर्मर में एक एन्कोडर और एक डिकोडर होता है:

  • एन्कोडर, इनपुट टेक्स्ट को इंटरमीडिएट प्रज़ेंटेशन में बदल देता है. एन्कोडर एक बहुत बड़ा न्यूरल नेटवर्क होता है.
  • डिकोडर, उस इंटरमीडिएट रिप्रज़ेंटेशन को काम के टेक्स्ट में बदल देता है. डिकोडर भी एक बहुत बड़ा न्यूरल नेटवर्क होता है.

उदाहरण के लिए, अनुवाद करने वाले टूल में:

  • एन्कोडर, इनपुट टेक्स्ट (उदाहरण के लिए, अंग्रेज़ी का कोई वाक्य) को किसी इंटरमीडिएट रिप्रज़ेंटेशन में प्रोसेस करता है.
  • डिकोडर, उस इंटरमीडिएट रिप्रज़ेंटेशन को आउटपुट टेक्स्ट में बदल देता है. उदाहरण के लिए, फ़्रेंच में लिखा गया मिलता-जुलता वाक्य.
चित्र 2.  ट्रांसफ़ॉर्मर पर आधारित अनुवादक, एन्कोडर से शुरू होता है. यह एन्कोडर, अंग्रेज़ी के वाक्य का इंटरमीडिएट वर्शन जनरेट करता है. डिकोडर, इस इंटरमीडिएट प्रज़ेंटेशन को फ़्रेंच आउटपुट वाले वाक्य में बदल देता है.
दूसरी इमेज. पूरे ट्रांसफ़ॉर्मर में एन्कोडर और डिकोडर, दोनों होते हैं.

 

सेल्फ़-अटेंशन क्या है?

कॉन्टेक्स्ट को बेहतर बनाने के लिए ट्रांसफ़ॉर्मर, खुद का ध्यान रखना नाम के कॉन्सेप्ट का काफ़ी इस्तेमाल करते हैं. असल में, इनपुट के हर टोकन के लिए, सेल्फ़-अटेंशन ये सवाल पूछता है:

"इनपुट के एक-दूसरे टोकन से इस टोकन की व्याख्या पर कितना असर पड़ता है?"

"सेल्फ़-अटेंशन" में "सेल्फ़" का मतलब इनपुट सीक्वेंस है. ध्यान लगाने की कुछ प्रक्रियाएं, इनपुट टोकन के महत्व को आउटपुट सीक्वेंस जैसे अनुवाद या किसी दूसरे क्रम में टोकन के साथ जोड़ती हैं. हालांकि, सेल्फ़-अटेंशन सिर्फ़ इनपुट क्रम में टोकन के बीच के संबंधों की अहमियत को तवज्जो देता है.

इसे आसानी से समझने के लिए, मान लें कि हर टोकन एक शब्द है और पूरा कॉन्टेक्स्ट सिर्फ़ एक वाक्य है. इस वाक्य पर ध्यान दें:

The animal didn't cross the street because it was too tired.

पिछले वाक्य में ग्यारह शब्द हैं. ग्यारह में से हर शब्द, बाकी दस शब्दों पर ध्यान दे रहा है और यह सोच रहा है कि उन दस शब्दों में से हर शब्द उसके लिए कितना मायने रखता है. उदाहरण के लिए, ध्यान दें कि वाक्य में सर्वनाम it है. सर्वनाम अक्सर अस्पष्ट होते हैं. सर्वनाम it आम तौर पर किसी हाल ही के संज्ञा या संज्ञा वाले वाक्यांश का रेफ़रंस देता है. हालांकि, उदाहरण के वाक्य में, it किस हाल ही के संज्ञा का रेफ़रंस देता है—जानवर या सड़क?

सेल्फ़-अटेन्शन मशीन, सर्वनाम it के लिए आस-पास मौजूद हर शब्द की काम की जानकारी तय करती है. तीसरे चित्र में नतीजे दिखाए गए हैं—जितनी ज़्यादा नीली होगी, उतना ही ज़्यादा वह शब्द सर्वनाम it के लिए अहम होगा. इसका मतलब है कि सर्वनाम it के लिए, street के मुकाबले animal ज़्यादा अहम है.

चित्र 3.  इस वाक्य में मौजूद ग्यारह शब्दों में से हर शब्द की प्रासंगिकता:
            'जानवर सड़क पार नहीं कर पाया, क्योंकि वह बहुत थक गया था'
            प्रोनाउन 'it' के लिए. 'it' सर्वनाम के तौर पर, 'ऐनिमल' शब्द सबसे सही
            है.
तीसरा डायग्राम. सर्वनाम it के लिए सेल्फ़-अटेंशन. Transformer: A Novel Neural Network Configuration for Language करूं से.

 

इसके उलट, मान लें कि वाक्य का आखिरी शब्द इस तरह बदल जाता है:

The animal didn't cross the street because it was too wide.

इस बदले गए वाक्य में, उम्मीद है कि it सर्वनाम के लिए, street को animal से ज़्यादा काम का माना जाएगा.

सेल्फ़-अटेन्शन के कुछ तरीके दोतरफ़ा होते हैं. इसका मतलब है कि वे उस शब्द के पहले और बाद वाले टोकन के लिए, काम के होने के आधार पर स्कोर का हिसाब लगाते हैं जिस पर ध्यान दिया जा रहा है. उदाहरण के लिए, तीसरे चित्र में देखें कि it के दोनों ओर मौजूद शब्दों की जांच की गई है. इसलिए, बाइडायरेक्शनल सेल्फ़-अटेंशन मशीन, उस शब्द के दोनों ओर मौजूद शब्दों से कॉन्टेक्स्ट इकट्ठा कर सकती है जिस पर फ़ोकस किया जा रहा है. इसके उलट, एकतरफ़ा सेल्फ़-अटेंशन मशीन लर्निंग, सिर्फ़ उस शब्द के एक तरफ़ मौजूद शब्दों से संदर्भ इकट्ठा कर सकती है जिस पर ध्यान दिया जा रहा है. बाय-डायरेक्शनल सेल्फ़-अटेंशन, खास तौर पर तब काम आता है, जब सभी सीक्वेंस को दिखाने में मदद मिलती हो. जबकि, टोकन-दर-टोकन क्रम बनाने वाले ऐप्लिकेशन को एकतरफ़ा खुद को ध्यान में रखने की ज़रूरत होती है. इस वजह से, एन्कोडर, द्वि-दिशात्मक सेल्फ़-अटेंशन का इस्तेमाल करते हैं, जबकि डिकोडर, एक-दिशात्मक सेल्फ़-अटेंशन का इस्तेमाल करते हैं.

मल्टी-हेड सेल्फ़-अटेंशन क्या है?

आम तौर पर, खुद पर ध्यान देने की हर लेयर में कई खुद का ध्यान रखने वाले सिर होते हैं. किसी लेयर का आउटपुट, अलग-अलग हेड के आउटपुट का मैथमैटिकल ऑपरेशन होता है. जैसे, वज़न के हिसाब से औसत या डॉट प्रॉडक्ट.

हर सेल्फ़-अटेन्शन लेयर को रैंडम वैल्यू पर शुरू किया जाता है. इसलिए, अलग-अलग हेड, ध्यान दिए जा रहे हर शब्द और आस-पास के शब्दों के बीच अलग-अलग संबंधों को सीख सकते हैं. उदाहरण के लिए, पिछले सेक्शन में बताई गई सेल्फ़-अटेन्शन लेयर का मकसद यह पता लगाना था कि सर्वनाम it किस संज्ञा का रेफ़रंस दे रहा है. हालांकि, खुद पर ध्यान देने वाली अन्य लेयर, व्याकरण के हिसाब से, हर शब्द को दूसरे शब्द के हिसाब से समझ सकती हैं या अन्य इंटरैक्शन के बारे में जान सकती हैं.

ट्रांसफ़ॉर्मर इतने बड़े क्यों होते हैं?

ट्रांसफ़ॉर्मर में सैकड़ों अरब या खरबों पैरामीटर होते हैं. इस कोर्स में आम तौर पर, ज़्यादा पैरामीटर वाले मॉडल के बजाय, कम पैरामीटर वाले मॉडल बनाने का सुझाव दिया गया है. आखिरकार, कम पैरामीटर वाले मॉडल में, ज़्यादा पैरामीटर वाले मॉडल की तुलना में अनुमान लगाने के लिए कम संसाधनों का इस्तेमाल होता है. हालांकि, रिसर्च से पता चलता है कि ज़्यादा पैरामीटर वाले ट्रांसफ़ॉर्मर, कम पैरामीटर वाले ट्रांसफ़ॉर्मर की तुलना में लगातार बेहतर परफ़ॉर्म करते हैं.

लेकिन एलएलएम, टेक्स्ट को कैसे जनरेट करता है?

आपने देखा है कि रिसर्चर, एलएलएम को एक या दो शब्दों का अनुमान लगाने के लिए कैसे ट्रेन करते हैं. शायद आपको यह बात पसंद न आई हो. आखिरकार, एक या दो शब्दों का अनुमान लगाना एक ऐसी सुविधा है जो अलग-अलग टेक्स्ट, ईमेल, और कॉन्टेंट लिखने में मदद करने वाले सॉफ़्टवेयर में अपने-आप काम करने वाली सुविधा की मदद से काम करती है. आपके मन में यह सवाल उठ रहा होगा कि एलएलएम, आर्बिट्रेज के बारे में वाक्य, पैराग्राफ़ या हाइकु कैसे जनरेट कर सकते हैं.

असल में, एलएलएम, ऑटोकंप्लीट की सुविधा देने वाले ऐसे मशीन हैं जो हज़ारों टोकन का अनुमान अपने-आप लगा सकते हैं (पूरा कर सकते हैं). उदाहरण के लिए, एक वाक्य के बाद मास्क किया गया वाक्य देखें:

My dog, Max, knows how to perform many traditional dog tricks.
___ (masked sentence)

एलएलएम, मास्क वाले वाक्य के लिए प्रॉबबिलिटी जनरेट कर सकता है. इनमें ये शामिल हैं:

प्रॉबेबिलिटी शब्द
3.1% उदाहरण के लिए, वह बैठ सकता है, बिस्तर पर लेट सकता है, और रोल कर सकता है.
2.9% उदाहरण के लिए, वह बैठना, रुकना, और रोल करना जानता है.

ज़रूरत के मुताबिक बड़ा एलएलएम, पैराग्राफ़ और पूरे निबंधों के लिए प्रॉबबिलिटी जनरेट कर सकता है. उपयोगकर्ता के एलएलएम से पूछे गए सवालों को "दिए गए" वाक्य के तौर पर माना जा सकता है. इसके बाद, एक काल्पनिक मास्क होता है. उदाहरण के लिए:

User's question: What is the easiest trick to teach a dog?
LLM's response:  ___

एलएलएम, अलग-अलग संभावित जवाबों के लिए संभावनाएं जनरेट करता है.

इसका एक और उदाहरण है. एलएलएम ने गणित के बहुत सारे "शब्दों से जुड़े सवालों" पर ट्रेनिंग दी है. इससे ऐसा लग सकता है कि वह गणित के मुश्किल सवालों को हल कर सकता है. हालांकि, ये एलएलएम, सिर्फ़ शब्द से जुड़े सवाल के प्रॉम्प्ट को अपने-आप पूरा करते हैं.

एलएलएम करने के फ़ायदे

एलएलएम, अलग-अलग तरह की टारगेट ऑडियंस के लिए, साफ़ और आसानी से समझ आने वाला टेक्स्ट जनरेट कर सकते हैं. एलएलएम उन टास्क के लिए अनुमान लगा सकते हैं जिनके लिए उन्हें खास तौर पर ट्रेन किया गया है. कुछ शोधकर्ताओं का दावा है कि एलएलएम, ऐसे इनपुट के लिए भी अनुमान लगा सकते हैं जिनके लिए उन्हें साफ़ तौर पर नहीं ट्रेन किया गया था. हालांकि, अन्य शोधकर्ताओं ने इस दावे का खंडन किया है.

एलएलएम से जुड़ी समस्याएं

एलएलएम की ट्रेनिंग के दौरान, कई समस्याएं आती हैं. जैसे:

  • एक बहुत बड़ा ट्रेनिंग सेट इकट्ठा किया जा रहा है.
  • इसमें कई महीने लगते हैं. साथ ही, कंप्यूटिंग के लिए ज़्यादा संसाधनों और बिजली की ज़रूरत होती है.
  • साथ मिलकर काम करने से जुड़ी चुनौतियों को हल करना.

अनुमान तय करने के लिए एलएलएम का इस्तेमाल करने पर, ये समस्याएं आ सकती हैं:

  • एलएलएम गलतियां करते हैं. इसका मतलब है कि उनके अनुमान में अक्सर गलतियां होती हैं.
  • एलएलएम, कंप्यूटिंग संसाधनों और बिजली का बहुत ज़्यादा इस्तेमाल करते हैं. आम तौर पर, बड़े डेटासेट पर एलएलएम को ट्रेन करने से, अनुमान लगाने के लिए ज़रूरी संसाधनों की संख्या कम हो जाती है. हालांकि, बड़े डेटासेट को ट्रेन करने के लिए ज़्यादा संसाधनों की ज़रूरत होती है.
  • एलएलएम, सभी एमएल मॉडल की तरह ही, हर तरह के पूर्वाग्रह दिखा सकते हैं.

व्यायाम: अपनी समझ की जांच करें

मान लीजिए कि एक ट्रांसफ़ॉर्मर को एक अरब दस्तावेज़ों पर ट्रेनिंग दी गई है. इनमें ऐसे हज़ारों दस्तावेज़ शामिल हैं जिनमें हाथी शब्द का कम से कम एक उदाहरण हो. इनमें से कौनसी बातें सही हो सकती हैं?
बबूल के पेड़, हाथी के खाने का एक अहम हिस्सा होते हैं. इसलिए, एलीफ़ेंट शब्द इस्तेमाल करके, धीरे-धीरे खुद पर ध्यान देने की संख्या बढ़ाई जाएगी.
हां, इससे ट्रांसफ़ॉर्मर, हाथी के खान-पान के बारे में सवालों के जवाब दे पाएगा.
ट्रांसफ़ॉर्मर, elephant शब्द को उन अलग-अलग elephant वाक्यांशों से जोड़ देगा जिनमें elephant शब्द शामिल है.
हां, सिस्टम हाथी शब्द और हाथी मुहावरों में इस्तेमाल होने वाले दूसरे शब्दों के बीच ज़्यादा खुद पर ध्यान देने वाले स्कोर जोड़ना शुरू कर देगा.
Transformer, ट्रेनिंग डेटा में elephant शब्द के इस्तेमाल को धीरे-धीरे अनदेखा करना सीख जाएगा.
ज़रूरत के मुताबिक बड़े ट्रांसफ़ॉर्मर, ज़रूरत के मुताबिक बड़े ट्रेनिंग सेट पर ट्रेन किए जाते हैं. इससे वे व्यंग्य, हंसी-मज़ाक़, और इरनी को पहचानने में काफ़ी माहिर हो जाते हैं. इसलिए, Transformer, व्यंग्य और तंज़ को अनदेखा करने के बजाय, उनसे सीखता है.