बड़े लैंग्वेज मॉडल के बारे में जानकारी

लैंग्वेज मॉडल या लार्ज लैंग्वेज मॉडल आपके लिए नए हैं? यहां दिए गए संसाधनों को देखें.

लैंग्वेज मॉडल क्या है?

लैंग्वेज मॉडल, मशीन लर्निंग का एक ऐसा मॉडल है जिसका मकसद, संभावित भाषा का अनुमान लगाना और उसे जनरेट करना है. ऑटोकंप्लीट उदाहरण के लिए, लैंग्वेज मॉडल.

ये मॉडल, टोकन या टोकन की एक लंबी सूची के अंदर होने वाले टोकन का क्रम. इस वाक्य पर ध्यान दें:

When I hear rain on my roof, I _______ in my kitchen.

अगर आपको लगता है कि टोकन एक शब्द है, तो भाषा मॉडल तय करता है कि उसे बदलने के लिए, अलग-अलग शब्दों या शब्दों के क्रम की प्रायिकता अंडरस्कोर. उदाहरण के लिए, कोई भाषा मॉडल इन संभावनाओं का पता लगा सकता है:

cook soup 9.4%
warm up a kettle 5.2%
cower 3.6%
nap 2.5%
relax 2.2%
...

"टोकन का क्रम", एक पूरा वाक्य या वाक्यों की सीरीज़ हो सकती है. इसका मतलब है कि भाषा मॉडल, टेक्स्ट के अलग-अलग वाक्यों या ब्लॉक के दिखने की संभावना का हिसाब लगा सकता है.

किसी क्रम में अगले शब्द के आने की संभावना का अनुमान लगाना, कई तरह के कामों के लिए फ़ायदेमंद होता है. जैसे, टेक्स्ट जनरेट करना, भाषाओं का अनुवाद करना, और सवालों के जवाब देना.

लार्ज लैंग्वेज मॉडल क्या है?

बड़े पैमाने पर मानव भाषा का मॉडल बनाना बहुत मुश्किल और संसाधनों का ज़्यादा इस्तेमाल करने वाला काम है. लैंग्वेज मॉडल की मौजूदा क्षमताओं को हासिल करने का रास्ता और भाषा के ये मॉडल कई दशकों तक चले हुए हैं.

मॉडल जितने बड़े होते हैं उनकी जटिलता और असरदारी उतनी ही बढ़ती है. शुरुआती लैंग्वेज मॉडल, किसी एक शब्द के होने की संभावना का अनुमान लगा सकते हैं; मॉडर्न लार्ज लैंग्वेज मॉडल, वाक्य, पैराग्राफ़ या वाक्य की यहां तक कि पूरे दस्तावेज़ पर भी.

पिछले कुछ सालों में, लैंग्वेज मॉडल का साइज़ और क्षमता काफ़ी बढ़ गई है. इसकी वजह यह है कि कंप्यूटर की मेमोरी, डेटासेट का साइज़, और प्रोसेसिंग पावर बढ़ गई है. साथ ही, लंबे टेक्स्ट सीक्वेंस को मॉडल करने के लिए ज़्यादा असरदार तकनीकें विकसित की गई हैं.

ज़्यादा से ज़्यादा कितने आइटम जोड़े जा सकते हैं?

परिभाषा धुंधली है, लेकिन "बड़ी" है का इस्तेमाल BERT की व्याख्या करने के लिए किया गया है (11 करोड़) पैरामीटर) और PaLM 2 (ज़्यादा से ज़्यादा 340B पैरामीटर) होने चाहिए.

पैरामीटर क्या वेट यह मॉडल, ट्रेनिंग के दौरान सीखता है. इसका इस्तेमाल, ट्रेनिंग के दौरान अगले टोकन का अनुमान लगाने के लिए किया जाता है क्रम. "बड़ा" वह मॉडल में मौजूद पैरामीटर की संख्या या कभी-कभी डेटासेट में शब्दों की संख्या.

ट्रांसफ़ॉर्मर

भाषा मॉडलिंग में एक अहम बदलाव 2017 में ट्रांसफ़ॉर्मर का आविष्कार था. यह एक ऐसा आर्किटेक्चर है जिसे ध्यान के आइडिया के आधार पर डिज़ाइन किया गया है. इसकी वजह से, लंबे क्रम को प्रोसेस करने में मदद मिली. इसके लिए, का एक अहम हिस्सा है. इसमें पहले की तुलना में मेमोरी से जुड़ी समस्याएं हल करने का तरीका बताया गया था मॉडल.

ट्रांसफ़ॉर्मर, लैंग्वेज मॉडल के कई ऐप्लिकेशन के लिए सबसे बेहतर आर्किटेक्चर हैं. जैसे, अनुवादक.

अगर इनपुट "मैं एक अच्छा कुत्ता हूं." है, तो ट्रांसफ़ॉर्मर पर आधारित अनुवादक उस इनपुट को "Je suis un bon chien." में बदल देता है. यह वही वाक्य है जिसे फ़्रेंच में अनुवाद किया गया है.

फ़ुल ट्रांसफ़ॉर्मर में एक एन्कोडर और डीकोडर. अगर आप एन्कोडर, इनपुट टेक्स्ट को इंटरमीडिएट रिप्रज़ेंटेशन और डिकोडर में बदल देता है उस इंटरमीडिएट प्रज़ेंटेशन को काम के टेक्स्ट में बदल देता है.

खुद पर ध्यान देना

ट्रांसफ़ॉर्मर, सेल्फ़-अटेंशन नाम के कॉन्सेप्ट पर काफ़ी निर्भर होते हैं. खुद का हिस्सा खुद पर ध्यान देने का मतलब है "ईगोसेंट्रिक" कॉर्पस में हर टोकन का फ़ोकस. असल में, इनपुट के हर टोकन के लिए, सेल्फ़-अटेंशन यह पूछता है कि "मेरे लिए, इनपुट का हर दूसरा टोकन कितना मायने रखता है?" मामलों को आसान बनाने के लिए, यह मानकर चलें कि हर टोकन एक शब्द है और पूरा संदर्भ एक ही है वाक्य. इस वाक्य पर ध्यान दें:

जानवर बहुत थक गया था, इसलिए वह सड़क पार नहीं कर पाया.

ऊपर दिए गए वाक्य में 11 शब्द हैं. इसलिए, 11 में से हर शब्द, बाकी 10 शब्दों पर ध्यान दे रहा है. साथ ही, यह भी सोच रहा है कि उन 10 शब्दों में से हर शब्द उसके लिए कितना ज़रूरी है. उदाहरण के लिए, ध्यान दें कि वाक्य में सर्वनाम it है. सर्वनामों का मतलब साफ़ तौर पर नहीं पता होता. सर्वनाम it हमेशा किसी हाल की संज्ञा को दिखाता है, लेकिन उदाहरण के तौर पर एक वाक्य, जो हाल ही की संज्ञा यह बताती है: जानवर या सड़क?

सेल्फ़-अटेन्शन मशीन, सर्वनाम it के लिए आस-पास मौजूद हर शब्द की काम की जानकारी तय करती है.

एलएलएम के इस्तेमाल के कुछ उदाहरण क्या हैं?

एलएलएम उस टास्क के लिए बहुत कारगर हैं जिसके लिए उन्हें बनाया गया था. इससे हमें उम्मीद है कि जो इनपुट के जवाब में सबसे भरोसेमंद टेक्स्ट की तरह हो. उन्होंने अब तक इन्हें दिखाना भी शुरू कर दिया है अन्य टास्क का बेहतर परफ़ॉर्म करना; उदाहरण के लिए, खास जानकारी, सवाल जवाब देने, और टेक्स्ट की कैटगरी तय करने में मदद मिलती है. इन्हें नई क्षमताएं कहा जाता है. एलएलएम, कुछ गणित की समस्याओं को हल कर सकते हैं और कोड लिख सकते हैं. हालांकि, हमारा सुझाव है कि आप उनके काम की जांच करें.

एलएलएम, इंसानों के बोलने के पैटर्न की तरह दिखते हैं. इनमें कई चीज़ें शामिल हैं. जैसे, ये अलग-अलग स्टाइल और टोन में जानकारी को जोड़ने में बहुत अच्छे हैं.

हालांकि, एलएलएम ऐसे मॉडल के कॉम्पोनेंट हो सकते हैं जो टेक्स्ट जनरेट करने के लिए. हाल ही में, एलएलएम का इस्तेमाल भावनाओं की पहचान करने वाले टूल बनाने में किया गया है. बुरे बर्ताव को कैटगरी तय करने, और इमेज के कैप्शन जनरेट करने का तरीका बताया गया है.

एलएलएम के बारे में जानकारी

इतने बड़े मॉडल अपनी कमियों के बिना नहीं होते.

एलएलएम के सबसे बड़े कोर्स महंगे होते हैं. उन्हें ट्रेन करने में कई महीने लग सकते हैं. साथ ही, इस प्रोसेस में काफ़ी संसाधनों का इस्तेमाल होता है.

आम तौर पर, इनका इस्तेमाल अन्य टास्क के लिए भी किया जा सकता है.

एक ट्रिलियन पैरामीटर से ज़्यादा संख्या वाले ट्रेनिंग मॉडल इंजीनियरिंग से जुड़ी चुनौतियां पैदा करता है. स्पेशल इन्फ़्रास्ट्रक्चर और प्रोग्रामिंग चिप में फ़्लो को कोऑर्डिनेट करने और फिर से वापस लाने के लिए, तकनीकों की ज़रूरत होती है.

इन बड़े मॉडल की लागत को कम करने के तरीके भी हैं. इसके दो तरीके हैं ऑफ़लाइन अनुमान और डिस्टिलेशन.

बहुत बड़े मॉडल में, पक्षपात की समस्या हो सकती है. इसलिए, ट्रेनिंग और डिप्लॉयमेंट के दौरान इस बात का ध्यान रखना चाहिए.

इन मॉडल को इंसान की भाषा पर ट्रेनिंग दी जाती है. इसलिए, इसमें ऐसे कई नैतिकता से जुड़ी संभावित समस्याओं का सामना करना पड़ सकता है. इनमें भाषा का गलत इस्तेमाल और नस्ल में पक्षपात करना शामिल है. लिंग, धर्म वगैरह.

यह साफ़ तौर पर बताया जाना चाहिए कि जैसे-जैसे ये मॉडल बड़े होते जाएंगे और परफ़ॉर्म करते जाएंगे बेहतर है, इस बात को समझने के लिए लगातार मेहनत और लगन की ज़रूरत है कम करने में भी मदद मिलती है. ज़िम्मेदारी के साथ एआई का इस्तेमाल करने के लिए, Google के तरीके के बारे में ज़्यादा जानें.

एलएलएम के बारे में ज़्यादा जानें

क्या आपको लार्ज लैंग्वेज मॉडल के बारे में ज़्यादा जानकारी चाहिए? मशीन लर्निंग क्रैश कोर्स में, लार्ज लैंग्वेज मॉडल का नया मॉड्यूल देखें.