बड़ी भाषा के मॉडल का परिचय

क्या भाषा के मॉडल या भाषा के बड़े मॉडल आपके लिए नए हैं? नीचे दिए गए संसाधनों को देखें.

भाषा का मॉडल क्या है?

भाषा का मॉडल, एक मशीन लर्निंग मॉडल है. इसका मकसद, सही भाषा का अनुमान लगाना और उसे जनरेट करना है. ऑटोकंप्लीट, एक भाषा का मॉडल है. उदाहरण के लिए,

ये मॉडल, टोकन की संभावना या टोकन होने की संभावना का अनुमान लगाकर, काम करते हैं. इस वाक्य को देखें:

When I hear rain on my roof, I _______ in my kitchen.

अगर आपको यह लगता है कि कोई टोकन कोई शब्द है, तो भाषा का मॉडल, उस शब्द या वाक्य को बदलने के लिए अलग-अलग शब्दों या क्रमों की संभावनाएँ तय करता है. उदाहरण के लिए, किसी भाषा का मॉडल, इन संभावनाओं को तय कर सकता है:

cook soup 9.4%
warm up a kettle 5.2%
cower 3.6%
nap 2.5%
relax 2.2%
...

"टोकन का क्रम" पूरे वाक्य या वाक्यों की एक सीरीज़ हो सकता है. इसका मतलब है कि भाषा का कोई मॉडल, पूरे वाक्य या टेक्स्ट के ब्लॉक होने की संभावना को माप सकता है.

क्रम में आगे आने वाले ऐप्लिकेशन की संभावना का अनुमान लगाना सभी तरह के कामों के लिए फ़ायदेमंद है: टेक्स्ट जनरेट करना, भाषाओं का अनुवाद करना, और सवालों के जवाब देना.

बड़ी भाषा का मॉडल क्या है?

मानव भाषा को बड़े पैमाने पर मॉडल करना एक बेहद जटिल और जटिल काम है. भाषा मॉडल और बड़े भाषा मॉडल की वर्तमान क्षमताओं तक पहुंचने का तरीका कई दशकों तक बढ़ता रहा है.

जैसे-जैसे मॉडल बड़े और बड़े होते जाते हैं, उनकी जटिलता और क्षमता बढ़ती है. भाषा के शुरुआती मॉडल किसी एक शब्द की संभावना का अनुमान लगा सकते हैं. भाषा के बड़े मॉडल, वाक्यों, पैराग्राफ़ या यहां तक कि पूरे दस्तावेज़ों की संभावना का अनुमान लगा सकते हैं.

पिछले कुछ सालों में, कंप्यूटर की मेमोरी, डेटासेट साइज़, और प्रोसेसिंग पावर की बढ़ोतरी के साथ-साथ भाषा मॉडल के साइज़ में बढ़ोतरी हुई है. साथ ही, लंबे टेक्स्ट सीक्वेंस को मॉडल करने के लिए ज़्यादा असरदार तकनीकें डेवलप की गई हैं.

कितनी बड़ी है?

परिभाषा फ़र्ज़ी है, लेकिन "बड़ा" का इस्तेमाल BERT (110 मिलियन पैरामीटर) के साथ-साथ PaLM 2 (340 अरब पैरामीटर तक) के बारे में बताने के लिए किया गया है.

पैरामीटर, वे वज़न होते हैं जिन्हें ट्रेनिंग के दौरान सीखा गया. इसका इस्तेमाल अगले टोकन का अनुमान लगाने के लिए किया जाता है. "बड़ी" का मतलब मॉडल में पैरामीटर की संख्या या डेटासेट में मौजूद शब्दों की संख्या से हो सकता है.

ट्रांसफ़ॉर्मर

भाषा मॉडलिंग में एक मुख्य बदलाव, 2017 में हुए ट्रांसफ़ॉर्मर की शुरुआत थी. यह एक ऐसा आर्किटेक्चर था जिसे ध्यान देने के आइडिया पर डिज़ाइन किया गया था. इसकी मदद से, इनपुट के सबसे अहम हिस्से पर फ़ोकस करके, लंबी सीक्वेंस को प्रोसेस किया जा सकता है. पिछले मॉडल में मिलने वाली मेमोरी की समस्याओं को ठीक किया जा सकता है.

ट्रांसफ़ॉर्मर, आधुनिक भारतीय डिज़ाइन हैं, जिसमें कई तरह की भाषाओं का अनुवाद किया जा सकता है, जैसे कि अनुवादक.

अगर इनपुट "मैं एक अच्छा कुत्ता हूं." है, तो ट्रांसफ़ॉर्मर पर आधारित अनुवादक इस इनपुट को"Je suis un bon chien." आउटपुट में बदल देता है. यह वही वाक्य है जिसका फ़्रेंच में अनुवाद किया गया है.

फ़ुल ट्रांसफ़ॉर्मर में एन्कोडर और डिकोडर शामिल होते हैं. एन्कोडर इनपुट टेक्स्ट को इंटरमीडिएट में दिखाता है और डिकोडर, इंटरमीडिएट में ऐसे टेक्स्ट को काम के टेक्स्ट में बदल देता है.

खुद का ध्यान रखना

ट्रांसफ़ॉर्मर, खुद का ध्यान रखने वाले कॉन्सेप्ट पर बहुत ज़्यादा भरोसा करते हैं. खुद की नज़र में खुद का ध्यान रखने का मतलब है, "कॉर्स" में मौजूद हर टोकन का "इकोसेंटिक" फ़ोकस. इनपुट के हर टोकन की ओर से, खुद से ध्यान देने की ज़रूरत होने पर, यह पूछा जाता है कि "हर इनपुट के टोकन के लिए, मेरा कितना इस्तेमाल होता है?" मामलों को आसान बनाने के लिए, मान लें कि हर टोकन एक शब्द है और पूरा संदर्भ एक वाक्य है. इस वाक्य पर विचार करें:

जानवर सड़क पर नहीं गुज़रा, क्योंकि वह बहुत थका हुआ था.

पिछले वाक्य में 11 शब्द हैं, इसलिए 11 शब्दों में से हर शब्द दूसरे की ओर ध्यान दे रहा है. यह सोचकर कि उन दस शब्दों में से हर शब्द उनके लिए कितना मायने रखता है. उदाहरण के लिए, ध्यान दें कि वाक्य में सर्वनाम/प्रोनाउन it है. सर्वनाम/प्रोनाउन अक्सर अस्पष्ट होते हैं. it का सर्वनाम, हमेशा हाल ही के संज्ञा के तौर पर इस्तेमाल किया जाता है. हालांकि, उदाहरण के तौर पर, इस का मतलब: जानवर या सड़क है?

खुद को ध्यान में रखने का तरीका, आस-पास के हर शब्द की प्रासंगिकता it के बारे में पता लगाता है.

एलएलएम के लिए इस्तेमाल के कुछ उदाहरण क्या हैं?

एलएलएम, बनाए गए टास्क पर काफ़ी असरदार तरीके से काम करते हैं. इससे, इनपुट के हिसाब से सबसे सटीक टेक्स्ट जनरेट होता है. वे दूसरे कामों पर भी मज़बूत परफ़ॉर्मेंस दिखाने लगे हैं. उदाहरण के लिए, खास जानकारी, सवाल का जवाब, और टेक्स्ट की कैटगरी. इन्हें आपातकालीन सुविधाएं कहा जाता है. एलएलएम गणित के कुछ सवाल हल भी कर सकते हैं और कोड लिख भी सकते हैं (हालांकि, उनके काम की जांच करने की सलाह दी जाती है).

एलएम, बोली पहचानने के अलग-अलग तरीकों की नकल करने में बेहतर होते हैं. दूसरी चीज़ों के अलावा, यह जानकारी को अलग-अलग स्टाइल और टोन के साथ जोड़ने का बेहतरीन तरीका है.

हालांकि, एलएलएम मॉडल के कॉम्पोनेंट हो सकते हैं. ये सिर्फ़ टेक्स्ट जनरेट करने से ज़्यादा काम करते हैं. हाल ही के एलएलएम का इस्तेमाल, भावनाओं का पता लगाने वाले, बुरे बर्ताव की कैटगरी तय करने वाले, और इमेज कैप्शन जनरेट करने के लिए किया गया है.

LLM पर विचार

मॉडल में ये कमियां नहीं हैं.

सबसे बड़े एलएलएम महंगे हैं. उन्हें ट्रेनिंग देने में कई महीने लग सकते हैं और इस वजह से आप कई संसाधनों का इस्तेमाल कर लेते हैं.

आम तौर पर, इसका इस्तेमाल किसी दूसरे काम के लिए भी किया जा सकता है, जो चांदी की एक अहम परत होती है.

एक खरब पैरामीटर वाले ट्रेनिंग मॉडल, इंजीनियरिंग चुनौतियों का सामना करते हैं. चिप में वापस आने के लिए, खास इंफ़्रास्ट्रक्चर और प्रोग्रामिंग तकनीक की ज़रूरत होती है.

इन बड़े मॉडल की लागत को कम करने के कई तरीके हैं. दो तरीके हैं, ऑफ़लाइन अनुमान और डिस्टिलेशन.

बहुत बड़े मॉडल में होने वाला बायस एक समस्या हो सकती है और इसे ट्रेनिंग और डिप्लॉयमेंट में शामिल किया जाना चाहिए.

इन मॉडल को मानव भाषा के बारे में ट्रेनिंग दी गई है. इसलिए, यह कई नैतिक मुद्दों को पेश कर सकता है. जैसे, भाषा का गलत इस्तेमाल करना, नस्ल, लिंग, और धर्म वगैरह से जुड़ा भेदभाव करना.

आपको यह साफ़ तौर पर बताना चाहिए कि इन मॉडल का दायरा बढ़ता जा रहा है और ये बेहतर परफ़ॉर्म कर रहे हैं. इसलिए, इन कमियों को समझने और इन्हें कम करने के लिए, लगातार ध्यान करते रहें. एआई (AI) के लिए Google के तरीके के बारे में ज़्यादा जानें.