बड़े लैंग्वेज मॉडल के बारे में जानकारी

लैंग्वेज मॉडल या लार्ज लैंग्वेज मॉडल आपके लिए नए हैं? यहां दिए गए संसाधनों को देखें.

लैंग्वेज मॉडल क्या है?

लैंग्वेज मॉडल एक मशीन लर्निंग है मॉडल जिसका मकसद सही भाषा का अनुमान लगाना और उसे जनरेट करना है. ऑटोकंप्लीट उदाहरण के लिए, लैंग्वेज मॉडल.

ये मॉडल, टोकन या टोकन की एक लंबी सूची के अंदर होने वाले टोकन का क्रम. इन बातों पर ध्यान दें नीचे दिया गया वाक्य:

When I hear rain on my roof, I _______ in my kitchen.

अगर आपको लगता है कि टोकन एक शब्द है, तो भाषा मॉडल तय करता है कि उसे बदलने के लिए, अलग-अलग शब्दों या शब्दों के क्रम की प्रायिकता अंडरस्कोर देखें. उदाहरण के लिए, भाषा मॉडल निम्न को निर्धारित कर सकता है प्रायिकता:

cook soup 9.4%
warm up a kettle 5.2%
cower 3.6%
nap 2.5%
relax 2.2%
...

"टोकन का क्रम" एक पूरा वाक्य या वाक्यों की एक सीरीज़ हो सकती है. इसका मतलब है कि लैंग्वेज मॉडल, आपके समाचार संगठन के लिए, वाक्य या टेक्स्ट के ब्लॉक.

किसी क्रम में इसके बाद क्या होगा, इसकी संभावना का अनुमान लगाना सभी के लिए काम का होता है ये कई तरह के काम करते हैं: टेक्स्ट जनरेट करना, भाषाओं का अनुवाद करना, और जवाब देना कुछ सवाल हैं.

लार्ज लैंग्वेज मॉडल क्या है?

इंसानों की भाषा को बड़े पैमाने पर मॉडल करना बेहद जटिल और संसाधन की मदद से बनाया गया काम है मेहनत. लैंग्वेज मॉडल की मौजूदा क्षमताओं को हासिल करने का रास्ता और भाषा के ये मॉडल कई दशकों तक चले हुए हैं.

जैसे-जैसे मॉडल बड़े और बड़े होते जाते हैं, वैसे-वैसे उनकी जटिलता और क्षमता बढ़ती जाती है. शुरुआती लैंग्वेज मॉडल, किसी एक शब्द के होने की संभावना का अनुमान लगा सकते हैं; मॉडर्न लार्ज लैंग्वेज मॉडल, वाक्य, पैराग्राफ़ या वाक्य की यहां तक कि पूरे दस्तावेज़ पर भी.

भाषा के मॉडल की साइज़ और क्षमता में पिछले कुछ समय में बहुत बढ़ोतरी हुई है कुछ सालों तक कंप्यूटर की मेमोरी, डेटासेट का साइज़, और प्रोसेसिंग पावर बढ़ती है, और लंबे टेक्स्ट क्रमों की मॉडलिंग के लिए ज़्यादा असरदार तकनीकें विकसित की जाती हैं.

कितनी बड़ी होती है?

परिभाषा धुंधली है, लेकिन "बड़ी" है का इस्तेमाल BERT की व्याख्या करने के लिए किया गया है (11 करोड़) पैरामीटर) और PaLM 2 (ज़्यादा से ज़्यादा 340B पैरामीटर) होने चाहिए.

पैरामीटर क्या वेट यह मॉडल, ट्रेनिंग के दौरान सीखता है. इसका इस्तेमाल, ट्रेनिंग के दौरान अगले टोकन का अनुमान लगाने के लिए किया जाता है क्रम. "बड़ा" वह मॉडल में मौजूद पैरामीटर की संख्या या कभी-कभी डेटासेट में शब्दों की संख्या.

ट्रांसफ़ॉर्मर

भाषा मॉडलिंग में एक अहम बदलाव, 2017 में शुरू हुआ था ट्रांसफ़ॉर्मर, एक ऐसा आर्किटेक्चर जिसे ध्यान. इसकी वजह से, लंबे क्रम को प्रोसेस करने में मदद मिली. इसके लिए, का एक अहम हिस्सा है. इसमें पहले की तुलना में मेमोरी से जुड़ी समस्याएं हल करने का तरीका बताया गया था मॉडल.

ट्रांसफ़ॉर्मर यहां की आधुनिक वास्तुकला का एक बेहतरीन नमूना है. भाषा मॉडल एप्लिकेशन, जैसे अनुवादकों के लिए.

अगर इनपुट हो "मैं एक अच्छा कुत्ता हूं.", तो ट्रांसफ़ॉर्मर पर आधारित अनुवादक उस इनपुट को आउटपुट में बदल देता है "Je suis un bon chien.", जो कि उसी वाक्य का फ़्रेंच में अनुवाद किया गया है.

फ़ुल ट्रांसफ़ॉर्मर में एक एन्कोडर और डीकोडर. अगर आप एन्कोडर, इनपुट टेक्स्ट को इंटरमीडिएट रिप्रज़ेंटेशन और डिकोडर में बदल देता है उस इंटरमीडिएट प्रज़ेंटेशन को काम के टेक्स्ट में बदल देता है.

खुद का ध्यान रखना

ट्रांसफ़ॉर्मर, सेल्फ़ अटेंशन यानी खुद पर ध्यान देने की कला का काफ़ी इस्तेमाल करते हैं. खुद का हिस्सा खुद पर ध्यान देने का मतलब है "ईगोसेंट्रिक" कॉर्पस में हर टोकन का फ़ोकस. असल में, इनपुट के हर एक टोकन के लिए, खुद का ध्यान खींचने के लिए कहा जाता है कि "कितना क्या इनपुट का हर एक टोकन मेरे लिए मायने रखता है?" मामलों को आसान बनाने के लिए, यह मानकर चलें कि हर टोकन एक शब्द है और पूरा संदर्भ एक ही है वाक्य. इस वाक्य पर गौर करें:

जानवर बहुत थका हुआ था, इसलिए वह सड़क पार नहीं किया.

पिछले वाक्य में 11 शब्द हैं, इसलिए 11 शब्दों में से हर एक शब्द भुगतान कर रहा है बाकी 10 शब्दों पर ध्यान देना चाहता है कि उन दस शब्दों में से हर शब्द कितना मायने रखता है. बहुत आसान है. उदाहरण के लिए, ध्यान दें कि वाक्य में सर्वनाम it है. सर्वनामों का मतलब साफ़ तौर पर नहीं पता होता. सर्वनाम it हमेशा किसी हाल की संज्ञा को दिखाता है, लेकिन उदाहरण के तौर पर एक वाक्य, जो हाल ही की संज्ञा यह बताती है: जानवर या सड़क?

खुद पर ध्यान देने की सुविधा से, यह तय किया जाता है कि आस-पास मौजूद हर शब्द कितने काम का है सर्वनाम it.

एलएलएम के इस्तेमाल के कुछ उदाहरण क्या हैं?

एलएलएम उस टास्क के लिए बहुत कारगर हैं जिसके लिए उन्हें बनाया गया था. इससे हमें उम्मीद है कि जो इनपुट के जवाब में सबसे भरोसेमंद टेक्स्ट की तरह हो. उन्होंने अब तक इन्हें दिखाना भी शुरू कर दिया है अन्य टास्क का बेहतर परफ़ॉर्म करना; उदाहरण के लिए, खास जानकारी, सवाल जवाब देने, और टेक्स्ट की कैटगरी तय करने में मदद मिलती है. इन्हें कहा जाता है इमर्जेंट क्षमताएं. एलएलएम ये काम भी कर सकते हैं गणित के कुछ सवाल हल करें और कोड लिखें (हालांकि, यह सलाह दी जाती है कि काम).

एलएलएम, इंसानों के बोलने के पैटर्न की तरह दिखते हैं. अन्य चीज़ों के साथ-साथ, वे जानकारी को अलग-अलग स्टाइल और टोन के साथ मिला सकते हैं.

हालांकि, एलएलएम ऐसे मॉडल के कॉम्पोनेंट हो सकते हैं जो टेक्स्ट जनरेट करने के लिए. हाल ही में, एलएलएम का इस्तेमाल भावनाओं की पहचान करने वाले टूल बनाने में किया गया है. बुरे बर्ताव को कैटगरी तय करने, और इमेज के कैप्शन जनरेट करने का तरीका बताया गया है.

एलएलएम के लिए ज़रूरी बातें

इतने बड़े मॉडल अपनी कमियों के बिना नहीं होते.

सबसे बड़े एलएलएम महंगे होते हैं. उन्हें ट्रेनिंग में कई महीने लग सकते हैं और इसका नतीजा यह होता है कि बहुत सारे संसाधनों का इस्तेमाल करते हैं.

इन्हें आम तौर पर, दूसरे कामों के लिए भी दोबारा इस्तेमाल किया जा सकता है. जैसे, इस्तेमाल करने के लिए कोई ज़रूरी चीज़.

एक ट्रिलियन पैरामीटर से ज़्यादा संख्या वाले ट्रेनिंग मॉडल इंजीनियरिंग से जुड़ी चुनौतियां पैदा करता है. स्पेशल इन्फ़्रास्ट्रक्चर और प्रोग्रामिंग चिप में फ़्लो को कोऑर्डिनेट करने और फिर से वापस लाने के लिए, तकनीकों की ज़रूरत होती है.

इन बड़े मॉडल की लागत को कम करने के तरीके भी हैं. इसके दो तरीके हैं ऑफ़लाइन अनुमान और डिस्टिलेशन.

पूर्वाग्रह की समस्या बहुत बड़े मॉडल में हो सकती है और ट्रेनिंग के दौरान इस पर ध्यान देना चाहिए और डिप्लॉयमेंट.

इन मॉडल को इंसानों की भाषा पर ट्रेनिंग दी जाती है. इसलिए, इसमें ऐसे कई नैतिकता से जुड़ी संभावित समस्याओं का सामना करना पड़ सकता है. जैसे, भाषा का गलत इस्तेमाल और नस्ल में पक्षपात, लिंग, धर्म वगैरह की जानकारी पाएं.

यह साफ़ तौर पर बताया जाना चाहिए कि जैसे-जैसे ये मॉडल बड़े होते जाएंगे और परफ़ॉर्म करते जाएंगे बेहतर है, इस बात को समझने के लिए लगातार मेहनत और लगन की ज़रूरत है कम करने में भी मदद मिलती है. Google के तरीके के बारे में ज़्यादा जानें ज़िम्मेदार एआई.