इस पेज का अनुवाद Cloud Translation API से किया गया है.

बड़े लैंग्वेज मॉडल

लर्निंग के मकसद

अलग-अलग तरह के भाषा मॉडल और उनके कॉम्पोनेंट के बारे में बताएं.
यह बताना कि लार्ज लैंग्वेज मॉडल कैसे बनाए जाते हैं और यह कितना ज़रूरी है कॉन्टेक्स्ट और पैरामीटर.
यह पता लगाना कि भाषा के बड़े मॉडल, खुद पर ध्यान देने की सुविधा का फ़ायदा कैसे लेते हैं.
लार्ज लैंग्वेज मॉडल की तीन मुख्य समस्याओं के बारे में बताएं.
किसी मॉडल की फ़ाइन-ट्यूनिंग और डिस्टिलेशन से, नाप या आकार में सुधार करने में और परफ़ॉर्मेंस के बारे में सुझाव देते हैं.

लैंग्वेज मॉडल क्या है?

भाषा का मॉडल टोकन की संभावना का अनुमान लगाता है या टोकन की एक लंबी सूची के अंदर होने वाले टोकन का क्रम. टोकन कोई शब्द, कोई सबवर्ड (किसी शब्द का सबसेट) या कोई एक वर्ण भी हो सकता है.

टोकन के बारे में ज़्यादा जानने के लिए, आइकॉन पर क्लिक करें.

भाषा के ज़्यादातर आधुनिक मॉडल में सबवर्ड, यानी शब्दों के कुछ हिस्से होते हैं. वह टेक्स्ट जिसमें सिमैंटिक मतलब हो. इन खंडों की लंबाई अलग-अलग हो सकती है एक वर्ण, जैसे कि विराम चिह्न या अधिकार वाले s. प्रीफ़िक्स और सफ़िक्स को अलग-अलग सबवर्ड के तौर पर दिखाया जा सकता है. उदाहरण के लिए, नहीं देखा गया शब्द को इस तरह से दिखाया जा सकता है तीन सबवर्ड:

अन (प्रीफ़िक्स)
स्मार्टवॉच (रूट)
ed (सफ़िक्स)

बिल्लियां शब्द को इन दो सबवर्ड से दिखाया जा सकता है:

बिल्ली (मूल)
s (सफ़िक्स)

"एंटीडिसएप्शनेशनिज़म" जैसा ज़्यादा जटिल शब्द शायद यहां दिखाया गया है जैसे कि छह सबवर्ड:

एंटी
डिस्क
स्थापित करें
मेंमेंट
एरियन
इज़्म

टोकन किसी भाषा के हिसाब से होता है. इसलिए, हर टोकन में वर्णों की संख्या अलग-अलग भाषाओं में होता है. अंग्रेज़ी के लिए, एक टोकन में करीब चार वर्ण होते हैं या किसी शब्द का करीब 3/4 हिस्सा, इसलिए 400 टोकन ~= 300 अंग्रेज़ी शब्द.

टोकन, भाषा की मॉडलिंग की सबसे छोटी इकाई या एटॉमिक यूनिट होते हैं.

अब इन पर टोकन भी लागू किए जा रहे हैं कंप्यूटर विज़न और ऑडियो जनरेट करने की सुविधा.

इस वाक्य और टोकन को पूरा करें. इसके लिए, यह वाक्य इस्तेमाल किया जा सकता है:

When I hear rain on my roof, I _______ in my kitchen.

लैंग्वेज मॉडल, अलग-अलग टोकन की संभावनाएं तय करता है या को पूरा करने के लिए टोकन के क्रम का इस्तेमाल करें. उदाहरण के लिए, निम्न प्रॉबेबिलिटी टेबल में कुछ संभावित टोकन और उनकी प्रॉबबिलिटी की पहचान की गई है:

प्रॉबेबिलिटी	टोकन
9.4%	सूप पकाएं
5.2%	केतली को गर्म करो
3.6%	कूवर
2.5%	झपकी
2.2%	आराम

कुछ मामलों में, टोकन का क्रम एक पूरा वाक्य हो सकता है, या पूरा निबंध लिखना.

कोई ऐप्लिकेशन, अनुमान लगाने के लिए प्रॉबबिलिटी टेबल का इस्तेमाल कर सकता है. इस अनुमान के आधार पर, सबसे ज़्यादा संभावना हो सकती है (उदाहरण के लिए, "कुक सूप") या किसी एक टोकन से ज़्यादा थ्रेशोल्ड.

टेक्स्ट के क्रम में खाली जगह भरने वाली चीज़ों की संभावना का अनुमान लगाने से ज़्यादा मुश्किल टास्क पर काम करने की सुविधा मिलती है. इनमें ये शामिल हैं:

टेक्स्ट जनरेट किया जा रहा है.
टेक्स्ट का एक से दूसरी भाषा में अनुवाद करना.
दस्तावेज़ों के बारे में खास जानकारी.

टोकन के आंकड़ों के पैटर्न का इस्तेमाल करके, आधुनिक भाषा के मॉडल तैयार किए जाते हैं भाषा का बेहद शक्तिशाली आंतरिक प्रतिनिधित्व करते हैं और इससे ऐसी भाषा चुनें जो सही हो.

एन-ग्राम लैंग्वेज मॉडल

N-ग्राम शब्दों के क्रम वाले क्रम होते हैं इसका इस्तेमाल लैंग्वेज मॉडल बनाने के लिए किया जाता है. इसमें N क्रम में मौजूद शब्दों की संख्या है. उदाहरण के लिए, जब N की वैल्यू 2 है, तब N-ग्राम को 2-gram कहा जाता है (या bigram); जब N का मान 5 होता है, तो N-ग्राम जिसे 5-ग्राम कहा जाता है. ट्रेनिंग दस्तावेज़ में यह वाक्यांश दिया गया है:

you are very nice

इसके बाद बने दो ग्राम नीचे दिए गए हैं:

आप हैं
बहुत
बहुत अच्छा

जब N का मान 3 होता है, तो N-ग्राम को 3-ग्राम कहा जाता है (या ट्रिग्राम). यही वाक्यांश दिए जाने पर, नतीजे के तौर पर मिले 3-ग्राम ये हैं:

तुम बहुत
बहुत अच्छे होते हैं

दो शब्दों को इनपुट के रूप में दिए जाने पर, 3-ग्राम की भाषा पर आधारित भाषा मॉडल तीसरे शब्द की संभावना कितनी है. उदाहरण के लिए, दिए गए दो शब्दों के हिसाब से:

orange is

भाषा का एक मॉडल, ट्रेनिंग से मिले सभी अलग-अलग 3-ग्राम की जांच करता है कॉर्पस जो सबसे ज़्यादा संभावना वाला तीसरा शब्द तय करने के लिए orange is से शुरू होता है. दो शब्दों orange is से सैकड़ों 3-ग्राम शुरू हो सकते हैं, लेकिन आप ऐसा कर सकते हैं निम्नलिखित दो संभावनाओं पर ध्यान देते हैं:

orange is ripe
orange is cheerful

पहली संभावना (orange is ripe) संतरे के बारे में है, जबकि दूसरी संभावना (orange is cheerful) रंग के बारे में है नारंगी.

संदर्भ

इंसान, बाकी जगहों के संदर्भ को लंबे समय तक बनाए रख सकते हैं. किसी नाटक का सेक्शन 3 देखते समय, आपको ऐक्ट 1 में पेश किए गए किरदारों के बारे में जानकारी बनाए रखने के लिए. इसी तरह, लंबे चुटकुले की पंचलाइन आपको हंसाती है, क्योंकि आपको कॉन्टेक्स्ट याद रहता है वह जो भी काम कर रहा है.

लैंग्वेज मॉडल में, कॉन्टेक्स्ट एक उदाहरण के तौर पर दी गई टारगेट टोकन. संदर्भ से किसी भाषा मॉडल को यह तय करने में मदद मिल सकती है कि क्या "नारंगी" मतलब खट्टे फल या रंग को दिखाता है.

संदर्भ की मदद से, भाषा का बेहतर अनुमान लगाया जा सकता है. हालांकि, ऐसा करने से क्या आपको तीन ग्राम में काफ़ी जानकारी चाहिए? माफ़ करें, सिर्फ़ 3-ग्राम की और पहले दो शब्द उपलब्ध हैं. उदाहरण के लिए, दो शब्दों orange is से तीसरे शब्द का अनुमान लगाने के लिए, भाषा के मॉडल को ज़रूरी संदर्भ दें. कॉन्टेक्स्ट की कमी की वजह से, तीन ग्राम वाले लैंग्वेज मॉडल में कई गलतियां हो सकती हैं.

मुमकिन है कि छोटे N-ग्राम की तुलना में लंबे N-ग्राम ज़्यादा जानकारी दें. हालांकि, जैसे-जैसे N संख्या बढ़ती है, वैसे-वैसे हर इंस्टेंस से जुड़े मामले कम होते जाते हैं. जब N बहुत बड़ा हो जाता है, तो भाषा मॉडल में आम तौर पर सिर्फ़ एक हर बार N टोकन के बार होने पर, जो इस मामले में बहुत मददगार नहीं है टारगेट टोकन का अनुमान लगाना.

बार-बार होने वाले न्यूरल नेटवर्क

बार-बार होने वाला न्यूरल नेटवर्क N-ग्राम की तुलना में ज़्यादा कॉन्टेक्स्ट दें. बार-बार होने वाला न्यूरल नेटवर्क, एक तरह का न्यूरल नेटवर्क, जो टोकन का क्रम है. उदाहरण के लिए, बार-बार होने वाला न्यूरल नेटवर्क क्या धीरे-धीरे वह हर शब्द से, चुने हुए संदर्भ को सीख सकता है (और नज़रअंदाज़ करना सीख सकता है) एक वाक्य में लिखें, ठीक वैसे ही, जैसे किसी की बात सुनते समय करते हैं. बार-बार आने वाला एक बड़ा न्यूरल नेटवर्क, कई चरणों के पारित होने से कॉन्टेक्स्ट हासिल कर सकता है वाक्य इस्तेमाल करें.

हालांकि बार-बार होने वाले न्यूरल नेटवर्क, N-ग्राम की तुलना में ज़्यादा कॉन्टेक्स्ट सीखते हैं. हालांकि, न सिर्फ़ उपयोगी और बार-बार दिखने वाले न्यूरल नेटवर्क, उतना ही सीमित. बार-बार होने वाले न्यूरल नेटवर्क, जानकारी का आकलन "टोकन से टोकन" करते हैं. इसके उलट, लार्ज लैंग्वेज मॉडल—ऐसे विषय हैं जो अगले सेक्शन में जाकर, पूरे संदर्भ का एक साथ आकलन किया जा सकता है.

ध्यान दें कि लंबे कॉन्टेक्स्ट के लिए बार-बार होने वाले न्यूरल नेटवर्क की ट्रेनिंग सीमित है वैनिशिंग ग्रेडिएंट समस्या.

व्यायाम: अपनी समझ की जांच करें

कौनसा भाषा मॉडल, अंग्रेज़ी टेक्स्ट के लिए बेहतर अनुमान लगाता है?

छह ग्राम पर आधारित लैंग्वेज मॉडल
पांच ग्राम पर आधारित लैंग्वेज मॉडल

जवाब इस बात पर निर्भर करता है कि ट्रेनिंग में कितने छात्र-छात्राओं की संख्या और विविधता शामिल है सेट.

अगर प्रशिक्षण सेट में लाखों अलग-अलग दस्तावेज़ शामिल हैं, तो 6-ग्राम वाला मॉडल, मॉडल से बेहतर परफ़ॉर्म करेगा की कैटगरी में बांट सकते हैं.

छह ग्राम के हिसाब से लैंग्वेज मॉडल.

इस लैंग्वेज मॉडल में ज़्यादा कॉन्टेक्स्ट मौजूद है. हालांकि, ऐसा सिर्फ़ तब होगा, जब यह मॉडल ट्रेनिंग दी है. इनमें से ज़्यादातर 6-ग्राम की कभी-कभार ही होने चाहिए.

5-ग्राम के आधार पर लैंग्वेज मॉडल.

इस लैंग्वेज मॉडल में कम कॉन्टेक्स्ट मौजूद है. इसलिए, ऐसा हो सकता है कि 6-ग्राम के हिसाब से लैंग्वेज मॉडल से बेहतर परफ़ॉर्म कर सकते हैं.

अभी तक किसी भी व्यक्ति ने चेक इन नहीं किया है

पीछे जाएं

देखें कि आपको कितना ज्ञान है (10 मिनट)

आगे बढ़ें

बड़ा लैंग्वेज मॉडल क्या है? (15 मिनट)