लैंग्वेज मॉडल क्या है?
भाषा का मॉडल टोकन की संभावना का अनुमान लगाता है या टोकन की एक लंबी सूची के अंदर होने वाले टोकन का क्रम. टोकन कोई शब्द, कोई सबवर्ड (किसी शब्द का सबसेट) या कोई एक वर्ण भी हो सकता है.
इस वाक्य और टोकन को पूरा करें. इसके लिए, यह वाक्य इस्तेमाल किया जा सकता है:
When I hear rain on my roof, I _______ in my kitchen.
लैंग्वेज मॉडल, अलग-अलग टोकन की संभावनाएं तय करता है या को पूरा करने के लिए टोकन के क्रम का इस्तेमाल करें. उदाहरण के लिए, निम्न प्रॉबेबिलिटी टेबल में कुछ संभावित टोकन और उनकी प्रॉबबिलिटी की पहचान की गई है:
प्रॉबेबिलिटी | टोकन |
---|---|
9.4% | सूप पकाएं |
5.2% | केतली को गर्म करो |
3.6% | कूवर |
2.5% | झपकी |
2.2% | आराम |
कुछ मामलों में, टोकन का क्रम एक पूरा वाक्य हो सकता है, या पूरा निबंध लिखना.
कोई ऐप्लिकेशन, अनुमान लगाने के लिए प्रॉबबिलिटी टेबल का इस्तेमाल कर सकता है. इस अनुमान के आधार पर, सबसे ज़्यादा संभावना हो सकती है (उदाहरण के लिए, "कुक सूप") या किसी एक टोकन से ज़्यादा थ्रेशोल्ड.
टेक्स्ट के क्रम में खाली जगह भरने वाली चीज़ों की संभावना का अनुमान लगाने से ज़्यादा मुश्किल टास्क पर काम करने की सुविधा मिलती है. इनमें ये शामिल हैं:
- टेक्स्ट जनरेट किया जा रहा है.
- टेक्स्ट का एक से दूसरी भाषा में अनुवाद करना.
- दस्तावेज़ों के बारे में खास जानकारी.
टोकन के आंकड़ों के पैटर्न का इस्तेमाल करके, आधुनिक भाषा के मॉडल तैयार किए जाते हैं भाषा का बेहद शक्तिशाली आंतरिक प्रतिनिधित्व करते हैं और इससे ऐसी भाषा चुनें जो सही हो.
एन-ग्राम लैंग्वेज मॉडल
N-ग्राम शब्दों के क्रम वाले क्रम होते हैं इसका इस्तेमाल लैंग्वेज मॉडल बनाने के लिए किया जाता है. इसमें N क्रम में मौजूद शब्दों की संख्या है. उदाहरण के लिए, जब N की वैल्यू 2 है, तब N-ग्राम को 2-gram कहा जाता है (या bigram); जब N का मान 5 होता है, तो N-ग्राम जिसे 5-ग्राम कहा जाता है. ट्रेनिंग दस्तावेज़ में यह वाक्यांश दिया गया है:
you are very nice
इसके बाद बने दो ग्राम नीचे दिए गए हैं:
- आप हैं
- बहुत
- बहुत अच्छा
जब N का मान 3 होता है, तो N-ग्राम को 3-ग्राम कहा जाता है (या ट्रिग्राम). यही वाक्यांश दिए जाने पर, नतीजे के तौर पर मिले 3-ग्राम ये हैं:
- तुम बहुत
- बहुत अच्छे होते हैं
दो शब्दों को इनपुट के रूप में दिए जाने पर, 3-ग्राम की भाषा पर आधारित भाषा मॉडल तीसरे शब्द की संभावना कितनी है. उदाहरण के लिए, दिए गए दो शब्दों के हिसाब से:
orange is
भाषा का एक मॉडल, ट्रेनिंग से मिले सभी अलग-अलग 3-ग्राम की जांच करता है
कॉर्पस जो सबसे ज़्यादा संभावना वाला तीसरा शब्द तय करने के लिए orange is
से शुरू होता है.
दो शब्दों orange is
से सैकड़ों 3-ग्राम शुरू हो सकते हैं, लेकिन आप ऐसा कर सकते हैं
निम्नलिखित दो संभावनाओं पर ध्यान देते हैं:
orange is ripe orange is cheerful
पहली संभावना (orange is ripe
) संतरे के बारे में है,
जबकि दूसरी संभावना (orange is cheerful
) रंग के बारे में है
नारंगी.
संदर्भ
इंसान, बाकी जगहों के संदर्भ को लंबे समय तक बनाए रख सकते हैं. किसी नाटक का सेक्शन 3 देखते समय, आपको ऐक्ट 1 में पेश किए गए किरदारों के बारे में जानकारी बनाए रखने के लिए. इसी तरह, लंबे चुटकुले की पंचलाइन आपको हंसाती है, क्योंकि आपको कॉन्टेक्स्ट याद रहता है वह जो भी काम कर रहा है.
लैंग्वेज मॉडल में, कॉन्टेक्स्ट एक उदाहरण के तौर पर दी गई टारगेट टोकन. संदर्भ से किसी भाषा मॉडल को यह तय करने में मदद मिल सकती है कि क्या "नारंगी" मतलब खट्टे फल या रंग को दिखाता है.
संदर्भ की मदद से, भाषा का बेहतर अनुमान लगाया जा सकता है. हालांकि, ऐसा करने से
क्या आपको तीन ग्राम में काफ़ी जानकारी चाहिए? माफ़ करें, सिर्फ़ 3-ग्राम की और
पहले दो शब्द उपलब्ध हैं. उदाहरण के लिए, दो शब्दों orange is
से
तीसरे शब्द का अनुमान लगाने के लिए, भाषा के मॉडल को ज़रूरी संदर्भ दें.
कॉन्टेक्स्ट की कमी की वजह से, तीन ग्राम वाले लैंग्वेज मॉडल में कई गलतियां हो सकती हैं.
मुमकिन है कि छोटे N-ग्राम की तुलना में लंबे N-ग्राम ज़्यादा जानकारी दें. हालांकि, जैसे-जैसे N संख्या बढ़ती है, वैसे-वैसे हर इंस्टेंस से जुड़े मामले कम होते जाते हैं. जब N बहुत बड़ा हो जाता है, तो भाषा मॉडल में आम तौर पर सिर्फ़ एक हर बार N टोकन के बार होने पर, जो इस मामले में बहुत मददगार नहीं है टारगेट टोकन का अनुमान लगाना.
बार-बार होने वाले न्यूरल नेटवर्क
बार-बार होने वाला न्यूरल नेटवर्क N-ग्राम की तुलना में ज़्यादा कॉन्टेक्स्ट दें. बार-बार होने वाला न्यूरल नेटवर्क, एक तरह का न्यूरल नेटवर्क, जो टोकन का क्रम है. उदाहरण के लिए, बार-बार होने वाला न्यूरल नेटवर्क क्या धीरे-धीरे वह हर शब्द से, चुने हुए संदर्भ को सीख सकता है (और नज़रअंदाज़ करना सीख सकता है) एक वाक्य में लिखें, ठीक वैसे ही, जैसे किसी की बात सुनते समय करते हैं. बार-बार आने वाला एक बड़ा न्यूरल नेटवर्क, कई चरणों के पारित होने से कॉन्टेक्स्ट हासिल कर सकता है वाक्य इस्तेमाल करें.
हालांकि बार-बार होने वाले न्यूरल नेटवर्क, N-ग्राम की तुलना में ज़्यादा कॉन्टेक्स्ट सीखते हैं. हालांकि, न सिर्फ़ उपयोगी और बार-बार दिखने वाले न्यूरल नेटवर्क, उतना ही सीमित. बार-बार होने वाले न्यूरल नेटवर्क, जानकारी का आकलन "टोकन से टोकन" करते हैं. इसके उलट, लार्ज लैंग्वेज मॉडल—ऐसे विषय हैं जो अगले सेक्शन में जाकर, पूरे संदर्भ का एक साथ आकलन किया जा सकता है.
ध्यान दें कि लंबे कॉन्टेक्स्ट के लिए बार-बार होने वाले न्यूरल नेटवर्क की ट्रेनिंग सीमित है वैनिशिंग ग्रेडिएंट समस्या.
व्यायाम: अपनी समझ की जांच करें
- छह ग्राम पर आधारित लैंग्वेज मॉडल
- पांच ग्राम पर आधारित लैंग्वेज मॉडल