एक नई टेक्नोलॉजी, बड़े लैंग्वेज मॉडल (एलएलएम) टोकन या टोकन के क्रम का अनुमान लगाते हैं, कभी-कभी तो किसी एक अनुमानित टोकन. याद रखें कि टोकन कोई शब्द या सबवर्ड (एक सबसेट एक शब्द), या कोई एक वर्ण भी शामिल हो सकता है. एलएलएम की मदद से, बेहतर अनुमान लगाए जा सकते हैं बार-बार दोहराए जाने वाले न्यूरल नेटवर्क की तुलना में, N-ग्राम लैंग्वेज मॉडल और बार-बार होने वाले न्यूरल नेटवर्क की तुलना में ऐसा होता है. इसकी वजह यह है कि:
- एलएलएम में काफ़ी ज़्यादा पैरामीटर होते हैं बार-बार होने वाले मॉडल की तुलना में ज़्यादा है.
- एलएलएम से ज़्यादा जानकारी मिलती है.
इस सेक्शन में, सबसे सफल और बड़े पैमाने पर इस्तेमाल किए जाने वाले आर्किटेक्चर के बारे में बताया गया है ट्रांसफ़ॉर्मर: एलएलएम बनाने के लिए.
ट्रांसफ़ॉर्मर क्या है?
ट्रांसफ़ॉर्मर यहां की आधुनिक वास्तुकला का एक बेहतरीन नमूना है. भाषा मॉडल अनुप्रयोग, जैसे अनुवाद:
फ़ुल ट्रांसफ़ॉर्मर में एक एन्कोडर और डिकोडर होता है:
- एन्कोडर ग्राहक को बदल देता है इंटरमीडिएट प्रज़ेंटेशन में टेक्स्ट डालें. एन्कोडर एक बहुत बड़ा काम है न्यूरल नेट.
- डीकोडर का इस्तेमाल करके कन्वर्ज़न मेज़र किया जा सकता है उसे उपयोगी टेक्स्ट के रूप में दिखाना ज़रूरी है. डिकोडर, न्यूरल नेट.
उदाहरण के लिए, किसी अनुवादक में:
- एन्कोडर, इनपुट टेक्स्ट (उदाहरण के लिए, अंग्रेज़ी वाक्य) को प्रोसेस करता है बीच के लेवल पर शामिल होना.
- डिकोडर उस इंटरमीडिएट प्रज़ेंटेशन को आउटपुट टेक्स्ट में बदल देता है ( उदाहरण के लिए, फ़्रेंच वाक्य का मिलता-जुलता वाक्य).
खुद का ध्यान रखना क्या है?
कॉन्टेक्स्ट को बेहतर बनाने के लिए, ट्रांसफ़ॉर्मर मुख्य रूप से खुद का ध्यान रखना. खुद पर ध्यान देने के लिए, असरदार तरीके से हर इनपुट के लिए ज़रूरी होता है नीचे दिया गया सवाल:
"इनपुट का एक-दूसरे टोकन, इसकी व्याख्या पर कितना असर डालता है टोकन?"
खुद के बारे में "खुद का ध्यान रखना" में इनपुट क्रम को दिखाता है. थोड़ा ध्यान देना मेकेनिज़्म, इनपुट टोकन के टोकन के साथ आउटपुट सीक्वेंस में, अनुवाद या किसी अन्य क्रम में टोकन के लिए. लेकिन सिर्फ़ खुद का ध्यान रखना इनपुट क्रम में टोकन के बीच के संबंधों की अहमियत को हाइलाइट करता है.
मामलों को आसान बनाने के लिए, मान लें कि हर टोकन एक शब्द है और पूरा संदर्भ सिर्फ़ एक वाक्य है. इस वाक्य पर गौर करें:
The animal didn't cross the street because it was too tired.
पिछले वाक्य में ग्यारह शब्द हैं. ग्यारह शब्दों में से हर वह बाकी दस शब्दों पर ध्यान दे रहा है और सोच रहा है कि उन दस शब्दों में से हर अपने लिए मायने रखती है. उदाहरण के लिए, देखें कि वाक्य में सर्वनाम है इसे. सर्वनामों का मतलब साफ़ तौर पर नहीं पता होता. आम तौर पर, it सर्वनाम का मतलब है हाल की संज्ञा या संज्ञा वाक्यांश, लेकिन उदाहरण में दिए गए वाक्य में, जो हाल ही की संज्ञा क्या वह किसी जानवर से जुड़ा है या सड़क?
खुद पर ध्यान देने की सुविधा से यह तय किया जाता है कि आस-पास के हर शब्द को सर्वनाम it. इमेज 3 में नतीजे दिखाए गए हैं—लाइन जितनी नीली होगी, उतने ही ज़्यादा नतीजे दिखेंगे ज़रूरी है कि शब्द, सर्वनाम इट के लिए हो. इसका मतलब है कि जानवर सर्वनाम it के लिए सड़क की जगह ज़रूरी है.
इसके उलट, मान लें कि वाक्य का आखिरी शब्द इस तरह बदल जाता है:
The animal didn't cross the street because it was too wide.
इस बदले गए वाक्य में, खुद पर ध्यान देने से सड़क की रेटिंग इस तरह से हो सकती है: तो, सर्वनाम यह के मुकाबले ज़्यादा काम का होता है.
खुद पर ध्यान देने के कुछ तरीके दो-तरफ़ा होते हैं, यानी कि टोकन के लिए प्रासंगिकता के स्कोर की गणना पहले से शुरू औरपहले शब्द को इन इवेंट में हिस्सा लिया. उदाहरण के लिए, चित्र 3 में, ध्यान दें कि इसकी जांच की जाती है. इसलिए, दो तरीकों से खुद पर ध्यान देने की सुविधा की मदद से, जिस शब्द में शब्द इस्तेमाल किया जा रहा है उसके दोनों ओर मौजूद संदर्भ. इसके उलट, एकतरफ़ा खुद पर ध्यान देने की सुविधा, सिर्फ़ शब्दों से संदर्भ इकट्ठा कर सकती है उन शब्दों के एक तरफ़ मौजूद है, जिनमें हिस्सा लिया जा रहा है. दो तरीकों से खुद का ध्यान रखना यह खास तौर पर तब मददगार होता है, जब पूरी क्रमों को दिखाना हो. टोकन-दर-टोकन सीक्वेंस जनरेट करने वाले ऐप्लिकेशन के लिए एकतरफ़ा होना ज़रूरी है अपना ध्यान खींचना. इस वजह से, एन्कोडर बाय-डायरेक्शनल सेल्फ़-अटेंशन का इस्तेमाल करते हैं. जबकि डिकोडर एकतरफ़ा का इस्तेमाल करते हैं.
मल्टी-हेड सेल्फ़-अटेंशन क्या है?
खुद पर ध्यान देने की हर लेयर में, आम तौर पर कई चीज़ें शामिल होती हैं सेल्फ़-अटेंशन हेड. लेयर का आउटपुट, एक गणितीय प्रक्रिया होती है (उदाहरण के लिए, भारित औसत या डॉट प्रॉडक्ट) सिर अलग-अलग है.
खुद पर ध्यान देने वाली हर लेयर को रैंडम वैल्यू से शुरू किया जाता है, इसलिए अलग-अलग हेड जिन शब्दों को सीखने में हिस्सा लिया गया है उनके और आस-पास के शब्द. उदाहरण के लिए, ऊपर बताई गई सेक्शन में यह तय किया जाता है कि उस सर्वनाम का इस्तेमाल किस संज्ञा के लिए किया गया है. हालांकि, खुद पर ध्यान देने वाली अन्य लेयर, एक शब्द को दूसरे शब्द के साथ मिलाने या अन्य इंटरैक्शन के बारे में जानने के लिए.
ट्रांसफ़ॉर्मर इतने बड़े क्यों हैं?
ट्रांसफ़ॉर्मर में अरबों या खरबों हज़ार पैरामीटर. आम तौर पर, इस कोर्स में छोटे साइज़ वाले बिल्डिंग मॉडल के सुझाव दिए जाते हैं पैरामीटर की संख्या को, बड़ी संख्या वाले पैरामीटर की तुलना में शामिल करना. आखिरकार, कम पैरामीटर वाला मॉडल कम संसाधनों का इस्तेमाल करता है का इस्तेमाल करें. हालांकि, रिसर्च से पता चलता है कि ज़्यादा पैरामीटर वाले ट्रांसफ़ॉर्मर कम पैरामीटर वाले ट्रांसफ़ॉर्मर से लगातार बेहतर प्रदर्शन करती है.
हालाँकि, एलएलएम से टेक्स्ट जनरेट करने का तरीक़ा क्या है?
आपने देखा है कि कैसे शोधकर्ता एक या दो शब्द छूट जाने का अनुमान लगाने के लिए, एलएलएम को ट्रेनिंग देते हैं शायद वे आपसे प्रभावित न हों. आखिरकार, एक या दो शब्द का अनुमान लगाना अपने-आप पूरा होने वाली सुविधा शामिल है. आपको लग रहा होगा कि एलएलएम, वाक्य या पैराग्राफ़ कैसे जनरेट कर सकते हैं या आर्बिट्रेज के बारे में हाइकु.
एलएलएम असल में ऑटोकंप्लीट की सुविधा देते हैं. ये ऑटोकंप्लीट की सुविधा देते हैं हज़ारों टोकन का अनुमान लगाकर (पूरा हुआ) करें. उदाहरण के लिए, किसी वाक्य पर विचार करें इसके बाद, मास्क वाला वाक्य:
My dog, Max, knows how to perform many traditional dog tricks. ___ (masked sentence)
एलएलएम, मास्क वाले वाक्य के लिए प्रॉबबिलिटी जनरेट कर सकता है. इनमें ये शामिल हैं:
प्रॉबेबिलिटी | शब्द |
---|---|
3.1% | उदाहरण के लिए, वह बैठ सकता है, रह सकता है और को घुमाएं. |
2.9% | उदाहरण के लिए, वह जानता है कि कैसे बैठना, ठहरना, और को घुमाएं. |
ज़रूरत के मुताबिक बड़ा एलएलएम, पैराग्राफ़ और पूरे पैराग्राफ़ के लिए प्रॉबबिलिटी जनरेट कर सकता है निबंध. एलएलएम से किसी व्यक्ति के सवालों को "दिया गया" वाक्य काल्पनिक मास्क लगाएं. उदाहरण के लिए:
User's question: What is the easiest trick to teach a dog? LLM's response: ___
एलएलएम, अलग-अलग संभावित जवाबों के लिए प्रॉबबिलिटी जनरेट करता है.
इसका एक और उदाहरण है. एलएलएम ने गणित के कई "शब्द" समस्या" यह जटिल गणितीय रीज़निंग का उदाहरण हो सकता है. हालांकि, इन एलएलएम में शब्दों के सवाल से जुड़े सवाल अपने-आप पूरे होते हैं.
एलएलएम के फ़ायदे
एलएलएम, दुनिया भर के लोगों के लिए सटीक और समझने में आसान टेक्स्ट जनरेट कर सकते हैं को टारगेट किया जा सकता है. एलएलएम, अपने टास्क का अनुमान लगा सकते हैं खास तौर पर ट्रेनिंग दी गई. कुछ रिसर्चर का दावा है कि एलएलएम से उन इनपुट के लिए अनुमानों के बारे में भी बताया गया था जिनके लिए उन्हें साफ़ तौर पर ट्रेनिंग नहीं दी गई थी. हालांकि, रिसर्चर ने इस दावे को खारिज किया है.
एलएलएम से जुड़ी समस्याएं
एलएलएम की ट्रेनिंग के दौरान, कई समस्याएं आती हैं. जैसे:
- एक बहुत बड़ा ट्रेनिंग सेट इकट्ठा किया जा रहा है.
- कई महीनों और बहुत सारे कंप्यूटेशनल रिसॉर्स और बिजली.
- साथ मिलकर काम करने से जुड़ी चुनौतियों को हल करना. अभी तक किसी भी व्यक्ति ने चेक इन नहीं किया है
एलएलएम का इस्तेमाल करके, अनुमान लगाने में ये समस्याएं होती हैं:
- एलएलएम गलत जानकारी देते हैं, इसका मतलब है कि उनके अनुमानों में अक्सर गलतियां हो सकती हैं.
- एलएलएम में कंप्यूटेशनल संसाधनों के साथ-साथ बिजली की बहुत ज़्यादा खपत होती है. बड़े डेटासेट पर एलएलएम की ट्रेनिंग से, आम तौर पर यह पता लगाने के लिए ज़रूरी संसाधनों की संख्या है. हालांकि, काफ़ी बड़ी ट्रेनिंग सेट पर ट्रेनिंग के और संसाधन आते हैं.
- एमएल मॉडल के अन्य सभी मॉडल की तरह, एलएलएम में भी कई तरह का पूर्वाग्रह हो सकता है.