इस पेज पर, रीइनफ़ोर्समेंट लर्निंग की ग्लॉसरी के शब्द मौजूद हैं. ग्लॉसरी में मौजूद सभी शब्दों के लिए, यहां क्लिक करें.
A
ऐक्शन गेम
रीइंफ़ोर्समेंट लर्निंग में, वह तरीका जिससे एजेंट, एनवायरमेंट की स्टेटस के बीच ट्रांज़िशन करता है. एजेंट, नीति का इस्तेमाल करके कार्रवाई चुनता है.
एजेंट
रीइंफ़ोर्समेंट लर्निंग में, ऐसी इकाई जो नीति का इस्तेमाल करके, एनवायरमेंट के स्टेटस के बीच ट्रांज़िशन करने से मिलने वाले अनुमानित रिटर्न को बढ़ाती है.
आम तौर पर, एजेंट एक ऐसा सॉफ़्टवेयर होता है जो अपने-आप किसी लक्ष्य को हासिल करने के लिए, कार्रवाइयों की एक सीरीज़ की योजना बनाता है और उसे लागू करता है. साथ ही, अपने आस-पास होने वाले बदलावों के हिसाब से खुद को ढालने की क्षमता भी रखता है. उदाहरण के लिए, LLM पर आधारित एजेंट, प्लान जनरेट करने के लिए, बेहतर बनाने वाली लर्निंग की नीति लागू करने के बजाय, एलएलएम का इस्तेमाल कर सकता है.
B
बेलमैन समीकरण
रिनफ़ोर्समेंट लर्निंग में, ऑप्टिमाइज़ की गई Q-फ़ंक्शन से यह पहचान पूरी होती है:
\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]
रीइनफ़ोर्समेंट लर्निंग एल्गोरिदम, इस पहचान को लागू करके, अपडेट करने के इस नियम की मदद से क्यू-लर्निंग बनाते हैं:
\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]
रीइनफ़ोर्समेंट लर्निंग के अलावा, बेलमैन समीकरण का इस्तेमाल डायनैमिक प्रोग्रामिंग में भी किया जाता है. बेलमैन समीकरण के लिए Wikipedia पर दी गई जानकारी देखें.
C
क्रिटिक
डीप क्यू-नेटवर्क का दूसरा नाम.
D
डीप क्यू-नेटवर्क (DQN)
क्यू-लर्निंग में, न्यूरल नेटवर्क का इस्तेमाल किया जाता है. यह क्यू-फ़ंक्शन का अनुमान लगाता है.
Critic, डीप क्यू-नेटवर्क का दूसरा नाम है.
DQN
डीप क्यू-नेटवर्क का छोटा नाम.
E
वातावरण
रीइंफ़ोर्समेंट लर्निंग में, वह दुनिया जिसमें एजेंट होता है और एजेंट को उस दुनिया की स्थिति को देखने की अनुमति मिलती है. उदाहरण के लिए, दिखाया गया वर्ल्ड, शतरंज जैसा गेम हो सकता है या कोई पहेली जैसी दुनिया हो सकती है. जब एजेंट, एनवायरमेंट पर कोई कार्रवाई लागू करता है, तो एनवायरमेंट एक स्टेटस से दूसरे स्टेटस में ट्रांज़िशन करता है.
एपिसोड
रिनफ़ोर्समेंट लर्निंग में, एजेंट के किसी एनवायरमेंट को सीखने के लिए, बार-बार किए गए हर प्रयास को एलिमेंट कहा जाता है.
एप्सिलॉन ग्रैडी नीति
रीइंफ़ोर्समेंट लर्निंग में, ऐसी नीति जो एप्सिलॉन संभावना के साथ रैंडम नीति या किसी दूसरी स्थिति में लालची नीति का पालन करती है. उदाहरण के लिए, अगर एप्सिलॉन 0.9 है, तो नीति 90% समय तक रैंडम नीति का पालन करती है और 10% समय तक लालची नीति का पालन करती है.
एल्गोरिदम, एपिसोड के हिसाब से, एप्सिलॉन की वैल्यू को कम करता है, ताकि वह किसी रैंडम नीति से, लालची नीति पर स्विच कर सके. नीति में बदलाव करके, एजेंट पहले अपने आस-पास के माहौल को रैंडम तरीके से एक्सप्लोर करता है और फिर रैंडम एक्सप्लोरेशन के नतीजों का फ़ायदा उठाता है.
अनुभव को फिर से चलाना
रिनफ़ोर्समेंट लर्निंग में, DQN तकनीक का इस्तेमाल, ट्रेनिंग डेटा में समय के साथ होने वाले बदलावों को कम करने के लिए किया जाता है. एजेंट, रीप्ले बफ़र में स्टेटस ट्रांज़िशन को सेव करता है. इसके बाद, ट्रेनिंग डेटा बनाने के लिए रीप्ले बफ़र से ट्रांज़िशन का सैंपल लेता है.
G
लालची नीति
रिनफ़ोर्समेंट लर्निंग में, ऐसी नीति जो हमेशा सबसे ज़्यादा अनुमानित रिटर्न वाली कार्रवाई चुनती है.
M
मार्कोव डिसीज़न प्रोसेस (एमडीपी)
फ़ैसला लेने वाले मॉडल को दिखाने वाला ग्राफ़, जहां मार्कोव प्रॉपर्टी के तहत, स्टेटस के क्रम में नेविगेट करने के लिए फ़ैसले (या कार्रवाइयां) लिए जाते हैं. रीइंफ़ोर्समेंट लर्निंग में, एक स्टेटस से दूसरे स्टेटस में ट्रांज़िशन करने पर, संख्या के तौर पर इनाम मिलता है.
मार्कोव प्रॉपर्टी
कुछ एनवायरमेंट की प्रॉपर्टी, जहां स्टेटस ट्रांज़िशन पूरी तरह से मौजूदा स्टेटस और एजेंट की कार्रवाई में मौजूद जानकारी से तय होते हैं.
P
policy
रीइंफ़ोर्समेंट लर्निंग में, एजेंट की संभावित मैपिंग, स्टेटस से कार्रवाइयों तक होती है.
Q
Q-फ़ंक्शन
रीइंफ़ोर्समेंट लर्निंग में, यह फ़ंक्शन किसी स्थिति में कार्रवाई करने से मिलने वाले अनुमानित नतीजे का अनुमान लगाता है. इसके बाद, यह किसी दी गई नीति का पालन करता है.
Q-फ़ंक्शन को स्टेट-ऐक्शन वैल्यू फ़ंक्शन भी कहा जाता है.
क्यू-लर्निंग
रीइंफ़ोर्समेंट लर्निंग में, एक ऐसा एल्गोरिदम होता है जो एजेंट को बेलमैन समीकरण लागू करके, मार्कोव डिसीज़न प्रोसेस का सबसे अच्छा क्यू-फ़ंक्शन सीखने की अनुमति देता है. मार्कोव डिसीज़न प्रोसेस मॉडल, किसी एनवायरमेंट को मॉडल करता है.
R
रैंडम नीति
रीइनफ़ोर्समेंट लर्निंग में, एक ऐसी नीति जो कार्रवाई को रैंडम तौर पर चुनती है.
रीइनफ़ोर्समेंट लर्निंग (आरएल)
एल्गोरिदम का एक फ़ैमिली, जो सबसे सही नीति को सीखता है. इसका लक्ष्य, किसी एनवायरमेंट के साथ इंटरैक्ट करते समय रिटर्न को बढ़ाना होता है. उदाहरण के लिए, ज़्यादातर गेम में जीतना सबसे बड़ा इनाम होता है. रिनफ़ोर्समेंट लर्निंग सिस्टम, गेम के पिछले चरणों का आकलन करके, मुश्किल गेम खेलने में माहिर हो सकते हैं. इन चरणों में, वे गेम में जीतने और हारने के क्रम का आकलन करते हैं.
लोगों के सुझाव पर आधारित रीइन्फ़ोर्समेंट लर्निंग (आरएलएचएफ़)
मॉडल के जवाबों की क्वालिटी को बेहतर बनाने के लिए, रेटिंग देने वाले लोगों के सुझाव, राय या शिकायत का इस्तेमाल करना. उदाहरण के लिए, आरएलएचएफ़ (रेवेन्यू लर्निंग फ़्रीक्वेंसी) तंत्र, उपयोगकर्ताओं से 👍 या 👎 इमोजी का इस्तेमाल करके, मॉडल के जवाब की क्वालिटी को रेटिंग देने के लिए कह सकता है. इसके बाद, सिस्टम उस सुझाव या राय के आधार पर, आने वाले समय में अपने जवाबों में बदलाव कर सकता है.
रीप्ले बफ़र
DQN जैसे एल्गोरिदम में, एजेंट एक्सपीरियंस रीप्ले में इस्तेमाल करने के लिए, स्टेटस ट्रांज़िशन को सेव करने के लिए मेमोरी का इस्तेमाल करता है.
रिटर्न
किसी खास नीति और किसी खास स्थिति के हिसाब से, रिनफ़ोर्समेंट लर्निंग में रिटर्न, उन सभी इनाम का कुल योग होता है जो एजेंट को नीति का पालन करते हुए, स्थिति से लेकर एपिसोड के आखिर तक मिलने की उम्मीद होती है. एजेंट, इनाम पाने के लिए ज़रूरी स्टेटस ट्रांज़िशन के हिसाब से इनाम पर छूट देकर, उम्मीद के मुताबिक इनाम मिलने में होने वाली देरी को ध्यान में रखता है.
इसलिए, अगर छूट का फ़ैक्टर \(\gamma\)है और \(r_0, \ldots, r_{N}\) एपिसोड के आखिर तक मिलने वाले इनामों को दिखाता है, तो रिटर्न का हिसाब इस तरह से लगाया जाता है:
इनाम
किसी स्थिति में कार्रवाई करने पर मिलने वाला संख्यात्मक नतीजा. इसे एनवायरमेंट तय करता है.
S
राज्य
रीइंफ़ोर्समेंट लर्निंग में, पैरामीटर की वैल्यू से एनवायरमेंट के मौजूदा कॉन्फ़िगरेशन के बारे में पता चलता है. एजेंट, कार्रवाई चुनने के लिए इन वैल्यू का इस्तेमाल करता है.
स्टेट-ऐक्शन वैल्यू फ़ंक्शन
Q-फ़ंक्शन का समानार्थी शब्द.
T
टेबल में मौजूद Q-लर्निंग
रीइंफ़ोर्समेंट लर्निंग में, टेबल का इस्तेमाल करके क्यू-लर्निंग लागू करना. इससे, स्टेटस और कार्रवाई के हर कॉम्बिनेशन के लिए, क्यू-फ़ंक्शन को सेव किया जा सकता है.
टारगेट नेटवर्क
डीप क्यू-लर्निंग में, एक ऐसा न्यूरल नेटवर्क होता है जो मुख्य न्यूरल नेटवर्क का एक स्थिर अनुमान होता है. इसमें मुख्य न्यूरल नेटवर्क, क्यू-फ़ंक्शन या नीति को लागू करता है. इसके बाद, टारगेट नेटवर्क से अनुमानित Q-वैल्यू के आधार पर, मुख्य नेटवर्क को ट्रेन किया जा सकता है. इसलिए, फ़ीडबैक लूप को रोका जा सकता है. यह लूप तब होता है, जब मुख्य नेटवर्क, अपने हिसाब से अनुमानित Q-वैल्यू पर ट्रेनिंग करता है. इस फ़ीडबैक को रोकने से, trianing की स्थिरता बढ़ती है.
सदस्यता खत्म होने की शर्त
रीइंफ़ोर्समेंट लर्निंग में, ऐसी शर्तें होती हैं जिनसे यह तय होता है कि एपिसोड कब खत्म होगा. जैसे, जब एजेंट किसी खास स्टेटस पर पहुंचता है या स्टेटस ट्रांज़िशन की थ्रेशोल्ड संख्या से ज़्यादा हो जाती है. उदाहरण के लिए, टिक-टैक-टो (इसे क्रॉस और नॉट भी कहा जाता है) में, कोई एपिसोड तब खत्म होता है, जब कोई खिलाड़ी लगातार तीन स्पेस मार्क करता है या सभी स्पेस मार्क कर लेता है.
ट्रैजेक्ट्री
रीइंफ़ोर्समेंट लर्निंग में, ट्यूपल का क्रम, जो एजेंट की स्थिति के ट्रांज़िशन के क्रम को दिखाता है. इसमें हर ट्यूपल, किसी स्थिति के ट्रांज़िशन के लिए, स्थिति, कार्रवाई, इनाम, और अगली स्थिति से जुड़ा होता है.