इस पेज में रीइन्फ़ोर्समेंट लर्निंग से जुड़ी शब्दावली शब्द शामिल हैं. शब्दावली के सभी शब्दों के लिए, यहां क्लिक करें.
जवाब
ऐक्शन गेम
रीइन्फ़ोर्समेंट लर्निंग में, वह तकनीक जिससे एजेंट, एनवायरमेंट के राज्यों के बीच ट्रांज़िशन करता है. एजेंट नीति का इस्तेमाल करके कार्रवाई चुनता है.
एजेंट
रीइन्फ़ोर्समेंट लर्निंग में, वह इकाई नीति का इस्तेमाल करती है जो एनवायरमेंट के राज्यों के बीच होने वाले बदलाव से, मिलने वाले रिटर्न को ज़्यादा से ज़्यादा हासिल करती है.
आम तौर पर, एजेंट ऐसा सॉफ़्टवेयर होता है जो किसी लक्ष्य को हासिल करने के लिए, अपने-आप कई कार्रवाइयों को प्लान करता है और उन्हें लागू करता है. इसकी मदद से, ये अपने आस-पास के माहौल में होने वाले बदलावों के हिसाब से काम कर सकते हैं. उदाहरण के लिए, एलएलएम में काम करने वाले एजेंट, प्लान बनाने के लिए एलएलएम का इस्तेमाल कर सकते हैं. वे रीइन्फ़ोर्समेंट लर्निंग से जुड़ी नीति लागू करने के बजाय, एलएलएम का इस्तेमाल कर सकते हैं.
B
बेलमैन इक्वेशन
रीइन्फ़ोर्समेंट लर्निंग में, इस आइडेंटिटी को सबसे बेहतर क्यू-फ़ंक्शन का इस्तेमाल करके पूरा किया जाता है:
\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]
रीइन्फ़ोर्समेंट लर्निंग एल्गोरिदम, इस आइडेंटिटी को क्यू-लर्निंग बनाने के लिए लागू करते हैं. इसके लिए, अपडेट करने से जुड़े इस नियम का इस्तेमाल किया जाता है:
\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]
रीइन्फ़ोर्समेंट लर्निंग के अलावा, बेलमैन इक्वेशन में डाइनैमिक प्रोग्रामिंग के लिए भी ऐप्लिकेशन मौजूद हैं. बेलमैन समीकरण के लिए विकिपीडिया प्रविष्टि देखें.
C
आलोचक
Deep Q-Network का समानार्थी शब्द.
D
डीप क्यू-नेटवर्क (DQN)
Q-लर्निंग में, एक डीप न्यूरल नेटवर्क है, जो Q-फ़ंक्शन का अनुमान लगाता है.
आलोचक, डीप क्यू-नेटवर्क का एक समानार्थी शब्द है.
डीक्यूएन
Deep Q-Network का छोटा नाम.
E
वातावरण
रीइन्फ़ोर्समेंट लर्निंग में, वह दुनिया जिसमें एजेंट होता है और एजेंट को दुनिया के राज्य की जानकारी देता है. उदाहरण के लिए, यहां दिखाई गई दुनिया शतरंज जैसा खेल या भूलभुलैया जैसी फ़िज़िकल दुनिया हो सकती है. जब एजेंट एनवायरमेंट में कोई कार्रवाई लागू करता है, तो एनवायरमेंट, राज्यों के बीच बदल जाता है.
एपिसोड
रीइन्फ़ोर्समेंट लर्निंग में, एजेंट की ओर से एनवायरमेंट के बारे में जानने की बार-बार कोशिश की जाती है.
ऐपसिलॉन लालची नीति
रीइन्फ़ोर्समेंट लर्निंग के लिए, ऐसी नीति जो या तो ऐसी रैंडम नीति का पालन करती हो जिसमें ऐपसिलॉन की संभावना हो या लालची नीति हो. उदाहरण के लिए, अगर Epsilon 0.9 है, तो यह नीति 90% बार रैंडम नीति का और 10% बार लालची नीति का पालन करती है.
एक के बाद एक आने वाले एपिसोड में, एल्गोरिदम, ऐपिलॉन की वैल्यू को कम कर देता है, ताकि किसी भी क्रम में लगाई गई नीति के बजाय लालची नीति का पालन किया जा सके. नीति को बदलने से एजेंट, पहले किसी भी क्रम में एनवायरमेंट को एक्सप्लोर करता है और फिर बिना सोचे-समझे रैंडम एक्सप्लोरेशन (विश्लेषण का तरीका) के नतीजों का फ़ायदा उठाता है.
फिर से चलाने की सुविधा का अनुभव
रीइन्फ़ोर्समेंट लर्निंग में, DQN तकनीक का इस्तेमाल किया जाता है. इसकी मदद से, ट्रेनिंग डेटा के बीच के समय के संबंध को कम किया जाता है. एजेंट, स्टेटस ट्रांज़िशन को रीप्ले बफ़र में सेव करता है. इसके बाद, वह ट्रेनिंग डेटा बनाने के लिए, रीप्ले बफ़र से ट्रांज़िशन के सैंपल लेता है.
G
लालची नीति
रीइन्फ़ोर्समेंट लर्निंग में, ऐसी नीति होती है जो हमेशा उस ऐक्शन को चुनती है जिसकी उम्मीद ज़्यादा होती है कि रिटर्न की संभावना सबसे ज़्यादा होती है.
सोम
मार्कोव डिसिज़न प्रोसेस (एमडीपी)
फ़ैसले लेने वाले मॉडल को दिखाने वाला ग्राफ़, जिसमें स्थितियों के क्रम को नेविगेट करने के लिए लिए गए फ़ैसले (या कार्रवाइयां) लिए जाते हैं. यह मान लिया जाता है कि मार्कोव प्रॉपर्टी सही है. रीइन्फ़ोर्समेंट लर्निंग में, राज्यों के बीच इस तरह के ट्रांज़िशन से अंकों में इनाम मिलता है.
मार्कोव की प्रॉपर्टी
कुछ परिवेश की प्रॉपर्टी, जिसमें किसी स्थिति का बदलाव, मौजूदा स्थिति में मौजूद जानकारी और एजेंट की कार्रवाई के आधार पर तय किया जाता है.
P
policy
रीइन्फ़ोर्समेंट लर्निंग के दौरान, एजेंट की प्रॉबेबिलिस्टिक मैपिंग को, राज्यों से लेकर कार्रवाइयां तक होते हैं.
सवाल
क्यू-फ़ंक्शन
रीइन्फ़ोर्समेंट लर्निंग में, वह फ़ंक्शन जो किसी राज्य में कार्रवाई करने और फिर दी गई नीति के हिसाब से रिटर्न का अनुमान लगाता है.
सवाल-फ़ंक्शन को स्टेट-ऐक्शन वैल्यू फ़ंक्शन के नाम से भी जाना जाता है.
सवाल-लर्निंग
रीइन्फ़ोर्समेंट लर्निंग में, एक ऐसा एल्गोरिदम होता है जो एजेंट को बेलमैन इक्वेशन लागू करके, मार्कोव डिसिज़न प्रोसेस का सबसे सही क्यू-फ़ंक्शन सीखने में मदद करता है. मार्कोव डिसिज़न प्रोसेस से एनवायरमेंट मिलता है.
R
किसी भी क्रम में लगाई गई नीति
रीइन्फ़ोर्समेंट लर्निंग में, ऐसी नीति है जिसमें बिना किसी क्रम के कार्रवाई चुनी जाती है.
रीइन्फ़ोर्समेंट लर्निंग (आरएल)
ऐसे एल्गोरिदम का फ़ैमिली ग्रुप जो सबसे बेहतर नीति के बारे में जानता है. इसका लक्ष्य एनवायरमेंट के साथ इंटरैक्ट करते समय, रिटर्न को ज़्यादा से ज़्यादा करना है. जैसे, ज़्यादातर गेम में सबसे बड़ा इनाम जीत होता है. रीइन्फ़ोर्समेंट लर्निंग सिस्टम, गेम के पिछले मूव के क्रमों का आकलन करके मुश्किल गेम खेलने में माहिर हो सकते हैं.
लोगों के सुझाव, शिकायत या राय की मदद से रीइन्फ़ोर्समेंट लर्निंग (आरएलएचएफ़)
मॉडल के जवाबों की क्वालिटी को बेहतर बनाने के लिए, रेटिंग देने वाले लोगों से मिले सुझावों का इस्तेमाल करना. उदाहरण के लिए, आरएलएचएफ़ तकनीक में उपयोगकर्ताओं से किसी मॉडल के जवाब की क्वालिटी को रेटिंग देने के लिए कहा जा सकता है. इसके लिए, 👍 या चिह्न इमोजी इस्तेमाल किया जा सकता है. इसके बाद, सिस्टम उस सुझाव के आधार पर आने वाले समय में रिस्पॉन्स में बदलाव कर सकता है.
बफ़र फिर से चलाएं
DQN जैसे एल्गोरिदम में, स्टेटस ट्रांज़िशन को सेव करने के लिए एजेंट जिस मेमोरी का इस्तेमाल करता है उसे फिर से चलाने का अनुभव के लिए इस्तेमाल किया जाता है.
return
रीइन्फ़ोर्समेंट लर्निंग में, किसी खास नीति और खास स्थिति के हिसाब से, रिटर्न उन सभी इनाम को मिलता है जो एजेंट को, स्थिति से एपिसोड के आखिर तक आने वाली नीति का पालन करने के दौरान मिलता है. इनाम पाने के लिए, राज्य में हुए ट्रांज़िशन के हिसाब से इनामों में छूट देकर, एजेंट यह तय करता है कि इनाम पाने में देरी हो सकती है या नहीं.
इसलिए, अगर छूट का फ़ैक्टर \(\gamma\)है और \(r_0, \ldots, r_{N}\) एपिसोड के खत्म होने तक इनाम दिखाता है, तो रिटर्न का हिसाब इस तरह से लगाया जाएगा:
इनाम
रीइन्फ़ोर्समेंट लर्निंग में, किसी स्थिति में कोई कार्रवाई करने के बाद, अंकों वाला नतीजा मिलता है, जैसा कि एनवायरमेंट में बताया गया है.
S
state
रीइन्फ़ोर्समेंट लर्निंग में, एनवायरमेंट के मौजूदा कॉन्फ़िगरेशन के बारे में बताने वाली पैरामीटर वैल्यू होती हैं. एजेंट किसी कार्रवाई को चुनने के लिए, इस वैल्यू का इस्तेमाल करता है.
स्टेट-ऐक्शन वैल्यू फ़ंक्शन
Q-Function का समानार्थी शब्द.
T
टेबल फ़ॉर्मैट में Q-लर्निंग
रीइन्फ़ोर्समेंट लर्निंग में, Q-लर्निंग को लागू करने के लिए, एक टेबल का इस्तेमाल करें, ताकि स्टेट और ऐक्शन के हर कॉम्बिनेशन के लिए क्यू-फ़ंक्शन को स्टोर किया जा सके.
टारगेट नेटवर्क
डीप क्यू-लर्निंग में, एक न्यूरल नेटवर्क, जो मुख्य न्यूरल नेटवर्क का सटीक अनुमान लगाता है. इसमें मुख्य न्यूरल नेटवर्क, क्यू-फ़ंक्शन या नीति को लागू करता है. इसके बाद, मुख्य नेटवर्क को टारगेट नेटवर्क के अनुमानित Q-वैल्यू पर ट्रेन किया जा सकता है. इसलिए, उस फ़ीडबैक लूप का इस्तेमाल नहीं किया जा सकता जो तब होता है, जब मुख्य नेटवर्क अपने-आप अनुमानित Q-वैल्यू पर ट्रेनिंग करता है. इस फ़ीडबैक से बचने से, ट्रेनिंग की स्थिरता बढ़ जाती है.
बंद करने की शर्त
रीइन्फ़ोर्समेंट लर्निंग में, वे शर्तें तय करती हैं जिनसे यह तय होता है कि कोई एपिसोड कब खत्म होगा. जैसे, एजेंट के किसी खास स्थिति में पहुंचने या तय सीमा से ज़्यादा स्टेट ट्रांज़िशन होने पर. उदाहरण के लिए, tic-tac-toe (इसे नोह और क्रॉस भी कहा जाता है) में, कोई एपिसोड तब खत्म हो जाता है, जब कोई खिलाड़ी तीन लगातार स्पेस को मार्क करता है या सभी स्पेस को मार्क करता है.
ट्रेजेक्टरी
रीइन्फ़ोर्समेंट लर्निंग में, टपल का एक क्रम होता है, जो एजेंट के स्टेटस ट्रांज़िशन के क्रम को दिखाता है. इसमें हर टपल, स्थिति, ऐक्शन, इनाम, और किसी दिए गए ट्रांज़िशन की अगली स्थिति से जुड़ा होता है.