मशीन लर्निंग ग्लॉसरी: रीइन्फ़ोर्समेंट लर्निंग

इस पेज पर, रीइनफ़ोर्समेंट लर्निंग की ग्लॉसरी के शब्द मौजूद हैं. ग्लॉसरी में मौजूद सभी शब्दों के लिए, यहां क्लिक करें.

A

ऐक्शन गेम

#rl

रीइंफ़ोर्समेंट लर्निंग में, वह तरीका जिससे एजेंट, एनवायरमेंट की स्टेटस के बीच ट्रांज़िशन करता है. एजेंट, नीति का इस्तेमाल करके कार्रवाई चुनता है.

एजेंट

#rl

रीइंफ़ोर्समेंट लर्निंग में, ऐसी इकाई जो नीति का इस्तेमाल करके, एनवायरमेंट के स्टेटस के बीच ट्रांज़िशन करने से मिलने वाले अनुमानित रिटर्न को बढ़ाती है.

आम तौर पर, एजेंट एक ऐसा सॉफ़्टवेयर होता है जो अपने-आप किसी लक्ष्य को हासिल करने के लिए, कार्रवाइयों की एक सीरीज़ की योजना बनाता है और उसे लागू करता है. साथ ही, अपने आस-पास होने वाले बदलावों के हिसाब से ढल जाता है. उदाहरण के लिए, LLM पर आधारित एजेंट, प्लान जनरेट करने के लिए, बेहतर बनाने वाली लर्निंग की नीति लागू करने के बजाय, एलएलएम का इस्तेमाल कर सकता है.

B

बेलमैन समीकरण

#rl

रिनफ़ोर्समेंट लर्निंग में, ऑप्टिमाइज़ की गई Q-फ़ंक्शन से यह पहचान पूरी होती है:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

रीइनफ़ोर्समेंट लर्निंग एल्गोरिदम, इस पहचान को लागू करके क्यू-लर्निंग बनाते हैं. इसके लिए, वे अपडेट के इस नियम का इस्तेमाल करते हैं:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

रीइनफ़ोर्समेंट लर्निंग के अलावा, बेलमैन समीकरण का इस्तेमाल डायनैमिक प्रोग्रामिंग में भी किया जाता है. बेलमैन समीकरण के लिए Wikipedia पर दी गई जानकारी देखें.

C

क्रिटिक

#rl

डीप क्यू-नेटवर्क का दूसरा नाम.

D

डीप क्यू-नेटवर्क (DQN)

#rl

क्यू-लर्निंग में, न्यूरल नेटवर्क का इस्तेमाल किया जाता है. यह क्यू-फ़ंक्शन का अनुमान लगाता है.

Critic, डीप क्यू-नेटवर्क का दूसरा नाम है.

DQN

#rl

डीप क्यू-नेटवर्क का छोटा नाम.

E

वातावरण

#rl

रीइंफ़ोर्समेंट लर्निंग में, वह दुनिया जिसमें एजेंट होता है और एजेंट को उस दुनिया की स्थिति को देखने की अनुमति मिलती है. उदाहरण के लिए, दिखाया गया वर्ल्ड, शतरंज जैसा गेम हो सकता है या कोई पहेली जैसी दुनिया हो सकती है. जब एजेंट, एनवायरमेंट पर कोई कार्रवाई लागू करता है, तो एनवायरमेंट एक स्टेटस से दूसरे स्टेटस में ट्रांज़िशन करता है.

एपिसोड

#rl

रिनफ़ोर्समेंट लर्निंग में, एजेंट के किसी एनवायरमेंट को सीखने के लिए, बार-बार किए गए हर प्रयास को एलिमेंट कहा जाता है.

एप्सिलॉन ग्रैडी नीति

#rl

रिनफ़ोर्समेंट लर्निंग में, ऐसी नीति जो एप्सिलॉन संभावना के साथ रैंडम नीति या किसी और मामले में लालची नीति का पालन करती है. उदाहरण के लिए, अगर एप्सिलॉन 0.9 है, तो नीति 90% समय तक रैंडम नीति का पालन करती है और 10% समय तक लालची नीति का पालन करती है.

एल्गोरिदम, एपिसोड के हिसाब से, एप्सिलॉन की वैल्यू को कम करता है, ताकि वह किसी रैंडम नीति से, लालची नीति पर स्विच कर सके. नीति में बदलाव करके, एजेंट पहले अपने आस-पास के माहौल को रैंडम तरीके से एक्सप्लोर करता है और फिर रैंडम एक्सप्लोरेशन के नतीजों का फ़ायदा उठाता है.

अनुभव को फिर से चलाना

#rl

रिनफ़ोर्समेंट लर्निंग में, DQN तकनीक का इस्तेमाल, ट्रेनिंग डेटा में समय के साथ होने वाले बदलावों को कम करने के लिए किया जाता है. एजेंट, रीप्ले बफ़र में स्टेटस ट्रांज़िशन को सेव करता है. इसके बाद, ट्रेनिंग डेटा बनाने के लिए रीप्ले बफ़र से ट्रांज़िशन का सैंपल लेता है.

G

लालची नीति

#rl

रिनफ़ोर्समेंट लर्निंग में, ऐसी नीति जो हमेशा सबसे ज़्यादा अनुमानित रिटर्न वाली कार्रवाई चुनती है.

M

मार्कोव डिसीज़न प्रोसेस (एमडीपी)

#rl

फ़ैसला लेने वाले मॉडल को दिखाने वाला ग्राफ़. इसमें स्टेटस के क्रम में नेविगेट करने के लिए, फ़ैसले (या कार्रवाइयां) लिए जाते हैं. ऐसा इस धारणा के तहत किया जाता है कि मार्कोव प्रॉपर्टी लागू है. रीइंफ़ोर्समेंट लर्निंग में, एक स्टेटस से दूसरे स्टेटस में ट्रांज़िशन करने पर, संख्या के तौर पर इनाम मिलता है.

मार्कोव प्रॉपर्टी

#rl

कुछ एनवायरमेंट की प्रॉपर्टी, जहां स्टेटस ट्रांज़िशन पूरी तरह से मौजूदा स्टेटस और एजेंट की कार्रवाई में मौजूद जानकारी से तय होते हैं.

P

policy

#rl

रीइंफ़ोर्समेंट लर्निंग में, एजेंट की संभावित मैपिंग, स्टेटस से कार्रवाइयों तक होती है.

Q

Q-फ़ंक्शन

#rl

रीइंफ़ोर्समेंट लर्निंग में, यह फ़ंक्शन किसी स्थिति में कार्रवाई करने से मिलने वाले अनुमानित नतीजे का अनुमान लगाता है. इसके बाद, यह किसी दी गई नीति का पालन करता है.

Q-फ़ंक्शन को स्टेट-ऐक्शन वैल्यू फ़ंक्शन भी कहा जाता है.

क्यू-लर्निंग

#rl

रीइंफ़ोर्समेंट लर्निंग में, एक एल्गोरिदम होता है. यह एजेंट को बेलमैन समीकरण लागू करके, मार्कोव डिसीज़न प्रोसेस का सबसे अच्छा क्यू-फ़ंक्शन सीखने की अनुमति देता है. मार्कोव डिसीज़न प्रोसेस मॉडल, किसी एनवायरमेंट को मॉडल करता है.

R

रैंडम नीति

#rl

रीइनफ़ोर्समेंट लर्निंग में, एक ऐसी नीति जो कार्रवाई को रैंडम तौर पर चुनती है.

रीइनफ़ोर्समेंट लर्निंग (आरएल)

#rl

एल्गोरिदम का एक फ़ैमिली, जो सबसे सही नीति को सीखता है. इसका लक्ष्य, किसी एनवायरमेंट के साथ इंटरैक्ट करते समय रिटर्न को बढ़ाना होता है. उदाहरण के लिए, ज़्यादातर गेम में जीतना सबसे बड़ा इनाम होता है. रिनफ़ोर्समेंट लर्निंग सिस्टम, गेम के पिछले चरणों का आकलन करके, मुश्किल गेम खेलने में माहिर हो सकते हैं. इन चरणों में, वे चरणों का आकलन करते हैं जिनकी वजह से गेम में जीत मिली और जिनकी वजह से हार हुई.

लोगों के सुझाव पर आधारित रीइन्फ़ोर्समेंट लर्निंग (आरएलएचएफ़)

#generativeAI
#rl

मॉडल के जवाबों की क्वालिटी को बेहतर बनाने के लिए, रेटिंग देने वाले लोगों के सुझाव, राय या शिकायत का इस्तेमाल करना. उदाहरण के लिए, आरएलएचएफ़ (रेवेन्यू लर्निंग फ़्रेमवर्क) का कोई तरीका, उपयोगकर्ताओं से 👍 या 👎 इमोजी का इस्तेमाल करके, मॉडल के जवाब की क्वालिटी को रेटिंग देने के लिए कह सकता है. इसके बाद, सिस्टम उस सुझाव या राय के आधार पर, आने वाले समय में अपने जवाबों में बदलाव कर सकता है.

रीप्ले बफ़र

#rl

DQN जैसे एल्गोरिदम में, एजेंट एक्सपीरियंस रीप्ले में इस्तेमाल करने के लिए, स्टेटस ट्रांज़िशन को सेव करने के लिए मेमोरी का इस्तेमाल करता है.

रिटर्न

#rl

किसी खास नीति और किसी खास स्थिति के हिसाब से, रिनफ़ोर्समेंट लर्निंग में रिटर्न, उन सभी इनाम का कुल योग होता है जो एजेंट को नीति का पालन करते हुए, स्थिति से लेकर एपिसोड के आखिर तक मिलने की उम्मीद होती है. एजेंट, इनाम पाने के लिए ज़रूरी स्टेटस ट्रांज़िशन के हिसाब से इनाम पर छूट देकर, उम्मीद के मुताबिक इनाम मिलने में हुई देरी को ध्यान में रखता है.

इसलिए, अगर छूट का फ़ैक्टर \(\gamma\)है और \(r_0, \ldots, r_{N}\), एपिसोड के आखिर तक मिलने वाले इनामों को दिखाता है, तो रिटर्न का हिसाब इस तरह से लगाया जाता है:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

इनाम

#rl

किसी स्थिति में कार्रवाई करने पर मिलने वाला संख्यात्मक नतीजा. इसे एनवायरमेंट तय करता है.

S

राज्य

#rl

रीइंफ़ोर्समेंट लर्निंग में, पैरामीटर की वैल्यू से एनवायरमेंट के मौजूदा कॉन्फ़िगरेशन के बारे में पता चलता है. एजेंट, कार्रवाई चुनने के लिए इन वैल्यू का इस्तेमाल करता है.

स्टेट-ऐक्शन वैल्यू फ़ंक्शन

#rl

Q-फ़ंक्शन का समानार्थी शब्द.

T

टेबल में मौजूद Q-लर्निंग

#rl

रीइंफ़ोर्समेंट लर्निंग में, टेबल का इस्तेमाल करके क्यू-लर्निंग लागू करना. इससे, स्टेटस और कार्रवाई के हर कॉम्बिनेशन के लिए, क्यू-फ़ंक्शन को सेव किया जा सकता है.

टारगेट नेटवर्क

#rl

डीप क्यू-लर्निंग में, एक ऐसा न्यूरल नेटवर्क होता है जो मुख्य न्यूरल नेटवर्क का एक स्थिर अनुमान होता है. इसमें मुख्य न्यूरल नेटवर्क, क्यू-फ़ंक्शन या नीति को लागू करता है. इसके बाद, टारगेट नेटवर्क से अनुमानित Q-वैल्यू के आधार पर, मुख्य नेटवर्क को ट्रेन किया जा सकता है. इसलिए, फ़ीडबैक लूप को रोका जा सकता है. यह लूप तब होता है, जब मुख्य नेटवर्क, अपने हिसाब से अनुमानित Q-वैल्यू पर ट्रेनिंग करता है. इस फ़ीडबैक को रोकने से, trianing की स्थिरता बढ़ती है.

सदस्यता खत्म होने की शर्त

#rl

रीइंफ़ोर्समेंट लर्निंग में, ऐसी शर्तें होती हैं जिनसे यह तय होता है कि एपिसोड कब खत्म होगा. जैसे, जब एजेंट किसी खास स्टेटस पर पहुंचता है या स्टेटस ट्रांज़िशन की थ्रेशोल्ड संख्या से ज़्यादा हो जाती है. उदाहरण के लिए, टिक-टैक-टो (इसे क्रॉस और नॉट भी कहा जाता है) में, कोई एपिसोड तब खत्म होता है, जब कोई खिलाड़ी लगातार तीन स्पेस मार्क करता है या सभी स्पेस मार्क कर लेता है.

ट्रैजेक्ट्री

#rl

रीइंफ़ोर्समेंट लर्निंग में, ट्यूपल का क्रम, जो एजेंट की स्थिति के ट्रांज़िशन के क्रम को दिखाता है. इसमें हर ट्यूपल, किसी स्थिति के ट्रांज़िशन के लिए, स्थिति, कार्रवाई, इनाम, और अगली स्थिति से जुड़ा होता है.