این صفحه شامل اصطلاحات واژه نامه یادگیری تقویتی است. برای همه اصطلاحات واژه نامه، اینجا را کلیک کنید .
آ
عمل
در یادگیری تقویتی ، مکانیزمی است که توسط آن عامل بین حالات محیط انتقال می یابد. عامل با استفاده از یک خط مشی اقدام را انتخاب می کند.
عامل
در یادگیری تقویتی ، نهادی که از سیاستی برای به حداکثر رساندن بازده مورد انتظار حاصل از انتقال بین حالت های محیط استفاده می کند.
به طور کلی تر، یک عامل نرم افزاری است که به طور مستقل مجموعه ای از اقدامات را در تعقیب یک هدف، با توانایی سازگاری با تغییرات محیط خود، برنامه ریزی و اجرا می کند. به عنوان مثال، عوامل مبتنی بر LLM ممکن است از LLM برای تولید یک طرح استفاده کنند، به جای اعمال سیاست یادگیری تقویتی.
ب
معادله بلمن
در یادگیری تقویتی، هویت زیر با تابع Q بهینه برآورده می شود:
\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]
الگوریتم های یادگیری تقویتی این هویت را برای ایجاد یادگیری Q از طریق قانون به روز رسانی زیر اعمال می کنند:
\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]
فراتر از یادگیری تقویتی، معادله بلمن در برنامه نویسی پویا کاربرد دارد. به مدخل ویکی پدیا برای معادله بلمن مراجعه کنید.
سی
منتقد
مترادف Deep Q-Network .
دی
Deep Q-Network (DQN)
در یادگیری Q ، یک شبکه عصبی عمیق که عملکردهای Q را پیشبینی میکند.
Critic مترادف Deep Q-Network است.
DQN
مخفف Deep Q-Network .
E
محیط
در یادگیری تقویتی، جهانی که عامل را در خود دارد و به عامل اجازه می دهد تا وضعیت آن جهان را مشاهده کند. به عنوان مثال، جهان نشان داده شده می تواند یک بازی مانند شطرنج، یا یک دنیای فیزیکی مانند یک پیچ و خم باشد. هنگامی که عامل یک عمل را در محیط اعمال می کند، آنگاه محیط بین حالت ها تغییر می کند.
قسمت
در یادگیری تقویتی، هر یک از تلاش های مکرر عامل برای یادگیری یک محیط .
سیاست حریصانه اپسیلون
در یادگیری تقویتی، خط مشی ای است که یا از خط مشی تصادفی با احتمال اپسیلون پیروی می کند یا در غیر این صورت یک خط مشی حریصانه . به عنوان مثال، اگر اپسیلون 0.9 باشد، خط مشی در 90 درصد مواقع از خط مشی تصادفی و 10 درصد مواقع از خط مشی حریصانه پیروی می کند.
در طول اپیزودهای متوالی، الگوریتم ارزش اپسیلون را کاهش می دهد تا از پیروی از یک خط مشی تصادفی به پیروی از یک خط مشی حریصانه تبدیل شود. با تغییر خط مشی، عامل ابتدا به طور تصادفی محیط را کاوش می کند و سپس حریصانه از نتایج اکتشاف تصادفی سوء استفاده می کند.
تکرار را تجربه کنید
در یادگیری تقویتی، یک تکنیک DQN برای کاهش همبستگی های زمانی در داده های آموزشی استفاده می شود. عامل انتقال حالت ها را در یک بافر پخش مجدد ذخیره می کند و سپس انتقال ها را از بافر پخش مجدد برای ایجاد داده های آموزشی نمونه برداری می کند.
جی
سیاست حریصانه
در یادگیری تقویتی، خط مشی ای است که همیشه اقدامی را با بالاترین بازده مورد انتظار انتخاب می کند.
م
فرآیند تصمیم گیری مارکوف (MDP)
نموداری که نشان دهنده مدل تصمیم گیری است که در آن تصمیمات (یا اقدامات ) برای پیمایش دنباله ای از حالت ها با این فرض که خاصیت مارکوف وجود دارد، اتخاذ می شود. در یادگیری تقویتی ، این انتقال بین حالت ها یک پاداش عددی را برمی گرداند.
دارایی مارکوف
یک ویژگی از محیط های خاص، که در آن انتقال حالت به طور کامل توسط اطلاعات ضمنی در وضعیت فعلی و عملکرد عامل تعیین می شود.
پ
خط مشی
در یادگیری تقویتی، نقشهبرداری احتمالی یک عامل از حالتها به اقدامات .
س
تابع Q
در یادگیری تقویتی ، تابعی است که بازده مورد انتظار از انجام یک اقدام در یک حالت و سپس پیروی از یک خط مشی معین را پیش بینی می کند.
تابع Q به عنوان تابع مقدار حالت-عمل نیز شناخته می شود.
یادگیری کیو
در یادگیری تقویتی ، الگوریتمی است که به عامل اجازه می دهد تا تابع Q بهینه فرآیند تصمیم گیری مارکوف را با استفاده از معادله بلمن یاد بگیرد. فرآیند تصمیم مارکوف یک محیط را مدل می کند.
آر
سیاست تصادفی
در یادگیری تقویتی ، خط مشی ای است که یک عمل را به طور تصادفی انتخاب می کند.
یادگیری تقویتی (RL)
خانواده ای از الگوریتم ها که یک خط مشی بهینه را یاد می گیرند و هدف آنها به حداکثر رساندن بازده در تعامل با یک محیط است. به عنوان مثال، پاداش نهایی اکثر بازی ها پیروزی است. سیستمهای یادگیری تقویتی میتوانند در انجام بازیهای پیچیده با ارزیابی دنبالهای از حرکات بازی قبلی که در نهایت منجر به برد و دنبالههایی که در نهایت منجر به باخت میشوند، متخصص شوند.
یادگیری تقویتی از بازخورد انسانی (RLHF)
استفاده از بازخورد ارزیابیکنندگان انسانی برای بهبود کیفیت پاسخهای یک مدل. به عنوان مثال، یک مکانیسم RLHF می تواند از کاربران بخواهد که کیفیت پاسخ یک مدل را با یک ایموجی 👍 یا 👎 ارزیابی کنند. سپس سیستم می تواند پاسخ های آینده خود را بر اساس آن بازخورد تنظیم کند.
بافر پخش مجدد
در الگوریتمهای DQN مانند، حافظهای که عامل برای ذخیره انتقال حالت برای استفاده در بازپخش تجربه استفاده میکند.
برگشت
در یادگیری تقویتی، با توجه به یک خط مشی خاص و یک وضعیت خاص، بازدهی مجموع تمام پاداش هایی است که عامل انتظار دارد هنگام دنبال کردن خط مشی از وضعیت تا پایان قسمت دریافت کند. عامل ماهیت تاخیری پاداشهای مورد انتظار را با تنزیل پاداشها با توجه به انتقال وضعیت مورد نیاز برای به دست آوردن پاداش محاسبه میکند.
بنابراین، اگر ضریب تخفیف \(\gamma\)باشد و \(r_0, \ldots, r_{N}\)نشان دهنده پاداش ها تا پایان قسمت باشد، محاسبه بازده به شرح زیر است:
جایزه
در یادگیری تقویتی، نتیجه عددی انجام یک عمل در حالتی است که توسط محیط تعریف شده است.
اس
حالت
در یادگیری تقویتی، مقادیر پارامتری که پیکربندی فعلی محیط را توصیف می کند، که عامل برای انتخاب یک عمل از آنها استفاده می کند.
تابع مقدار حالت-عمل
مترادف تابع Q.
تی
یادگیری Q جدولی
در یادگیری تقویتی ، اجرای Q-learning با استفاده از یک جدول برای ذخیره توابع Q برای هر ترکیبی از حالت و عمل .
شبکه هدف
در Deep Q-learning ، یک شبکه عصبی که یک تقریب پایدار از شبکه عصبی اصلی است، که در آن شبکه عصبی اصلی یا یک تابع Q یا یک خط مشی را اجرا می کند. سپس، می توانید شبکه اصلی را بر روی مقادیر Q پیش بینی شده توسط شبکه هدف آموزش دهید. بنابراین، از حلقه بازخوردی که زمانی رخ میدهد که شبکه اصلی بر روی مقادیر Q پیشبینیشده توسط خودش آموزش میدهد، جلوگیری میکنید. با اجتناب از این بازخورد، ثبات تمرین افزایش می یابد.
شرط خاتمه
در یادگیری تقویتی ، شرایطی است که تعیین میکند چه زمانی یک قسمت به پایان میرسد، مانند زمانی که عامل به وضعیت خاصی میرسد یا از تعداد آستانه انتقال حالت فراتر میرود. به عنوان مثال، در tic-tac-toe (همچنین به عنوان noughts و crosses شناخته میشود)، یک قسمت زمانی خاتمه مییابد که بازیکن سه فاصله متوالی را علامتگذاری کند یا زمانی که همه فاصلهها علامتگذاری شوند.
خط سیر
در یادگیری تقویتی ، دنباله ای از تاپل ها است که دنباله ای از انتقال حالت عامل را نشان می دهد، که در آن هر تاپل مربوط به حالت، عمل ، پاداش و حالت بعدی برای یک انتقال حالت معین است.