این صفحه شامل اصطلاحات واژه نامه یادگیری تقویتی است. برای همه اصطلاحات واژه نامه، اینجا را کلیک کنید .
الف
اقدام
در یادگیری تقویتی ، مکانیزمی است که توسط آن عامل بین حالات محیط تغییر می کند. عامل با استفاده از یک خط مشی اقدام را انتخاب می کند.
عامل
در یادگیری تقویتی ، نهادی که از سیاستی برای به حداکثر رساندن بازده مورد انتظار حاصل از انتقال بین حالت های محیط استفاده می کند.
به طور کلی تر، یک عامل نرم افزاری است که به طور مستقل مجموعه ای از اقدامات را در تعقیب یک هدف، با توانایی سازگاری با تغییرات محیط خود، برنامه ریزی و اجرا می کند. به عنوان مثال، یک عامل مبتنی بر LLM ممکن است به جای اعمال سیاست یادگیری تقویتی، از LLM برای تولید یک طرح استفاده کند.
ب
معادله بلمن
در یادگیری تقویتی، هویت زیر با تابع Q بهینه برآورده می شود:
\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]
الگوریتم های یادگیری تقویتی این هویت را برای ایجاد یادگیری Q از طریق قانون به روز رسانی زیر اعمال می کنند:
\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]
فراتر از یادگیری تقویتی، معادله بلمن کاربردهایی در برنامه نویسی پویا دارد. به مدخل ویکی پدیا برای معادله بلمن مراجعه کنید.
سی
منتقد
مترادف Deep Q-Network .
D
Deep Q-Network (DQN)
در یادگیری Q ، یک شبکه عصبی عمیق که عملکردهای Q را پیش بینی می کند.
Critic مترادف Deep Q-Network است.
DQN
مخفف Deep Q-Network .
E
محیط زیست
در یادگیری تقویتی، جهانی که عامل را در خود دارد و به عامل اجازه می دهد تا وضعیت آن جهان را مشاهده کند. به عنوان مثال، جهان نشان داده شده می تواند یک بازی مانند شطرنج، یا یک دنیای فیزیکی مانند یک پیچ و خم باشد. هنگامی که عامل یک عمل را در محیط اعمال می کند، آنگاه محیط بین حالت ها تغییر می کند.
قسمت
در یادگیری تقویتی، هر یک از تلاش های مکرر عامل برای یادگیری یک محیط .
سیاست حریصانه اپسیلون
در یادگیری تقویتی، سیاستی که یا از یک خط مشی تصادفی با احتمال اپسیلون پیروی می کند یا در غیر این صورت یک خط مشی حریصانه . به عنوان مثال، اگر اپسیلون 0.9 باشد، خط مشی در 90 درصد مواقع از خط مشی تصادفی و 10 درصد مواقع از خط مشی حریصانه پیروی می کند.
در طول قسمت های متوالی، الگوریتم ارزش اپسیلون را کاهش می دهد تا از پیروی از یک خط مشی تصادفی به پیروی از یک خط مشی حریصانه تغییر مسیر دهد. با تغییر خط مشی، عامل ابتدا به طور تصادفی محیط را کاوش می کند و سپس حریصانه از نتایج اکتشاف تصادفی سوء استفاده می کند.
تکرار را تجربه کنید
در یادگیری تقویتی، یک تکنیک DQN برای کاهش همبستگی های زمانی در داده های آموزشی استفاده می شود. عامل انتقال حالت ها را در یک بافر پخش مجدد ذخیره می کند و سپس انتقال ها را از بافر پخش مجدد برای ایجاد داده های آموزشی نمونه برداری می کند.
جی
سیاست حریصانه
در یادگیری تقویتی، خط مشی ای است که همیشه اقدامی را با بالاترین بازده مورد انتظار انتخاب می کند.
م
فرآیند تصمیم گیری مارکوف (MDP)
نموداری که مدل تصمیمگیری را نشان میدهد که در آن تصمیمها (یا اقدامات ) برای پیمایش دنبالهای از حالتها با این فرض که ویژگی مارکوف وجود دارد، اتخاذ میشود. در یادگیری تقویتی ، این انتقال ها بین حالت ها یک پاداش عددی را برمی گرداند.
دارایی مارکوف
یک ویژگی از محیط های خاص، که در آن انتقال حالت به طور کامل توسط اطلاعات ضمنی در وضعیت فعلی و عملکرد عامل تعیین می شود.
پ
سیاست
در یادگیری تقویتی، نقشهبرداری احتمالی یک عامل از حالتها به اقدامات .
س
تابع Q
در یادگیری تقویتی ، تابعی است که بازده مورد انتظار از انجام یک اقدام در یک حالت و سپس پیروی از یک خط مشی معین را پیش بینی می کند.
تابع Q به عنوان تابع مقدار حالت-عمل نیز شناخته می شود.
یادگیری کیو
در یادگیری تقویتی ، الگوریتمی است که به عامل اجازه می دهد تا تابع Q بهینه فرآیند تصمیم گیری مارکوف را با استفاده از معادله بلمن یاد بگیرد. فرآیند تصمیم مارکوف یک محیط را مدل می کند.
آر
سیاست تصادفی
در یادگیری تقویتی ، خط مشی ای است که یک عمل را به طور تصادفی انتخاب می کند.
یادگیری تقویتی (RL)
خانواده ای از الگوریتم ها که یک خط مشی بهینه را یاد می گیرند و هدف آنها به حداکثر رساندن بازده در تعامل با یک محیط است. به عنوان مثال، پاداش نهایی اکثر بازی ها پیروزی است. سیستمهای یادگیری تقویتی میتوانند در انجام بازیهای پیچیده با ارزیابی دنبالهای از حرکات بازی قبلی که در نهایت منجر به برد و توالیهایی که در نهایت منجر به باخت شدهاند، متخصص شوند.
یادگیری تقویتی از بازخورد انسانی (RLHF)
استفاده از بازخورد ارزیابیکنندگان انسانی برای بهبود کیفیت پاسخهای یک مدل. به عنوان مثال، یک مکانیسم RLHF می تواند از کاربران بخواهد که کیفیت پاسخ یک مدل را با یک ایموجی 👍 یا 👎 ارزیابی کنند. سپس سیستم می تواند پاسخ های آینده خود را بر اساس آن بازخورد تنظیم کند.
بافر پخش مجدد
در الگوریتمهای DQN مانند، حافظهای که عامل برای ذخیره انتقال حالت برای استفاده در بازپخش تجربه استفاده میکند.
بازگشت
در یادگیری تقویتی، با توجه به یک خط مشی خاص و یک وضعیت خاص، بازده عبارت است از مجموع تمام پاداش هایی که عامل انتظار دارد هنگام دنبال کردن خط مشی از وضعیت تا پایان قسمت دریافت کند. عامل ماهیت تاخیری پاداشهای مورد انتظار را با تنزیل پاداشها با توجه به انتقال وضعیت مورد نیاز برای به دست آوردن پاداش محاسبه میکند.
بنابراین اگر ضریب تخفیف باشد \(\gamma\)، و \(r_0, \ldots, r_{N}\)پاداش ها را تا پایان قسمت مشخص کنید، سپس محاسبه بازگشت به شرح زیر است:
پاداش
در یادگیری تقویتی، نتیجه عددی انجام یک عمل در حالتی است که توسط محیط تعریف شده است.
اس
دولت
در یادگیری تقویتی، مقادیر پارامتری که پیکربندی فعلی محیط را توصیف می کند، که عامل برای انتخاب یک عمل از آنها استفاده می کند.
تابع ارزش حالت-عمل
مترادف برای تابع Q.
تی
یادگیری Q جدولی
در یادگیری تقویتی ، اجرای Q-learning با استفاده از جدول برای ذخیره توابع Q برای هر ترکیبی از حالت و عمل .
شبکه هدف
در Deep Q-learning ، یک شبکه عصبی که یک تقریب پایدار از شبکه عصبی اصلی است، که در آن شبکه عصبی اصلی یا یک تابع Q یا یک خط مشی را اجرا می کند. سپس، می توانید شبکه اصلی را بر روی مقادیر Q پیش بینی شده توسط شبکه هدف آموزش دهید. بنابراین، از حلقه بازخوردی که زمانی رخ میدهد که شبکه اصلی بر روی مقادیر Q پیشبینیشده توسط خودش آموزش میدهد، جلوگیری میکنید. با اجتناب از این بازخورد، ثبات تمرین افزایش می یابد.
شرط خاتمه
در یادگیری تقویتی ، شرایطی است که تعیین میکند چه زمانی یک قسمت به پایان میرسد، مانند زمانی که عامل به یک وضعیت خاص میرسد یا از تعداد آستانه انتقال حالت فراتر میرود. به عنوان مثال، در tic-tac-toe (همچنین به عنوان noughts و crosses شناخته میشود)، یک قسمت زمانی خاتمه مییابد که بازیکن سه فاصله متوالی را علامتگذاری کند یا زمانی که همه فاصلهها علامتگذاری شوند.
خط سیر
در یادگیری تقویتی ، دنباله ای از تاپل ها است که دنباله ای از انتقال حالت عامل را نشان می دهد، که در آن هر تاپل مربوط به حالت، عمل ، پاداش و حالت بعدی برای یک انتقال حالت معین است.