واژه نامه یادگیری ماشینی: یادگیری تقویتی

این صفحه شامل اصطلاحات واژه نامه یادگیری تقویتی است. برای همه اصطلاحات واژه نامه، اینجا را کلیک کنید .

الف

اقدام

#rl

در یادگیری تقویتی ، مکانیزمی است که توسط آن عامل بین حالات محیط تغییر می کند. عامل با استفاده از یک خط مشی اقدام را انتخاب می کند.

عامل

#rl

در یادگیری تقویتی ، نهادی که از سیاستی برای به حداکثر رساندن بازده مورد انتظار حاصل از انتقال بین حالت های محیط استفاده می کند.

به طور کلی تر، یک عامل نرم افزاری است که به طور مستقل مجموعه ای از اقدامات را در تعقیب یک هدف، با توانایی سازگاری با تغییرات محیط خود، برنامه ریزی و اجرا می کند. به عنوان مثال، یک عامل مبتنی بر LLM ممکن است به جای اعمال سیاست یادگیری تقویتی، از LLM برای تولید یک طرح استفاده کند.

ب

معادله بلمن

#rl

در یادگیری تقویتی، هویت زیر با تابع Q بهینه برآورده می شود:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

الگوریتم های یادگیری تقویتی این هویت را برای ایجاد یادگیری Q از طریق قانون به روز رسانی زیر اعمال می کنند:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

فراتر از یادگیری تقویتی، معادله بلمن کاربردهایی در برنامه نویسی پویا دارد. به مدخل ویکی پدیا برای معادله بلمن مراجعه کنید.

سی

منتقد

#rl

مترادف Deep Q-Network .

D

Deep Q-Network (DQN)

#rl

در یادگیری Q ، یک شبکه عصبی عمیق که عملکردهای Q را پیش بینی می کند.

Critic مترادف Deep Q-Network است.

DQN

#rl

مخفف Deep Q-Network .

E

محیط زیست

#rl

در یادگیری تقویتی، جهانی که عامل را در خود دارد و به عامل اجازه می دهد تا وضعیت آن جهان را مشاهده کند. به عنوان مثال، جهان نشان داده شده می تواند یک بازی مانند شطرنج، یا یک دنیای فیزیکی مانند یک پیچ و خم باشد. هنگامی که عامل یک عمل را در محیط اعمال می کند، آنگاه محیط بین حالت ها تغییر می کند.

قسمت

#rl

در یادگیری تقویتی، هر یک از تلاش های مکرر عامل برای یادگیری یک محیط .

سیاست حریصانه اپسیلون

#rl

در یادگیری تقویتی، سیاستی که یا از یک خط مشی تصادفی با احتمال اپسیلون پیروی می کند یا در غیر این صورت یک خط مشی حریصانه . به عنوان مثال، اگر اپسیلون 0.9 باشد، خط مشی در 90 درصد مواقع از خط مشی تصادفی و 10 درصد مواقع از خط مشی حریصانه پیروی می کند.

در طول قسمت های متوالی، الگوریتم ارزش اپسیلون را کاهش می دهد تا از پیروی از یک خط مشی تصادفی به پیروی از یک خط مشی حریصانه تغییر مسیر دهد. با تغییر خط مشی، عامل ابتدا به طور تصادفی محیط را کاوش می کند و سپس حریصانه از نتایج اکتشاف تصادفی سوء استفاده می کند.

تکرار را تجربه کنید

#rl

در یادگیری تقویتی، یک تکنیک DQN برای کاهش همبستگی های زمانی در داده های آموزشی استفاده می شود. عامل انتقال حالت ها را در یک بافر پخش مجدد ذخیره می کند و سپس انتقال ها را از بافر پخش مجدد برای ایجاد داده های آموزشی نمونه برداری می کند.

جی

سیاست حریصانه

#rl

در یادگیری تقویتی، خط مشی ای است که همیشه اقدامی را با بالاترین بازده مورد انتظار انتخاب می کند.

م

فرآیند تصمیم گیری مارکوف (MDP)

#rl

نموداری که مدل تصمیم‌گیری را نشان می‌دهد که در آن تصمیم‌ها (یا اقدامات ) برای پیمایش دنباله‌ای از حالت‌ها با این فرض که ویژگی مارکوف وجود دارد، اتخاذ می‌شود. در یادگیری تقویتی ، این انتقال ها بین حالت ها یک پاداش عددی را برمی گرداند.

دارایی مارکوف

#rl

یک ویژگی از محیط های خاص، که در آن انتقال حالت به طور کامل توسط اطلاعات ضمنی در وضعیت فعلی و عملکرد عامل تعیین می شود.

پ

سیاست

#rl

در یادگیری تقویتی، نقشه‌برداری احتمالی یک عامل از حالت‌ها به اقدامات .

س

تابع Q

#rl

در یادگیری تقویتی ، تابعی است که بازده مورد انتظار از انجام یک اقدام در یک حالت و سپس پیروی از یک خط مشی معین را پیش بینی می کند.

تابع Q به عنوان تابع مقدار حالت-عمل نیز شناخته می شود.

یادگیری کیو

#rl

در یادگیری تقویتی ، الگوریتمی است که به عامل اجازه می دهد تا تابع Q بهینه فرآیند تصمیم گیری مارکوف را با استفاده از معادله بلمن یاد بگیرد. فرآیند تصمیم مارکوف یک محیط را مدل می کند.

آر

سیاست تصادفی

#rl

در یادگیری تقویتی ، خط مشی ای است که یک عمل را به طور تصادفی انتخاب می کند.

یادگیری تقویتی (RL)

#rl

خانواده ای از الگوریتم ها که یک خط مشی بهینه را یاد می گیرند و هدف آنها به حداکثر رساندن بازده در تعامل با یک محیط است. به عنوان مثال، پاداش نهایی اکثر بازی ها پیروزی است. سیستم‌های یادگیری تقویتی می‌توانند در انجام بازی‌های پیچیده با ارزیابی دنباله‌ای از حرکات بازی قبلی که در نهایت منجر به برد و توالی‌هایی که در نهایت منجر به باخت شده‌اند، متخصص شوند.

یادگیری تقویتی از بازخورد انسانی (RLHF)

#تولید هوش مصنوعی
#rl

استفاده از بازخورد ارزیابی‌کنندگان انسانی برای بهبود کیفیت پاسخ‌های یک مدل. به عنوان مثال، یک مکانیسم RLHF می تواند از کاربران بخواهد که کیفیت پاسخ یک مدل را با یک ایموجی 👍 یا 👎 ارزیابی کنند. سپس سیستم می تواند پاسخ های آینده خود را بر اساس آن بازخورد تنظیم کند.

بافر پخش مجدد

#rl

در الگوریتم‌های DQN مانند، حافظه‌ای که عامل برای ذخیره انتقال حالت برای استفاده در بازپخش تجربه استفاده می‌کند.

بازگشت

#rl

در یادگیری تقویتی، با توجه به یک خط مشی خاص و یک وضعیت خاص، بازده عبارت است از مجموع تمام پاداش هایی که عامل انتظار دارد هنگام دنبال کردن خط مشی از وضعیت تا پایان قسمت دریافت کند. عامل ماهیت تاخیری پاداش‌های مورد انتظار را با تنزیل پاداش‌ها با توجه به انتقال وضعیت مورد نیاز برای به دست آوردن پاداش محاسبه می‌کند.

بنابراین اگر ضریب تخفیف باشد \(\gamma\)، و \(r_0, \ldots, r_{N}\)پاداش ها را تا پایان قسمت مشخص کنید، سپس محاسبه بازگشت به شرح زیر است:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

پاداش

#rl

در یادگیری تقویتی، نتیجه عددی انجام یک عمل در حالتی است که توسط محیط تعریف شده است.

اس

دولت

#rl

در یادگیری تقویتی، مقادیر پارامتری که پیکربندی فعلی محیط را توصیف می کند، که عامل برای انتخاب یک عمل از آنها استفاده می کند.

تابع ارزش حالت-عمل

#rl

مترادف برای تابع Q.

تی

یادگیری Q جدولی

#rl

در یادگیری تقویتی ، اجرای Q-learning با استفاده از جدول برای ذخیره توابع Q برای هر ترکیبی از حالت و عمل .

شبکه هدف

#rl

در Deep Q-learning ، یک شبکه عصبی که یک تقریب پایدار از شبکه عصبی اصلی است، که در آن شبکه عصبی اصلی یا یک تابع Q یا یک خط مشی را اجرا می کند. سپس، می توانید شبکه اصلی را بر روی مقادیر Q پیش بینی شده توسط شبکه هدف آموزش دهید. بنابراین، از حلقه بازخوردی که زمانی رخ می‌دهد که شبکه اصلی بر روی مقادیر Q پیش‌بینی‌شده توسط خودش آموزش می‌دهد، جلوگیری می‌کنید. با اجتناب از این بازخورد، ثبات تمرین افزایش می یابد.

شرط خاتمه

#rl

در یادگیری تقویتی ، شرایطی است که تعیین می‌کند چه زمانی یک قسمت به پایان می‌رسد، مانند زمانی که عامل به یک وضعیت خاص می‌رسد یا از تعداد آستانه انتقال حالت فراتر می‌رود. به عنوان مثال، در tic-tac-toe (همچنین به عنوان noughts و crosses شناخته می‌شود)، یک قسمت زمانی خاتمه می‌یابد که بازیکن سه فاصله متوالی را علامت‌گذاری کند یا زمانی که همه فاصله‌ها علامت‌گذاری شوند.

خط سیر

#rl

در یادگیری تقویتی ، دنباله ای از تاپل ها است که دنباله ای از انتقال حالت عامل را نشان می دهد، که در آن هر تاپل مربوط به حالت، عمل ، پاداش و حالت بعدی برای یک انتقال حالت معین است.