مسرد مصطلحات التعلم الآلي: التعلم التعززي

تحتوي هذه الصفحة على مصطلحات مسرد تعلُّم التقوية. للاطّلاع على جميع مصطلحات المسرد، انقر على هذا الرابط.

A

إجراء

#rl

في التعلُّم التعزيزي، هي الآلية التي ينتقل بها العامل بين حالات البيئة. يختار موظّف الدّعم الإجراء باستخدام سياسة.

وكيل

#rl

في التعلُّم التعزيزي، العنصر الذي يستخدم سياسة لزيادة العائد المتوقّع من الانتقال بين حالات البيئة.

بشكل عام، الوكيل هو برنامج يخطّط وينفّذ بشكل مستقل سلسلة من الإجراءات لتحقيق هدف معيّن، مع القدرة على التكيّف مع التغيُّرات في بيئته. على سبيل المثال، قد يستخدم موظّف دعم مستند إلى LLM أسلوبًا للتعلم الآلي الضخم من أجل إنشاء خطة، بدلاً من تطبيق سياسة تعلُّم متعزّز.

B

معادلة بيلمان

#rl

في التعلّم التعزيزي، تستوفي دالة Q المثلى الهوية التالية:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

تطبّق خوارزميات التعلم التعزيزي هذه المعادلة لإنشاء التعلم باستخدام نموذج Q من خلال قاعدة التعديل التالية:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

بالإضافة إلى التعلّم المعزّز، يمكن استخدام معادلة Bellman في البرمجة الديناميكية. اطّلِع على مدخل Wikipedia لمعادلة Bellman.

C

ناقد

#rl

مرادف لـ شبكة Q-العميقة.

D

شبكة Q-العميقة (DQN)

#rl

في التعرّف على الدالة Q، يتم استخدام شبكة عصبية عميقة تتوقّع وظائف الدالة Q.

المُراجع هو مصطلح مرادف لشبكة Q-العميقة.

DQN

#rl

اختصار Deep Q-Network.

E

بيئة

#rl

في التعلّم التعزيزي، هو العالم الذي يحتوي على العامل ويسمح له بمراقبة حالة هذا العالم. على سبيل المثال، يمكن أن يكون العالم المعروض لعبة مثل الشطرنج، أو عالمًا ماديًا مثل المتاهة. عندما يطبّق موظّف الدّعم إجراءً على البيئة، تنتقل البيئة بين الحالات.

حلقة

#rl

في التعلّم التعزيزي، كل محاولة متكرّرة من جانب العامل للتعرّف على بيئة.

سياسة "الاستغلال الأمثل للوقت"

#rl

في التعلّم التعزيزي، سياسة تتّبع إما سياسة عشوائية بالاحتمالية "إبسيلون" أو سياسة جشع بخلاف ذلك على سبيل المثال، إذا كان الإpsilon هو 0.9، تتّبع السياسة سياسة عشوائية بنسبة% 90 من الوقت وسياسة جشع بنسبة% 10 من الوقت.

على مدار الحلقات المتتالية، تقلّل الخوارزمية قيمة الإpsilon من أجل الانتقال من اتّباع سياسة عشوائية إلى اتّباع سياسة جشع. من خلال تغيير السياسة، يستكشف الوكيل البيئة بشكل عشوائي أولاً، ثم يستغل نتائج الاستكشاف العشوائي بشكل جشع.

إعادة تشغيل المحتوى

#rl

في التعلُّم التعزيزي، تُستخدَم تقنية DQN بهدف تقليل الارتباطات الزمنية في بيانات التدريب. يخزِّن العامل عمليات النقل من حالة إلى أخرى في مخازن إعادة التشغيل، ثم يأخذ عيّنات من عمليات النقل من مخازن إعادة التشغيل لإنشاء بيانات تدريب.

G

سياسة طَمَّاعة

#rl

في تعلُّم التعزيز، سياسة تختار دائمًا الإجراء الذي يحقّق أعلى عائد متوقّع

M

عملية اتخاذ القرار وفقًا لنموذج ماركوف (MDP)

#rl

رسم بياني يمثّل نموذج اتخاذ القرار الذي يتم فيه اتخاذ القرارات (أو الإجراءات) للتنقّل في تسلسل الحالات بافتراض أنّه يتم استيفاء خاصيّة ماركوف في التعلم التعزيزي، تؤدي هذه الانتقالات بين الحالات إلى عرض مكافأة رقمية.

خاصيّة ماركوف

#rl

خاصيّة بيئات معيّنة، حيث يتم تحديد التحولات الحالات بالكامل من خلال المعلومات الضمنية في الحالة الحالية والإجراء الذي يتّخذه الوكيل.

P

سياسة

#rl

في التعلّم التعزيزي، تعيين احتمالي للعامل من الإجراءات

سين

دالة Q

#rl

في التعلم التعزيزي، هي الدالة التي تصعِّد العائد المتوقّع من اتّخاذ إجراء في حالة ثم اتّباع سياسة معيّنة.

تُعرف دالة Q أيضًا باسم دالة قيمة الحالة-الإجراء.

تعلُّم Q

#rl

في التعلُّم التعزيزي، هي خوارزمية تسمح للوكيل بتعلم دالة Q المثلى ل عملية اتخاذ القرار في نموذج ماركوف من خلال تطبيق معادلة بلمان. تنشئ عملية اتخاذ القرار بالاستناد إلى نموذج ماركوف بيئة.

R

سياسة عشوائية

#rl

في التعلم التعزيزي، هو سياسة تختار إجراءً عشوائيًا.

التعلّم التعزيزي

#rl

مجموعة من الخوارزميات التي تتعلّم سياسة مثالية هدفها تحقيق الحد الأقصى من العائد عند التفاعل مع بيئة على سبيل المثال، المكافأة النهائية في معظم الألعاب هي الفوز. يمكن أن تصبح أنظمة التعلّم التعزيزي خبيرة في لعب الألعاب المعقدة من خلال تقييم تسلسلات الحركات السابقة في اللعبة التي أدّت في نهاية المطاف إلى تحقيق انتصارات والتسلسلات التي أدّت في نهاية المطاف إلى الخسارة.

التعلّم المعزّز من الردود البشرية (RLHF)

#generativeAI
#rl

استخدام ملاحظات من المقيّمين لتحسين جودة ردود النموذج على سبيل المثال، يمكن أن تطلب آلية RLHF من المستخدمين تقييم جودة استجابة النموذج باستخدام رمز إيموجي 👍 أو 👎. ويمكن للنظام بعد ذلك تعديل ردوده المستقبلية استنادًا إلى هذه الملاحظات.

مخزن مؤقت لإعادة التشغيل

#rl

في الخوارزميات المشابهة لخوارزمية DQN، الذاكرة التي يستخدمها الوكيل لتخزين عمليات انتقال الحالة لاستخدامها في إعادة تشغيل التجربة.

العودة

#rl

في التعلّم التعزيزي، استنادًا إلى سياسة معيّنة وحالة معيّنة، هو مجموع كل المكافآت التي يتوقع العاملتلقّيها عند اتّباع السياسة من الحالة إلى نهاية الحلقة. يراعي الوكيل طبيعة المكافآت المتأخرة المتوقّعة من خلال خصم المكافآت وفقًا لعمليات انتقال الحالة المطلوبة للحصول على المكافأة.

لذلك، إذا كان عامل الخصم هو \(\gamma\)، و \(r_0, \ldots, r_{N}\) يشير إلى المكافآت حتى نهاية الحلقة، يكون احتساب العائد على النحو التالي:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

مكافأة

#rl

في التعلّم التعزيزي، هي النتيجة الرقمية لاتّخاذ إجراء في حالة، كما هو محدّد من قِبل البيئة.

S

الولاية

#rl

في التعلّم التعزيزي، هي قيم المَعلمات التي تصف الإعدادات الحالية للبيئة، والتي يستخدمها العامل لتحديدالإجراء.

دالة قيمة الحالة-الإجراء

#rl

مرادف لدالة Q-function.

T

التعلم التدرّجي للتقييمات

#rl

في التعلُّم التعزيزي، يتم تنفيذ التعلُّم باستخدام نموذج Q باستخدام جدول لتخزين دوالّ Q لكلّ تركيبة من الحالة والإجراء.

الشبكة المستهدَفة

#rl

في التعرّف العميق على Q، هي شبكة عصبية تقريبية مستقرة للشبكة العصبية الرئيسية، حيث تنفِّذ الشبكة العصبية الرئيسية إما وظيفة Q أو سياسة. بعد ذلك، يمكنك تدريب الشبكة الرئيسية على قيم Q التي توقّعها الشبكة المستهدفة. وبالتالي، يمكنك منع حلقة الملاحظات والآراء التي تحدث عندما يتم تدريب الشبكة الرئيسية على قيم Q التي تتوقّعها بنفسها. ومن خلال تجنُّب هذه الملاحظات، يزداد ثبات التدريب.

شرط الإنهاء

#rl

في التعلم التعزيزي، هي الشروط التي تحدد متى تنتهي الحلقة، مثل عندما يصل الوكيل إلى حالة معيّنة أو يتجاوز حدًا معيّنًا لعدد عمليات النقل بين الحالات. على سبيل المثال، في لعبة تيك تاك تو (المعروفة أيضًا باسم "صفر واحد")، تنتهي الحلقة عندما يضع أحد اللاعبين علامة على ثلاثة مربّعات متتالية أو عندما يتم وضع علامة على كلّ المربّعات.

مسار

#rl

في التعلم التعزيزي، تشير تسلسلات المجموعات إلى تسلسل حالات انتقال العامل، حيث تتوافق كل مجموعة مع الحالة والإجراء المكافأة والحالة التالية لعملية انتقال حالة معيّنة.