تحتوي هذه الصفحة على مصطلحات مسرد مصطلحات التعلّم المعزز. للاطّلاع على جميع مصطلحات مسرد المصطلحات، انقر هنا.
جيم
إجراء
في التعلُّم التعززي، الآلية التي من خلالها يتنقّل الوكيل بين حالات البيئة. يختار الوكيل الإجراء باستخدام سياسة.
وكيل
في التعلُّم المعزّز، يشير هذا المصطلح إلى الكيان الذي يستخدم سياسة لزيادة العائد المتوقّع الذي يتم الحصول عليه من الانتقال بين حالات البيئة.
بشكل أكثر عمومية، يكون الوكيل برنامجًا يخطط وينفذ بشكل مستقل سلسلة من الإجراءات سعيًا إلى تحقيق هدف ما، مع القدرة على التكيّف مع التغييرات في البيئة المحيطة. على سبيل المثال، قد يستخدم موظّفو الدعم النموذج اللغوي الكبير النموذج اللغوي الكبير لإنشاء خطة بدلاً من تطبيق سياسة التعلّم المعزّز.
B
معادلة بيلمان
في مجال التعلّم المعزّز، يتم استيفاء الهوية التالية من خلال الدالة Q المثلى:
\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]
تطبق خوارزميات التعلُّم المعزَّز هذه الهوية لإنشاء تعلُّم الآلة من خلال قاعدة التعديل التالية:
\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]
بالإضافة إلى التعلّم المعزّز، توفّر معادلة "بيلمان" تطبيقات على البرمجة الديناميكية. راجِع إدخال ويكيبيديا لمعادلة بيلمان.
C
ناقد
مرادف Deep Q-Network
D
شبكة Q-Network (DQN)
في برنامج Q-learning، وهو شبكة عصبية عميقة تتنبأ فيها بالدوال Q.
Critic هو مرادف لـ Deep Q-Network.
رقم DQN
اختصار Deep Q-Network
E
بيئة
في مجال التعلّم المعزّز، إنّ العالم الذي يحتوي على الوكيل ويسمح للوكيل بتتبُّع الحالة العالمية لذلك. على سبيل المثال، قد يكون العالم الممثل لعبة مثل الشطرنج، أو عالمًا ماديًا مثل المتاهة. عندما يطبِّق الوكيل إجراءً على البيئة، تنتقل البيئة بين الحالات.
حلقة
في التعلّم المعزّز، تتمثّل كل محاولة من المحاولات المتكرّرة من الوكيل في تعلُّم بيئة.
سياسة الجشع في إبسيلون
في التعلّم المعزّز، يشير هذا المصطلح إلى سياسة تتّبع سياسة عشوائية مع احتمالية إبسيلون أو سياسة الجشع. على سبيل المثال، إذا كانت قيمة إبسيلون هي 0.9، تتّبع السياسة سياسة عشوائية بنسبة 90% من الوقت وسياسة جشعة بنسبة 10% من الوقت.
خلال الحلقات المتتالية، تقلل الخوارزمية قيمة إبسيلون لتتحول من اتباع سياسة عشوائية إلى اتباع سياسة الجشع. من خلال تغيير السياسة، يستكشف الوكيل أولاً البيئة بشكل عشوائي، ثم يستغلّ بشراهة نتائج الاستكشاف العشوائي.
إعادة تشغيل التجربة
في التعلّم المعزّز، يشير ذلك المصطلح إلى أسلوب DQN يُستخدم لتقليل الارتباطات المؤقتة في بيانات التدريب. يخزِّن agent انتقالات الحالة في مخزن مؤقت لإعادة التشغيل، ثم عينات الانتقالات من المخزن المؤقت لإعادة التشغيل لإنشاء بيانات تدريب.
G
سياسة الجشع
في مجال التعلُّم التعززي، هي سياسة تختار دائمًا الإجراء الذي يحقّق أعلى عائد متوقّع.
ن
عملية اتخاذ القرار مع ماركوف (MDP)
رسم بياني يمثّل نموذج اتخاذ القرار حيث يتم اتخاذ القرارات (أو الإجراءات) للتنقل في سلسلة الحالات بافتراض أنّ خاصية ماركوف في التعلُّم التعزّزي، تُرجع هذه الانتقالات بين الحالات مكافأة عددية.
خاصية ماركوف
يشير ذلك المصطلح إلى سمة خاصة ببيئات معيّنة يتم فيها تحديد تحولات الدولة بالكامل استنادًا إلى المعلومات الضمنية في الحالة الحالية وإجراء الوكيل.
P
سياسة
في التعلّم المعزّز، يتم ربط الاحتمالات للوكيل من الحالات إلى الإجراءات.
سين
الدالة Q
في التعلُّم التعززي، يشير هذا المصطلح إلى الدالة التي تتوقّع العائد المتوقّع من اتّخاذ إجراء في حالة ثم تتّبع سياسة{/11 معيّنة.
تُعرف الدالة Q أيضًا باسم دالة قيمة إجراء الحالة.
التعلم الآلي
في التعلُّم التعززي، هي خوارزمية تتيح لوكيل معرفة أفضل دالة Q لـ عملية اتّخاذ قرار ماركوف من خلال تطبيق معادلة بيلمان. تمثِّل عملية اتخاذ القرار ماركوف بيئةًا.
R
سياسة عشوائية
في التعلُّم المعزَّز، هي سياسة تختار إجراءً بشكلٍ عشوائي.
التعلّم المعزّز (RL)
مجموعة من الخوارزميات التي تتعلّم سياسة مثالية، وتهدف إلى زيادة العائد إلى أقصى حدّ عند التفاعل مع بيئة. على سبيل المثال، إنّ المكافأة النهائية في معظم الألعاب هي الفوز. يمكن لأنظمة التعلّم المعزّز أن تصبح خبيرة في لعب الألعاب المعقّدة من خلال تقييم تتابعات الحركات السابقة التي أدّت في النهاية إلى المكاسب والتسلسلات التي أدّت في النهاية إلى الخسائر.
التعلّم المعزّز من الملاحظات البشرية (RLHF)
استخدام الملاحظات الواردة من المصنِّفين لتحسين جودة ردود النموذج. على سبيل المثال، يمكن لآلية RLHF أن تطلب من المستخدمين تقييم جودة استجابة نموذج من خلال إضافة رمز تعبيري 👍 أو 👎. يمكن للنظام بعد ذلك تعديل ردوده المستقبلية بناءً على تلك الملاحظات.
المورد الاحتياطي لإعادة التشغيل
في الخوارزميات المشابهة لـ DQN، الذاكرة التي يستخدمها الوكيل لتخزين عمليات انتقال الحالة لاستخدامها في إعادة تشغيل التجربة.
return
في إطار التعلّم المعزّز، وفقًا لسياسة محدّدة وحالة معيّنة، يكون العائد هو مجموع كل المكافآت التي يتوقّع الوكيل أن يحصل عليها عند اتّباع السياسة من الولاية حتى نهاية الحلقة. ويراعي الوكيل الطبيعة المتأخرة للمكافآت المتوقّعة من خلال خصم المكافآت وفقًا لعمليات الانتقال المطلوبة للحصول على المكافأة في الولاية.
وبالتالي، إذا كان عامل الخصم هو \(\gamma\)، ويرمز \(r_0, \ldots, r_{N}\) إلى المكافآت حتى نهاية الحلقة، يتم احتساب العائد على النحو التالي:
مكافأة
في التعلّم المعزّز، هي النتيجة الرقمية لاتخاذ إجراء في حالة على النحو المحدّد في البيئة.
S
state
في التعلّم المعزّز، يشير ذلك إلى قيم المعلَمات التي تصف الضبط الحالي للبيئة، والتي يستخدمها agent لاختيار إجراء.
دالة قيمة إجراء الحالة
مرادف دالة Q.
T
نموذج Q- Learning الجدولي
في التعلُّم التعززي، يمكن تنفيذ التعلّم القائم على Q باستخدام جدول لتخزين الدوالّ Q لكل مزيج من ما يلي: الدوال والإجراء.
الشبكة المستهدفة
في التعلم Q المتعمق، هي شبكة عصبية تكون تقريبية ثابتة من الشبكة العصبية الرئيسية، حيث تنفّذ الشبكة العصبية الرئيسية إما دالة Q أو سياسة. بعد ذلك، يمكنك تدريب الشبكة الرئيسية على قيم Q التي تنتهجها الشبكة المستهدفة. وبالتالي، فإنك تمنع حلقة الملاحظات التي تحدث عندما تتدرب الشبكة الرئيسية على قيم Q التي تنبأ بها نفسها. من خلال تجنب هذه الملاحظات، يزداد استقرار التدريب.
شرط إنهاء الاتفاقية
في التعلُّم التعززي، هي الشروط التي تحدِّد وقت انتهاء الحلقة، مثل وصول الوكيل إلى حالة معيّنة أو تجاوز الحدّ الأقصى لعمليات الانتقال بين هذه الحالات. على سبيل المثال، في لعبة tic-tac-toe (المعروفة أيضًا باسم noughts وcres)، تنتهي الحلقة إما عندما يضع اللاعب علامة على ثلاث مسافات متتالية أو عند وضع علامة على جميع المسافات.
مسار
في التعلُّم المعزّز، يشير تسلسل الصفوف إلى سلسلة من انتقالات الحالة للوكيل agent، حيث يتجاوب كل صف مع الحالة والإجراء والمكافأة والحالة التالية لحالة انتقال معيّنة.