דף זה מכיל מונחי מונחים ללמידת חיזוק. לכל המונחים במילון המונחים, לחצו כאן.
A
פעולה
בלמידת חיזוק, המנגנון שבו הסוכן עובר בין מצבים של הסביבה. הנציג בוחר את הפעולה באמצעות מדיניות.
נציג
בלמידת חיזוק, הישות שמשתמשת במדיניות כדי למקסם את התשואה הצפויה מהמעבר בין מצבים של הסביבה.
באופן כללי, סוכן הוא תוכנה שמתכנת ומבצעת באופן עצמאי סדרה של פעולות להשגת היעד, עם יכולת להסתגל לשינויים בסביבה. לדוגמה, סוכנים המבוססים על LLM יכולים להשתמש ב-LLM כדי ליצור תוכנית, במקום להחיל מדיניות לחיזוק הלמידה.
B
משוואת בלמן
בלמידת חיזוק, הזהות הבאה מתבססת על ה-Q-function האופטימלית:
\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]
האלגוריתמים של למידת חיזוק מיישמים את הזהות הזו כדי ליצור Q-learning באמצעות כלל העדכון הבא:
\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]
מעבר ללמידה של החיזוק, משוואת בלמן גם כוללת אפליקציות לתכנות דינמי. אפשר לעיין ב ערך בוויקיפדיה על משוואת בלמן.
C
מבקר
מילה נרדפת ל-Deep Q-Network.
D
Deep Q-Network (DQN)
ב-Q-learning, רשת נוירונים עמוקה שחוזה פונקציות Q.
Critic היא מילה נרדפת ל-Deep Q-Network.
DQN
ה.
environment
בלמידת חיזוק, העולם שמכיל את הסוכן ומאפשר לסוכן לצפות במצב של העולם. לדוגמה, העולם המיוצג יכול להיות משחק כמו שחמט או עולם פיזי כמו מבוך. כשהסוכן מחיל פעולה על הסביבה, הסביבה עוברת בין מצבים.
פרק
בלמידת חיזוק, כל אחד מהניסיונות החוזרים של הסוכן ללמוד סביבה.
מדיניות epsilon חמדן
בלמידת חיזוק, מדיניות שפועלת לפי מדיניות אקראית עם הסתברות אפסילון, או לפי מדיניות חמדן אחרת. לדוגמה, אם אפסילון הוא 0.9, אז המדיניות תואמת למדיניות אקראית ב-90% מהזמן, ולמדיניות בנושא חמדן ב-10% מהפעמים.
בפרקים רצופים, האלגוריתם מפחית את הערך של אפסילון על מנת לעבור מיישום מדיניות אקראית למדיניות חמדן. באמצעות שינוי המדיניות, הנציג בוחן קודם את הסביבה באופן אקראי ולאחר מכן מנצל בחמדנות את התוצאות של החקירה האקראית.
ניסיון חוזר
בלמידת חיזוק, שיטה DQN שמשמשת לצמצום מתאמים זמניים בנתוני אימון. הסוכן שומר את המעברים של המצבים במאגר נתונים זמני להפעלה מחדש, ואז דוגמים את המעברים ממאגר ההפעלה החוזרת כדי ליצור נתוני אימון.
G
המדיניות בנושא אלגוריתם חמדן
בלמידת חיזוק, יש להשתמש במדיניות שבה בוחרים תמיד את הפעולה עם ההחזר הגבוה ביותר.
M
תהליך ההחלטות של מרקוב (MDP)
תרשים שמייצג את מודל קבלת ההחלטות, שבו מתקבלות החלטות (או פעולות) כדי לנווט ברצף של מצבים, בהנחה שנכס מרקוב מכיל. בלמידת חיזוק, המעברים בין המצבים מחזירים תגמול מספרי.
נכס מרקוב
מאפיין של סביבות מסוימות, שבהן המעברים בין מצבים נקבעים לחלוטין על סמך מידע משתמע במצב הנוכחי והפעולה של הנציג.
P
policy
בלמידת חיזוק, המיפוי ההסתברותי של סוכן ממצבים לפעולות.
Q
פונקציית Q
בלמידת חיזוק, הפונקציה שחוזה את ההחזר הצפוי מביצוע פעולה במצב ולאחר מכן ביצוע מדיניות מסוימת.
פונקציית Q נקראת גם פונקציית ערך של מצב פעולה.
למידת Q
במסגרת למידת חיזוק, אלגוריתם שמאפשר לסוכן ללמוד את ה-Q-function האופטימלית של תהליך ההחלטה של מרקוב על ידי החלת משוואת בלמן. תהליך ההחלטות של מרקוב יוצר מודל של סביבה.
R
מדיניות אקראית
בלמידת חיזוק, מדיניות שבה בוחרים באופן אקראי פעולה.
למידת חיזוק (RL)
משפחה של אלגוריתמים שלומדים מדיניות אופטימלית, שהמטרה שלה היא להגדיל את ההחזר באינטראקציה עם סביבה. לדוגמה, התגמול האולטימטיבי ברוב המשחקים הוא ניצחון. מערכות למידה לחיזוק יכולות להפוך למומחיות במשחקים מורכבים באמצעות הערכה של רצפים של מהלכים קודמים במשחק, שבסופו של דבר הובילו לניצחונות ולרצפים שהובילו להפסדים.
חיזוק הלמידה ממשוב אנושי (RLHF)
שימוש במשוב ממדרגים אנושיים לשיפור איכות התשובות של המודל. לדוגמה, מנגנון RLHF יכול לבקש ממשתמשים לדרג את איכות התשובה של דוגמן באמצעות 👍 או 👎. לאחר מכן המערכת תוכל לשנות את התשובות העתידיות שלה בהתאם למשוב הזה.
מאגר נתונים זמני להפעלה מחדש
באלגוריתמים שדומים ל-DQN, הזיכרון שבו הסוכן משתמש כדי לאחסן מעברי מצבים לשימוש בהפעלה מחדש של חוויה.
return
בלמידת חיזוק, בהתאם למדיניות מסוימת ומצב מסוים, התשואה היא הסכום של כל התגמולים שהסוכן מצפה לקבל כשהוא עומד במדיניות מהמצב ועד לסוף הפרק. הסוכן אחראי על האופי האיטי של הפרסים הצפויים על ידי הפחתת ערך התגמולים בהתאם למעברי המדינות שנדרשים כדי לקבל את התגמול.
לכן, אם גורם ההנחה הוא \(\gamma\), ו- \(r_0, \ldots, r_{N}\)מציין את התגמולים עד סוף הפרק, חישוב ההחזרה יתבצע כך:
פרס
בלמידת חיזוק, התוצאה המספרית של ביצוע פעולה במצב, כפי שמוגדרת בסביבה.
S
state
בלמידת חיזוק, ערכי הפרמטרים שמתארים את ההגדרות הנוכחיות של הסביבה, שבהם הסוכן משתמש כדי לבחור פעולה.
פונקציית הערך של מצב-פעולה
מילה נרדפת ל-Q-function.
T
טבלת לימוד Q
במסגרת למידת חיזוק, הטמעת Q-learning באמצעות טבלה לאחסון פונקציות ה-Q לכל שילוב של מצב ופעולה.
רשת היעד
במודל Deep Q-learning, רשת נוירונים שהיא הערכה יציבה של רשת הנוירונים הראשית, שבה רשת הנוירונים הראשית מטמיעה פונקציית Q או מדיניות. לאחר מכן אפשר לאמן את הרשת הראשית לפי ערכי ה-Q שחוזים רשת היעד. לכן, אתם מונעים את לולאת המשוב שמתרחשת כשהרשת הראשית מאומנת על ערכי Q שחזויים בעצמם. על ידי מניעת המשוב הזה, יציבות האימון עולה.
תנאי סיום
בלמידת החיזוק, התנאים שקובעים מתי פרק יסתיים, למשל מתי הנציג מגיע למצב מסוים או חורג ממספר הסף של מעברים בין מצבים. לדוגמה, בפונקציית tic-tac-toe (שנקראת גם פקקים והצלבים), פרק מסתיים כשהשחקן מסמן שלושה רווחים ברצף או כשכל הרווחים מסומנים.
מסלול
בלמידת חיזוק, רצף של צמדים שמייצג רצף של מעברי מצב של הסוכן, כאשר כל משולש תואם למדינה, פעולה, תגמול והמצב הבא במעבר למצב נתון.