מילון מונחים ללמידת מכונה: למידת חיזוק

בדף הזה מפורטים מונחים ממילון של למידת חיזוק. כאן מפורטות כל ההגדרות במילון.

A

פעולה

#rl

בלמידת חיזוק, המנגנון שבו הסוכן עובר בין מצבים של הסביבה. הסוכן בוחר את הפעולה באמצעות מדיניות.

נציג

#rl

בלמידת חיזוק, הישות שמשתמשת במדיניות כדי למקסם את התשואה הצפויה מהמעבר בין המצבים של הסביבה.

באופן כללי, סוכן הוא תוכנה שמתכננת ומבצעת באופן עצמאי סדרה של פעולות כדי להשיג מטרה, עם היכולת להתאים את עצמה לשינויים בסביבה. לדוגמה, סוכן שמבוסס על LLM עשוי להשתמש ב-LLM כדי ליצור תוכנית, במקום להחיל מדיניות של למידת חיזוק.

B

משוואת בלמן

#rl

בלמידת חיזוקים, הזהות הבאה מתקיימת בפונקציית Q האופטימלית:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

אלגוריתמים של למידת חיזוק מחילים את הזהות הזו כדי ליצור למידת Q באמצעות כלל העדכון הבא:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

מלבד למידה לחיזוק, למשוואת בלמן יש יישומים בתוכנית דינמית. הרשומה ב-Wikipedia על משוואת Bellman

C

מבקר/ת

#rl

כינוי ל-Deep Q-Network.

D

Deep Q-Network‏ (DQN)

#rl

ב-למידת Q, רשת עצבית עמוקה שמאפשרת לחזות פונקציות Q.

Critic הוא שם נרדף ל-Deep Q-Network.

DQN

#rl

קיצור של Deep Q-Network.

E

environment

#rl

בלמידת חיזוקים, העולם שמכיל את הסוכן ומאפשר לסוכן לצפות במצב של העולם הזה. לדוגמה, העולם שמוצג יכול להיות משחק כמו שחמט או עולם פיזי כמו מבוך. כשהסוכן מחיל פעולה על הסביבה, הסביבה עוברת בין מצבים.

פרק

#rl

בלמידת חיזוקים, כל אחת מהניסיונות החוזרים של הסוכן ללמוד סביבה.

מדיניות 'אפסילון חמדן'

#rl

בלמידת חיזוי, מדיניות שמצייתת למדיניות אקראית עם הסתברות של אפסון, או למדיניות תאוותנית במקרים אחרים. לדוגמה, אם הערך של epsilon הוא 0.9, המדיניות תהיה מדיניות אקראית ב-90% מהמקרים ותהיה מדיניות תאוותנית ב-10% מהמקרים.

במהלך פרקים עוקבים, האלגוריתם מקטין את הערך של epsilon כדי לעבור ממדיניות אקראית למדיניות תאוותנית. כשמשנים את המדיניות, הסוכן קודם בודק את הסביבה באופן אקראי ואז מנצל בצורה תאוותנית את תוצאות הבדיקה האקראית.

הפעלה מחדש של חוויית המשתמש

#rl

בלמידת חיזוקים, טכניקה של DQN שמשמשת לצמצום הקורלציות הזמניות בנתוני האימון. הסוכן שומר את מעברי המצב במאגר נתונים להפעלה חוזרת, ואז מדגם את המעברים מהמאגר כדי ליצור נתוני אימון.

G

מדיניות חמדנית

#rl

בלמידת חיזוקים, מדיניות שבה תמיד נבחרת הפעולה עם החזר הצפוי הגבוה ביותר.

M

תהליך החלטה של מרקוב (MDP)

#rl

תרשים שמייצג את מודל קבלת ההחלטות, שבו מתקבלות החלטות (או פעולות) כדי לנווט ברצף של מצבים, בהנחה שמאפיין מרקוב תקף. בלמידת חיזוק, המעברים האלה בין המצבים מחזירים תגמול מספרי.

מאפיין מרקוב

#rl

מאפיין של סביבות מסוימות, שבהן מעברי המצבים נקבעים לחלוטין על סמך מידע שמשתמע מהמצב הנוכחי ומהפעולה של הסוכן.

P

policy

#rl

בלמידת חיזוקים, מיפוי פרובוביליסטי של סוכן ממצבים לפעולות.

Q

פונקציית Q

#rl

בלמידת חיזוק, הפונקציה שמנבאת את התשואה הצפויה מביצוע פעולה במצב, ולאחר מכן ביצוע מדיניות נתונה.

פונקציית Q נקראת גם פונקציית ערך של מצב-פעולה.

Q-learning

#rl

בלמידת חיזוק, אלגוריתם שמאפשר לסוכן ללמוד את פונקציית ה-Q האופטימלית של תהליך החלטה של מרקוב על ידי החלת המשוואה של בלמן. תהליך קבלת ההחלטות של מרקוב מייצג סביבה.

R

מדיניות אקראית

#rl

בלמידת חיזוק, מדיניות שבוחרת פעולה באופן אקראי.

למידת חיזוק (RL)

#rl

משפחה של אלגוריתמים שמלמדים מדיניות אופטימלית, שמטרתה למקסם את התשואה במהלך אינטראקציה עם סביבה. לדוגמה, התגמול האולטימטיבי ברוב המשחקים הוא ניצחון. מערכות של למידת חיזוק יכולות להפוך למומחות במשחקים מורכבים על ידי הערכת רצפים של מהלכים קודמים במשחק שהובילו בסופו של דבר לניצחונות, ורצפים שהובילו בסופו של דבר להפסדים.

למידת חיזוק ממשוב אנושי (RLHF)

#generativeAI
#rl

שימוש במשוב מדרגים אנושיים כדי לשפר את איכות התשובות של מודל. לדוגמה, מנגנון RLHF יכול לבקש מהמשתמשים לדרג את האיכות של התשובה של המודל באמצעות אמוג'י 👍 או 👎. לאחר מכן, המערכת תוכל לשנות את התשובות העתידיות שלה על סמך המשוב הזה.

מאגר נתונים זמני להפעלה מחדש

#rl

באלגוריתמים שדומים ל-DQN, הזיכרון שבו הסוכן משתמש לאחסון מעברי מצב לשימוש בחוויית 'הפעלה מחדש'.

שורה חדשה

#rl

בלמידת חיזוק, בהינתן מדיניות מסוימת ומצב מסוים, ההחזר הוא הסכום של כל התגמולים שהסוכן מצפה לקבל כשפועל בהתאם למדיניות מהמצב ועד לסוף הפרק. כדי להביא בחשבון את העיכוב הטבעי בתגמולים הצפויים, הסוכן מפחית את התגמולים בהתאם למעברי המצב הנדרשים כדי לקבל את התגמול.

לכן, אם מקדם ההנחה הוא \(\gamma\), ו- \(r_0, \ldots, r_{N}\)מציין את התגמולים עד סוף הפרק, חישוב התשואה הוא:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

הטבה

#rl

בלמידת חיזוק, התוצאה המספרית של ביצוע פעולה במצב, כפי שהוגדר על ידי הסביבה.

S

הסמוי הסופי

#rl

בלמידת חיזוק, ערכי הפרמטרים שמתארים את ההגדרה הנוכחית של הסביבה, שבה הסוכן משתמש כדי לבחור פעולה.

פונקציית ערך של מצב-פעולה

#rl

שם נרדף ל-פונקציית Q.

T

למידת Q בטבלאות

#rl

בלמידת חיזוק, מטמיעים למידת Q באמצעות טבלה לאחסון פונקציות Q לכל שילוב של מצב ופעולה.

רשת היעד

#rl

ב-Deep Q-learning, רשת עצבית שהיא קירוב יציב של רשת העצבים הראשית, שבה רשת העצבים הראשית מטמיעה פונקציית Q או מדיניות. לאחר מכן אפשר לאמן את הרשת הראשית על ערכי ה-Q שחזתה הרשת היעד. כך אפשר למנוע את לולאת המשוב שמתרחשת כשהרשת הראשית מתאמנת על ערכי Q שחזתה בעצמה. הימנעות מהמשוב הזה משפרת את היציבות של האימון.

תנאי סיום

#rl

בלמידת חיזוק, התנאים שקובעים מתי פרק מסתיים, למשל כשהסוכן מגיע למצב מסוים או חורג ממספר הסף של מעברי המצב. לדוגמה, במשחק חמש בשורה, פרק מסתיים כששחקן מסמן שלוש משבצות רצופות או כשכל המשבצות מסומנות.

מסלול

#rl

בלמידת חיזוק, רצף של קבוצות נתונים שמייצגות רצף של מעברים במצב של הסוכן, כאשר כל קבוצת נתונים תואמת למצב, לפעולה, לתגמול ולמצב הבא במעבר נתון בין מצבים.