מודלים גדולים של שפה: כוונון עדין, הנדסת הנחיות והנדסת הנחיות

ביחידה הקודמת מתוארים מודלים גדולים של שפה (LLM) לשימוש כללי, שנקראים גם:

  • תוכניות LLM בסיסיות
  • base LLMs
  • מודלים של LLM שהותאמו מראש

מודל LLM בסיסי מאומן על כמות מספקת של שפה טבעית כדי "לדעת" כמות עצומה של ידע לגבי דקדוק, מילים וביטויים. מודל שפה בסיסי יכול ליצור משפטים מועילים בנושאים שבהם הוא עבר הכשרה. בנוסף, LLM בסיסי יכול לבצע משימות מסוימות שנחשבות באופן מסורתי ל'יצירתיות', כמו כתיבת שירה. אבל פלט הטקסט הגנרטיבי של מודל שפה גדול (LLM) הוא לא פתרון לסוגים אחרים של בעיות נפוצות בלמידת מכונה, כמו רגרסיה או סיווג. בתרחישים לדוגמה כאלה, מודל שפה גדול (LLM) יכול לשמש כפלטפורמה ולא כפתרון.

כדי להפוך LLM בסיסי לפתרון שעומד בצרכים של האפליקציה, צריך לבצע תהליך שנקרא התאמה אישית. תהליך משני שנקרא זיקוק יוצר גרסה קטנה יותר (עם פחות פרמטרים) של המודל שעבר כוונון מדויק.

כוונון עדין

מחקרים מראים שיכולות זיהוי התבניות של מודלים יסודיים של שפה חזקות כל כך, שלפעמים נדרש להם אימון נוסף יחסית מועט כדי ללמוד משימות ספציפיות. האימון הנוסף עוזר למודל לחזות טוב יותר משימות ספציפיות. ההכשרה הנוספת הזו, שנקראת התאמה אישית, מאפשרת לכם להפיק את המירב מהצד המעשי של לימודי LLM.

בשלב השיפור מתבצע אימון על דוגמאות ספציפיות למשימה שהאפליקציה תבצע. לפעמים מהנדסים יכולים לשפר LLM בסיסי על סמך כמה מאות או אלפי דוגמאות לאימון בלבד.

למרות המספר הזעיר יחסית של דוגמאות אימון, כוונון עדין רגיל הוא בדרך כלל יקר מדי. הסיבה לכך היא שבחינה מדויקת רגילה כוללת עדכון של המשקל וההטיה של כל פרמטר בכל חזרה של backpropagation. למרבה המזל, תהליך חכם יותר שנקרא יעילות בפרמטרים יכול לכוונן עדין מודל שפה גדול (LLM) על ידי שינוי של קבוצת משנה של פרמטרים בכל איטרציה של הפצה חוזרת.

התחזיות של מודל מותאם אישית בדרך כלל טובות יותר מהתחזיות של מודל ה-LLM הבסיסי. עם זאת, מודל מותאם אישית מכיל את אותו מספר פרמטרים כמו LLM הבסיסי. לכן, אם LLM בסיסי מכיל עשרה מיליארד פרמטרים, גם הגרסה המשופרת תכלול עשרה מיליארד פרמטרים.

זיקוק

רוב מודלי ה-LLM המשופרים מכילים מספרים עצומים של פרמטרים. כתוצאה מכך, מודלים בסיסיים של LLM דורשים משאבים עצומים של מחשוב וסביבה כדי ליצור תחזיות. חשוב לזכור שחלק גדול מהפרמטרים האלה בדרך כלל לא רלוונטיים לאפליקציה ספציפית.

תהליך הזיקוק יוצר גרסה קטנה יותר של LLM. ה-LLM המזוקק יוצר חיזויים הרבה יותר מהר ודורש פחות משאבי חישוב וסביבתיות מאשר ה-LLM המלא. עם זאת, בדרך כלל החיזויים של המודל המזקקים לא טובים באותה מידה כמו החיזויים של ה-LLM המקורי. חשוב לזכור שמודלים מסוג LLM עם יותר פרמטרים כמעט תמיד יוצרים חיזויים טובים יותר ממודלים גדולים של שפה (LLM) עם פחות פרמטרים.

הנדסת הנחיות

הנדסת הנחיות מאפשרת למשתמשי קצה של מודל שפה גדול להתאים אישית את הפלט של המודל. כלומר, משתמשי הקצה צריכים להבהיר איך ה-LLM צריך להגיב להנחיה שלהם.

בני אדם לומדים טוב מדוגמאות. כך גם מודלים גדולים של שפה (LLM). הצגת דוגמה אחת ל-LLM נקראת יצירת הנחיות מדוגמה אחת. לדוגמה, נניח שאתם רוצים שהמודל ישתמש בפורמט הבא כדי להפיק את משפחת הפרי:

המשתמש מזין את שם הפרי: LLM מניב את הכיתה של הפרי הזה.

הנחיה עם דוגמה אחת מציגה ל-LLM דוגמה אחת של הפורמט הקודם, ואז מבקשת מה-LLM להשלים שאילתה על סמך הדוגמה הזו. לדוגמה:

peach: drupe
apple: ______

לפעמים תספיק דוגמה אחת בלבד. אם כן, ה-LLM יפיק תחזית שימושית. לדוגמה:

apple: pome

במצבים אחרים, דוגמה אחת לא מספיקה. כלומר, המשתמש צריך להציג ל-LLM כמה דוגמאות. לדוגמה, ההנחיה הבאה מכילה שתי דוגמאות:

plum: drupe
pear: pome
lemon: ____

הוספת כמה דוגמאות נקראת הנחיה עם כמה דוגמאות (Few-shot). אפשר לחשוב על שתי השורות הראשונות של ההנחיה הקודמת כדוגמאות לאימון.

האם מודלים של LLM יכולים לספק תחזיות מועילות ללא דוגמאות (יצירת הנחיות מאפס)? לפעמים, אבל מודעות LLM אוהבות הקשר. ללא הקשר, ההנחיה הבאה ללא ניסיון קודם עשויה להציג מידע על חברת הטכנולוגיה במקום על הפרי:

apple: _______

הסקת מסקנות אופליין

לפעמים מספר הפרמטרים ב-LLM גדול כל כך עד שהסקת מסקנות אונליין היא איטית מדי מכדי לבצע משימות בעולם האמיתי כמו רגרסיה או סיווג. כתוצאה מכך, צוותי הנדסה רבים מסתמכים במקום זאת על הסקת מסקנות אופליין (שנקראת גם הסקת מסקנות בכמות גדולה או הסקת מסקנות סטטית). במילים אחרות, במקום להגיב לשאילתות בזמן ההצגה, המודל המאומן מבצע חיזויים מראש ולאחר מכן מאחסן את החיזויים האלה במטמון.

לא משנה אם לוקח ל-LLM זמן רב להשלים את המשימה שלו אם ה-LLM צריך לבצע את המשימה רק פעם בשבוע או פעם בחודש.

לדוגמה, בחיפוש Google נעשה שימוש ב-LLM כדי לבצע הסקה אופליין, וכך לשמור במטמון רשימה של יותר מ-800 מילים נרדפות לחיסונים נגד נגיף הקורונה ביותר מ-50 שפות. לאחר מכן, חיפוש Google השתמש ברשימה שנשמרה במטמון כדי לזהות שאילתות לגבי חיסונים בתנועה בזמן אמת.

שימוש אחראי במודלים גדולים של שפה (LLM)

כמו כל סוג של למידת מכונה, בדרך כלל למודלים מסוג LLM יש את אותן הטיות שיש:

  • הנתונים שהם אומנו לפיהם.
  • הנתונים שעליהם הם פוצלו.

להשתמש במודלים גדולים של שפה באופן הוגן ואחראי, בהתאם לשיעורים שהוצגו קודם לכן בקורס.

תרגול: בדיקת ההבנה

אילו מההצהרות הבאות נכונות לגבי מודלים גדולים של שפה (LLM)?
LLM מרוכז מכיל פחות פרמטרים ממודל השפה הבסיסי שממנו הוא נובע.
כן, זיקוק מפחית את מספר הפרמטרים.
LLM מותאם אישית מכיל פחות פרמטרים ממודל השפה הבסיסי שבו הוא אומן.
מודל שעבר כוונון עדין מכיל אותו מספר פרמטרים כמו במודל שפת הבסיס המקורי.
ככל שמשתמשים מבצעים יותר תכנון של הנחיות, מספר הפרמטרים ב-LLM גדל.
הנדסת הנחיות לא מוסיפה (או מסירה או משנה) פרמטרים של LLM.