מודלים גדולים של שפה: כוונון עדין, הנדסת הנחיות והנדסת הנחיות

היחידה הקודמת שתיארנו מודלים גדולים של שפה (LLM) לשימוש כללי, נקרא:

  • מודלים גדולים של שפה (LLM)
  • מודלים בסיסיים מסוג LLM
  • מודלים גדולים של שפה (LLM) שעברו אימון מראש

מודל שפה גדול (LLM) בסיסי מאומן על מספיק שפה טבעית כדי "לדעת". יוצא דופן על דקדוק, מילים וניבים. מודל שפה בסיסי יכול ומשפטים מועילים בנושאים שהוא מלמד. בנוסף, מודל שפה גדול (LLM) יכול לבצע משימות מסוימות שנקראות בעבר "creative", כמו כתיבת שירה. אבל הטקסט הגנרטיבי של מודל שפה גדול הוא לא פתרון לסוגים אחרים של בעיות למידת מכונה נפוצות, רגרסיה או סיווג. בתרחישים לדוגמה האלה, מודל שפה גדול (LLM) יכול לשמש כפלטפורמה ולא כפתרון.

טרנספורמציה של מודל שפה גדול (LLM) לפתרון שעומד בדרישות של האפליקציה נדרש תהליך בשם כוונון עדין. תהליך משני שנקרא distillation יוצרת גרסה קטנה (פחות פרמטרים) של ההגדרה העדינה. מודל טרנספורמר.

כוונון עדין

המחקרים מראים שהיכולות לזיהוי תבניות של מודלים בסיסיים הם חזקים כל כך עד שלפעמים הם מצריכים מעט הדרכה נוספת כדי ללמוד משימות ספציפיות. האימון הנוסף הזה עוזר למודל לבצע תחזיות טובות יותר במשימה ספציפית. ההדרכה הנוספת הזו, כוונון עדין, פותח את הצד המעשי של מודל שפה גדול (LLM).

כוונון עדין של רכבות לפי דוגמאות ספציפיות למשימה שהאפליקציה שלכם יפעלו. לפעמים מהנדסים יכולים לשפר מודל שפה גדול (LLM) לפי כמה מאות או כמה אלפי דוגמאות לאימון.

למרות המספר הקטן יחסית של דוגמאות אימון, עולה בדרך כלל יקר מבחינה ממוחשבת. הסיבה לכך היא שכוונון עדין רגיל כולל מעדכנים את המשקל וההטיה של כל פרמטר בכל פרמטר איטרציה של הפצה לאחור. למרבה המזל, תהליך חכם יותר שנקרא יעילות בפרמטרים כוונון יכול לדייק LLM על ידי שינוי רק קבוצת משנה של פרמטרים בכל של הפצה לאחור.

החיזויים של מודל שעבר כוונון עדין הם בדרך כלל טובים יותר מהתחזיות של מודל שפה גדול (LLM) הבסיסי ויצירת חיזויים. אבל מודל שעבר כוונון עדין מכיל את אותו מספר בתור ה-LLM הבסיסי. כלומר, אם מודל שפה גדול (LLM) בסיסי מכיל עשרה מיליארד של הפרמטרים האלה, הגרסה כוונון עדין תכלול גם עשרה מיליארד .

זיקוק

רוב מודלי ה-LLM המשופרים מכילים מספרים עצומים של פרמטרים. כתוצאה מכך, מודלים גדולים של שפה (LLM) דורשים משאבים חישוביים וסביבתיים עצומים כדי ליצור חיזויים. חשוב לזכור שחלקים גדולים מהפרמטרים האלה בדרך כלל לא רלוונטיים לאפליקציה מסוימת.

זיקוק יוצרת גרסה קטנה יותר של LLM. ה-LLM המזוקק יוצר חיזויים הרבה יותר מהיר ודורשים פחות משאבי חישוב וסביבה את מודל ה-LLM המלא. עם זאת, בדרך כלל התחזיות של המודל המזקק די טובות כמו החיזויים של ה-LLM המקורי. תזכורת על מודלים גדולים של שפה כמעט תמיד מייצרים תחזיות טובות יותר ממודלים גדולים של שפה (LLM) עם פחות .

הנדסת הנחיות

הנדסת הנחיות שמאפשר למשתמשי קצה ב-LLM להתאים אישית את הפלט של המודל. כלומר משתמשי הקצה מבהירים איך ה-LLM צריך להגיב להנחיה שלהם.

בני אדם לומדים היטב מדוגמאות. וכך גם על מודלים גדולים של שפה. הצגת דוגמה אחת ל-LLM נקרא יצירת הנחיות מדוגמה אחת. לדוגמה, נניח שאתם רוצים שהמודל ישתמש בפורמט הבא כדי ליצור פלט משפחת הפירות:

המשתמש מזין את השם של פרי: פלט של מודל שפה גדול (LLM) לפי סיווג הפרי.

הנחיה עם דוגמה אחת מציגה את ה-LLM דוגמה אחת לפורמט הקודם ואז הוא מבקש מה-LLM להשלים שאילתה על סמך הדוגמה הזו. לדוגמה:

peach: drupe
apple: ______

לפעמים תספיק דוגמה אחת בלבד. אם כן, ה-LLM יפיק צפי. לדוגמה:

apple: pome

במקרים אחרים, דוגמה אחת לא מספיקה. כלומר, על המשתמש מציגים את הדוגמאות המרובות של ה-LLM. לדוגמה, ההנחיה הבאה מכילה שתי דוגמאות:

plum: drupe
pear: pome
lemon: ____

האפשרות של הצגת כמה דוגמאות נקראת יצירת הנחיות מכמה דוגמאות אפשר לחשוב על שתי השורות הראשונות של ההנחיה הקודמת כאימון דוגמאות.

האם מודל שפה גדול (LLM) יכול לספק חיזויים שימושיים ללא דוגמאות (מודל מאפס (zero-shot). נקראת 'הנחיה ישירה')? לפעמים, אבל מודלים גדולים של שפה כמו הקשר. בלי הקשר, פרומפט ישיר (zero-shot) להציג מידע על חברת הטכנולוגיה במקום על הפרי:

apple: _______

הסקת מסקנות אופליין

לפעמים מספר הפרמטרים ב-LLM הוא כזה גדולה הסקת מסקנות אונליין איטי מדי מכדי להיות מעשי למשימות בעולם האמיתי, כמו רגרסיה או של משפטים יחידים, לכן, צוותים רבים של הנדסה מסתמכים על תובנות אופליין (גם שנקראה הֶקֵּשׁ בכמות גדולה או הֶקֵּשׁ סטטי). במילים אחרות, במקום להגיב לשאילתות בזמן הצגת המודעה, יוצר תחזיות מראש ולאחר מכן שומר את החיזויים האלה במטמון.

לא משנה אם לוקח ל-LLM זמן רב להשלים את המשימה שלו אם ה-LLM צריך לבצע את המשימה רק פעם בשבוע או פעם בחודש.

לדוגמה, חיפוש Google השתמשו ב-LLM לבצע הסקת מסקנות אופליין כדי לשמור רשימה של יותר מ-800 מילים נרדפות לחיסונים נגד נגיף הקורונה ביותר מ-50 שפות. בחיפוש Google נעשה שימוש רשימה ששמורה במטמון לזיהוי שאילתות לגבי חיסונים בתנועת גולשים בזמן אמת.

שימוש במודלים גדולים של שפה (LLM) באופן אחראי

כמו בכל צורה של למידת מכונה, מודלים גדולים של שפה חולקים בדרך כלל דעות קדומות של:

  • הנתונים שהם אומנו לפיהם.
  • הנתונים שעליהם הם דולקו.

להשתמש במודלים גדולים של שפה (LLM) בצורה הוגנת ואחראית, בהתאם לשיעורים המוצגים בקורס הזה.

תרגיל: בדקו את ההבנה שלכם

איזה מהמשפטים הבאים נכון לגבי מודלים גדולים של שפה?
מודל שפה גדול (LLM) מזוקק מכיל פחות פרמטרים מהבסיס של מודל השפה שעליו היא הגיעה.
כן, זיקוק מפחית את מספר הפרמטרים.
מודל שפה גדול (LLM) שעבר כוונון עדין מכיל פחות פרמטרים מהבסיס שהוא אומן לפי המודל.
מודל שעבר כוונון עדין מכיל אותו מספר של פרמטרים כמו את מודל השפה המקורי הבסיסי.
ככל שהמשתמשים מבצעים יותר הנדסת הנחיות, כך מספר הפרמטרים ב-LLM גדל.
הנדסת הנחיות לא מוסיפה (או מסירה או משנה) LLM .