דף זה תורגם על ידי Cloud Translation API.

מודלים גדולים של שפה: כוונון עדין, הנדסת הנחיות והנדסת הנחיות

ביחידה הקודמת מתוארים מודלים גדולים של שפה (LLM) לשימוש כללי, שנקראים גם:

תוכניות LLM בסיסיות
base LLMs
מודלים של LLM שהותאמו מראש

מודל LLM בסיסי מאומן על כמות מספקת של שפה טבעית כדי "לדעת" כמות עצומה של ידע לגבי דקדוק, מילים וביטויים. מודל שפה בסיסי יכול ליצור משפטים מועילים בנושאים שבהם הוא אומן. בנוסף, LLM בסיסי יכול לבצע משימות מסוימות שנחשבות באופן מסורתי ל'יצירתיות', כמו כתיבת שירה. עם זאת, הפלט הטקסטואלי הגנרטיבי של LLM בסיסי הוא לא פתרון לבעיות נפוצות אחרות של למידת מכונה, כמו רגרסיה או סיווג. בתרחישים האלה, LLM בסיסי יכול לשמש כפלטפורמה ולא כפתרון.

כדי להפוך LLM בסיסי לפתרון שעומד בצרכים של האפליקציה, צריך לבצע תהליך שנקרא התאמה אישית. תהליך משני שנקרא זיקוק יוצר גרסה קטנה יותר (עם פחות פרמטרים) של המודל שעבר כוונון מדויק.

כוונון עדין

מחקרים מראים שיכולות זיהוי התבניות של מודלים יסודיים של שפה חזקות כל כך, שלפעמים נדרש להם אימון נוסף יחסית מועט כדי ללמוד משימות ספציפיות. האימון הנוסף עוזר למודל לחזות טוב יותר משימות ספציפיות. ההכשרה הנוספת הזו, שנקראת התאמה אישית, מאפשרת לכם להפיק את המירב מהצד המעשי של לימודי LLM.

תהליך השיפור מתמקד בדוגמאות ספציפיות למשימה שהאפליקציה תבצע. לפעמים מהנדסים יכולים לשפר LLM בסיסי על סמך כמה מאות או אלפי דוגמאות לאימון בלבד.

למרות המספר הקטן יחסית של דוגמאות לאימון, לעיתים קרובות תהליך כוונון מדויק רגיל הוא יקר מבחינה חישובית. הסיבה לכך היא שבחינה רגילה של כוונון עדין כוללת עדכון של המשקל וההטיה של כל פרמטר בכל חזרה של העברה לאחור. למרבה המזל, תהליך חכם יותר שנקרא כוונון יעיל בפרמטרים מאפשר לבצע כוונון מדויק של LLM על ידי שינוי של קבוצת משנה של פרמטרים בכל חזרה של התפשטות לאחור.

התחזיות של מודל מותאם אישית בדרך כלל טובות יותר מהתחזיות של מודל ה-LLM הבסיסי. עם זאת, מודל מותאם אישית מכיל את אותו מספר פרמטרים כמו LLM הבסיסי. לכן, אם LLM בסיסי מכיל עשרה מיליארד פרמטרים, גם הגרסה המשופרת תכלול עשרה מיליארד פרמטרים.

זיקוק

רוב המודלים הגדולים של שפה שעברו התאמה אישית מכילים מספר עצום של פרמטרים. כתוצאה מכך, מודלים בסיסיים של LLM דורשים משאבים עצומים של מחשוב וסביבה כדי ליצור תחזיות. חשוב לזכור שחלק גדול מהפרמטרים האלה בדרך כלל לא רלוונטיים לאפליקציה ספציפית.

תהליך הזיקוק יוצר גרסה קטנה יותר של LLM. ה-LLM המזוקק יוצר תחזיות מהר יותר, ונדרש לו פחות משאבים מבחינת חישוב וסביבה בהשוואה ל-LLM המלא. עם זאת, בדרך כלל התחזיות של המודל המזוקק לא טובות כמו התחזיות של LLM המקורי. חשוב לזכור שמודלים גדולים של שפה עם יותר פרמטרים יוצרים תחזיות טובות יותר ממודלים גדולים של שפה עם פחות פרמטרים.

לוחצים על הסמל כדי לקרוא איך התהליך פועל.

הצורה הנפוצה ביותר של התמצתת היא שימוש בהסקה בכמות גדולה כדי לתייג נתונים. לאחר מכן, הנתונים המתויגים האלה משמשים לאימון מודל חדש וקטן יותר (שנקרא מודל הסטודנט) שאפשר להציג במחיר נמוך יותר. הנתונים המתויגים משמשים כערוץ שבו המודל הגדול יותר (שנקרא מודל המורה) מעביר את הידע שלו למודל הקטן יותר.

לדוגמה, נניח שאתם צריכים מערכת למדידת רמת הרעילות באינטרנט לצורך ניהול אוטומטי של תגובות. במקרה כזה, אפשר להשתמש במערכת גדולה למדידת רמת הרעילות אופליין כדי לתייג את נתוני האימון. לאחר מכן, תוכלו להשתמש בנתוני האימון האלה כדי ליצור מודל למדידת רמת הרעילות, שיהיה קטן מספיק כדי להציג אותו ולטפל בתנועה פעילה.

לפעמים מודל מורה יכול לספק יותר נתונים מתויגים מאשר אלה שעליהם הוא עבר אימון. לחלופין, מודל המורה יכול להעביר למודל התלמיד ציון מספרי במקום תווית בינארית. ציון מספרי מספק אות אימון עשיר יותר מתווית בינארית, ומאפשר למודל התלמיד לחזות לא רק כיתות חיוביות ושליליות, אלא גם כיתות גבוליות.

הנדסת הנחיות

הנדסת הנחיות מאפשרת למשתמשי הקצה של LLM להתאים אישית את הפלט של המודל. כלומר, משתמשי הקצה צריכים להבהיר איך ה-LLM צריך להגיב להנחיה שלהם.

בני אדם לומדים טוב מדוגמאות. כך גם מודלים גדולים של שפה (LLM). הצגת דוגמה אחת ל-LLM נקראת הנחיה חד-פעמית. לדוגמה, נניח שרוצים שהמודל ישתמש בפורמט הבא כדי להפיק את המשפחה של פרי:

המשתמש מזין את שם הפרי: LLM מניב את הכיתה של הפרי הזה.

בהנחיה חד-פעמית מוצגת ל-LLM דוגמה אחת לפורמט הקודם, ואז מבקשים ממנו להשלים שאילתה על סמך הדוגמה הזו. לדוגמה:

peach: drupe
apple: ______

לפעמים דוגמה אחת מספיקה. אם כן, ה-LLM יפיק תחזית שימושית. לדוגמה:

apple: pome

במצבים אחרים, דוגמה אחת לא מספיקה. כלומר, המשתמש צריך להציג ל-LLM כמה דוגמאות. לדוגמה, ההנחיה הבאה מכילה שתי דוגמאות:

plum: drupe
pear: pome
lemon: ____

הוספת כמה דוגמאות נקראת הנחיה עם כמה דוגמאות (Few-shot). אפשר לחשוב על שתי השורות הראשונות של ההנחיה הקודמת כדוגמאות לאימון.

האם מודלים של LLM יכולים לספק תחזיות מועילות ללא דוגמאות (יצירת הנחיות מאפס)? לפעמים, אבל מודעות LLM אוהבות הקשר. ללא הקשר, ההנחיה הבאה ללא ניסיון קודם עשויה להציג מידע על חברת הטכנולוגיה במקום על הפרי:

apple: _______

הסקת מסקנות אופליין

לפעמים מספר הפרמטרים ב-LLM גדול כל כך שהחילוץ בזמן אמת איטי מדי ולא מעשי למשימות בעולם האמיתי, כמו רגרסיה או סיווג. כתוצאה מכך, צוותי הנדסה רבים מסתמכים במקום זאת על הסקת מסקנות אופליין (שנקראת גם הסקת מסקנות בכמות גדולה או הסקת מסקנות סטטית). במילים אחרות, במקום להגיב לשאילתות בזמן ההצגה, המודל המאומן מבצע חיזויים מראש ולאחר מכן מאחסן את החיזויים האלה במטמון.

לא משנה אם ל-LLM נדרשת זמן רב כדי להשלים את המשימה, אם הוא צריך לבצע אותה רק פעם בשבוע או פעם בחודש.

לדוגמה, בחיפוש Google נעשה שימוש ב-LLM כדי לבצע הסקה אופליין, וכך לשמור במטמון רשימה של יותר מ-800 מילים נרדפות לחיסונים נגד נגיף הקורונה ביותר מ-50 שפות. לאחר מכן, חיפוש Google השתמש ברשימה ששמורה במטמון כדי לזהות שאילתות לגבי חיסונים בתנועה בזמן אמת.

שימוש אחראי במודלים גדולים של שפה (LLM)

כמו כל סוג של למידת מכונה, בדרך כלל למודלים מסוג LLM יש את אותם הטיות שיש:

הנתונים שהם אומנו על סמך אותם.
הנתונים שעל סמךיהם הם נוצרו.

להשתמש במודלים של LLM בצורה הוגנת ואחראית, בהתאם להנחיות שמפורטות במודולים של נתונים ובמודול ההוגנות.

תרגול: בדיקת ההבנה

אילו מההצהרות הבאות נכונות לגבי מודלים גדולים של שפה (LLM)?

LLM מרוכז מכיל פחות פרמטרים ממודל השפה הבסיסי שממנו הוא נובע.

כן, תהליך הזיקוק מצמצם את מספר הפרמטרים.

LLM מותאם אישית מכיל פחות פרמטרים ממודל השפה הבסיסי שבו הוא אומן.

מודל שעבר כוונון עדין מכיל אותו מספר פרמטרים כמו המודל המקורי של שפת הבסיס.

ככל שמשתמשים מבצעים יותר תכנון של הנחיות, מספר הפרמטרים ב-LLM גדל.

תכנון ההנחיות לא מוסיף (או מסיר או משנה) פרמטרים של LLM.

מהו מודל שפה גדול (LLM)? (15 דקות)

בוחנים את הידע (10 דקות)