ביחידה הקודמת מתוארים מודלים גדולים של שפה (LLM) לשימוש כללי, שנקראים גם:
- תוכניות LLM בסיסיות
- base LLMs
- מודלים של LLM שהותאמו מראש
מודל LLM בסיסי מאומן על כמות מספקת של שפה טבעית כדי "לדעת" כמות עצומה של ידע לגבי דקדוק, מילים וביטויים. מודל שפה בסיסי יכול ליצור משפטים מועילים בנושאים שבהם הוא אומן. בנוסף, LLM בסיסי יכול לבצע משימות מסוימות שנחשבות באופן מסורתי ל'יצירתיות', כמו כתיבת שירה. עם זאת, הפלט הטקסטואלי הגנרטיבי של LLM בסיסי הוא לא פתרון לבעיות נפוצות אחרות של למידת מכונה, כמו רגרסיה או סיווג. בתרחישים האלה, LLM בסיסי יכול לשמש כפלטפורמה ולא כפתרון.
כדי להפוך LLM בסיסי לפתרון שעומד בצרכים של האפליקציה, צריך לבצע תהליך שנקרא התאמה אישית. תהליך משני שנקרא זיקוק יוצר גרסה קטנה יותר (עם פחות פרמטרים) של המודל שעבר כוונון מדויק.
כוונון עדין
מחקרים מראים שיכולות זיהוי התבניות של מודלים יסודיים של שפה חזקות כל כך, שלפעמים נדרש להם אימון נוסף יחסית מועט כדי ללמוד משימות ספציפיות. האימון הנוסף עוזר למודל לחזות טוב יותר משימות ספציפיות. ההכשרה הנוספת הזו, שנקראת התאמה אישית, מאפשרת לכם להפיק את המירב מהצד המעשי של לימודי LLM.
תהליך השיפור מתמקד בדוגמאות ספציפיות למשימה שהאפליקציה תבצע. לפעמים מהנדסים יכולים לשפר LLM בסיסי על סמך כמה מאות או אלפי דוגמאות לאימון בלבד.
למרות המספר הקטן יחסית של דוגמאות לאימון, לעיתים קרובות תהליך כוונון מדויק רגיל הוא יקר מבחינה חישובית. הסיבה לכך היא שבחינה רגילה של כוונון עדין כוללת עדכון של המשקל וההטיה של כל פרמטר בכל חזרה של העברה לאחור. למרבה המזל, תהליך חכם יותר שנקרא כוונון יעיל בפרמטרים מאפשר לבצע כוונון מדויק של LLM על ידי שינוי של קבוצת משנה של פרמטרים בכל חזרה של התפשטות לאחור.
התחזיות של מודל מותאם אישית בדרך כלל טובות יותר מהתחזיות של מודל ה-LLM הבסיסי. עם זאת, מודל מותאם אישית מכיל את אותו מספר פרמטרים כמו LLM הבסיסי. לכן, אם LLM בסיסי מכיל עשרה מיליארד פרמטרים, גם הגרסה המשופרת תכלול עשרה מיליארד פרמטרים.
זיקוק
רוב המודלים הגדולים של שפה שעברו התאמה אישית מכילים מספר עצום של פרמטרים. כתוצאה מכך, מודלים בסיסיים של LLM דורשים משאבים עצומים של מחשוב וסביבה כדי ליצור תחזיות. חשוב לזכור שחלק גדול מהפרמטרים האלה בדרך כלל לא רלוונטיים לאפליקציה ספציפית.
תהליך הזיקוק יוצר גרסה קטנה יותר של LLM. ה-LLM המזוקק יוצר תחזיות מהר יותר, ונדרש לו פחות משאבים מבחינת חישוב וסביבה בהשוואה ל-LLM המלא. עם זאת, בדרך כלל התחזיות של המודל המזוקק לא טובות כמו התחזיות של LLM המקורי. חשוב לזכור שמודלים גדולים של שפה עם יותר פרמטרים יוצרים תחזיות טובות יותר ממודלים גדולים של שפה עם פחות פרמטרים.
הנדסת הנחיות
הנדסת הנחיות מאפשרת למשתמשי הקצה של LLM להתאים אישית את הפלט של המודל. כלומר, משתמשי הקצה צריכים להבהיר איך ה-LLM צריך להגיב להנחיה שלהם.
בני אדם לומדים טוב מדוגמאות. כך גם מודלים גדולים של שפה (LLM). הצגת דוגמה אחת ל-LLM נקראת הנחיה חד-פעמית. לדוגמה, נניח שרוצים שהמודל ישתמש בפורמט הבא כדי להפיק את המשפחה של פרי:
המשתמש מזין את שם הפרי: LLM מניב את הכיתה של הפרי הזה.
בהנחיה חד-פעמית מוצגת ל-LLM דוגמה אחת לפורמט הקודם, ואז מבקשים ממנו להשלים שאילתה על סמך הדוגמה הזו. לדוגמה:
peach: drupe apple: ______
לפעמים דוגמה אחת מספיקה. אם כן, ה-LLM יפיק תחזית שימושית. לדוגמה:
apple: pome
במצבים אחרים, דוגמה אחת לא מספיקה. כלומר, המשתמש צריך להציג ל-LLM כמה דוגמאות. לדוגמה, ההנחיה הבאה מכילה שתי דוגמאות:
plum: drupe pear: pome lemon: ____
הוספת כמה דוגמאות נקראת הנחיה עם כמה דוגמאות (Few-shot). אפשר לחשוב על שתי השורות הראשונות של ההנחיה הקודמת כדוגמאות לאימון.
האם מודלים של LLM יכולים לספק תחזיות מועילות ללא דוגמאות (יצירת הנחיות מאפס)? לפעמים, אבל מודעות LLM אוהבות הקשר. ללא הקשר, ההנחיה הבאה ללא ניסיון קודם עשויה להציג מידע על חברת הטכנולוגיה במקום על הפרי:
apple: _______
הסקת מסקנות אופליין
לפעמים מספר הפרמטרים ב-LLM גדול כל כך שהחילוץ בזמן אמת איטי מדי ולא מעשי למשימות בעולם האמיתי, כמו רגרסיה או סיווג. כתוצאה מכך, צוותי הנדסה רבים מסתמכים במקום זאת על הסקת מסקנות אופליין (שנקראת גם הסקת מסקנות בכמות גדולה או הסקת מסקנות סטטית). במילים אחרות, במקום להגיב לשאילתות בזמן ההצגה, המודל המאומן מבצע חיזויים מראש ולאחר מכן מאחסן את החיזויים האלה במטמון.
לא משנה אם ל-LLM נדרשת זמן רב כדי להשלים את המשימה, אם הוא צריך לבצע אותה רק פעם בשבוע או פעם בחודש.
לדוגמה, בחיפוש Google נעשה שימוש ב-LLM כדי לבצע הסקה אופליין, וכך לשמור במטמון רשימה של יותר מ-800 מילים נרדפות לחיסונים נגד נגיף הקורונה ביותר מ-50 שפות. לאחר מכן, חיפוש Google השתמש ברשימה ששמורה במטמון כדי לזהות שאילתות לגבי חיסונים בתנועה בזמן אמת.
שימוש אחראי במודלים גדולים של שפה (LLM)
כמו כל סוג של למידת מכונה, בדרך כלל למודלים מסוג LLM יש את אותם הטיות שיש:
- הנתונים שהם אומנו על סמך אותם.
- הנתונים שעל סמךיהם הם נוצרו.
להשתמש במודלים של LLM בצורה הוגנת ואחראית, בהתאם להנחיות שמפורטות במודולים של נתונים ובמודול ההוגנות.