טכנולוגיה חדשה יותר, מודלים גדולים של שפה (LLMs), חזות אסימון או רצף של אסימונים, לפעמים אסימונים חזויים שכוללים כמה פסקאות. חשוב לזכור שאסימון יכול להיות מילה, מילה משנה (קבוצת משנה של מילה) או אפילו תו יחיד. מודלים גדולים של שפה (LLMs) מניבים תחזיות טובות בהרבה ממודלים של שפה מסוג N-gram או מרשתות נוירונים חוזרות (RNNs), כי:
- מודלים גדולים של שפה מכילים הרבה יותר פרמטרים מאשר מודלים חזרה.
- מודלים של שפה גדולה אוספים הרבה יותר הקשר.
בקטע הזה נסביר על הארכיטקטורה המוצלחת ביותר והנפוצה ביותר ליצירת מודלים גדולים של שפה (LLM): הטרנספורמר.
מהו Transformer?
טרנספורמרים הם הארכיטקטורה המתקדמת ביותר למגוון רחב של אפליקציות של מודלים לשפה, כמו תרגום:
טרנספורמרים מלאים מורכבים ממקודד ומפענח:
- מקודד ממיר את טקסט הקלט לייצוג ביניים. מקודד הוא רשת עצבית עצומה.
- מקודד ממיר את הייצוג הביניים הזה לטקסט שימושי. מפענח הוא גם רשת עצבית ענקית.
לדוגמה, במתרגם:
- המקודד מעבד את טקסט הקלט (לדוגמה, משפט באנגלית) לייצוג ביניים כלשהו.
- המפענח ממיר את הייצוג הביניים הזה לטקסט פלט (לדוגמה, המשפט המקביל בצרפתית).
מהו קשב עצמי?
כדי לשפר את ההקשר, מודלים של טרנספורמרים מסתמכים במידה רבה על מושג שנקרא התמקדות עצמית. למעשה, בשם כל אסימון של קלט, התכונה 'התמקדות עצמית' שואלת את השאלה הבאה:
"מה מידת ההשפעה של כל אסימון אחר של קלט על הפרשנות של האסימון הזה?"
המונח 'עצמי' ב'קשב עצמי' מתייחס לרצף הקלט. מנגנוני תשומת לב מסוימים נותנים משקל ליחסים בין אסימוני קלט לאסימונים ברצף פלט, כמו תרגום, או לאסימונים ברצף אחר. אבל self-attention רק מעריך את החשיבות של היחסים בין האסימונים ברצף הקלט.
כדי לפשט את העניין, נניח שכל אסימון הוא מילה וההקשר המלא הוא רק משפט אחד. נבחן את המשפט הבא:
The animal didn't cross the street because it was too tired.
המשפט הקודם מכיל 11 מילים. כל אחת מ-11 המילים מתייחסת לעשר המילים האחרות, ומנסה להבין כמה כל אחת מהן חשובה לה. לדוגמה, שימו לב שהמשפט מכיל את לשון הפנייה it. לשון הפנייה היא לעיתים קרובות לא ברורה. בדרך כלל, לשם העצם או ביטוי שם העצם שצוין לאחרונה מתייחס לשם העצם it. אבל במשפט לדוגמה, לשם איזה עצם שצוין לאחרונה מתייחס it – החיה או הרחוב?
מנגנון תשומת הלב העצמית קובע את הרלוונטיות של כל מילה בסביבה לשם העצם it. באיור 3 מוצגות התוצאות – ככל שהקו כחול יותר, כך המילה חשובה יותר לשם העצם it. כלומר, animal חשוב יותר מ-street לשם העצם it.
לעומת זאת, נניח שהמילה האחרונה במשפט משתנה באופן הבא:
The animal didn't cross the street because it was too wide.
במשפט המתוקן הזה, הקשב העצמי אמור לדרג את רחוב כרלוונטי יותר מחיה לשם העצם הוא.
חלק ממנגנוני תשומת הלב העצמית הם דו-כיווניים, כלומר הם מחשבים ציונים של רלוונטיות לאסימונים לפני ואחרי המילה שבה מתמקדים. לדוגמה, שימו לב שבדוגמה 3 נבדקים מילים משני צידי המילה it. לכן, מנגנון תשומת לב עצמית דו-כיווני יכול לאסוף הקשר ממילים משני צידי המילה שמושמת עליה תשומת לב. לעומת זאת, מנגנון חד-כיווני של תשומת לב עצמית יכול לאסוף הקשר רק ממילים בצד אחד של המילה שאנחנו מתמקדים בה. התכונה 'תשומת לב עצמית דו-כיוונית' שימושית במיוחד ליצירת ייצוגים של רצפים שלמים, בעוד שאפליקציות שיוצרות רצפים אסימון אחר אסימון זקוקות לתשומת לב עצמית חד-כיוונית. לכן, במקודדים נעשה שימוש בתשומת לב עצמית דו-כיוונית, ובמפענחים נעשה שימוש בתשומת לב עצמית חד-כיוונית.
מהו קשב עצמי עם כמה ראשים?
בדרך כלל, כל שכבת קשב עצמי מורכבת מכמה ראשי קשב עצמי. הפלט של השכבה הוא פעולה מתמטית (למשל, ממוצע משוקלל או מכפלת נקודה) של הפלט של הראשים השונים.
מכיוון שכל שכבת קשב עצמי מופעלת עם ערכים אקראיים, ראשים שונים יכולים ללמוד קשרים שונים בין כל מילה שמקבלת תשומת לב לבין המילים הסמוכות. לדוגמה, שכבת הקשב העצמי שמתוארת בקטע הקודם התמקדה בקביעת שם העצם שאליו התייחסת לשון הפנייה it. עם זאת, שכבות אחרות של קשב עצמי עשויות ללמוד את הרלוונטיות הדקדוקית של כל מילה לכל מילה אחרת, או ללמוד אינטראקציות אחרות.
למה טרנספורמרים גדולים כל כך?
טרנספורמטורים מכילים מאות מיליארדי פרמטרים, או אפילו טריליארדי פרמטרים. בקורס הזה המלצנו בדרך כלל ליצור מודלים עם מספר קטן יותר של פרמטרים, במקום מודלים עם מספר גדול יותר של פרמטרים. אחרי הכל, מודל עם מספר קטן יותר של פרמטרים משתמש בפחות משאבים כדי לבצע תחזיות בהשוואה למודל עם מספר גדול יותר של פרמטרים. עם זאת, מחקרים מראים שטרנספורמרים עם יותר פרמטרים מניבים ביצועים טובים יותר באופן עקבי מאשר טרנספורמרים עם פחות פרמטרים.
אבל איך מודל שפה גדול יוצר טקסט?
ראינו איך חוקרים מארגנים מודלים גדולים של שפה כדי לחזות מילה או שתיים חסרות, ויכול להיות שההישג הזה לא מרשים אתכם. אחרי הכל, חיזוי של מילה או שתיים הוא למעשה תכונת ההשלמה האוטומטית שמובנית בתוכנות שונות של טקסט, אימייל ויצירת תוכן. יכול להיות שאתם תוהים איך מודלים של LLM יכולים ליצור משפטים, פסקאות או היקאיו על ניהול סיכונים.
למעשה, LLM הם למעשה מנגנוני השלמה אוטומטית שיכולים לחזות (להשלים) אלפי אסימונים באופן אוטומטי. לדוגמה, נניח שמשפט מסוים מופיע אחרי משפט מוצפן:
My dog, Max, knows how to perform many traditional dog tricks. ___ (masked sentence)
מודל שפה גדול יכול ליצור הסתברויות למשפט המוסתר, כולל:
Probability | מילים |
---|---|
3.1% | לדוגמה, הוא יכול לשבת, להישאר במקום ולגלגל את עצמו. |
2.9% | לדוגמה, הוא יודע לשבת, להישאר במקום ולגלגל את עצמו. |
LLM גדול מספיק יכול ליצור הסתברויות לפסקה ולחיבורים שלמים. אפשר לחשוב על השאלות של משתמש ל-LLM כמשפט 'נתון' שמופיע אחרי מסכה דמיונית. לדוגמה:
User's question: What is the easiest trick to teach a dog? LLM's response: ___
ה-LLM יוצר הסתברויות לתשובות אפשריות שונות.
דוגמה נוספת: LLM שמתאמן על מספר עצום של "בעיות מילוליות" מתמטיות יכול להיראות כאילו הוא מבצע נימוק מתמטית מתוחכם. עם זאת, ה-LLMs האלה הם בעצם רק השלמה אוטומטית של הנחיה לבעיה מילולית.
היתרונות של LLM
מודלים של LLM יכולים ליצור טקסט ברור וקל להבנה למגוון רחב של קהלים יעד. מודלים של שפה גדולה יכולים לבצע חיזויים לגבי משימות שהם מאומנים עליהן באופן מפורש. חוקרים מסוימים טוענים שמודלים מסוג LLM יכולים גם לחזות תוצאות לגבי קלט שהם לא הוכשרו עליו באופן מפורש, אבל חוקרים אחרים הפריכו את הטענה הזו.
בעיות עם מודלים גדולים של שפה (LLM)
אימון של LLM כרוך בבעיות רבות, כולל:
- איסוף של קבוצת אימון עצומה.
- צריכת זמן של כמה חודשים ומשאבים עצומים של חשמל ומחשוב.
- פתרון אתגרים של עבודה במקביל.
שימוש ב-LLM כדי להסיק תחזיות גורם לבעיות הבאות:
- מודלים של שפה גדולה חווים הזיות, כלומר התחזיות שלהם מכילות לרוב שגיאות.
- מודלים של שפה גדולה צורכים כמויות עצומות של משאבי מחשוב וחשמל. אימון מודלים מסוג LLM על מערכי נתונים גדולים יותר בדרך כלל מפחית את כמות המשאבים הנדרשים להסקה, אבל מערכי האימון הגדולים יותר צורכים יותר משאבי אימון.
- כמו כל מודלים של למידת מכונה, מודלים מסוג LLM יכולים להציג כל מיני הטיות.