מודלים גדולים של שפה: מהו מודל שפה גדול?

טכנולוגיה חדשה יותר, מודלים גדולים של שפה (LLMs), מנבאת אסימון או רצף של אסימונים, לפעמים אסימונים רבים שיכולים להוות כמה פסקאות. חשוב לזכור שאסימון יכול להיות מילה, מילה משנה (קבוצת משנה של מילה) או אפילו תו יחיד. מודלים גדולים של שפה יכולים חיזויים הרבה יותר טובים מאשר מודלים של שפה מסוג N-gram או רשתות נוירונים חוזרות, כי:

  • מודלים גדולים של שפה מכילים הרבה יותר פרמטרים מאשר מודלים חזרה.
  • מודלים גדולים של שפה אוספים הקשר רחב הרבה יותר.

בקטע הזה נסביר על הארכיטקטורה המוצלחת ביותר והנפוצה ביותר ליצירת מודלים גדולים של שפה (LLM): הטרנספורמר.

מהו Transformer?

טרנספורמרים הם הארכיטקטורה המתקדמת ביותר למגוון רחב של אפליקציות של מודלים לשפה, כמו תרגום:

איור 1.  הקלט הוא: I am a good dog. מתרגם שמבוסס על טרנספורמר מבצע טרנספורמציה של קלט לפלט: Je suis un bon chien, שזה אותו משפט שתורגם לצרפתית.
איור 1. אפליקציה מבוססת-טרנספורמר שמתרגמת מאנגלית לצרפתית.

 

טרנספורמרים מלאים מורכבים ממקודד ומפענח:

  • מקודד ממיר טקסט קלט לייצוג ביניים. מקודד הוא רשת עצבית עצומה.
  • מקודד ממיר את הייצוג הביניים הזה לטקסט שימושי. מפענח הוא גם רשת עצבית ענקית.

לדוגמה, בכלי התרגום:

  • המקודד מעבד את טקסט הקלט (למשל, משפט באנגלית) לייצוג ביניים מסוים.
  • המפענח ממיר את הייצוג הביניים הזה לטקסט פלט (לדוגמה, המשפט המקביל בצרפתית).
איור 2. המתרגם שמבוסס על טרנספורמר מתחיל במקודד,
 שיוצר ייצוג ביניים של משפט
 באנגלית. מפענח ממיר את הייצוג הביניים הזה למשפט פלט בצרפתית.
איור 2. טרנספורמר מלא מכיל גם מקודד וגם מפענח.

 

מהו קשב עצמי?

כדי לשפר את ההקשר, מודלים של טרנספורמציה מסתמכים במידה רבה על מושג שנקרא התמקדות עצמית. למעשה, בשם כל אסימון של קלט, התכונה 'התמקדות עצמית' שואלת את השאלה הבאה:

"באיזו מידה משפיע על אסימון הקלט השני על הפרשנות של האסימון הזה?"

המונח 'עצמי' ב'קשב עצמי' מתייחס לרצף הקלט. מנגנוני תשומת לב מסוימים נותנים משקל ליחסים בין אסימוני קלט לאסימונים ברצף פלט, כמו תרגום, או לאסימונים ברצף אחר. אבל self-attention רק מעריך את החשיבות של היחסים בין האסימונים ברצף הקלט.

כדי לפשט את העניינים, מניחים שכל אסימון הוא מילה וההקשר המלא הוא רק משפט אחד. נבחן את המשפט הבא:

The animal didn't cross the street because it was too tired.

המשפט הקודם מכיל 11 מילים. כל אחת מ-11 המילים מבחינה בעשר האחרות, ומנסה להבין כמה כל אחת מהן חשובה לה. לדוגמה, שימו לב שהמשפט מכיל את לשון הפנייה it. לשון הפנייה היא לעיתים קרובות לא ברורה. לשון הפנייה היא מתייחסת בדרך כלל לביטוי של שם עצם או שם עצם מהזמן האחרון, אבל במשפט לדוגמה, איזה שם עצם עדכני הוא מתייחס אליו – החיה או הרחוב?

מנגנון תשומת הלב העצמית קובע את הרלוונטיות של כל מילה בסביבה לשם העצם it. באיור 3 מוצגות התוצאות – ככל שהקו כחול יותר, כך המילה חשובה יותר לשם העצם it. כלומר המילה animal חשובה יותר מ-street ללשון הפנייה it.

איור 3.  הרלוונטיות של כל אחת מ-11 המילים במשפט:
            'החיה לא חצתה את הרחוב כי היא הייתה עייפת מדי'
            לפנייה 'היא'. המילה 'בעל חיים' היא הרלוונטית ביותר
            ללשון הפנייה 'it'.
איור 3. קשב עצמי ללשון הפנייה it. מתוך Transformer: A Novel Neural Network Architecture for Language Understanding.

 

לעומת זאת, נניח שהמילה האחרונה במשפט משתנה באופן הבא:

The animal didn't cross the street because it was too wide.

במשפט המתוקן הזה, בתקווה, הקשב העצמי מדרג את street כרלוונטי יותר מ-animal ללשון הפנייה it.

חלק ממנגנוני תשומת הלב העצמית הם דו-כיווניים, כלומר הם מחשבים ציונים של רלוונטיות לאסימונים לפני ואחרי המילה שבה מתמקדים. לדוגמה, שימו לב שבדוגמה 3 נבדקים מילים משני צידי המילה it. לכן, מנגנון דו-כיווני של קשב עצמי יכול לאסוף הקשר ממילים מכל צד של המילה שמופנית אליה. לעומת זאת, מנגנון חד-כיווני של התמקדות עצמית יכול לאסוף הקשר רק ממילים בצד אחד של המילה שבה מתמקדים. התכונה 'תשומת לב עצמית דו-כיוונית' שימושית במיוחד ליצירת ייצוגים של רצפים שלמים, בעוד שאפליקציות שיוצרות רצפים אסימון אחר אסימון זקוקות לתשומת לב עצמית חד-כיוונית. לכן, במקודדים נעשה שימוש בתשומת לב עצמית דו-כיוונית, ובמפענחים נעשה שימוש בתשומת לב עצמית חד-כיוונית.

מה זה קשב עצמי מרובה ראשים?

בדרך כלל, כל שכבת קשב עצמי מורכבת מכמה ראשי קשב עצמי. הפלט של השכבה הוא פעולה מתמטית (למשל, ממוצע משוקלל או מכפלת נקודה) של הפלט של הראשים השונים.

מכיוון שכל שכבת קשב עצמי מוגדרת לערכי התחלה אקראיים, ראשים שונים יכולים ללמוד קשרים שונים בין כל מילה שמקבלת קשב לבין המילים הסמוכות. לדוגמה, שכבת הקשב העצמי שמתוארת בקטע הקודם התמקדה בקביעת שם העצם שאליו התייחסת לשון הפנייה it. עם זאת, שכבות אחרות של קשב עצמי עשויות ללמוד את הרלוונטיות הדקדוקית של כל מילה לכל מילה אחרת, או ללמוד אינטראקציות אחרות.

למה טרנספורמרים גדולים כל כך?

טרנספורמטורים מכילים מאות מיליארדי פרמטרים, או אפילו טריליארדים. בקורס הזה המלצנו בדרך כלל ליצור מודלים עם מספר קטן יותר של פרמטרים, במקום מודלים עם מספר גדול יותר של פרמטרים. אחרי הכל, מודל עם מספר קטן יותר של פרמטרים משתמש בפחות משאבים כדי לבצע תחזיות בהשוואה למודל עם מספר גדול יותר של פרמטרים. עם זאת, מחקר מראה שטרנספורמרים עם יותר פרמטרים מניבים בעקביות ביצועים טובים יותר מטרנספורמרים עם פחות פרמטרים.

אבל איך מודל שפה גדול יוצר טקסט?

ראינו איך חוקרים מארגנים מודלים גדולים של שפה כדי לחזות מילה או שתיים חסרות, ויכול להיות שההישג הזה לא מרשים אתכם. אחרי הכל, חיזוי של מילה או שתיים הוא למעשה תכונת ההשלמה האוטומטית שמובנית בתוכנות שונות של טקסט, אימייל וכלי עריכה. יכול להיות שתהיתם איך מודלים מסוג LLM יכולים ליצור משפטים או פסקאות או Haikus בנושא ארביטראז'.

למעשה, מודלים של LLM הם למעשה מנגנונים של השלמה אוטומטית שיכולים לחזות (להשלים) אלפי אסימונים באופן אוטומטי. לדוגמה, נניח שמשפט מסוים מופיע אחרי משפט מוצפן:

My dog, Max, knows how to perform many traditional dog tricks.
___ (masked sentence)

מודלים של שפה גדולה יכולים ליצור הסתברויות למשפט המוסתר, כולל:

Probability מילים
3.1% לדוגמה, הוא יכול לשבת, להישאר במקום ולגלגל את עצמו.
2.9% לדוגמה, הוא יודע לשבת, להישאר במקום ולגלגל את עצמו.

LLM גדול מספיק יכול ליצור הסתברויות לפסקאות ולחיבורים שלמים. אפשר לחשוב על השאלות של משתמש ל-LLM כמשפט 'נתון' שמופיע אחרי מסכה דמיונית. לדוגמה:

User's question: What is the easiest trick to teach a dog?
LLM's response:  ___

ה-LLM יוצר הסתברויות לתשובות אפשריות שונות.

דוגמה נוספת: LLM שמתאמן על מספר עצום של "בעיות מילוליות" מתמטיות יכול להיראות כאילו הוא מבצע נימוק מתמטי מתוחכם. אבל מודלים מסוג LLM הם בעצם פשוט משלימים אוטומטית הנחיה של בעיה מילולית.

היתרונות של LLM

מודלים של LLM יכולים ליצור טקסט ברור וקל להבנה למגוון רחב של קהלים יעד. מודלים גדולים של שפה יכולים ליצור תחזיות לגבי משימות שהם מאמנים באופן מפורש. חוקרים מסוימים טוענים שמודלים מסוג LLM יכולים גם לחזות תוצאות לגבי קלט שהם לא הוכשרו עליו באופן מפורש, אבל חוקרים אחרים הפריכו את הטענה הזו.

בעיות עם מודלים גדולים של שפה (LLM)

אימון של LLM כרוך בבעיות רבות, כולל:

  • איסוף של קבוצת אימון עצומה.
  • צריכת זמן של כמה חודשים ומשאבים עצומים של מחשוב וחשמל.
  • פתרון אתגרים של עבודה במקביל.

השימוש במודלים גדולים של שפה (LLM) כדי להסיק חיזויים גורם לבעיות הבאות:

  • מודלים של שפה גדולה חווים הזיות, כלומר התחזיות שלהם מכילות לרוב שגיאות.
  • מודלים של שפה גדולה צורכים כמויות עצומות של משאבי מחשוב וחשמל. אימון מודלים מסוג LLM על מערכי נתונים גדולים יותר בדרך כלל מפחית את כמות המשאבים הנדרשים להסקה, אבל מערכי האימון הגדולים יותר צורכים יותר משאבי אימון.
  • כמו כל מודלים של למידת מכונה, מודלים מסוג LLM יכולים להציג כל מיני הטיות.

תרגיל: בדקו את ההבנה שלכם

נניח שטרנספורמר אומן על מיליארד מסמכים, כולל אלפי מסמכים שמכילים לפחות מופע אחד של המילה פיל. אילו מהמשפטים הבאים כנראה נכונים?
עצים של שיטה, חלק חשוב בתזונה של פיל, יקבלו בהדרגה ציון גבוה של קשב עצמי עם המילה פיל.
כן, והדבר יאפשר ל-Transformer לענות על שאלות לגבי התזונה של פיל.
ה-Transformer ישייך את המילה elephant לביטויים שונים שמכילים את המילה elephant.
כן, המערכת תתחיל לצרף ציונים גבוהים של תשומת לב עצמית בין המילה elephant למילים אחרות בביטויים שפונים לחיילים.
ה-Transformer ילמד בהדרגה להתעלם משימוש סרקסטי או אירוני במילה elephant בנתוני האימון.
טרנספורמרים גדולים מספיק שאומנו על מערך אימון רחב מספיק, מיומנים למדי בזיהוי סרקזם, הומור ואירוניה. לכן, במקום להתעלם מסרקזם ואי irony, ה-Transformer לומד מהם.