מודלים גדולים של שפה (LLM)

מהו מודל שפה?

מודל שפה הערכה של ההסתברות של אסימון או רצף של אסימונים שמתרחשים ברצף ארוך יותר של אסימונים. אסימון יכולה להיות מילה, מילת משנה (תת-קבוצה של מילה) או אפילו תו יחיד.

נבחן את המשפט הבא ואת האסימונים שעשויים להשלים אותו:

When I hear rain on my roof, I _______ in my kitchen.

מודל שפה קובע את ההסתברויות של אסימונים שונים רצפים של אסימונים כדי להשלים את החסר. לדוגמה, טבלת ההסתברות מזהה כמה אסימונים אפשריים ואת ההסתברויות שלהם:

Probability אסימונים
9.4% בישול מרק
5.2% לחמם קומקום
3.6% פחזנית
2.5% לנמנם
2.2% מנוחה

במצבים מסוימים, רצף האסימונים יכול להיות משפט שלם, או אפילו מאמר שלם.

אפליקציה יכולה להשתמש בטבלת ההסתברות כדי ליצור תחזיות. החיזוי עשוי להיות בעל הסבירות הגבוהה ביותר (לדוגמה, 'בישול מרק') או בחירה אקראית מתוך אסימונים שיש להם הסתברות גדולה יותר מערך מסוים לסף מסוים.

הערכת ההסתברות למילוי החסר ברצף טקסט: לבצע משימות מורכבות יותר, כולל:

  • המערכת יוצרת טקסט.
  • תרגום טקסט משפה לשפה
  • סיכום מסמכים.

על ידי בניית מודלים של תבניות סטטיסטיות של אסימונים, מודלי שפה מודרניים מפתחים הם ייצוגים פנימיים חזקים במיוחד של שפה, והם יכולים ליצור שהיא שפה סבירה.

מודלים של שפה (N-gram)

N-grams הם רצפים של מילים לפי סדר ששימשו לבניית מודלים של שפה, כאשר N הוא מספר המילים ברצף. לדוגמה, כאשר N הוא 2, ה-N-gram נקרא 2-gram (או bigram); כשה-N הוא 5, ה-N-gram שנקרא '5 גרם'. תוך התחשבות בביטוי הבא במסמך אימון:

you are very nice

2 הגרם שמתקבל הוא:

  • את/ה
  • מאוד
  • נחמד מאוד

כשהערך של N הוא 3, ה-N-gram נקרא 3-gram trigram). בהינתן אותו ביטוי, כתוצאה מ-3 גרם:

  • מאוד
  • נחמדים מאוד

בהינתן שתי מילים כקלט, מודל שפה המבוסס על 3 גרם יכול לחזות הסבירות של המילה השלישית. לדוגמה, בהינתן שתי המילים הבאות:

orange is

מודל שפה בוחן את כל 3 הגרם שנגזר מהאימון שלו קורפוס שמתחיל ב-orange is כדי לקבוע את המילה השלישית בסבירות הגבוהה ביותר. מאות 3 גרם יכולות להתחיל בשתי המילים orange is, אבל אפשר להתמקד אך ורק בשתי האפשרויות הבאות:

orange is ripe
orange is cheerful

האפשרות הראשונה (orange is ripe) היא לגבי הפרי הכתום. והאפשרות השנייה (orange is cheerful) היא לגבי הצבע של כתום.

הקשר

בני אדם יכולים לשמור הקשרים ארוכים יחסית. בזמן הצפייה במשחק השלישי בהצגה, אתם לשמור על ידע לגבי תווים שנוספו בחוק 1. באופן דומה, קטע מצחיק בבדיחה ארוכה כי אפשר לזכור את ההקשר מהבדיחה.

במודלים של שפה, הקשר הוא מידע שימושי לפני או אחרי באסימון היעד. ההקשר יכול לעזור למודל שפה לקבוע אם "כתום" מתייחס לפרי הדר או לצבע.

ההקשר יכול לעזור למודל שפה לבצע חיזויים טובים יותר, אבל 3 גרם מספיק כדי לתת הקשר? למרבה הצער, ההקשר היחיד הוא 3 גרם היא שתי המילים הראשונות. לדוגמה, שתי המילים orange is לא מספקים מספיק הקשר כדי שמודל השפה יוכל לחזות את המילה השלישית. מודלים של שפה שמבוססים על 3 גרם שגוי, בגלל חוסר הקשר.

אין ספק ש-N-grams ארוכים יותר יספקו הקשר יותר מאשר ערכי N-G קצרים יותר. עם זאת, ככל ש-N גדול יותר, כך פוחת המופע היחסי של כל מכונה. כאשר N גדולה מאוד, למודל השפה בדרך כלל יש רק כל אירוע של N אסימונים, והוא לא מאוד מועיל חיזוי של אסימון היעד.

רשתות נוירונים חוזרות

נוירונים חוזרים רשתות מספקים יותר הקשר מאשר עם מספרי N-gram. רשת נוירונים חוזרת היא סוג של רשת נוירונים שמבצעת אימון רצף של אסימונים. לדוגמה, רשת נוירונים חוזרת יכול בהדרגה ללמוד (ולומד להתעלם) מההקשר הנבחר מכל מילה במשפט, בערך כמו כשמאזינים למישהו שמדבר. רשת נוירונים חוזרת גדולה יכולה לקבל הקשר ממעבר של מספר משפטים.

למרות שרשתות נוירונים חוזרות מקבלות הקשר נוסף מאשר N-גרמים, של רשתות נוירונים חוזרות ומועילות, עדיין מוגבלת. רשתות נוירונים חוזרות מעריכות את המידע "אסימון לפי אסימון". לעומת זאת, מודלים גדולים של שפה – הנושא - יכול להעריך את כל ההקשר בבת אחת.

שימו לב שאימון של רשתות נוירונים חוזרות בהקשרים ארוכים מוגבל על ידי ההדרגתיות הנעלמת ?

תרגיל: בדקו את ההבנה שלכם

איזה מודל שפה יוצר חיזויים טובים יותר לטקסט באנגלית?
  • מודל שפה שמבוסס על 6 גרם
  • מודל שפה שמבוסס על 5 גרם
התשובה תלויה בגודל ובמגוון של האימון הוגדרה.
אם ערכת האימון מתפרסת על מיליוני מסמכים מגוונים, אם המודל מבוסס על 6 גרם, סביר להניח שביצועי המודל יהיו טובים יותר על סמך 5 גרם.
מודל השפה שמבוסס על 6 גרם.
למודל השפה הזה יש הקשר נוסף, אבל אלא אם המודל הזה אחרי הרבה מסמכים, רוב ה-6 גרם הוא נדיר.
מודל השפה שמבוסס על 5 גרם.
למודל השפה הזה יש פחות הקשר, לכן לא סביר להשיג ביצועים טובים יותר בהשוואה למודל השפה שמבוססים על 6 גר'.