מהו מודל שפה?
מודל שפה מעריך את ההסתברות שטוקן או רצף של טוקנים יופיעו ברצף ארוך יותר של טוקנים. טוקן יכול להיות מילה, תת-מילה (קבוצת משנה של מילה) או אפילו תו יחיד.
נבחן את המשפט הבא ואת הטוקנים שיכולים להשלים אותו:
When I hear rain on my roof, I _______ in my kitchen.
מודל שפה קובע את ההסתברויות של טוקנים שונים או רצפים של טוקנים להשלמת החסר. לדוגמה, בטבלת ההסתברויות הבאה מפורטים כמה אסימונים אפשריים וההסתברויות שלהם:
| Probability | טוקן/ים |
|---|---|
| 9.4% | לבשל מרק |
| 5.2% | חימום קומקום |
| 3.6% | להתכווץ מפחד |
| 2.5% | תנומה קלה |
| 2.2% | מנוחה |
במקרים מסוימים, רצף הטוקנים יכול להיות משפט שלם, פסקה או אפילו חיבור שלם.
אפליקציה יכולה להשתמש בטבלת ההסתברות כדי ליצור תחזיות. התחזית יכולה להיות האסימון עם ההסתברות הכי גבוהה (לדוגמה, 'לבשל מרק') או בחירה אקראית מתוך אסימונים שההסתברות שלהם גבוהה מסף מסוים.
אפשר להרחיב את ההערכה של ההסתברות למילה שתשלים את החסר ברצף טקסט למשימות מורכבות יותר, כולל:
- המערכת יוצרת טקסט.
- תרגום טקסט משפה אחת לשפה אחרת.
- סיכום מסמכים.
על ידי מידול של דפוסים סטטיסטיים של טוקנים, מודלים מודרניים של שפה מפתחים ייצוגים פנימיים חזקים מאוד של שפה ויכולים ליצור שפה סבירה.
מודלים של שפה מסוג N-gram
N-grams הם רצפים מסודרים של מילים שמשמשים לבניית מודלים של שפה, כאשר N הוא מספר המילים ברצף. לדוגמה, אם N הוא 2, ה-N-gram נקרא 2-gram (או bigram). אם N הוא 5, ה-N-gram נקרא 5-gram. בהינתן הביטוי הבא במסמך הדרכה:
you are very nice
ה-2-גרמים שמתקבלים הם:
- אתם
- הם מאוד
- נחמד מאוד
כש-N הוא 3, ה-N-gram נקרא 3-gram (או trigram). בהינתן אותו ביטוי, ה-3-גרמים שמתקבלים הם:
- אתה מאוד
- נחמדים מאוד
אם נותנים למודל שפה שמבוסס על 3-גרמים שתי מילים כקלט, הוא יכול לחזות את הסבירות של המילה השלישית. לדוגמה, אם יש שתי מילים:
orange is
מודל שפה בוחן את כל ה-3-גרמים השונים שנגזרים ממערך האימון שלו ומתחילים ב-orange is כדי לקבוע מה המילה השלישית הסבירה ביותר.
מאות טריגרמות יכולות להתחיל עם שתי המילים orange is, אבל אפשר להתמקד רק בשתי האפשרויות הבאות:
orange is ripe orange is cheerful
האפשרות הראשונה (orange is ripe) היא לגבי הפרי תפוז, והאפשרות השנייה (orange is cheerful) היא לגבי הצבע תפוז.
הקשר
אנשים יכולים לזכור הקשרים ארוכים יחסית. כשצופים במערכה 3 של מחזה, עדיין זוכרים את הדמויות שהוצגו במערכה 1. באופן דומה, כששומעים את שורת המחץ של בדיחה ארוכה, צוחקים כי זוכרים את ההקשר מההקדמה של הבדיחה.
במודלים לשוניים, הקשר הוא מידע מועיל לפני או אחרי טוקן היעד. ההקשר יכול לעזור למודל שפה לקבוע אם המילה orange מתייחסת לפרי הדר או לצבע.
הקשר יכול לעזור למודל שפה לבצע חיזויים טובים יותר, אבל האם 3-גרם מספק הקשר מספיק? לצערנו, ההקשר היחיד ש-3-גרם מספק הוא שתי המילים הראשונות. לדוגמה, שתי המילים orange is לא מספקות מספיק הקשר למודל השפה כדי לחזות את המילה השלישית.
בגלל חוסר הקשר, מודלים של שפה שמבוססים על 3-גרם עושים הרבה טעויות.
N-grams ארוכים יותר מספקים הקשר רחב יותר מאשר N-grams קצרים יותר. עם זאת, ככל ש-N גדל, השכיחות היחסית של כל מופע קטנה. כאשר N גדול מאוד, בדרך כלל יש למודל השפה רק מופע אחד של כל אחד מהמקרים של N טוקנים, וזה לא מאוד מועיל לחיזוי טוקן היעד.
רשתות נוירונים חוזרות
רשתות עצביות חוזרות מספקות יותר הקשר מאשר N-grams. רשת נוירונים חוזרת היא סוג של רשת נוירונים שעוברת אימון על רצף של טוקנים. לדוגמה, רשת נוירונים חוזרת יכולה ללמוד בהדרגה (וללמוד להתעלם) מהקשר נבחר מכל מילה במשפט, בדומה למה שקורה כשמקשיבים למישהו מדבר. רשת נוירונים חוזרת גדולה יכולה לקבל הקשר מקטע של כמה משפטים.
למרות שרשתות נוירונים חוזרות לומדות יותר הקשר מאשר N-grams, כמות ההקשר השימושי שרשתות נוירונים חוזרות יכולות להסיק עדיין מוגבלת יחסית. רשתות נוירונים חוזרות מעריכות מידע 'טוקן אחר טוקן'. לעומת זאת, מודלים גדולים של שפה (LLM) – הנושא של הקטע הבא – יכולים להעריך את ההקשר כולו בבת אחת.
חשוב לזכור שאימון של רשתות נוירונים חוזרות (RNN) להקשרים ארוכים מוגבל בגלל בעיית הגרדיאנט הנעלם.
תרגיל: בדיקת ההבנה
- מודל שפה שמבוסס על 6-גרם
- מודל שפה שמבוסס על 5-גרם