Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

מבוא למודלים גדולים של שפה (LLM)

מהו מודל שפה?

מודל שפה מעריך את ההסתברות שטוקן או רצף של טוקנים יופיעו ברצף ארוך יותר של טוקנים. טוקן יכול להיות מילה, תת-מילה (קבוצת משנה של מילה) או אפילו תו יחיד.

כדי לקבל מידע נוסף על טוקנים, לוחצים על הסמל.

רוב מודלי השפה המודרניים מבצעים טוקניזציה לפי חלקי מילים, כלומר לפי מקטעי טקסט שמכילים משמעות סמנטית. החלקים יכולים להיות באורך משתנה, החל מתווים בודדים כמו סימני פיסוק או האות s שמציינת שייכות, ועד למילים שלמות. קידומות וסיומות עשויות להיות מיוצגות כמילים משנה נפרדות. לדוגמה, המילה unwatched יכולה להיות מיוצגת על ידי שלוש מילות המשנה הבאות:

un (התחילית)
צפייה (הבסיס)
ed (הסיומת)

המילה cats יכולה להיות מיוצגת על ידי שתי מילות המשנה הבאות:

cat (השורש)
s (הסיומת)

מילה מורכבת יותר כמו "antidisestablishmentarianism" יכולה להיות מיוצגת כשש מילות משנה:

אנטי
dis
להקים
ment
אריאני
ism

טוקניזציה היא תהליך שספציפי לשפה, ולכן מספר התווים בכל טוקן משתנה משפה לשפה. באנגלית, אסימון אחד מתאים ל-4 תווים בערך או ל-3/4 מילה, כך ש-400 אסימונים שווים ל-300 מילים באנגלית.

טוקנים הם היחידה האטומית או היחידה הקטנה ביותר של מודלים של שפה.

האסימונים מוחלים עכשיו בהצלחה גם על ראייה ממוחשבת ועל יצירת אודיו.

נבחן את המשפט הבא ואת הטוקנים שיכולים להשלים אותו:

When I hear rain on my roof, I _______ in my kitchen.

מודל שפה קובע את ההסתברויות של טוקנים שונים או רצפים של טוקנים להשלמת החסר. לדוגמה, בטבלת ההסתברויות הבאה מפורטים כמה אסימונים אפשריים וההסתברויות שלהם:

Probability	טוקן/ים
‫9.4%	לבשל מרק
5.2%	חימום קומקום
‫3.6%	להתכווץ מפחד
2.5%	תנומה קלה
‫2.2%	מנוחה

במקרים מסוימים, רצף הטוקנים יכול להיות משפט שלם, פסקה או אפילו חיבור שלם.

אפליקציה יכולה להשתמש בטבלת ההסתברות כדי ליצור תחזיות. התחזית יכולה להיות האסימון עם ההסתברות הכי גבוהה (לדוגמה, 'לבשל מרק') או בחירה אקראית מתוך אסימונים שההסתברות שלהם גבוהה מסף מסוים.

אפשר להרחיב את ההערכה של ההסתברות למילה שתשלים את החסר ברצף טקסט למשימות מורכבות יותר, כולל:

המערכת יוצרת טקסט.
תרגום טקסט משפה אחת לשפה אחרת.
סיכום מסמכים.

על ידי מידול של דפוסים סטטיסטיים של טוקנים, מודלים מודרניים של שפה מפתחים ייצוגים פנימיים חזקים מאוד של שפה ויכולים ליצור שפה סבירה.

מודלים של שפה מסוג N-gram

‫N-grams הם רצפים מסודרים של מילים שמשמשים לבניית מודלים של שפה, כאשר N הוא מספר המילים ברצף. לדוגמה, אם N הוא 2, ה-N-gram נקרא 2-gram (או bigram). אם N הוא 5, ה-N-gram נקרא 5-gram. בהינתן הביטוי הבא במסמך הדרכה:

you are very nice

ה-2-גרמים שמתקבלים הם:

אתם
הם מאוד
נחמד מאוד

כש-N הוא 3, ה-N-gram נקרא 3-gram (או trigram). בהינתן אותו ביטוי, ה-3-גרמים שמתקבלים הם:

אתה מאוד
נחמדים מאוד

אם נותנים למודל שפה שמבוסס על 3-גרמים שתי מילים כקלט, הוא יכול לחזות את הסבירות של המילה השלישית. לדוגמה, אם יש שתי מילים:

orange is

מודל שפה בוחן את כל ה-3-גרמים השונים שנגזרים ממערך האימון שלו ומתחילים ב-orange is כדי לקבוע מה המילה השלישית הסבירה ביותר. מאות טריגרמות יכולות להתחיל עם שתי המילים orange is, אבל אפשר להתמקד רק בשתי האפשרויות הבאות:

orange is ripe
orange is cheerful

האפשרות הראשונה (orange is ripe) היא לגבי הפרי תפוז, והאפשרות השנייה (orange is cheerful) היא לגבי הצבע תפוז.

הקשר

אנשים יכולים לזכור הקשרים ארוכים יחסית. כשצופים במערכה 3 של מחזה, עדיין זוכרים את הדמויות שהוצגו במערכה 1. באופן דומה, כששומעים את שורת המחץ של בדיחה ארוכה, צוחקים כי זוכרים את ההקשר מההקדמה של הבדיחה.

במודלים לשוניים, הקשר הוא מידע מועיל לפני או אחרי טוקן היעד. ההקשר יכול לעזור למודל שפה לקבוע אם המילה orange מתייחסת לפרי הדר או לצבע.

הקשר יכול לעזור למודל שפה לבצע חיזויים טובים יותר, אבל האם 3-גרם מספק הקשר מספיק? לצערנו, ההקשר היחיד ש-3-גרם מספק הוא שתי המילים הראשונות. לדוגמה, שתי המילים orange is לא מספקות מספיק הקשר למודל השפה כדי לחזות את המילה השלישית. בגלל חוסר הקשר, מודלים של שפה שמבוססים על 3-גרם עושים הרבה טעויות.

‫N-grams ארוכים יותר מספקים הקשר רחב יותר מאשר N-grams קצרים יותר. עם זאת, ככל ש-N גדל, השכיחות היחסית של כל מופע קטנה. כאשר N גדול מאוד, בדרך כלל יש למודל השפה רק מופע אחד של כל אחד מהמקרים של N טוקנים, וזה לא מאוד מועיל לחיזוי טוקן היעד.

רשתות נוירונים חוזרות

רשתות עצביות חוזרות מספקות יותר הקשר מאשר N-grams. רשת נוירונים חוזרת היא סוג של רשת נוירונים שעוברת אימון על רצף של טוקנים. לדוגמה, רשת נוירונים חוזרת יכולה ללמוד בהדרגה (וללמוד להתעלם) מהקשר נבחר מכל מילה במשפט, בדומה למה שקורה כשמקשיבים למישהו מדבר. רשת נוירונים חוזרת גדולה יכולה לקבל הקשר מקטע של כמה משפטים.

למרות שרשתות נוירונים חוזרות לומדות יותר הקשר מאשר N-grams, כמות ההקשר השימושי שרשתות נוירונים חוזרות יכולות להסיק עדיין מוגבלת יחסית. רשתות נוירונים חוזרות מעריכות מידע 'טוקן אחר טוקן'. לעומת זאת, מודלים גדולים של שפה (LLM) – הנושא של הקטע הבא – יכולים להעריך את ההקשר כולו בבת אחת.

חשוב לזכור שאימון של רשתות נוירונים חוזרות (RNN) להקשרים ארוכים מוגבל בגלל בעיית הגרדיאנט הנעלם.

תרגיל: בדיקת ההבנה

איזה מודל שפה יוצר תחזיות טובות יותר לטקסט באנגלית?

מודל שפה שמבוסס על 6-גרם
מודל שפה שמבוסס על 5-גרם

התשובה תלויה בגודל ובמגוון של מערך האימון.

אם קבוצת האימון כוללת מיליוני מסמכים מגוונים, סביר להניח שהמודל שמבוסס על 6-גרם יניב ביצועים טובים יותר מהמודל שמבוסס על 5-גרם.

מודל השפה שמבוסס על 6-גרם.

למודל השפה הזה יש יותר הקשר, אבל אלא אם המודל עבר אימון על הרבה מסמכים, רוב ה-6-גרמים יהיו נדירים.

מודל השפה שמבוסס על 5-גרם.

למודל השפה הזה יש פחות הקשר, ולכן לא סביר שהוא יניב ביצועים טובים יותר ממודל השפה שמבוסס על 6-גרם.

בדיקת הידע (10 דקות)

מהו מודל שפה גדול? (15 דק')