מבוא למודלים גדולים של שפה (LLM)

חדשים במודלים גדולים של שפה (LLM) או במודלים גדולים של שפה (LLM)? אפשר להיעזר במקורות המידע שבהמשך.

מהו מודל שפה?

מודל שפה הוא למידת מכונה מודל שמטרתו לחזות וליצור שפה סבירה. ההשלמה האוטומטית היא של מודל השפה הגדול, למשל.

המודלים האלה מעריכים את ההסתברות token או רצף של אסימונים ברצף ארוך יותר. כדאי להביא בחשבון את את המשפט הבא:

When I hear rain on my roof, I _______ in my kitchen.

אם מניחים שאסימון הוא מילה, מודל השפה קובע ההסתברויות למילים או לרצפים שונים של מילים שיחליפו אותן קו תחתון. לדוגמה, מודל שפה יכול לקבוע את הדברים הבאים הסתברויות:

cook soup 9.4%
warm up a kettle 5.2%
cower 3.6%
nap 2.5%
relax 2.2%
...

'רצף של אסימונים' יכול להיות משפט שלם או סדרה של משפטים. כלומר, מודל שפה יכול לחשב את הסבירות משפטים או בלוקים של טקסט.

הערכת ההסתברות לגבי מה שבא הבא ברצף שימושית לכולם סוגים שונים של דברים: יצירת טקסט, תרגום שפות, מענה בין היתר.

מהו מודל שפה גדול (LLM)?

בניית מודלים של שפה אנושית בקנה מידה נרחב היא משימה מורכבת במאמץ. הנתיב להגיע ליכולות הנוכחיות של מודלי שפה של מודלים גדולים של שפה (LLM) התפרסו על פני כמה עשורים.

ככל שמודלים נבנים יותר ויותר, כך רמת המורכבות והיעילות שלהם עולה. מודלים מוקדמים של שפה יכולים לחזות את ההסתברות של מילה אחת; מודרני מודלי שפה גדולים (LLM) יכולים לחזות את ההסתברות של משפטים, פסקאות אפילו מסמכים שלמים.

הגודל והיכולת של מודלי השפה באופן משמעותי כמה שנים ככל שזיכרון המחשב, גודל מערך הנתונים ועוצמת העיבוד גדלים פותחו טכניקות יעילות יותר לבניית רצפי טקסט ארוכים יותר.

מה גדול?

ההגדרה לא ברורה אבל 'גדולה' שימש לתיאור BERT (110M וגם את PaLM 2 (עד 340B).

פרמטרים הן משקולות של המודל שנלמד במהלך האימון, משמש לחיזוי האסימון הבא ברצף. 'גדול' יכול להתייחס למספר הפרמטרים במודל, לפעמים את מספר המילים במערך הנתונים.

ממירים

פיתוח מרכזי בבניית מודלים של שפה היה המבוא ב-2017 טרנספורמרים, ארכיטקטורה סביב הרעיון Attention. כך התאפשר לעבד רצפים ארוכים יותר, על ידי התמקדות חלק חשוב בקלט, פתרון בעיות זיכרון שנתקלו קודם לכן למשימות ספציפיות.

טרנספורמרים הם ארכיטקטורה מתקדמת למגוון רחב של של מודלים גדולים של שפה, כמו מתרגמים.

אם הקלט הוא "אני כלב טוב", מתרגם שמבוסס על טרנספורמר ממירה את הקלט לפלט "Je suis un bon chien", שאותו משפט תורגם לצרפתית.

טרנספורמרים מלאים מורכבים במקודד, במפענח. המקודד ממיר טקסט קלט לייצוג ביניים, ממירה את הייצוג הזה לטקסט שימושי.

קשב עצמי

טרנספורמרים מסתמכים בעיקר על קונספט שנקרא קשב עצמי. החלק העצמי של קשב עצמי מתייחס של כל אסימון במאגר. בפועל, בשם כל אסימון של קלט, הקשב העצמי שואל: "כמה האם כל אסימון קלט אחר חשוב אני?" כדי לפשט את הדברים, מניחים שכל אסימון הוא מילה וההקשר המלא הוא משפט. למשל, נבחן את המשפט הבא:

בעל החיים לא חצה את הכביש כי הוא היה עייף מדי.

יש 11 מילים במשפט הקודם, כך שכל אחת מ-11 המילים תשומת לב לעשרת המילים האחרות, תוהה כמה כל אחת מעשר המילים האלה חשובה להם. לדוגמה, שימו לב שהמשפט מכיל את לשון הפנייה it. לשון הפנייה בדרך כלל לא ברורה. לשון הפנייה היא תמיד מתייחסת לשם עצם מהזמן האחרון, אבל במשפט לדוגמה, שם העצם האחרון הוא מתייחס אליו: בעל החיים או לרחוב?

מנגנון הקשב העצמי קובע את הרלוונטיות של כל מילה שנמצאת בקרבת מקום לשון הפנייה it.

יש כמה תרחישים לדוגמה של מודלים גדולים של שפה?

מודלים גדולים של שפה את הטקסט הסביר ביותר בתגובה לקלט. הם אפילו מתחילים להופיע ביצועים טובים במשימות אחרות. לדוגמה, סיכום, שאלה מענה לשיחה וסיווג טקסטים. האירועים האלה מכונים יכולות חדשות. מודלים גדולים של שפה יכולים אפילו לפתור בעיות מתמטיות ולכתוב קוד (למרות שכדאי לבדוק את בעבודה).

מודלים גדולים של שפה (LLM) מצוינים בחיקוי של דפוסי דיבור של בני אדם. בין היתר, הם ממש טובים בשילוב מידע עם סגנונות שונים וטיונים שונים.

עם זאת, מודלים גדולים של שפה יכולים להיות רכיבים של מודלים שמבצעים הרבה יותר יוצרים טקסט. בעבר נעשה שימוש במודלים גדולים של שפה (LLM) כדי לפתח גלאי סנטימנטים, לסיווגי רעילות, וליצור כיתובים לתמונות.

שיקולים לגבי מודל שפה גדול (LLM)

לדגמים גדולים כאלה אין חסרונות.

מודלי ה-LLM הגדולים ביותר הם יקרים. האימון יכול להימשך כמה חודשים, שצורכים משאבים רבים.

בדרך כלל אפשר גם לשנות את הייעוד שלהם למשימות אחרות, וזה יתרון יקר.

מודלים לאימון עם יותר מטריליון פרמטרים יוצרת אתגרים הנדסיים. תשתית ותכנות מיוחדות נדרשות כדי לתאם את הזרימה בין הצ'יפים ואז בחזרה.

יש דרכים לצמצם את העלויות של מודלים גדולים כאלה. יש שתי גישות הֶקֵּשׁ אופליין וגם זיקוק.

דעות קדומות יכולות להיות בעיה במודלים גדולים מאוד, וצריך להביא אותן בחשבון באימון. ועד הפריסה.

מאחר שהמודלים האלה מאומנים לשימוש בשפה אנושית, הם יכולים ליצור לבעיות אתיות פוטנציאליות, כולל שימוש לרעה בשפה והטיות בגזע, מגדר, דת ועוד.

צריך להיות ברור שככל שהמודלים האלה גדלים ומשיגים ביצועים טובים חייבים להמשיך להתמקד בהבנה צמצום החסרונות שלהם. מידע נוסף על הגישה של Google בינה מלאכותית אחראית.