מבוא למודלים גדולים של שפה (LLM)

חדשים בתחום המודלים של שפה או המודלים הגדולים של שפה? כדאי לעיין במקורות המידע הבאים.

מהו מודל שפה?

מודל שפה הוא למידת מכונה מודל שמטרתו לחזות וליצור שפה סבירה. לדוגמה, השלמה אוטומטית היא מודל שפה.

המודלים האלה פועלים על ידי הערכת הסבירות של אסימון או רצף של אסימונים שמתרחשים ברצף ארוך יותר של אסימונים. נבחן את המשפט הבא:

When I hear rain on my roof, I _______ in my kitchen.

אם נניח שאסימון הוא מילה, מודל השפה קובע את הסבירויות של מילים או רצפי מילים שונים שיחליפו את הקו התחתון. לדוגמה, מודל שפה יכול לקבוע את הדברים הבאים הסתברויות:

cook soup 9.4%
warm up a kettle 5.2%
cower 3.6%
nap 2.5%
relax 2.2%
...

'רצף אסימונים' יכול להיות משפט שלם או סדרה של משפטים. כלומר, מודל שפה יכול לחשב את הסבירות במשפטים או בבלוקים של טקסט.

הערכת ההסתברות לגבי מה שיגיע בהמשך ברצף היא שימושית לכולם סוגים שונים של דברים: יצירת טקסט, תרגום שפות, מענה בין היתר.

מהו מודל שפה גדול (LLM)?

בניית מודל לשפה אנושית בקנה מידה נרחב היא משימה מורכבת מאוד שדורשת משאבים רבים. הדרך להשגת היכולות הנוכחיות של מודלים של שפה ומודלים גדולים של שפה נמשכה כמה עשורים.

ככל שהמודלים גדלים, כך המורכבות והיעילות שלהם גדלות. מודלים מוקדמים של שפה יכולים לחזות את ההסתברות של מילה אחת; מודרני מודלי שפה גדולים (LLM) יכולים לחזות את ההסתברות של משפטים, פסקאות אפילו מסמכים שלמים.

בזכות העלייה בנפח הזיכרון במחשבים, בגודל מערכי הנתונים ובכוח העיבוד, ובזכות פיתוח שיטות יעילות יותר ליצירת מודלים של רצפי טקסט ארוכים יותר, הגודל והיכולות של מודלים של שפה גדלו בצורה משמעותית בשנים האחרונות.

מהו גודל 'גדול'?

ההגדרה לא ברורה, אבל המונח 'גדול' שימש לתיאור BERT (110 מיליון פרמטרים) וגם את PaLM 2 (עד 340 מיליארד פרמטרים).

פרמטרים הן משקולות של המודל שנלמד במהלך האימון, משמש לחיזוי האסימון הבא ברצף. המונח 'גדול' יכול להתייחס למספר הפרמטרים במודל, או לפעמים למספר המילים במערך הנתונים.

ממירים

בשנת 2017 הושקעו טרנספורמרים, ארכיטקטורה שתוכננה סביב הרעיון של תשומת לב, ופיתוח זה היה אחד מהפיתוחים החשובים בתחום בניית מודל השפה. כך התאפשר לעבד רצפים ארוכים יותר, על ידי התמקדות חלק חשוב בקלט, פתרון בעיות זיכרון שנתקלת בהן למשימות ספציפיות.

טרנספורמרים הם הארכיטקטורה המתקדמת ביותר למגוון רחב של אפליקציות של מודלים לשפה, כמו מתרגמים.

אם הקלט הוא "אני כלב טוב", מתרגם שמבוסס על טרנספורמר ממירה את הקלט לפלט "Je suis un bon chien", שאותו משפט תורגם לצרפתית.

טרנספורמרים מלאים מורכבים ממקודד וממפענח. המקודד ממיר טקסט קלט לייצוג ביניים, ממירה את הייצוג הזה לטקסט שימושי.

תשומת לב עצמית

מודלים של טרנספורמרים מסתמכים במידה רבה על מושג שנקרא 'קשב עצמי'. החלק העצמי של קשב עצמי מתייחס של כל אסימון במאגר. בפועל, בשם כל אסימון של קלט, הקשב העצמי שואל: "כמה האם כל אסימון קלט אחר חשוב אני?" כדי לפשט את הדברים, מניחים שכל אסימון הוא מילה וההקשר המלא הוא משפט. נבחן את המשפט הבא:

בעל החיים לא חצה את הכביש כי הוא היה עייף מדי.

יש 11 מילים במשפט הקודם, כך שכל אחת מ-11 המילים מקדישה תשומת לב לעשר המילים האחרות, ומנסה להבין עד כמה כל אחת מהן חשובה לה. לדוגמה, שימו לב שהמשפט מכיל את לשון הפנייה it. לשון הפנייה בדרך כלל לא ברורה. לשון הפנייה היא תמיד מתייחסת לשם עצם מהזמן האחרון, אבל במשפט לדוגמה, שם העצם האחרון הוא מתייחס אליו: בעל החיים או לרחוב?

מנגנון ההתמקדות העצמית קובע את הרלוונטיות של כל מילה בסביבה לשם התואר it.

יש כמה תרחישים לדוגמה של מודלים גדולים של שפה?

מודלים גדולים של שפה את הטקסט הסביר ביותר בתגובה לקלט. הם אפילו מתחילים להופיע ביצועים טובים במשימות אחרות. לדוגמה, סיכום, שאלה מענה לשיחה וסיווג טקסטים. אלה נקראים יכולות מתפתחות. בעלי תואר LLM יכולים אפילו לפתור בעיות מתמטיות מסוימות ולכתוב קוד (אבל מומלץ לבדוק את העבודה שלהם).

מודלים גדולים של שפה (LLM) מצוינים בחיקוי של דפוסי דיבור של בני אדם. בין היתר, הם ממש טובים בשילוב מידע עם סגנונות שונים ונגוונים.

עם זאת, מודלים גדולים של שפה יכולים להיות רכיבים של מודלים שמבצעים הרבה יותר יוצרים טקסט. מודלים של LLM שפותחו לאחרונה שימשו ליצירת גלאי סנטימנטים, למסווגים של תוכן רעיל וליצירת כיתובים לתמונות.

שיקולים לגבי LLM

למודלים גדולים כאלה יש חסרונות.

מודלים גדולים של שפה (LLM) הם יקרים. תהליך האימון שלהם יכול להימשך חודשים, וכתוצאה מכך הם צורכים הרבה משאבים.

בדרך כלל אפשר גם להשתמש בהם למשימות אחרות, כך שזוהי נקודה קטנה לזכות.

אימון מודלים עם יותר מטריליון פרמטרים יוצר אתגרים הנדסיים. נדרשות שיטות מיוחדות של תשתית ותכנות כדי לתאם את התהליך של העברת הנתונים אל הצ'יפים ובחזרה.

יש דרכים לצמצם את העלויות של מודלים גדולים כאלה. יש שתי גישות הֶקֵּשׁ אופליין וגם זיקוק.

הטיה יכולה להיות בעיה במודלים גדולים מאוד, וחשוב להביא אותה בחשבון במהלך האימון והפריסה.

המודלים האלה מאומנים על שפה אנושית, ולכן הם עלולים להוביל לבעיות אתיות רבות, כולל שימוש לרעה בשפה והטיות על בסיס גזע, מין, דת ועוד.

ברור שעם הזמן המודלים האלה הולכים וגדלים והביצועים שלהם משתפרים, ולכן חשוב להמשיך להבין את החסרונות שלהם ולצמצם אותם. מידע נוסף על הגישה של Google בינה מלאכותית אחראית.

מידע נוסף על מודלים גדולים של שפה (LLM)

רוצים לקבל מבוא מעמיק יותר למודלים גדולים של שפה (LLM)? מומלץ לעיין במודול החדש מודלים גדולים של שפה בקורס המקוצר על למידת מכונה.