מבוא למודלים גדולים של שפה (LLM)

חדשים במודלים של שפות או בשפות גדולות? יש לעיין במקורות המידע שבהמשך.

מהו מודל שפה?

מודל השפה הוא מודל ללמידת מכונה שמטרתו לחזות וליצור שפה אמינה. השלמה אוטומטית היא מודל שפה, למשל.

במודלים האלה אפשר להעריך את ההסתברות לאסימון או לרצף אסימונים שמתרחשים ברצף ארוך יותר של אסימונים. חשבו על המשפט הבא:

When I hear rain on my roof, I _______ in my kitchen.

אם מניחים שאסימון הוא מילה, מודל השפה קובע את הסבירות של מילים שונות או רצפים שונים של מילים להחלפת קו תחתון זה. לדוגמה, מודל שפה עשוי לקבוע את ההסתברות הבאות:

cook soup 9.4%
warm up a kettle 5.2%
cower 3.6%
nap 2.5%
relax 2.2%
...

'רצף אסימונים' יכול להיות משפט שלם או סדרה של משפטים. כלומר, מודל השפה יכול לחשב את הסבירות שמשפטים שלמים או בלוקים של טקסט יהיו שונים.

הערכה של ההסתברות לפריט הבא ברצף יכולה להיות שימושית לכל סוגי הדברים: יצירת טקסט, תרגום שפות ומענה על שאלות, בין היתר.

מה מודל השפה הגדול?

בניית מודלים של שפה אנושית בקנה מידה רחב היא מאמץ מורכב מאוד שצורך משאבים רבים. הנתיב ליכולות הקיימות של מודלים של שפה ומודלים של שפות גדולות נמשך כמה עשורים.

ככל שהמודלים גדלים וגדלים, כך המורכבות והיעילות שלהם הולכת וגדלה. מודלים של שפה מוקדמת יכולים לחזות את ההסתברות למילה יחידה, ומודלים מודרניים של שפות גדולות יכולים לחזות את הסבירות של משפטים, פסקאות או אפילו מסמכים שלמים.

הגודל והיכולת של מודלים של שפה התפתחו בשנים האחרונות עם העלייה בנפח הזיכרון שבמחשב, בגודל מערך הנתונים וביכולות העיבוד. בנוסף, פיתחנו שיטות יעילות יותר ליצירת מודלים של רצפי טקסט ארוכים יותר.

מה הגודל שלו?

ההגדרה מטושטשת, אבל "גדולה" שימשה לתיאור BERT (110M פרמטרים) כמו גם PaLM 2 (עד 340B פרמטרים).

פרמטרים הם המשקלים שהמודל נלמד במהלך האימון, והם משמשים לחיזוי האסימון הבא ברצף. "גדול" יכול להתייחס למספר הפרמטרים במודל, או לפעמים למספר המילים במערך הנתונים.

ממירים

אחד מהגורמים העיקריים לפיתוח של מודלים של שפה היה הצירוף של טרנספורמציות בשנת 2017. הארכיטקטורה הזו מבוססת על הרעיון של תשומת לב. כך התאפשר לעבד רצפים ארוכים על ידי התמקדות בחלק החשוב ביותר בקלט, לפתרון בעיות זיכרון שהתרחשו במודלים קודמים.

כלי טרנספורמציה הם הארכיטקטורה המתקדמת ביותר למגוון רחב של אפליקציות של דגמי שפות, כמו מתרגמים.

אם הקלט הוא "אני כלב טוב", מתרגם מבוסס שנאי הופך את הקלט לפלט "Je suis un bon chien" . זהו אותו משפט שמתורגם לצרפתית.

כלי הטרנספורמציה המלאים כוללים מקודד ומפענח. מקודד ממיר טקסט קלט לייצוג ביניים. מפענח ממיר את ייצוג הביניים הזה לטקסט שימושי.

תשומת לב עצמית

אנשים שעוסקים בטרנספורמציה מסתמכים במידה רבה על מושג שנקרא 'עצמאות'. החלק העצמי של תשומת הלב העצמית מתייחס למיקוד ה "אקולוגי" של כל אסימון במאגר. למעשה, בשם כל אסימון קלט, תשומת הלב העצמית שואלת: "מה מידת החשיבות של כל אסימון קלט אחר אני?" כדי לפשט את העניינים, נניח שכל אסימון הוא מילה וההקשר השלם הוא משפט יחיד. כדאי לשקול את המשפט הבא:

בעל החיים לא עבר את הרחוב בגלל שהוא עייף מדי.

יש במשפט הקודם 11 מילים, כך שכל אחת מ-11 המילים נותנת תשומת לב לעשר האחרות, ותוהה כמה כל אחת מעשר המילים האלה חשובה להן. לדוגמה, חשוב לשים לב שהמשפט מכיל את לשון הפנייה it. לשון הפנייה היא בדרך כלל לא ברורה. לשון הפנייה היא תמיד מתייחסת לשם העצם האחרון, אבל במשפט לדוגמה, לאיזה שם העצם האחרון היא מתייחסת: החיה או הרחוב?

המנגנון של טיפול עצמי קובע את הרלוונטיות של כל מילה בסביבה ללשון הפנייה היא.

מהם תרחישים לדוגמה ל-LLM?

משימות LLM יעילות ביותר במשימה שלהן הן מניבות את הטקסט הסביר ביותר בתגובה לקלט. הם גם מתחילים להציג ביצועים טובים במשימות אחרות, כמו סיכום, מענה על שאלות וסיווג טקסט. האפשרויות האלה נקראות יכולות מתפתחות. בעזרת LLM תוכלו אפילו לפתור בעיות מתמטיות ולכתוב קוד (עם זאת, מומלץ לבדוק את העבודה שלהן).

הודעות ברמת LLM מצוינות בחיקוי דפוסי דיבור אנושיים. בין היתר, הם מעולים לשילוב מידע עם סגנונות וגוונים שונים.

עם זאת, דוחות LLM יכולים להיות רכיבים של מודלים שמפיקים יותר מסתם טקסט. מספרי ה-LLM האחרונים שימשו לבניית גלאי סנטימנט, סיווגי רעילות ויצירת כתוביות לתמונות.

שיקולים לגבי LLM

מודלים כל כך גדולים הם ללא חסרונות.

ה-LLM הגדול ביותר הוא יקר. הם יכולים ללמוד במשך חודשים וכתוצאה מכך לצרוך משאבים רבים.

בדרך כלל אפשר לעשות בהם שימוש חוזר גם במשימות אחרות, שהן ריפוד כסף חשוב.

מודלים של אימונים עם פרמטרים של טריליון יכולים ליצור אתגרים הנדסיים. יש צורך בתשתיות ובשיטות תכנות מיוחדות כדי לתאם את הזרימה לצ'יפים, ובחזרה.

יש דרכים לצמצם את העלויות של המודלים הגדולים האלה. שתי גישות הן מסקנות אופליין וזיקוק.

הטיה יכולה להיות בעיה במודלים גדולים מאוד, ויש להתייחס אליה בהדרכה ובפריסה.

מכיוון שהמודלים האלה עוברים הדרכה על שפה אנושית, יכולים להיות לכך הרבה בעיות אתיות, כולל שימוש לרעה בשפה, הטיה בגזע, מגדר, דת ועוד.

היה ברור שהמודלים האלה הולכים וגדלים ומשיגים ביצועים טובים יותר, ולכן הם צריכים להשקיע מאמצים רבים בהבנה ובצמצום של החסרונות שלהם. למידע נוסף על הגישה של Google ל-AI אחראי.