הדף הזה מכיל מונחים ממילון של הערכת השפה. כאן מפורטות כל ההגדרות במילון.
A
תשומת הלב,
מנגנון שמשמש ברשת נוירונים ומציין את החשיבות של מילה מסוימת או של חלק ממילה. תשומת הלב מצמצמת את כמות המידע שהמודל צריך כדי לחזות את האסימון או המילה הבאים. מנגנון תשומת לב אופייני עשוי להכיל סכום משוקלל של קבוצת מקורות קלט, כאשר המשקל של כל מקור קלט מחושב על ידי חלק אחר של רשת העצבים.
מומלץ לעיין גם במאמרים בנושא תשומת לב עצמית ותשומת לב עצמית עם כמה ראשים, שהם אבני הבניין של טרנספורמרים.
מידע נוסף על התכונה 'תשומת לב עצמית' זמין במאמר LLMs: What's a large language model? בקורס למתחילים בנושא למידת מכונה.
אוטו-קונדרטור
מערכת שמלמדת לחלץ את המידע החשוב ביותר מהקלט. אוטו-קונדים הם שילוב של מקודד ומפענח. אוטו-קונדים מסתמכים על התהליך הדו-שלבי הבא:
- המקודד ממפה את הקלט לפורמט (בדרך כלל) עם אובדן נתונים (לא איכותי) בעל ממדים נמוכים יותר (פורמט ביניים).
- המפענח יוצר גרסה עם אובדן נתונים של הקלט המקורי על ידי מיפוי של הפורמט בעל המאפיינים הנמוכים יותר לפורמט הקלט המקורי בעל המאפיינים הגבוהים יותר.
מקודדים אוטומטיים עוברים אימון מקצה לקצה, כך שהפעמקוד מנסה לשחזר את הקלט המקורי מהפורמט הביניים של המקודד בצורה הקרובה ביותר האפשרית. מכיוון שהפורמט הביניים קטן יותר (בממדים נמוכים יותר) מהפורמט המקורי, האוטו-קונדרטור נאלץ ללמוד איזה מידע בקלט חיוני, והפלט לא יהיה זהה לחלוטין לקלט.
לדוגמה:
- אם נתוני הקלט הם גרפיקה, העותק הלא מדויק יהיה דומה לגרפיקה המקורית, אבל ישתנה במידה מסוימת. יכול להיות שהעותק הלא מדויק מסיר רעש מהגרפיקה המקורית או ממלא פיקסלים חסרים.
- אם נתוני הקלט הם טקסט, אוטו-קונדר יוצר טקסט חדש שמחקה את הטקסט המקורי (אבל לא זהה לו).
אפשר לעיין גם במאמר בנושא מקודדים אוטומטיים וריאציוניים (VAE).
הערכה אוטומטית
שימוש בתוכנה כדי לשפוט את איכות הפלט של מודל.
כשפלט המודל פשוט יחסית, אפשר להשתמש בסקריפט או בתוכנית כדי להשוות את הפלט של המודל לתשובה מושלמת. סוג ההערכה האוטומטי הזה נקרא לפעמים הערכה פרוגרמטית. מדדים כמו ROUGE או BLEU הם לרוב שימושיים להערכה פרוגרמטית.
כשפלט המודל מורכב או שאין לו תשובה נכונה אחת, לפעמים תוכנית למידת מכונה נפרדת שנקראת מעריך אוטומטי מבצעת את ההערכה האוטומטית.
בניגוד לבדיקה אנושית.
הערכה של המערכת האוטומטית
מנגנון היברידי לשיפוט האיכות של הפלט של מודל AI גנרטיבי, שמשלב הערכה אנושית עם הערכה אוטומטית. מערכת הערכה אוטומטית היא מודל למידת מכונה (ML) שמתאמן על נתונים שנוצרו על ידי הערכה אנושית. באופן אידיאלי, המערכת האוטומטית לניקוד לומדת לחקות את הבודק האנושי.יש מודלים מוכנים מראש של מודלים אוטומטיים, אבל המודלים האוטומטיים הטובים ביותר מותאמים במיוחד למשימה שאתם מעריכים.
מודל אוטו-רגרסיבי
מודל שמסיק חיזוי על סמך החיזויים הקודמים שלו. לדוגמה, מודלים של שפה חזרהית חוזים את האסימון הבא על סמך האסימונים שחזו קודם. כל המודלים הגדולים של השפה שמבוססים על Transformer הם אוטו-רגרסיביים.
לעומת זאת, מודלים של תמונות שמבוססים על GAN הם בדרך כלל לא רגרסיביים אוטומטיים, כי הם יוצרים תמונה בפעולה קדימה אחת ולא באופן איטרטיבי בשלבים. עם זאת, מודלים מסוימים ליצירת תמונות הם מודלים רגרסיביים אוטומטיים כי הם יוצרים תמונה בשלבים.
דיוק ממוצע ב-k
מדד שמסכם את הביצועים של מודל בהנחיה אחת, שמניבה תוצאות מדורגות, כמו רשימה ממוספרת של המלצות לספרים. רמת הדיוק הממוצעת ב-k היא הממוצע של ערכי רמת הדיוק ב-k לכל תוצאה רלוונטית. לכן, הנוסחה לחישוב הדיוק הממוצע ב-k היא:
\[{\text{average precision at k}} = \frac{1}{n} \sum_{i=1}^n {\text{precision at k for each relevant item} } \]
כאשר:
- \(n\) הוא מספר הפריטים הרלוונטיים ברשימה.
בניגוד להחזרה למצב הקודם ב-k.
B
תיק מילים
ייצוג של המילים בביטוי או בפסקה, ללא קשר לסדר. לדוגמה, תיקיית מילים מייצגת את שלושת הביטויים הבאים באופן זהה:
- הכלב קופץ
- קופץ על הכלב
- כלב קופץ
כל מילה ממופה לאינדקס בוקטור דליל, שבו לכל מילה באוצר המילים יש אינדקס. לדוגמה, הביטוי the dog jumps ממופה למילת וקטור של מאפיינים עם ערכים שונים מאפס בשלושת המדדים התואמים למילים the, dog ו-jumps. הערך שאינו אפס יכול להיות כל אחד מהערכים הבאים:
- 1 כדי לציין את נוכחות המילה.
- ספירה של מספר הפעמים שמילה מופיעה בתיק. לדוגמה, אם הביטוי היה the maroon dog is a dog with maroon fur, גם maroon וגם dog יצוינו בספרה 2, והמילים האחרות יצוינו בספרה 1.
- ערך אחר כלשהו, כמו הלוגריתם של מספר הפעמים שמילה מופיעה בתיק.
BERT (ייצוגים דו-כיווניים של מקודד מטרנספורמרים)
ארכיטקטורת מודל לייצוג של טקסט. מודל BERT מאומן יכול לשמש כחלק ממודל גדול יותר לסיווג טקסט או למשימות אחרות של למידת מכונה.
ל-BERT יש את המאפיינים הבאים:
- מבוסס על הארכיטקטורה של Transformer, ולכן מסתמך על תשומת לב עצמית.
- משתמש בחלק של המקודד בטרנספורמר. תפקיד המקודד הוא ליצור ייצוגים טובים של טקסט, ולא לבצע משימה ספציפית כמו סיווג.
- דו-כיווני.
- שימוש באנונימיזציה לצורך אימון ללא הדרכה.
הווריאציות של BERT כוללות:
Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing (העברת BERT לקוד פתוח: אימון מקדים מתקדם לעיבוד שפה טבעית) – סקירה כללית על BERT.
דו-כיווני
מונח שמתאר מערכת שמעריכה את הטקסט לפני וגם אחרי קטע טקסט יעד. לעומת זאת, מערכת חד-כיוונית מעריכה רק את הטקסט שמקדים לקטע היעד בטקסט.
לדוגמה, נניח שיש מודל שפה מוצפן שצריך לקבוע את ההסתברויות למילה או למילים שמייצגות את הקו התחתון בשאלה הבאה:
מה הבעיה שלך בנושא _____?
מודל שפה חד-כיווני יצטרך לבסס את ההסתברויות שלו רק על ההקשר שמספקות המילים 'מה', 'הוא' ו'ה'. לעומת זאת, מודל שפה דו-כיווני יכול לקבל הקשר גם מהמילים 'עם' ו'את/ה', וכך לעזור למודל ליצור תחזיות טובות יותר.
מודל שפה דו-כיווני
מודל שפה שמאפשר לקבוע את הסבירות לאסימון נתון במיקום נתון בקטע טקסט, על סמך הטקסט הקודם והבא.
bigram
N-gram שבו N=2.
BLEU (Bilingual Evaluation Understudy)
מדד בין 0.0 ל-1.0 להערכת תרגומים של מכונה, לדוגמה, מספרדית ליפנית.
כדי לחשב את הדירוג, בדרך כלל נעשה שימוש ב-BLEU כדי להשוות בין התרגום של מודל ה-ML (טקסט שנוצר) לבין התרגום של מומחה אנושי (טקסט העזר). מידת ההתאמה של N-grams בטקסט שנוצר ובטקסט העזרה קובעת את ציון BLEU.
המאמר המקורי בנושא המדד הזה הוא BLEU: a Method for Automatic Evaluation of Machine Translation.
אפשר לעיין גם במאמר BLEURT.
BLEURT (Bilingual Evaluation Understudy from Transformers)
מדד להערכת תרגומי מכונה משפה אחת לאחרת, במיוחד מאנגלית ומאנגלית.
בתרגומים מאנגלית ומאנגלית, BLEURT תואם יותר לדירוגים של בני אדם מאשר BLEU. בניגוד ל-BLEU, ה-BLEURT מדגיש את הדמיון הסמנטי (המשמעותי) ויכול להתאים לניסוח מחדש.
BLEURT מבוסס על מודל שפה גדול (LLM) שעבר אימון מראש (למעשה, BERT), שעבר כוונון מדויק על סמך טקסט מתרגמים אנושיים.
המאמר המקורי בנושא המדד הזה הוא BLEURT: Learning Robust Metrics for Text Generation.
C
מודל שפה סיבתי
מונח נרדף למודל שפה חד-כיווני.
במאמר מודל שפה דו-כיווני מוסבר על ההבדל בין גישות שונות למודלים של שפה.
הנחיות בטכניקת שרשרת מחשבה
טכניקה של הנדסת הנחיות שמעודדת מודל שפה גדול (LLM) להסביר את התהליך של המסקנות שלו, שלב אחרי שלב. לדוגמה, הנה הנחיה לדוגמה, שימו לב במיוחד למשפט השני:
כמה כוחות גרביטציה (G) יפעלו על הנהג ברכב שנוסע מ-0 ל-96 קמ"ש תוך 7 שניות? בתשובה, צריך להציג את כל החישובים הרלוונטיים.
התשובה של ה-LLM תהיה ככל הנראה:
- הצגת רצף של נוסחאות פיזיקה, עם הכנסת הערכים 0, 60 ו-7 במקומות המתאימים.
- הסבירו למה המערכת בחרה את הנוסחאות האלה ומה המשמעות של המשתנים השונים.
הנחיות לגבי שרשרת המחשבות מאלצות את ה-LLM לבצע את כל החישובים, מה שעלול להוביל לתשובה נכונה יותר. בנוסף, ההנחיות של שרשרת המחשבות מאפשרות למשתמש לבדוק את השלבים של LLM כדי לקבוע אם התשובה הגיונית.
צ'אט, צ'ט, צאט, צט
התוכן של דיאלוג הדדי עם מערכת למידת מכונה, בדרך כלל מודל שפה גדול. האינטראקציה הקודמת בצ'אט (מה שהקלדתם ואיך מודל השפה הגדול הגיב) הופכת להקשר לחלקים הבאים בצ'אט.
צ'אט בוט הוא יישום של מודל שפה גדול.
סיפורים
מילה נרדפת ל-hallucination.
כנראה שהמונח 'הזיה' מדויק יותר מבחינה טכנית מ'הזיה'. עם זאת, ההזיה הפכה לפופולרית קודם.
ניתוח של מחוזות בחירה
חלוקת משפט למבנים דקדוקיים קטנים יותר ('רכיבים'). חלק מאוחר יותר במערכת ה-ML, כמו מודל של הבנת שפה טבעית, יכול לנתח את הרכיבים בקלות רבה יותר מאשר את המשפט המקורי. לדוגמה, המשפט הבא:
חברתי אימצה שני חתולים.
מנתח משפטים יכול לחלק את המשפט הזה לשני הרכיבים הבאים:
- החבר שלי הוא ביטוי שם.
- אימצה שני חתולים הוא ביטוי פועל.
אפשר לחלק את הרכיבים האלה לרכיבים קטנים יותר. לדוגמה, ביטוי הפועל
אימצו שני חתולים
ניתן לחלק אותם לקטגוריות נוספות:
- adopted הוא פועל.
- שני חתולים הוא ביטוי נוסף של שם עצם.
הטמעת שפה בהקשר
הטמעה שמגיעה למצב של 'הבנה' של מילים וביטויים באופן שדוברי שפת אם יכולים. הטמעות של שפה בהקשר יכולות להבין תחביר, סמנטיקה והקשר מורכבים.
לדוגמה, ניקח את הטמעות המילים של המילה האנגלית cow. הטמעות ישנות יותר, כמו word2vec, יכולות לייצג מילים באנגלית כך שהמרחק במרחב ההטמעה מ-cow ל-bull דומה למרחק מ-ewe (כבשה) ל-ram (איל) או מ-female ל-male. הטמעת שפה בהקשר יכולה להתקדם צעד נוסף על ידי זיהוי שלפעמים דוברי אנגלית משתמשים במילה cow באופן לא רשמי כדי לציין פרה או שור.
חלון ההקשר
מספר האסימונים שהמודל יכול לעבד בהנחיה נתונה. ככל שחלון ההקשר גדול יותר, כך המודל יכול להשתמש במידע רב יותר כדי לספק תשובות עקביות ועוצמתיות להנחיה.
פריחה של קריסה
משפט או ביטוי עם משמעות לא ברורה. 'פריחת תאונות' היא בעיה משמעותית בהבנת שפה טבעית. לדוגמה, הכותרת Red Tape Holds Up Skyscraper היא 'פרח פגום' כי מודל NLU יכול לפרש את הכותרת באופן מילולי או מטאפורי.
D
מפענח
באופן כללי, כל מערכת למידת מכונה שממירה ייצוג מעובד, צפוף או פנימי לייצוג גולמי, דל או חיצוני יותר.
פעמים רבות מפענחים הם רכיב של מודל גדול יותר, שבו הם מותאמים לרוב למקודד.
במשימות מסוג רצף לרצף, המפענח מתחיל מהמצב הפנימי שנוצר על ידי המקודד כדי לחזות את הרצף הבא.
ההגדרה של מפענח בארכיטקטורה של טרנפורמר מפורטת במאמר Transformer.
למידע נוסף, אפשר לקרוא את המאמר מודלים גדולים של שפה בקורס המקוצר על למידת מכונה.
הסרת רעשי רקע
גישה נפוצה ללמידה בלתי מונחית:
הסרת הרעש מאפשרת ללמוד מדוגמאות ללא תוויות. מערך הנתונים המקורי משמש כיעד או תווית, והנתונים עם הרעש משמשים כקלט.
בחלק ממודלים של שפה עם מסכה נעשה שימוש בניטרול רעשי רקע באופן הבא:
- כדי להוסיף רעש באופן מלאכותי למשפט ללא תווית, מסתירים חלק מהאסימונים.
- המודל מנסה לחזות את האסימונים המקוריים.
הנחיה ישירה
מילה נרדפת להנחיה ישירה (Zero-shot).
E
edit distance
מדידה של מידת הדמיון בין שתי מחרוזות טקסט. בלמידת מכונה, מרחק העריכה שימושי מהסיבות הבאות:
- קל לחשב את מרחק העריכה.
- אפשר להשתמש במרחק העריכה כדי להשוות בין שתי מחרוזות שידוע שהן דומות זו לזו.
- מרחק העריכה יכול לקבוע את מידת הדמיון בין מחרוזות שונות למחרוזת נתונה.
יש כמה הגדרות של מרחק עריכה, וכל אחת מהן משתמשת בפעולות שונות על מחרוזות. דוגמה לכך מופיעה בקטע מרחק Levenshtein.
שכבת הטמעה
שכבה מוסתרת מיוחדת שמתאמנה על מאפיין קטגוריאלי בעל מאפיינים רבים, כדי ללמוד בהדרגה וקטור הטמעה בעל מאפיינים פחותים. שכבת הטמעה מאפשרת לרשת נוירונים להתאמן בצורה יעילה הרבה יותר מאשר אימון רק על התכונה הקטגורית בעלת המאפיינים המרובים.
לדוגמה, נכון לעכשיו יש ב-Earth תמיכה בכ-73,000 מינים של עצים. נניח שסוג העץ הוא מאפיין במודל, כך ששכבת הקלט של המודל כוללת וקטור one-hot באורך 73,000 רכיבים.
לדוגמה, יכול להיות ש-baobab
יוצג כך:
מערך של 73,000 רכיבים הוא ארוך מאוד. אם לא מוסיפים שכבת הטמעה למודל, תהליך האימון יהיה מאוד ממושך בגלל הכפלה של 72,999 אפסים. אולי בחרתם שכבת הטמעה שתכלול 12 מאפיינים. כתוצאה מכך, שכבת ההטמעה תלמד בהדרגה וקטור הטמעה חדש לכל מין עץ.
במצבים מסוימים, גיבוב הוא חלופה סבירה לשכבת הטמעה.
מידע נוסף זמין בקטע הטמעות (Embeddings) בקורס המקוצר על למידת מכונה.
מרחב הטמעה
מרחב וקטורי בעל d ממדים שאליו ממופה המאפיין ממרחב וקטורי בעל ממדים גבוהים יותר. באופן אידיאלי, מרחב ההטמעה מכיל מבנה שמניב תוצאות מתמטיות משמעותיות. לדוגמה, במרחב הטמעה אידיאלי, אפשר לפתור משימות של אנלוגיות בין מילים באמצעות חיבור וחיסור של הטמעות.
המכפלה הפנימית של שני הטמעות היא מדד הדמיון ביניהן.
וקטור הטמעה
באופן כללי, מערך של מספרים בנקודה צפה שנלקחים מכל שכבה מוסתרת שמתארים את הקלט לשכבה המוסתרת הזו. לרוב, וקטור הטמעה הוא מערך של מספרים עם נקודה צפה (float) שהוכשרו בשכבת הטמעה. לדוגמה, נניח ששכבת הטמעה חייבת ללמוד ווקטור הטמעה לכל אחד מ-73,000 מיני העצים בעולם. יכול להיות שהמערך הבא הוא וקטור ההטמעה של עץ באובב:
וקטור הטמעה הוא לא קבוצה של מספרים אקראיים. שכבת הטמעה (embedding) קובעת את הערכים האלה באמצעות אימון, בדומה לאופן שבו רשת עצבית לומדת משקלים אחרים במהלך האימון. כל רכיב במערך הוא דירוג של מאפיין כלשהו של מין עץ. איזה רכיב מייצג את המאפיין של איזה מין עץ? קשה מאוד לבני אדם לקבוע זאת.
החלק המדהים מבחינה מתמטית של וקטור הטמעה הוא שלפריטים דומים יש קבוצות דומות של מספרים עם נקודה צפה. לדוגמה, למינים דומים של עצים יש קבוצה דומה יותר של מספרים בספרות עשרוניות מאשר למינים שונים של עצים. עצי סקויה ועצי סקויה אדומה הם זני עצים קשורים, ולכן הם יהיו בעלי קבוצה דומה יותר של מספרים עם נקודה צפה מאשר עצי סקויה ודקלים. המספרים בוקטור ההטמעה ישתנו בכל פעם שתתאמנו מחדש את המודל, גם אם תתאמנו אותו מחדש עם קלט זהה.
מקודד
באופן כללי, כל מערכת למידת מכונה שממירה ייצוג גולמי, דליל או חיצוני לייצוג מעובד יותר, צפוף יותר או פנימי יותר.
מקודדים הם לרוב רכיב של מודל גדול יותר, שבו הם מותאמים לעיתים קרובות למפענח. חלק מהטרנספורמרים מתאימים מקודדים למפענחים, אבל טרנספורמרים אחרים משתמשים רק במקודד או רק במפענח.
במערכות מסוימות, הפלט של המקודד משמש כקלט לרשת סיווג או רשת רגרסיה.
במשימות מסוג רצף לרצף, מקודד מקבל רצף קלט ומחזיר מצב פנימי (וקטור). לאחר מכן, המפענח משתמש במצב הפנימי הזה כדי לחזות את הרצף הבא.
אפשר לעיין במאמר Transformer כדי לקרוא את ההגדרה של מקודד בארכיטקטורה של טרנספורמרים.
למידע נוסף, אפשר לקרוא את המאמר LLMs: What's a large language model בקורס המקוצר על למידת מכונה.
evals
משמש בעיקר כקיצור של הערכות LLM. באופן כללי, evals היא קיצור של כל סוג של בדיקה.
הערכה
התהליך של מדידת האיכות של מודל או השוואה בין מודלים שונים.
כדי להעריך מודל של למידת מכונה מבוקרת, בדרך כלל משווים אותו לקבוצת אימות ולקבוצת בדיקה. הערכת LLM כוללת בדרך כלל הערכות רחבות יותר של איכות ובטיחות.
F
הנחיה עם כמה דוגמאות (Few-shot)
הנחיה שמכילה יותר מדוגמה אחת ('כמה' דוגמאות) שממחישות איך מודל השפה הגדול צריך להשיב. לדוגמה, ההנחיה הארוכה הבאה מכילה שתי דוגמאות שמראות למודל שפה גדול איך לענות על שאילתה.
חלקים של הנחיה אחת | הערות |
---|---|
מהו המטבע הרשמי של המדינה שצוינה? | השאלה שעליה רוצים שה-LLM יענה. |
צרפת: EUR | דוגמה אחת. |
בריטניה: GBP | דוגמה נוספת. |
הודו: | השאילתה בפועל. |
בדרך כלל, תוצאות של פרומפטים ל-Few-shot טובות יותר מתוצאות של פרומפטים ל-Zero-shot ושל פרומפטים ל-One-shot. עם זאת, כדי להשתמש בהנחיות עם כמה דוגמאות צריך להשתמש בהנחיה ארוכה יותר.
הנחיה עם כמה דוגמאות (Few-shot) היא סוג של למידה מבוססת-דוגמאות שמופעלת בלמידה מבוססת-הנחיה.
מידע נוסף זמין בקטע הנדסת הנחיות בקורס המקוצר על למידת מכונה.
Fiddle
ספריית הגדרות מבוססת-Python שמגדירה את הערכים של פונקציות וכיתות ללא קוד או תשתית פולשניים. במקרה של Pax – ושל מערכות קוד אחרות של למידת מכונה – הפונקציות והכיתות האלה מייצגות מודלים ופרמטרים היפר-מרחביים של אימון.
Fiddle מתייחס לקוד של למידת מכונה כאל קוד שמחולק בדרך כלל לקטעים הבאים:
- קוד הספרייה שמגדיר את השכבות ואת האופטימיזציות.
- קוד 'דבק' של מערך נתונים, שמפעיל את הספריות ומחבר את הכול.
Fiddle מתעד את מבנה הקריאה של קוד הדבקה בצורה שלא נבדקה וניתנת לשינוי.
כוונון עדין
סבב אימון שני ספציפי למשימה, שמתבצע במודל שעבר אימון מראש כדי לשפר את הפרמטרים שלו לצורך תרחיש לדוגמה ספציפי. לדוגמה, רצף האימון המלא של חלק ממודלים גדולים של שפה הוא:
- אימון מראש: אימון מודל גדול של שפה על מערך נתונים כללי עצום, כמו כל הדפים של ויקיפדיה באנגלית.
- התאמה אישית: אימון המודל שעבר אימון מראש לביצוע משימה ספציפית, כמו מענה לשאילתות רפואיות. תהליך השיפור בדרך כלל כולל מאות או אלפי דוגמאות שמתמקדות במשימה הספציפית.
דוגמה נוספת: רצף האימון המלא של מודל תמונה גדול הוא:
- אימון מראש: אימון מודל תמונות גדול על קבוצת נתונים כללית גדולה של תמונות, כמו כל התמונות ב-Wikimedia Commons.
- התאמה אישית: אימון המודל שעבר אימון מראש לביצוע משימה ספציפית, כמו יצירת תמונות של אורקות.
השיפור יכול לכלול כל שילוב של השיטות הבאות:
- שינוי כל הפרמטרים הקיימים של המודל שעבר אימון מראש. התהליך הזה נקרא לפעמים כוונון מדויק מלא.
- שינוי של חלק מהפרמטרים הקיימים של המודל המאומן מראש (בדרך כלל השכבות הקרובות ביותר לשכבת הפלט), תוך שמירה על הפרמטרים הקיימים האחרים ללא שינוי (בדרך כלל השכבות הקרובות ביותר לשכבת הקלט). כוונון יעיל בפרמטרים
- הוספת עוד שכבות, בדרך כלל מעל השכבות הקיימות הקרובות ביותר לשכבת הפלט.
כוונון עדין הוא סוג של למידה באמצעות העברה. לכן, יכול להיות שבתהליך השיפור המדויק של המודל נעשה שימוש בפונקציית אובדן או בסוג מודל שונים מאלה שבהם נעשה שימוש לאימון המודל שעבר אימון מקדים. לדוגמה, אפשר לשפר מודל תמונה גדול שעבר אימון מראש כדי ליצור מודל רגרסיה שמחזיר את מספר הציפורים בתמונה קלט.
השוואה וניגוד בין כוונון מדויק לבין המונחים הבאים:
מידע נוסף זמין בקטע התאמה אישית במאמר קורס מקוצר על למידת מכונה.
פשתן
ספרייה בקוד פתוח עם ביצועים גבוהים ללמידת עומק, שמבוססת על JAX. Flax מספק פונקציות לאימון של רשתות נוירונליות, וגם שיטות להערכת הביצועים שלהן.
Flaxformer
ספריית Transformer בקוד פתוח, שמבוססת על Flax. היא מיועדת בעיקר לעיבוד שפה טבעית ולמחקר רב-מודלי.
G
Gemini
הסביבה העסקית שמכילה את ה-AI המתקדם ביותר של Google. רכיבים במערכת האקולוגית הזו כוללים:
- מודלים שונים של Gemini.
- ממשק השיחה האינטראקטיבי למודל Gemini. המשתמשים מקלידים הנחיות ו-Gemini משיב להנחיות האלה.
- ממשקי Gemini API שונים.
- מוצרים עסקיים שונים שמבוססים על מודלים של Gemini, למשל Gemini ל-Google Cloud.
מודלים של Gemini
מודלים מולטימודאליים מבוססי Transformer מתקדמים של Google. המודלים של Gemini תוכננו במיוחד לשילוב עם סוכנים.
המשתמשים יכולים לקיים אינטראקציה עם מודלים של Gemini במגוון דרכים, כולל באמצעות ממשק אינטראקטיבי של תיבת דו-שיח דרך ערכות SDK.
טקסט שנוצר
באופן כללי, הטקסט שמופק על ידי מודל למידת מכונה. כשבודקים מודלים גדולים של שפה, חלק מהמדדים משווים בין הטקסט שנוצר לבין טקסט עזר. לדוגמה, נניח שאתם מנסים לקבוע את מידת היעילות של מודל למידת מכונה בתרגום מצרפתית להולנדית. במקרה זה:
- הטקסט שנוצר הוא התרגום ההולנדי שמופק על ידי מודל ה-ML.
- טקסט העזר הוא התרגום ההולנדי שנוצר על ידי מתרגם אנושי (או תוכנה).
חשוב לזכור שחלק משיטות ההערכה לא כוללות טקסט עזר.
בינה מלאכותית גנרטיבית
תחום מתפתח של טרנספורמציה ללא הגדרה רשמית. עם זאת, רוב המומחים מסכימים שמודלים של AI גנרטיבי יכולים ליצור ('לגנרט'] תוכן שעומד בכל הקריטריונים הבאים:
- מורכב
- עקבי
- מקורית
לדוגמה, מודל של AI גנרטיבי יכול ליצור תמונות או מאמרים מתוחכמים.
גם טכנולוגיות קודמות מסוימות, כולל LSTM ו-RNN, יכולות ליצור תוכן מקורי ועקבי. יש מומחים שמתייחסים לטכנולוגיות הקודמות האלה כאל AI גנרטיבי, ויש מומחים אחרים שחושבים ש-AI גנרטיבי אמיתי דורש תוצרים מורכבים יותר ממה שאפשר ליצור באמצעות הטכנולוגיות הקודמות האלה.
בניגוד ללמידת מכונה חזוי.
תגובה מוזהבת
תשובה ידועה כטובה. לדוגמה, בהתאם להנחיה הבאה:
2 + 2
התשובה המושלמת היא:
4
GPT (Generative Pre-trained Transformer)
משפחה של מודלים גדולים של שפה שמבוססים על טרנספורמרים, שפותחו על ידי OpenAI.
אפשר להחיל וריאנטים של GPT על כמה מודלים, כולל:
- יצירת תמונות (לדוגמה, ImageGPT)
- יצירת תמונות מטקסט (לדוגמה, DALL-E).
H
הזיה
יצירת תוצאה שנראית אמינה אבל לא נכונה מבחינה עובדתית על ידי מודל של AI גנרטיבי שמתיימר להציג טענה לגבי העולם האמיתי. לדוגמה, מודל AI גנרטיבי שטוען שברק אובמה מת בשנת 1865 הוא מופרע.
הערכה אנושית
תהליך שבו אנשים בודקים את איכות הפלט של מודל למידת מכונה. לדוגמה, אנשים דו-לשוניים בודקים את איכות מודל התרגום של למידת המכונה. הערכה אנושית שימושית במיוחד כשמדובר במודלים שאין להם תשובה נכונה אחת.
בניגוד להערכה אוטומטית ולהערכה על ידי מערכת למתן ציונים אוטומטית.
I
למידה בהקשר
מונח נרדף להנחיות עם כמה דוגמאות.
L
LaMDA (מודל שפה לאפליקציות שיחה)
מודל שפה גדול (LLM) שמבוסס על Transformer שפותח על ידי Google. המודל הזה אומן על מערך נתונים גדול של שיחות, והוא יכול ליצור תשובות מציאותיות לשיחות.
סקירה כללית מופיעה במאמר LaMDA: הטכנולוגיה פורצת הדרך שלנו לשיחות.
מודל שפה
מודל שמעריך את ההסתברות של אסימון או רצף של אסימונים שמתרחשים ברצף ארוך יותר של אסימונים.
מודל שפה גדול (LLM)
לפחות מודל שפה עם מספר גבוה מאוד של פרמטרים. באופן לא רשמי, כל מודל שפה שמבוסס על Transformer, כמו Gemini או GPT.
מרחב סמוי
שם נרדף למרחב להטמעה.
מרחק Levenshtein
מדד edit distance שמחשב את מספר פעולות המחיקה, ההוספה וההחלפה המינימלי שנדרש כדי לשנות מילה אחת למילה אחרת. לדוגמה, המרחק של Levenshtein בין המילים heart (לב) ו-darts (חץ) הוא שלוש, כי שלושת העריכות הבאות הן השינויים המינימליים שצריך לבצע כדי להפוך את המילה אחת לשנייה:
- heart → deart (החלפת האות 'h' באות 'd')
- deart → dart (מחיקה של האות 'e')
- חץ → חיצים (מוסיפים "s")
חשוב לזכור שהרצף הקודם הוא לא הנתיב היחיד של שלוש פעולות עריכה.
LLM
קיצור של מודל שפה גדול (LLM).
הערכות של LLM (evals)
קבוצה של מדדים ואמות מידה להערכת הביצועים של מודלים גדולים של שפה (LLMs). ברמת העל, הערכות LLM:
- לעזור לחוקרים לזהות תחומים שבהם LLMs צריכים שיפור.
- שימושיים להשוואה בין מודלים שונים של LLM ולזיהוי המודל הטוב ביותר למשימות מסוימות.
- עוזרים לוודא שהשימוש ב-LLMs בטוח ואתי.
LoRA
קיצור של התאמה לעומס ברמה נמוכה.
התאמה לרמה נמוכה (LoRA)
טכניקה יעילה מבחינת פרמטרים לכוונון עדין, שבה "מקפיאים" את המשקולות של המודל שאומנו מראש (כך שלא ניתן יותר לשנות אותם), ולאחר מכן מוסיפים למודל קבוצה קטנה של משקולות שניתן לאמן. קבוצת המשקלים הניתנים לאימון (שנקראת גם 'מטריצות עדכון') קטנה בהרבה מהמודל הבסיסי, ולכן אימון הקבוצה הזו מהיר הרבה יותר.
היתרונות של LoRA:
- שיפור האיכות של התחזיות של מודל לדומיין שבו מתבצע השיפור.
- התאמה אישית מתבצעת מהר יותר מאשר בשיטות שדורשות התאמה אישית של כל הפרמטרים של המודל.
- הפחתת עלות החישוב של הסקת מסקנות על ידי הפעלת הצגה בו-זמנית של כמה מודלים מיוחדים שמשתמשים באותו מודל בסיס.
M
מודל התממת שפה (MLM)
מודל שפה שמתבסס על ניתוח נתונים כדי לחזות את הסבירות של אסימונים מועמדים למלא את החללים ברצף. לדוגמה, מודל שפה מוצפן יכול לחשב את הסבירויות של מילים מועמדות שיכולות להחליף את הקו התחתון במשפט הבא:
ה____ שבכובע חזר.
בספרות בדרך כלל נעשה שימוש במחרוזת MASK במקום קו תחתון. לדוגמה:
ה-'MASK' בכובע חזר.
רוב המודלים המודרניים של התממת שפה הם דו-כיווניים.
דיוק ממוצע ממוצע ב-k (mAP@k)
הממוצע הסטטיסטי של כל הציונים של הדיוק הממוצע ב-k במערך נתונים לצורך אימות. אחת מהשימושים של רמת הדיוק הממוצעת הממוצעת ב-k היא להעריך את איכות ההמלצות שנוצרות על ידי מערכת המלצות.
למרות שהביטוי 'ממוצע ממוצע' נשמע מיותר, השם של המדד מתאים. אחרי הכל, המדד הזה מחשב את הממוצע של כמה ערכים של רמת דיוק ממוצעת ב-k.
למידה ברמת המטא
תת-קבוצה של למידת מכונה שמאפשרת לגלות או לשפר אלגוריתם למידה. מערכת למטא-למידה יכולה גם לאמן מודל ללמוד במהירות משימה חדשה מכמות קטנה של נתונים או מהניסיון שנצבר במשימות קודמות. בדרך כלל, אלגוריתמים של למידה ברמת המטא מנסים להשיג את היעדים הבאים:
- לשפר או ללמוד תכונות שפותחו באופן ידני (כמו מאתחלים או אופטימיזציות).
- יעילות רבה יותר בשימוש בנתונים ובמחשוב.
- שיפור היכולת להכליל.
מטא-למידה קשורה ללמידה מסוג few-shot.
תערובת של מומחים
תוכנית להגדלת היעילות של רשת עצבית באמצעות שימוש רק בקבוצת משנה של הפרמטרים שלה (שנקראת מומחה) כדי לעבד אסימון או דוגמה מסוימים של קלט. רשת גידור מפנה כל אסימון קלט או דוגמה למומחים המתאימים.
פרטים נוספים זמינים במאמרים הבאים:
- רשתות נוירונים גדולות במיוחד: שכבת תערובת מומחים עם שער דלילה
- שילוב של מומחים עם ניתוב לפי בחירה של מומחה
MMIT
קיצור של multimodal instruction-tuned.
מודל
קטגוריית נתונים ברמה גבוהה. לדוגמה, מספרים, טקסט, תמונות, וידאו ואודיו הם חמישה מודלים שונים.
מודל מקביל
דרך להתאמה לעומס של אימון או של הסקת מסקנות, שבה חלקים שונים של מודל אחד ממוקמים במכשירים שונים. באמצעות מודל מקבילי אפשר להשתמש במודלים גדולים מדי מכדי שיוכלו להתאים למכשיר אחד.
כדי להטמיע מקבילות של מודלים, המערכת בדרך כלל מבצעת את הפעולות הבאות:
- מחלק את המודל לחלקים קטנים יותר.
- המערכת מפזרת את האימון של החלקים הקטנים האלה בין כמה מעבדים. כל מעבד מאמן את החלק שלו במודל.
- שילוב התוצאות ליצירת מודל אחד.
במקביליות של מודל, אימון המודל מתעכב.
אפשר לעיין גם במאמר מקבילות נתונים.
MOE
קיצור של תערובת של מומחים.
תשומת לב עצמית עם כמה ראשים
תוספת לתשומת לב עצמית שמפעילה את מנגנון תשומת הלב העצמית כמה פעמים לכל מיקום ברצף הקלט.
Transformers הציגה תשומת לב עצמית עם כמה ראשים.
התאמה של הוראות למולטי-מודלים
מודל המותאם להוראות שיכול לעבד קלט מעבר לטקסט, כמו תמונות, סרטונים וקטעי אודיו.
מודל מולטי-מודאלי
מודל שהקלט ו/או הפלט שלו כוללים יותר ממודל אחד. לדוגמה, נניח שיש מודל שמקבל גם תמונה וגם כותרת טקסט (שתי מודליות) בתור מאפיינים, ומפיק ציון שמציין את מידת ההתאמה של כותרת הטקסט לתמונה. לכן, הקלט של המודל הזה הוא מרובת מצבים והפלט הוא חד-מצבי.
לא
עיבוד שפה טבעית (NLP)
תחום שמטרתו ללמד מחשבים לעבד את מה שמשתמש אמר או הקליד באמצעות כללים לשוניים. כמעט כל עיבוד השפה הטבעי המודרני מבוסס על למידת מכונה.הבנת שפה טבעית (NLU)
קבוצת משנה של עיבוד שפה טבעית שמאפשרת לקבוע את הכוונות של משהו שנאמר או הקליד. הבנת שפה טבעית יכולה להתקדם מעבר לעיבוד שפה טבעית (NLP) ולקחת בחשבון היבטים מורכבים של שפה כמו הקשר, סרקזם ורגשות.
N-gram
רצף מסודר של N מילים. לדוגמה, truly madly הוא 2-gram. מכיוון שהסדר רלוונטי, madly truly הוא גרם דו-מילוני שונה מ-truly madly.
לא | השמות של סוג ה-n-gram הזה | דוגמאות |
---|---|---|
2 | שתי מילים ברצף (bigram) או שתי מילים (2-gram) | to go, go to, eat lunch, eat dinner |
3 | טריגרמ או 3-גרם | ate too much, three blind mice, the bell tolls |
4 | 4 גרם | walk in the park, dust in the wind, the boy ate lentils |
מודלים רבים של הבנת שפה טבעית מסתמכים על מילוני N-grams כדי לחזות את המילה הבאה שהמשתמש ידפיס או יגיד. לדוגמה, נניח שמשתמש הקליד three blind. מודל NLU שמבוסס על טריגרמות צפוי לחזות שהמשתמש ידפיס בשלב הבא את המילה mice.
בניגוד ל-n-grams, תיק מילים הוא קבוצה של מילים ללא סדר.
NLP
קיצור של עיבוד שפה טבעית.
NLU
קיצור של הבנת שפה טבעית.
אין תשובה נכונה אחת (NORA)
הנחיה עם כמה תשובות מתאימות. לדוגמה, להנחיה הבאה אין תשובה נכונה אחת:
Tell me a joke about elephants.
הערכה של הנחיות ללא תשובה נכונה יכולה להיות מאתגרת.
NORA
קיצור של אין תשובה נכונה אחת.
O
הנחיה חד-פעמית
הנחיה שמכילה דוגמה אחת שמראה איך מודל השפה הגדול צריך להגיב. לדוגמה, ההנחיה הבאה מכילה דוגמה אחת שמראה למודל שפה גדול איך לענות על שאילתה.
חלקים של הנחיה אחת | הערות |
---|---|
מהו המטבע הרשמי של המדינה שצוינה? | השאלה שעליה רוצים שה-LLM יענה. |
צרפת: EUR | דוגמה אחת. |
הודו: | השאילתה בפועל. |
הנחיה חד-פעמית לעומת המונחים הבאים:
P
כוונון יעיל בפרמטרים
קבוצה של שיטות לביצוע כוונון מדויק של מודל שפה גדול (PLM), בצורה יעילה יותר מביצוע כוונון מדויק מלא. בכוונון יעיל בפרמטרים, בדרך כלל מתבצעת התאמה אישית של פחות פרמטרים בהשוואה להתאמה אישית מלאה, אבל בדרך כלל נוצר מודל שפה גדול שמניב ביצועים טובים (או כמעט טובים) כמו של מודל שפה גדול שנוצר כתוצאה מהתאמה אישית מלאה.
השוואה בין כוונון יעיל בפרמטרים לבין:
כוונון יעיל בפרמטרים נקרא גם כוונון יעיל בפרמטרים.
צינור עיבוד נתונים
סוג של מודל מקבילי שבו העיבוד של המודל מחולק לשלבים עוקבים וכל שלב מבוצע במכשיר אחר. בזמן ששלב מסוים מעבד קבוצה אחת, השלב הקודם יכול לעבד את הקבוצה הבאה.
אפשר גם לעיין במאמר הדרכה מדורגת.
PLM
קיצור של מודל שפה שעבר אימון מראש.
קידוד מיקומי
שיטה להוספת מידע על המיקום של טוקן ברצף להטמעת הטוקן. מודלים של Transformer משתמשים בקידוד מיקומי כדי להבין טוב יותר את הקשר בין חלקים שונים ברצף.
הטמעה נפוצה של קידוד מיקומי מתבססת על פונקציה סינוסית. (בפרט, התדירות והמשרעת של הפונקציה הסינוסואידית נקבעות לפי המיקום של האסימון ברצף). הטכניקה הזו מאפשרת למודל Transformer ללמוד להתמקד בחלקים שונים של הרצף על סמך המיקום שלהם.
מודל לאחר אימון
מונח לא מוגדר במדויק שמתייחס בדרך כלל למודל שהודרן מראש שעבר עיבוד פוסט-טראיטמנט, כמו אחת או יותר מהפעולות הבאות:
דיוק ברמה k (precision@k)
מדד להערכת רשימה של פריטים (מסודרת) לפי דירוג. הדיוק ב-k מתייחס לחלק מהפריטים הראשונים ברשימה (k) שהם 'רלוונטיים'. כלומר:
\[\text{precision at k} = \frac{\text{relevant items in first k items of the list}} {\text{k}}\]
הערך של k חייב להיות קטן או שווה לאורך הרשימה שמוחזרת. שימו לב שאורך הרשימה שמוחזרת לא נכלל בחישוב.
הרלוונטיות היא לרוב סובייקטיבית, וגם בודקים אנושיים מומחים לא תמיד מסכימים על הפריטים הרלוונטיים.
השווה ל:
מודל שעבר אימון מראש
בדרך כלל, מודל שכבר אומן. המונח יכול גם להתייחס לוקטור הטמעה שעבר אימון קודם.
המונח מודל שפה שהודרן מראש מתייחס בדרך כלל למודל שפה גדול שכבר אומן.
אימון מקדים
האימון הראשוני של מודל על מערך נתונים גדול. חלק מהמודלים שהוכשרו מראש הם 'ענקים גמלוניים', ובדרך כלל צריך לשפר אותם באמצעות אימון נוסף. לדוגמה, מומחי למידת מכונה עשויים לאמן מראש מודל שפה גדול על מערך נתונים עצום של טקסט, כמו כל הדפים באנגלית בוויקיפדיה. אחרי האימון המקדים, אפשר לשפר את המודל שנוצר באמצעות אחת מהשיטות הבאות:
הנחיה
כל טקסט שמוזן כקלט למודל שפה גדול כדי לכוונן את המודל להתנהגות מסוימת. ההנחיות יכולות להיות קצרות כמו ביטוי או ארוכות ככל הצורך (לדוגמה, כל הטקסט של רומן). ההנחיות מחולקות לכמה קטגוריות, כולל אלה שמפורטות בטבלה הבאה:
קטגוריית ההנחיה | דוגמה | הערות |
---|---|---|
שאלה | מהי מהירות הטיסה של יונה? | |
הוראות | כתיבת שיר מצחיק על מיקסום רווחים. | הנחיה שמבקשת ממודל השפה הגדול לבצע משהו. |
דוגמה | תרגום קוד Markdown ל-HTML. לדוגמה:
Markdown: * פריט ברשימת HTML: <ul> <li>פריט ברשימת</li> </ul> |
המשפט הראשון בהנחיה הזו הוא הוראה. שאר ההנחיה היא הדוגמה. |
תפקיד | הסבר למה משתמשים בירידת שיפוע (gradient descent) באימון של למידת מכונה לצורך קבלת דוקטורט בפיזיקה. | החלק הראשון של המשפט הוא הוראה, והביטוי "לתואר דוקטור בפיזיקה" הוא החלק של התפקיד. |
קלט חלקי למודל להשלמה | ראש ממשלת בריטניה מתגורר בכתובת | הנחיה חלקית להזנת קלט יכולה להסתיים באופן פתאומי (כמו בדוגמה הזו) או להסתיים בקו תחתון. |
מודל של בינה מלאכותית גנרטיבית יכול להגיב להנחיה באמצעות טקסט, קוד, תמונות, מיקומים מוטמעים, סרטונים… כמעט כל דבר.
למידה מבוססת-הנחיה
יכולת של מודלים מסוימים שמאפשרת להם להתאים את ההתנהגות שלהם בתגובה לקלט טקסט שרירותי (הנחיות). בפרדיגמה רגילה של למידה מבוססת-הנחיה, מודל שפה גדול מגיב להנחיה על ידי יצירת טקסט. לדוגמה, נניח שמשתמש מזין את ההנחיה הבאה:
לסכם את חוק התנועה השלישי של ניוטון.
מודל שיכול ללמוד מבקשות לא עובר אימון ספציפי כדי לענות על ההנחיה הקודמת. במקום זאת, המודל 'יודע' הרבה עובדות על פיזיקה, הרבה על כללי שפה כלליים והרבה על מה שמהווה תשובות שימושיות באופן כללי. הידע הזה מספיק כדי לספק תשובה (מקווה) שימושית. משוב אנושי נוסף ('התשובה הזו הייתה מורכבת מדי' או 'מהי תגובה?') מאפשר לחלק ממערכות הלמידה שמבוססות על הנחיות לשפר בהדרגה את התועלת של התשובות שלהן.
עיצוב הנחיות
מילה נרדפת ל-הנדסת הנחיות.
הנדסת הנחיות
האמנות של יצירת הנחיות שמניבות את התשובות הרצויות ממודל שפה גדול. בני אדם מבצעים את תהליך הנדסת ההנחיות. כתיבת הנחיות עם מבנה טוב היא חלק חיוני כדי לקבל תשובות מועילות ממודל שפה גדול. תכנון ההנחיות תלוי בגורמים רבים, כולל:
- מערך הנתונים שמשמש לאימון מקדים ולעיתים גם לכוונון עדין של מודל השפה הגדול.
- הטמפרטורה ופרמטרים אחרים של פענוח שבהם המודל משתמש כדי ליצור תשובות.
מבוא לתכנון הנחיות – מידע נוסף על כתיבת הנחיות מועילות.
עיצוב הנחיות הוא מונח נרדף להנדסת הנחיות.
כוונון של הנחיות
מנגנון כוונון יעיל בפרמטרים שמלמד את המערכת להוסיף 'תחילית' להנחיה בפועל.
וריאציה אחת של התאמת ההנחיה – שנקראת לפעמים התאמת תחילית – היא הוספת התחילית לכל שכבה. לעומת זאת, רוב ההתאמות של ההנחיות מוסיפות רק קידומת לשכבת הקלט.
R
recall at k (recall@k)
מדד להערכת מערכות שמפיקות רשימה של פריטים (מסודרת) לפי דירוג. החזרה ב-k מזהה את החלק היחסי של הפריטים הרלוונטיים ב-k הפריטים הראשונים ברשימה הזו, מתוך המספר הכולל של הפריטים הרלוונטיים שהוחזרו.
\[\text{recall at k} = \frac{\text{relevant items in first k items of the list}} {\text{total number of relevant items in the list}}\]
בניגוד לדיוק ברמה k.
טקסט עזר
תשובה של מומחה להנחיה. לדוגמה, בהנחיה הבאה:
תרגום השאלה "What is your name?" מאנגלית לצרפתית.
התשובה של המומחה עשויה להיות:
Comment vous appelez-vous?
מדדים שונים (כמו ROUGE) מודדים את מידת ההתאמה של טקסט העזר לטקסט שנוצר של מודל ה-ML.
הצגת הנחיות לגבי התפקיד
חלק אופציונלי בהנחיה שמזהה את קהל היעד לתשובה של מודל AI גנרטיבי. ללא הנחיה לגבי תפקיד, מודל שפה גדול מספק תשובה שעשויה להיות או לא להיות שימושית לאדם ששואל את השאלות. בעזרת הנחיה לגבי תפקיד, מודל שפה גדול יכול להשיב בצורה שתהיה מתאימה ומועילה יותר לקהל יעד ספציפי. לדוגמה, החלק של הנחיות התפקיד בהנחיות הבאות מודגש:
- סיכום של המאמר הזה לקבלת דוקטורט בכלכלה.
- תארו את האופן שבו פועלות הגאות והשפל לילדים בני עשר.
- הסבר על המשבר הפיננסי של 2008. דברו כמו שאתם מדברים עם ילד קטן או עם גולדן רטריבר.
ROUGE (Recall-Oriented Understudy for Gisting Evaluation)
משפחה של מדדים שמאפשרים להעריך סיכומים אוטומטיים ומודלים של תרגום מכונה. מדדי ROUGE קובעים את מידת החפיפה בין טקסט העזר לבין טקסט שנוצר על ידי מודל ה-ML. כל אחד מהמדדים במשפחת ROUGE חופף לקודם בצורה שונה. ככל שציוני ROUGE גבוהים יותר, כך יש דמיון גדול יותר בין טקסט העזרה לטקסט שנוצר בהשוואה לציונים נמוכים יותר של ROUGE.
בדרך כלל, כל בן משפחה ב-ROUGE יוצר את המדדים הבאים:
- דיוק
- זכירות
- F1
לפרטים נוספים ולדוגמאות, אפשר לעיין במאמרים הבאים:
ROUGE-L
משפחה של מדדי ROUGE שמתמקדת באורך של רצף המשנה המשותף הארוך ביותר בטקסט העזר ובטקסט שנוצר. הנוסחאות הבאות מחשבות את הרגישות והדיוק של ROUGE-L:
לאחר מכן אפשר להשתמש ב-F1 כדי לקבץ את הרגישות של ROUGE-L ואת הדיוק של ROUGE-L למדד אחד:
ה-ROUGE-L מתעלם מכל שורות חדשות בטקסט העזרה ובטקסט שנוצר, כך שרצף המשנה הארוך ביותר יכול לחול על כמה משפטים. כשטקסט העזרה והטקסט שנוצר כוללים כמה משפטים, בדרך כלל מדד טוב יותר הוא וריאנט של ROUGE-L שנקרא ROUGE-Lsum. המדד ROUGE-Lsum קובע את רצף המשנה הארוך ביותר המשותף לכל משפט בפסקה, ולאחר מכן מחשב את הממוצע של רצפי המשנה הארוכים המשותפים האלה.
ROUGE-N
קבוצת מדדים במשפחת ROUGE שמשווים בין רצפי N-grams משותפים בגודל מסוים בטקסט העזר לבין טקסט שנוצר. לדוגמה:
- ROUGE-1 מודד את מספר האסימונים המשותפים בטקסט העזר ובטקסט שנוצר.
- ROUGE-2 מודד את מספר ביגרמים (2-גרמים) המשותפים בטקסט העזר ובטקסט שנוצר.
- ROUGE-3 מודד את מספר טריגרמות (3-גראמים) המשותפות בטקסט העזר ובטקסט שנוצר.
אפשר להשתמש בנוסחאות הבאות כדי לחשב את רמת החזרה (recall) ורמאת הדיוק (precision) של ROUGE-N לכל חבר במשפחת ROUGE-N:
לאחר מכן אפשר להשתמש ב-F1 כדי לקבץ את רמת החזרה (recall) של ROUGE-N ואת רמת הדיוק (precision) של ROUGE-N למדד אחד:
ROUGE-S
גרסה סלחנית של ROUGE-N שמאפשרת התאמה של skip-gram. כלומר, ב-ROUGE-N נספרות רק N-grams שתואמים בדיוק, אבל ב-ROUGE-S נספרות גם N-grams שמפרידות ביניהם מילה אחת או יותר. לדוגמה, שקול את הדברים הבאים:
- טקסט העזרה: עננים לבנים
- טקסט שנוצר: עננים לבנים ומתנפחים
כשמחשבים את ROUGE-N, ה-2-gram White clouds לא תואם ל-White billowing clouds. עם זאת, כשמחשבים את ROUGE-S, עננים לבנים תואם ל-עננים לבנים בוערים.
S
קשב עצמי (נקרא גם שכבת קשב עצמי)
שכבת רשת נוירונים שממירה רצף של הטמעות (למשל, הטמעות של אסימונים) לרצף אחר של הטמעות. כל הטמעה בסדרת הפלט נוצרת על ידי שילוב מידע מהרכיבים של סדרת הקלט באמצעות מנגנון תשומת לב.
החלק self ב-self-attention מתייחס לרצף שמתמקד בעצמו ולא בהקשר אחר כלשהו. הקשב העצמי הוא אחד מאבני הבניין העיקריות של טרנספורמרים, והוא משתמש במונחים של חיפוש במילון, כמו 'שאילתה', 'מפתח' ו'ערך'.
שכבת קשב עצמי מתחילה ברצף של ייצוגי קלט, אחד לכל מילה. ייצוג הקלט של מילה יכול להיות הטמעה פשוטה. לכל מילה ברצף הקלט, הרשת מעניקה ניקוד לרלוונטיות של המילה לכל רכיב ברצף המילים כולו. ציונים הרלוונטיות קובעים עד כמה הייצוג הסופי של המילה כולל את הייצוגים של מילים אחרות.
לדוגמה, נניח את המשפט הבא:
החיה לא חצתה את הרחוב כי היא הייתה עייפת מדי.
באיור הבא (מתוך Transformer: A Novel Neural Network Architecture for Language Understanding) מוצג דפוס תשומת הלב של שכבת תשומת הלב העצמית לשם העצם it, כאשר עוצמת החושך של כל שורה מציינת את מידת התרומה של כל מילה לייצוג:
שכבת הקשב העצמי מדגישה מילים שרלוונטיות ל-"it". במקרה הזה, שכבת תשומת הלב למדה להדגיש מילים שהיא עשויה להתייחס אליהן, והקצתה את המשקל הגבוה ביותר ל-animal.
ברצף של n אסימונים, התכונה 'תשומת לב עצמית' משפרת רצף של הטמעות (embeddings) n פעמים נפרדות, פעם אחת בכל מיקום ברצף.
כדאי לעיין גם במאמרים בנושא תשומת לב ותשומת לב עצמית עם כמה ראשים.
ניתוח סנטימנט
שימוש באלגוריתמים סטטיסטיים או באלגוריתמים של למידת מכונה כדי לקבוע את הגישה הכוללת של קבוצה כלשהי – חיובית או שלילית – כלפי שירות, מוצר, ארגון או נושא. לדוגמה, באמצעות הבנה של שפה טבעית, אלגוריתם יכול לבצע ניתוח סנטימנטים על המשוב הטקסטואלי מקורסים באוניברסיטה כדי לקבוע עד כמה התלמידים אהבו או לא אהבו את הקורס באופן כללי.
משימה מסוג 'רצף לרצף'
משימה שממירה רצף קלט של אסימונים לרצף פלט של אסימונים. לדוגמה, שני סוגים פופולריים של משימות 'רצף לרצף' הם:
- מתרגמים:
- דוגמה לרצף קלט: "אני אוהב אותך".
- רצף פלט לדוגמה: "Je t'aime".
- מענה לשאלות:
- רצף קלט לדוגמה: "Do I need my car in New York City?"
- דוגמה לרצף פלט: "No. Please keep your car at home".
skip-gram
n-gram שעשוי להשמיט (או "לדלג") מילים מההקשר המקורי, כלומר יכול להיות שהמילים N לא היו צמודות זו לזו במקור. באופן מדויק יותר, 'n-gram עם k דילוגים' הוא n-gram שעשויים להיות דילוגים של עד k מילים.
לדוגמה, במשפט "the quick brown fox" יש את ה-2-גרמים האפשריים הבאים:
- "the quick"
- "quick brown"
- "brown fox"
'1-skip-2-gram' הוא זוג מילים עם מילה אחת לכל היותר ביניהן. לכן, למונח "the quick brown fox" יש את ה-2-grams הבאים עם דילוג אחד:
- "the brown"
- "quick fox"
בנוסף, כל ה-2-grams הם גם 2-grams עם דילוג אחד, כי אי אפשר לדלג על פחות ממילה אחת.
מודלים של skip-gram מאפשרים להבין טוב יותר את ההקשר שמקיף מילה. בדוגמה, המילה 'fox' שויך ישירות למילה 'quick' בקבוצה של 2-grams עם דילוג אחד, אבל לא בקבוצה של 2-grams.
Skip-grams עוזרים לאמן מודלים של הטמעת מילים.
כוונון של הנחיות רכות
טכניקה לכוונון מודל שפה גדול למשימה מסוימת, בלי כוונון עדין שמבזבז משאבים. במקום לאמן מחדש את כל המשקלים במודל, התאמת ההנחיה הרכה משנה באופן אוטומטי את ההנחיה כדי להשיג את אותו יעד.
בהנחיית טקסט, בדרך כלל מתבצעת התאמה של ההנחיה באמצעות הטמעת טוקנים נוספים בהנחיה, ושימוש בהתפשטות לאחור (backpropagation) כדי לבצע אופטימיזציה של הקלט.
הנחיה 'קשה' מכילה טוקנים אמיתיים במקום הטמעות של טוקנים.
תכונה דלילה
מאפיין שהערכים שלו הם בעיקר אפס או ריקים. לדוגמה, מאפיין שמכיל ערך 1 יחיד ומיליון ערכים של 0 הוא דל. לעומת זאת, למאפיין צפוף יש ערכים שברובם לא אפס או ריקים.
בלמידת מכונה, מספר מפתיע של תכונות הן תכונות דלילות. תכונות קטגוריות הן בדרך כלל תכונות דלילות. לדוגמה, מתוך 300 מיני עצים אפשריים ביער, דוגמה אחת עשויה לזהות רק עץ מייפל. למשל, מתוך מיליוני הסרטונים האפשריים בספריית סרטונים, דוגמה אחת עשויה לזהות רק את 'קזבלנקה'.
במודל, בדרך כלל מייצגים תכונות דלילות באמצעות קידוד one-hot. אם קידוד ה-one-hot גדול, אפשר להוסיף שכבת הטמעה מעל קידוד ה-one-hot כדי לשפר את היעילות.
ייצוג דליל
אחסון רק את המיקומים של רכיבים שאינם אפס בתכונה דלילה.
לדוגמה, נניח שתכונה קטגורית בשם species
מזהה את 36 מיני העצים ביער מסוים. נניח גם שכל דוגמה מזהה רק מין אחד.
אפשר להשתמש בווקטור one-hot כדי לייצג את מיני העצים בכל דוגמה.
וקטור one-hot יכיל 1
יחיד (כדי לייצג את מין העץ הספציפי בדוגמה הזו) ו-35 ערכים של 0
(כדי לייצג את 35 מיני העצים שאינם בדוגמה הזו). לכן, הייצוג של maple
במצב one-hot עשוי להיראות כך:
לחלופין, ייצוג דליל פשוט יזהה את המיקום של המין הספציפי. אם maple
נמצא במיקום 24, הייצוג הדליל של maple
יהיה פשוט:
24
שימו לב שהייצוג הדליל קומפקטי הרבה יותר מהייצוג של ערכים חד-ממדיים.
אימון מדורג
טקטיקה לאימון מודל ברצף של שלבים נפרדים. המטרה יכולה להיות לזרז את תהליך האימון או לשפר את איכות המודל.
איור של הגישה של הערמה הדרגתית מוצג בהמשך:
- שלב 1 מכיל 3 שכבות סמויות, שלב 2 מכיל 6 שכבות סמויות ושלב 3 מכיל 12 שכבות סמויות.
- בשלב 2 מתחילים את האימון עם המשקלים שנלמדו ב-3 השכבות המוסתרות של שלב 1. בשלב 3 מתחילים את האימון עם המשקולות שנלמדו ב-6 השכבות המוסתרות של שלב 2.
אפשר לעיין גם במאמר בנושא צנרת עיבוד נתונים.
טוקן של מילה משנה
במודלים של שפה, אסימון שהוא מחרוזת משנה של מילה, שיכולה להיות המילה כולה.
לדוגמה, מילה כמו 'itemize' עשויה להתחלק לחלקים 'item' (מילה בסיס) ו-'ize' (סיומת), שכל אחד מהם מיוצג על ידי אסימון משלו. פיצול של מילים נדירות לחלקים כאלה, שנקראים מילים משנה, מאפשר למודלים של שפה לפעול על החלקים העיקריים הנפוצים יותר של המילה, כמו תחיליות וסיומת.
לעומת זאת, מילים נפוצות כמו 'going' לא יתפרקו ויכול להיות שהן יוצגו באמצעות אסימון יחיד.
T
T5
מודל של למידת העברה מ-טקסט לטקסט, שהוצג על ידי Google AI בשנת 2020. T5 הוא מודל מקודד-מפענח שמבוסס על הארכיטקטורה של Transformer, ומודרך על מערך נתונים גדול במיוחד. הוא יעיל במגוון משימות של עיבוד שפה טבעית (NLP), כמו יצירת טקסט, תרגום שפות וענות על שאלות בצורה שיחה.
השם T5 נגזר מחמש האותיות T במילים Text-to-Text Transfer Transformer (טרנספורמציה של העברה מטקסט לטקסט).
T5X
מסגרת למידת מכונה בקוד פתוח, שנועדה לפתח וללאמן מודלים של עיבוד שפה טבעית (NLP) בקנה מידה גדול. T5 מוטמע בקוד הבסיס של T5X (שבנוי על JAX ו-Flax).
טמפרטורה
פרמטר היפר שקובע את מידת הרנדומיזציה של הפלט של המודל. ככל שהטמפרטורה גבוהה יותר, התוצאה תהיה יותר אקראית, ואילו ככל שהטמפרטורה נמוכה יותר, התוצאה תהיה פחות אקראית.
בחירת הטמפרטורה הטובה ביותר תלויה באפליקציה הספציפית ובמאפיינים המועדפים של הפלט של המודל. לדוגמה, כדאי להגדיל את הטמפרטורה כשיוצרים אפליקציה שמפיקה נכסי קריאייטיב. לעומת זאת, כשיוצרים מודל לסיווג תמונות או טקסט, כדאי להוריד את הטמפרטורה כדי לשפר את הדיוק והעקביות של המודל.
לרוב משתמשים בטמפרטורה עם softmax.
קטע טקסט
טווח של אינדקס מערך שמשויך לקטע משנה ספציפי במחרוזת טקסט.
לדוגמה, המילה good
במחרוזת Python s="Be good now"
תופסת את טווח הטקסט מ-3 עד 6.
token
במודל שפה, היחידה האטומית שבה מתבצע אימון המודל והחיזויים. אסימון הוא בדרך כלל אחד מהפריטים הבאים:
- מילה – לדוגמה, הביטוי 'dogs like cats' מורכב משלושה אסימוני מילים: 'dogs', 'like' ו-'cats'.
- תו – לדוגמה, הביטוי 'bike fish' מורכב מתשעה אסימונים של תווים. (שימו לב שהרווח הריק נחשב לאחד האסימונים).
- מילים משנה – שבהן מילה אחת יכולה להיות אסימון אחד או כמה אסימונים. מילה משנה מורכבת ממילה בסיס, מקידומת או מסופן. לדוגמה, מודל שפה שמשתמש במילים משנה כאסימונים עשוי להתייחס למילה 'dogs' כשני אסימונים (מילת השורש 'dog' והסיומת לצורת הרבים 's'). אותו מודל שפה עשוי להתייחס למילה היחידה 'גבוה יותר' כשתי מילים משנה (מילת השורש 'גבוה' והסיומת ' יותר').
בדומיינים מחוץ למודלים של שפה, אסימונים יכולים לייצג סוגים אחרים של יחידות אטומיות. לדוגמה, בתכונה 'ראייה ממוחשבת', אסימון יכול להיות קבוצת משנה של תמונה.
דיוק Top-K
אחוז הפעמים ש'תווית היעד' מופיעה ב-k המיקומים הראשונים ברשימות שנוצרו. הרשימות יכולות להיות המלצות בהתאמה אישית או רשימה של פריטים שממוינים לפי softmax.
הדיוק של Top-k נקרא גם דיוק ב-k.
תוכן רעיל
מידת הפגיעה, האיום או הפגיעה בתוכן. יש הרבה מודלים של למידת מכונה שיכולים לזהות ולמדוד תכנים רעילים. רוב המודלים האלה מזהים רעילות לפי כמה פרמטרים, כמו רמת השפה הפוגענית ורמת השפה המאיימת.
Transformer
ארכיטקטורה של רשת עצבית שפותחה ב-Google, שמסתמכת על מנגנונים של התמקדות עצמית כדי להפוך רצף של הטמעות קלט לרצף של הטמעות פלט, בלי להסתמך על קונבולוציות או על רשתות עצביות חזרתיות. אפשר להתייחס ל-Transformer בתור סטאק של שכבות של קשב עצמי.
טרנספורמר יכול לכלול כל אחד מהרכיבים הבאים:
מקודד ממיר רצף של הטמעות (embeddings) לרצף חדש באורך זהה. מקודד כולל N שכבות זהות, שכל אחת מהן מכילה שתי שכבות משנה. שתי שכבות המשנה האלה חלות בכל מיקום של רצף הטמעת הקלט, ומעבירות כל רכיב ברצף לטמעה חדשה. שכבת המשנה הראשונה של המקודד אוספת מידע מכל רצף הקלט. שכבת המשנה השנייה של המקודד ממירה את המידע המצטבר להטמעת פלט.
מפענח ממיר רצף של הטמעות קלט לרצף של הטמעות פלט, אולי באורך שונה. מפענח כולל גם N שכבות זהות עם שלוש שכבות משנה, ששתיים מהן דומות לשכבות המשנה של המקודד. שכבת המשנה השלישית של המפענח מקבלת את הפלט של המקודד ומחילה את המנגנון של הקשב העצמי כדי לאסוף ממנו מידע.
בפוסט בבלוג Transformer: A Novel Neural Network Architecture for Language Understanding יש מבוא טוב לטרנספורמרים.
טריגרמ
N-gram שבו N=3.
U
חד-כיווני
מערכת שמעריכה רק את הטקסט שמקדים קטע יעד של טקסט. לעומת זאת, מערכת דו-כיוונית מעריכה גם את הטקסט שמקדים וגם את הטקסט שבא אחריו קטע יעד של טקסט. פרטים נוספים זמינים במאמר דו-כיווני.
מודל שפה חד-כיווני
מודל שפה שמבוסס את ההסתברויות שלו רק על אסימונים שמופיעים לפני, ולא אחרי, האסימונים של היעד. בניגוד למודל שפה דו-כיווני.
V
מקודד אוטומטי וריאציוני (VAE)
סוג של אוטו-קoder שמשתמש בפערים בין הקלט לפלט כדי ליצור גרסאות משופרות של הקלט. מקודדים אוטומטיים משתנים שימושיים בבינה מלאכותית גנרטיבית.
VAEs מבוססים על אינפורמציה וריאציונלית: טכניקה להערכת הפרמטרים של מודל הסתברות.
W
הטמעת מילה
ייצוג של כל מילה בקבוצת מילים בוקטור הטמעה, כלומר ייצוג של כל מילה כוקטור של ערכים בנקודה צפה בין 0.0 ל-1.0. למילים עם משמעויות דומות יש ייצוגים דומים יותר מאשר למילים עם משמעויות שונות. לדוגמה, לגזרים, לסלרי ולמלפפונים יהיו ייצוגים דומים יחסית, שיהיה שונה מאוד מהייצוגים של מטוס, משקפי שמש ומשחת שיניים.
Z
הנחיה ישירה (Zero-shot)
הנחיה שלא כוללת דוגמה לאופן שבו אתם רוצים שמודל השפה הגדול יגיב. לדוגמה:
חלקים של הנחיה אחת | הערות |
---|---|
מהו המטבע הרשמי של המדינה שצוינה? | השאלה שעליה רוצים שה-LLM יענה. |
הודו: | השאילתה בפועל. |
מודל השפה הגדול עשוי להשיב באחת מהאפשרויות הבאות:
- רופיות
- INR
- ₹
- רופי הודי
- הרופי
- הרופי ההודי
כל התשובות נכונות, אבל יכול להיות שתעדיפו פורמט מסוים.
השוואה בין הנחיה ללא טירגוט לבין המונחים הבאים: