דף זה תורגם על ידי Cloud Translation API.

מילון מונחים ללמידת מכונה: הערכת שפה

הדף הזה מכיל מונחים ממילון של הערכת השפה. כאן מפורטות כל ההגדרות במילון.

A

תשומת הלב,

#language

מנגנון שמשמש ברשת נוירונים ומציין את החשיבות של מילה מסוימת או של חלק ממילה. תשומת הלב מצמצמת את כמות המידע שהמודל צריך כדי לחזות את האסימון או המילה הבאים. מנגנון תשומת לב אופייני עשוי להכיל סכום משוקלל של קבוצת מקורות קלט, כאשר המשקל של כל מקור קלט מחושב על ידי חלק אחר של רשת העצבים.

מומלץ לעיין גם במאמרים בנושא תשומת לב עצמית ותשומת לב עצמית עם כמה ראשים, שהם אבני הבניין של טרנספורמרים.

מידע נוסף על התכונה 'תשומת לב עצמית' זמין במאמר LLMs: What's a large language model? בקורס למתחילים בנושא למידת מכונה.

אוטו-קונדרטור

#language

#image

מערכת שמלמדת לחלץ את המידע החשוב ביותר מהקלט. אוטו-קונדים הם שילוב של מקודד ומפענח. אוטו-קונדים מסתמכים על התהליך הדו-שלבי הבא:

המקודד ממפה את הקלט לפורמט (בדרך כלל) עם אובדן נתונים (לא איכותי) בעל ממדים נמוכים יותר (פורמט ביניים).
המפענח יוצר גרסה עם אובדן נתונים של הקלט המקורי על ידי מיפוי של הפורמט בעל המאפיינים הנמוכים יותר לפורמט הקלט המקורי בעל המאפיינים הגבוהים יותר.

מקודדים אוטומטיים עוברים אימון מקצה לקצה, כך שהפעמקוד מנסה לשחזר את הקלט המקורי מהפורמט הביניים של המקודד בצורה הקרובה ביותר האפשרית. מכיוון שהפורמט הביניים קטן יותר (בממדים נמוכים יותר) מהפורמט המקורי, האוטו-קונדרטור נאלץ ללמוד איזה מידע בקלט חיוני, והפלט לא יהיה זהה לחלוטין לקלט.

לדוגמה:

אם נתוני הקלט הם גרפיקה, העותק הלא מדויק יהיה דומה לגרפיקה המקורית, אבל ישתנה במידה מסוימת. יכול להיות שהעותק הלא מדויק מסיר רעש מהגרפיקה המקורית או ממלא פיקסלים חסרים.
אם נתוני הקלט הם טקסט, אוטו-קונדר יוצר טקסט חדש שמחקה את הטקסט המקורי (אבל לא זהה לו).

אפשר לעיין גם במאמר בנושא מקודדים אוטומטיים וריאציוניים (VAE).

הערכה אוטומטית

#language

#generativeAI

שימוש בתוכנה כדי לשפוט את איכות הפלט של מודל.

כשפלט המודל פשוט יחסית, אפשר להשתמש בסקריפט או בתוכנית כדי להשוות את הפלט של המודל לתשובה מושלמת. סוג ההערכה האוטומטי הזה נקרא לפעמים הערכה פרוגרמטית. מדדים כמו ROUGE או BLEU הם לרוב שימושיים להערכה פרוגרמטית.

כשפלט המודל מורכב או שאין לו תשובה נכונה אחת, לפעמים תוכנית למידת מכונה נפרדת שנקראת מעריך אוטומטי מבצעת את ההערכה האוטומטית.

בניגוד לבדיקה אנושית.

הערכה של המערכת האוטומטית

#language

#generativeAI

מנגנון היברידי לשיפוט האיכות של הפלט של מודל AI גנרטיבי, שמשלב הערכה אנושית עם הערכה אוטומטית. מערכת הערכה אוטומטית היא מודל למידת מכונה (ML) שמתאמן על נתונים שנוצרו על ידי הערכה אנושית. באופן אידיאלי, המערכת האוטומטית לניקוד לומדת לחקות את הבודק האנושי.

יש מודלים מוכנים מראש של מודלים אוטומטיים, אבל המודלים האוטומטיים הטובים ביותר מותאמים במיוחד למשימה שאתם מעריכים.

מודל אוטו-רגרסיבי

#language

#image

#generativeAI

מודל שמסיק חיזוי על סמך החיזויים הקודמים שלו. לדוגמה, מודלים של שפה חזרהית חוזים את האסימון הבא על סמך האסימונים שחזו קודם. כל המודלים הגדולים של השפה שמבוססים על Transformer הם אוטו-רגרסיביים.

לעומת זאת, מודלים של תמונות שמבוססים על GAN הם בדרך כלל לא רגרסיביים אוטומטיים, כי הם יוצרים תמונה בפעולה קדימה אחת ולא באופן איטרטיבי בשלבים. עם זאת, מודלים מסוימים ליצירת תמונות הם מודלים רגרסיביים אוטומטיים כי הם יוצרים תמונה בשלבים.

דיוק ממוצע ב-k

#language

מדד שמסכם את הביצועים של מודל בהנחיה אחת, שמניבה תוצאות מדורגות, כמו רשימה ממוספרת של המלצות לספרים. רמת הדיוק הממוצעת ב-k היא הממוצע של ערכי רמת הדיוק ב-k לכל תוצאה רלוונטית. לכן, הנוסחה לחישוב הדיוק הממוצע ב-k היא:

\[{\text{average precision at k}} = \frac{1}{n} \sum_{i=1}^n {\text{precision at k for each relevant item} } \]

כאשר:

$n$ הוא מספר הפריטים הרלוונטיים ברשימה.

בניגוד להחזרה למצב הקודם ב-k.

לוחצים על הסמל כדי לראות דוגמה

נניח שמודל שפה גדול מקבל את השאילתה הבאה:

List the 6 funniest movies of all time in order.

ומודל השפה הגדול מחזיר את הרשימה הבאה:

The General
Mean Girls
Platoon
שושבינות
Citizen Kane
This is Spinal Tap

ארבעה מהסרטים ברשימה שהתקבלה מצחיקים מאוד (כלומר, הם רלוונטיים), אבל שני סרטים הם דרמות (לא רלוונטיים). התוצאות מפורטות בטבלה הבאה:

מיקום	סרט	רלוונטי?	דיוק ב-k
1	The General	כן	1.0
2	Mean Girls	כן	1.0
3	Platoon	לא	לא רלוונטי
4	שושבינות	כן	0.75
5	Citizen Kane	לא	לא רלוונטי
6	This is Spinal Tap	כן	0.67

מספר התוצאות הרלוונטיות הוא 4. לכן, אפשר לחשב את רמת הדיוק הממוצעת ב-6 באופן הבא:

$${\text{average precision at 6}} = \frac{1}{4} {\text{(1.0 + 1.0 + 0.75 + 0.67)} } $$ $${\text{average precision at 6}} = {\text{~0.85} } $$

B

תיק מילים

#language

ייצוג של המילים בביטוי או בפסקה, ללא קשר לסדר. לדוגמה, תיקיית מילים מייצגת את שלושת הביטויים הבאים באופן זהה:

הכלב קופץ
קופץ על הכלב
כלב קופץ

כל מילה ממופה לאינדקס בוקטור דליל, שבו לכל מילה באוצר המילים יש אינדקס. לדוגמה, הביטוי the dog jumps ממופה למילת וקטור של מאפיינים עם ערכים שונים מאפס בשלושת המדדים התואמים למילים the,‏ dog ו-jumps. הערך שאינו אפס יכול להיות כל אחד מהערכים הבאים:

1 כדי לציין את נוכחות המילה.
ספירה של מספר הפעמים שמילה מופיעה בתיק. לדוגמה, אם הביטוי היה the maroon dog is a dog with maroon fur, גם maroon וגם dog יצוינו בספרה 2, והמילים האחרות יצוינו בספרה 1.
ערך אחר כלשהו, כמו הלוגריתם של מספר הפעמים שמילה מופיעה בתיק.

BERT (ייצוגים דו-כיווניים של מקודד מטרנספורמרים)

#language

ארכיטקטורת מודל לייצוג של טקסט. מודל BERT מאומן יכול לשמש כחלק ממודל גדול יותר לסיווג טקסט או למשימות אחרות של למידת מכונה.

ל-BERT יש את המאפיינים הבאים:

מבוסס על הארכיטקטורה של Transformer, ולכן מסתמך על תשומת לב עצמית.
משתמש בחלק של המקודד בטרנספורמר. תפקיד המקודד הוא ליצור ייצוגים טובים של טקסט, ולא לבצע משימה ספציפית כמו סיווג.
דו-כיווני.
שימוש באנונימיזציה לצורך אימון ללא הדרכה.

הווריאציות של BERT כוללות:

ALBERT, שהוא ראשי תיבות של A Light BERT.
LaBSE.

Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing (העברת BERT לקוד פתוח: אימון מקדים מתקדם לעיבוד שפה טבעית) – סקירה כללית על BERT.

דו-כיווני

#language

מונח שמתאר מערכת שמעריכה את הטקסט לפני וגם אחרי קטע טקסט יעד. לעומת זאת, מערכת חד-כיוונית מעריכה רק את הטקסט שמקדים לקטע היעד בטקסט.

לדוגמה, נניח שיש מודל שפה מוצפן שצריך לקבוע את ההסתברויות למילה או למילים שמייצגות את הקו התחתון בשאלה הבאה:

מה הבעיה שלך בנושא _____?

מודל שפה חד-כיווני יצטרך לבסס את ההסתברויות שלו רק על ההקשר שמספקות המילים 'מה', 'הוא' ו'ה'. לעומת זאת, מודל שפה דו-כיווני יכול לקבל הקשר גם מהמילים 'עם' ו'את/ה', וכך לעזור למודל ליצור תחזיות טובות יותר.

מודל שפה דו-כיווני

#language

מודל שפה שמאפשר לקבוע את הסבירות לאסימון נתון במיקום נתון בקטע טקסט, על סמך הטקסט הקודם והבא.

bigram

#seq

#language

N-gram שבו N=2.

BLEU (Bilingual Evaluation Understudy)

#language

מדד בין 0.0 ל-1.0 להערכת תרגומים של מכונה, לדוגמה, מספרדית ליפנית.

כדי לחשב את הדירוג, בדרך כלל נעשה שימוש ב-BLEU כדי להשוות בין התרגום של מודל ה-ML (טקסט שנוצר) לבין התרגום של מומחה אנושי (טקסט העזר). מידת ההתאמה של N-grams בטקסט שנוצר ובטקסט העזרה קובעת את ציון BLEU.

המאמר המקורי בנושא המדד הזה הוא BLEU: a Method for Automatic Evaluation of Machine Translation.

אפשר לעיין גם במאמר BLEURT.

BLEURT‏ (Bilingual Evaluation Understudy from Transformers)

#language

מדד להערכת תרגומי מכונה משפה אחת לאחרת, במיוחד מאנגלית ומאנגלית.

בתרגומים מאנגלית ומאנגלית, BLEURT תואם יותר לדירוגים של בני אדם מאשר BLEU. בניגוד ל-BLEU, ה-BLEURT מדגיש את הדמיון הסמנטי (המשמעותי) ויכול להתאים לניסוח מחדש.

BLEURT מבוסס על מודל שפה גדול (LLM) שעבר אימון מראש (למעשה, BERT), שעבר כוונון מדויק על סמך טקסט מתרגמים אנושיים.

המאמר המקורי בנושא המדד הזה הוא BLEURT: Learning Robust Metrics for Text Generation.

C

מודל שפה סיבתי

#language

מונח נרדף למודל שפה חד-כיווני.

במאמר מודל שפה דו-כיווני מוסבר על ההבדל בין גישות שונות למודלים של שפה.

הנחיות בטכניקת שרשרת מחשבה

#language

#generativeAI

טכניקה של הנדסת הנחיות שמעודדת מודל שפה גדול (LLM) להסביר את התהליך של המסקנות שלו, שלב אחרי שלב. לדוגמה, הנה הנחיה לדוגמה, שימו לב במיוחד למשפט השני:

כמה כוחות גרביטציה (G) יפעלו על הנהג ברכב שנוסע מ-0 ל-96 קמ"ש תוך 7 שניות? בתשובה, צריך להציג את כל החישובים הרלוונטיים.

התשובה של ה-LLM תהיה ככל הנראה:

הצגת רצף של נוסחאות פיזיקה, עם הכנסת הערכים 0,‏ 60 ו-7 במקומות המתאימים.
הסבירו למה המערכת בחרה את הנוסחאות האלה ומה המשמעות של המשתנים השונים.

הנחיות לגבי שרשרת המחשבות מאלצות את ה-LLM לבצע את כל החישובים, מה שעלול להוביל לתשובה נכונה יותר. בנוסף, ההנחיות של שרשרת המחשבות מאפשרות למשתמש לבדוק את השלבים של LLM כדי לקבוע אם התשובה הגיונית.

צ'אט, צ'ט, צאט, צט

#language

#generativeAI

התוכן של דיאלוג הדדי עם מערכת למידת מכונה, בדרך כלל מודל שפה גדול. האינטראקציה הקודמת בצ'אט (מה שהקלדתם ואיך מודל השפה הגדול הגיב) הופכת להקשר לחלקים הבאים בצ'אט.

צ'אט בוט הוא יישום של מודל שפה גדול.

סיפורים

#language

מילה נרדפת ל-hallucination.

כנראה שהמונח 'הזיה' מדויק יותר מבחינה טכנית מ'הזיה'. עם זאת, ההזיה הפכה לפופולרית קודם.

ניתוח של מחוזות בחירה

#language

חלוקת משפט למבנים דקדוקיים קטנים יותר ('רכיבים'). חלק מאוחר יותר במערכת ה-ML, כמו מודל של הבנת שפה טבעית, יכול לנתח את הרכיבים בקלות רבה יותר מאשר את המשפט המקורי. לדוגמה, המשפט הבא:

חברתי אימצה שני חתולים.

מנתח משפטים יכול לחלק את המשפט הזה לשני הרכיבים הבאים:

החבר שלי הוא ביטוי שם.
אימצה שני חתולים הוא ביטוי פועל.

אפשר לחלק את הרכיבים האלה לרכיבים קטנים יותר. לדוגמה, ביטוי הפועל

אימצו שני חתולים

ניתן לחלק אותם לקטגוריות נוספות:

adopted הוא פועל.
שני חתולים הוא ביטוי נוסף של שם עצם.

הטמעת שפה בהקשר

#language

#generativeAI

הטמעה שמגיעה למצב של 'הבנה' של מילים וביטויים באופן שדוברי שפת אם יכולים. הטמעות של שפה בהקשר יכולות להבין תחביר, סמנטיקה והקשר מורכבים.

לדוגמה, ניקח את הטמעות המילים של המילה האנגלית cow. הטמעות ישנות יותר, כמו word2vec, יכולות לייצג מילים באנגלית כך שהמרחק במרחב ההטמעה מ-cow ל-bull דומה למרחק מ-ewe (כבשה) ל-ram (איל) או מ-female ל-male. הטמעת שפה בהקשר יכולה להתקדם צעד נוסף על ידי זיהוי שלפעמים דוברי אנגלית משתמשים במילה cow באופן לא רשמי כדי לציין פרה או שור.

חלון ההקשר

#language

#generativeAI

מספר האסימונים שהמודל יכול לעבד בהנחיה נתונה. ככל שחלון ההקשר גדול יותר, כך המודל יכול להשתמש במידע רב יותר כדי לספק תשובות עקביות ועוצמתיות להנחיה.

פריחה של קריסה

#language

משפט או ביטוי עם משמעות לא ברורה. 'פריחת תאונות' היא בעיה משמעותית בהבנת שפה טבעית. לדוגמה, הכותרת Red Tape Holds Up Skyscraper היא 'פרח פגום' כי מודל NLU יכול לפרש את הכותרת באופן מילולי או מטאפורי.

לוחצים על הסמל כדי להוסיף הערות.

רק כדי להבהיר את הכותרת המסתורית הזו:

ביורוקרטיה יכולה להתייחס לאחת מהאפשרויות הבאות:
- דבק
- בירוקרטיה מוגזמת
Holds Up יכול להתייחס לאחת מהאפשרויות הבאות:
- תמיכה מבנית
- עיכובים

D

מפענח

#language

באופן כללי, כל מערכת למידת מכונה שממירה ייצוג מעובד, צפוף או פנימי לייצוג גולמי, דל או חיצוני יותר.

פעמים רבות מפענחים הם רכיב של מודל גדול יותר, שבו הם מותאמים לרוב למקודד.

במשימות מסוג רצף לרצף, המפענח מתחיל מהמצב הפנימי שנוצר על ידי המקודד כדי לחזות את הרצף הבא.

ההגדרה של מפענח בארכיטקטורה של טרנפורמר מפורטת במאמר Transformer.

למידע נוסף, אפשר לקרוא את המאמר מודלים גדולים של שפה בקורס המקוצר על למידת מכונה.

הסרת רעשי רקע

#language

גישה נפוצה ללמידה בלתי מונחית:

רעש מתווסף באופן מלאכותי למערך הנתונים.
המודל מנסה להסיר את הרעש.

הסרת הרעש מאפשרת ללמוד מדוגמאות ללא תוויות. מערך הנתונים המקורי משמש כיעד או תווית, והנתונים עם הרעש משמשים כקלט.

בחלק ממודלים של שפה עם מסכה נעשה שימוש בניטרול רעשי רקע באופן הבא:

כדי להוסיף רעש באופן מלאכותי למשפט ללא תווית, מסתירים חלק מהאסימונים.
המודל מנסה לחזות את האסימונים המקוריים.

הנחיה ישירה

#language

#generativeAI

מילה נרדפת להנחיה ישירה (Zero-shot).

E

edit distance

#language

מדידה של מידת הדמיון בין שתי מחרוזות טקסט. בלמידת מכונה, מרחק העריכה שימושי מהסיבות הבאות:

קל לחשב את מרחק העריכה.
אפשר להשתמש במרחק העריכה כדי להשוות בין שתי מחרוזות שידוע שהן דומות זו לזו.
מרחק העריכה יכול לקבוע את מידת הדמיון בין מחרוזות שונות למחרוזת נתונה.

יש כמה הגדרות של מרחק עריכה, וכל אחת מהן משתמשת בפעולות שונות על מחרוזות. דוגמה לכך מופיעה בקטע מרחק Levenshtein.

שכבת הטמעה

#language

#fundamentals

שכבה מוסתרת מיוחדת שמתאמנה על מאפיין קטגוריאלי בעל מאפיינים רבים, כדי ללמוד בהדרגה וקטור הטמעה בעל מאפיינים פחותים. שכבת הטמעה מאפשרת לרשת נוירונים להתאמן בצורה יעילה הרבה יותר מאשר אימון רק על התכונה הקטגורית בעלת המאפיינים המרובים.

לדוגמה, נכון לעכשיו יש ב-Earth תמיכה בכ-73,000 מינים של עצים. נניח שסוג העץ הוא מאפיין במודל, כך ששכבת הקלט של המודל כוללת וקטור one-hot באורך 73,000 רכיבים. לדוגמה, יכול להיות ש-baobab יוצג כך:

מערך של 73,000 רכיבים. ב-6,232 הרכיבים הראשונים מופיע הערך 0. הרכיב הבא מכיל את הערך 1. 66,767 האלמנטים האחרונים מכילים את הערך אפס.

מערך של 73,000 רכיבים הוא ארוך מאוד. אם לא מוסיפים שכבת הטמעה למודל, תהליך האימון יהיה מאוד ממושך בגלל הכפלה של 72,999 אפסים. אולי בחרתם שכבת הטמעה שתכלול 12 מאפיינים. כתוצאה מכך, שכבת ההטמעה תלמד בהדרגה וקטור הטמעה חדש לכל מין עץ.

במצבים מסוימים, גיבוב הוא חלופה סבירה לשכבת הטמעה.

מידע נוסף זמין בקטע הטמעות (Embeddings) בקורס המקוצר על למידת מכונה.

מרחב הטמעה

#language

מרחב וקטורי בעל d ממדים שאליו ממופה המאפיין ממרחב וקטורי בעל ממדים גבוהים יותר. באופן אידיאלי, מרחב ההטמעה מכיל מבנה שמניב תוצאות מתמטיות משמעותיות. לדוגמה, במרחב הטמעה אידיאלי, אפשר לפתור משימות של אנלוגיות בין מילים באמצעות חיבור וחיסור של הטמעות.

המכפלה הפנימית של שני הטמעות היא מדד הדמיון ביניהן.

וקטור הטמעה

#language

באופן כללי, מערך של מספרים בנקודה צפה שנלקחים מכל שכבה מוסתרת שמתארים את הקלט לשכבה המוסתרת הזו. לרוב, וקטור הטמעה הוא מערך של מספרים עם נקודה צפה (float) שהוכשרו בשכבת הטמעה. לדוגמה, נניח ששכבת הטמעה חייבת ללמוד ווקטור הטמעה לכל אחד מ-73,000 מיני העצים בעולם. יכול להיות שהמערך הבא הוא וקטור ההטמעה של עץ באובב:

מערך של 12 רכיבים, שכל אחד מהם מכיל מספר נקודה צפה (floating-point) בין 0.0 ל-1.0.

וקטור הטמעה הוא לא קבוצה של מספרים אקראיים. שכבת הטמעה (embedding) קובעת את הערכים האלה באמצעות אימון, בדומה לאופן שבו רשת עצבית לומדת משקלים אחרים במהלך האימון. כל רכיב במערך הוא דירוג של מאפיין כלשהו של מין עץ. איזה רכיב מייצג את המאפיין של איזה מין עץ? קשה מאוד לבני אדם לקבוע זאת.

החלק המדהים מבחינה מתמטית של וקטור הטמעה הוא שלפריטים דומים יש קבוצות דומות של מספרים עם נקודה צפה. לדוגמה, למינים דומים של עצים יש קבוצה דומה יותר של מספרים בספרות עשרוניות מאשר למינים שונים של עצים. עצי סקויה ועצי סקויה אדומה הם זני עצים קשורים, ולכן הם יהיו בעלי קבוצה דומה יותר של מספרים עם נקודה צפה מאשר עצי סקויה ודקלים. המספרים בוקטור ההטמעה ישתנו בכל פעם שתתאמנו מחדש את המודל, גם אם תתאמנו אותו מחדש עם קלט זהה.

מקודד

#language

באופן כללי, כל מערכת למידת מכונה שממירה ייצוג גולמי, דליל או חיצוני לייצוג מעובד יותר, צפוף יותר או פנימי יותר.

מקודדים הם לרוב רכיב של מודל גדול יותר, שבו הם מותאמים לעיתים קרובות למפענח. חלק מהטרנספורמרים מתאימים מקודדים למפענחים, אבל טרנספורמרים אחרים משתמשים רק במקודד או רק במפענח.

במערכות מסוימות, הפלט של המקודד משמש כקלט לרשת סיווג או רשת רגרסיה.

במשימות מסוג רצף לרצף, מקודד מקבל רצף קלט ומחזיר מצב פנימי (וקטור). לאחר מכן, המפענח משתמש במצב הפנימי הזה כדי לחזות את הרצף הבא.

אפשר לעיין במאמר Transformer כדי לקרוא את ההגדרה של מקודד בארכיטקטורה של טרנספורמרים.

למידע נוסף, אפשר לקרוא את המאמר LLMs: What's a large language model בקורס המקוצר על למידת מכונה.

evals

#language

#generativeAI

משמש בעיקר כקיצור של הערכות LLM. באופן כללי, evals היא קיצור של כל סוג של בדיקה.

הערכה

#language

#generativeAI

התהליך של מדידת האיכות של מודל או השוואה בין מודלים שונים.

כדי להעריך מודל של למידת מכונה מבוקרת, בדרך כלל משווים אותו לקבוצת אימות ולקבוצת בדיקה. הערכת LLM כוללת בדרך כלל הערכות רחבות יותר של איכות ובטיחות.

F

הנחיה עם כמה דוגמאות (Few-shot)

#language

#generativeAI

הנחיה שמכילה יותר מדוגמה אחת ('כמה' דוגמאות) שממחישות איך מודל השפה הגדול צריך להשיב. לדוגמה, ההנחיה הארוכה הבאה מכילה שתי דוגמאות שמראות למודל שפה גדול איך לענות על שאילתה.

חלקים של הנחיה אחת	הערות
`מהו המטבע הרשמי של המדינה שצוינה?`	השאלה שעליה רוצים שה-LLM יענה.
`צרפת: EUR`	דוגמה אחת.
`בריטניה: GBP`	דוגמה נוספת.
`הודו:`	השאילתה בפועל.

בדרך כלל, תוצאות של פרומפטים ל-Few-shot טובות יותר מתוצאות של פרומפטים ל-Zero-shot ושל פרומפטים ל-One-shot. עם זאת, כדי להשתמש בהנחיות עם כמה דוגמאות צריך להשתמש בהנחיה ארוכה יותר.

הנחיה עם כמה דוגמאות (Few-shot) היא סוג של למידה מבוססת-דוגמאות שמופעלת בלמידה מבוססת-הנחיה.

מידע נוסף זמין בקטע הנדסת הנחיות בקורס המקוצר על למידת מכונה.

Fiddle

#language

ספריית הגדרות מבוססת-Python שמגדירה את הערכים של פונקציות וכיתות ללא קוד או תשתית פולשניים. במקרה של Pax – ושל מערכות קוד אחרות של למידת מכונה – הפונקציות והכיתות האלה מייצגות מודלים ופרמטרים היפר-מרחביים של אימון.

Fiddle מתייחס לקוד של למידת מכונה כאל קוד שמחולק בדרך כלל לקטעים הבאים:

קוד הספרייה שמגדיר את השכבות ואת האופטימיזציות.
קוד 'דבק' של מערך נתונים, שמפעיל את הספריות ומחבר את הכול.

Fiddle מתעד את מבנה הקריאה של קוד הדבקה בצורה שלא נבדקה וניתנת לשינוי.

כוונון עדין

#language

#image

#generativeAI

סבב אימון שני ספציפי למשימה, שמתבצע במודל שעבר אימון מראש כדי לשפר את הפרמטרים שלו לצורך תרחיש לדוגמה ספציפי. לדוגמה, רצף האימון המלא של חלק ממודלים גדולים של שפה הוא:

אימון מראש: אימון מודל גדול של שפה על מערך נתונים כללי עצום, כמו כל הדפים של ויקיפדיה באנגלית.
התאמה אישית: אימון המודל שעבר אימון מראש לביצוע משימה ספציפית, כמו מענה לשאילתות רפואיות. תהליך השיפור בדרך כלל כולל מאות או אלפי דוגמאות שמתמקדות במשימה הספציפית.

דוגמה נוספת: רצף האימון המלא של מודל תמונה גדול הוא:

אימון מראש: אימון מודל תמונות גדול על קבוצת נתונים כללית גדולה של תמונות, כמו כל התמונות ב-Wikimedia Commons.
התאמה אישית: אימון המודל שעבר אימון מראש לביצוע משימה ספציפית, כמו יצירת תמונות של אורקות.

השיפור יכול לכלול כל שילוב של השיטות הבאות:

שינוי כל הפרמטרים הקיימים של המודל שעבר אימון מראש. התהליך הזה נקרא לפעמים כוונון מדויק מלא.
שינוי של חלק מהפרמטרים הקיימים של המודל המאומן מראש (בדרך כלל השכבות הקרובות ביותר לשכבת הפלט), תוך שמירה על הפרמטרים הקיימים האחרים ללא שינוי (בדרך כלל השכבות הקרובות ביותר לשכבת הקלט). כוונון יעיל בפרמטרים
הוספת עוד שכבות, בדרך כלל מעל השכבות הקיימות הקרובות ביותר לשכבת הפלט.

כוונון עדין הוא סוג של למידה באמצעות העברה. לכן, יכול להיות שבתהליך השיפור המדויק של המודל נעשה שימוש בפונקציית אובדן או בסוג מודל שונים מאלה שבהם נעשה שימוש לאימון המודל שעבר אימון מקדים. לדוגמה, אפשר לשפר מודל תמונה גדול שעבר אימון מראש כדי ליצור מודל רגרסיה שמחזיר את מספר הציפורים בתמונה קלט.

השוואה וניגוד בין כוונון מדויק לבין המונחים הבאים:

זיקוק
למידה מבוססת-הנחיה

מידע נוסף זמין בקטע התאמה אישית במאמר קורס מקוצר על למידת מכונה.

פשתן

#language

ספרייה בקוד פתוח עם ביצועים גבוהים ללמידת עומק, שמבוססת על JAX. Flax מספק פונקציות לאימון של רשתות נוירונליות, וגם שיטות להערכת הביצועים שלהן.

Flaxformer

#language

ספריית Transformer בקוד פתוח, שמבוססת על Flax. היא מיועדת בעיקר לעיבוד שפה טבעית ולמחקר רב-מודלי.

G

Gemini

#language

#image

#generativeAI

הסביבה העסקית שמכילה את ה-AI המתקדם ביותר של Google. רכיבים במערכת האקולוגית הזו כוללים:

מודלים שונים של Gemini.
ממשק השיחה האינטראקטיבי למודל Gemini. המשתמשים מקלידים הנחיות ו-Gemini משיב להנחיות האלה.
ממשקי Gemini API שונים.
מוצרים עסקיים שונים שמבוססים על מודלים של Gemini, למשל Gemini ל-Google Cloud.

מודלים של Gemini

#language

#image

#generativeAI

מודלים מולטימודאליים מבוססי Transformer מתקדמים של Google. המודלים של Gemini תוכננו במיוחד לשילוב עם סוכנים.

המשתמשים יכולים לקיים אינטראקציה עם מודלים של Gemini במגוון דרכים, כולל באמצעות ממשק אינטראקטיבי של תיבת דו-שיח דרך ערכות SDK.

טקסט שנוצר

#language

#generativeAI

באופן כללי, הטקסט שמופק על ידי מודל למידת מכונה. כשבודקים מודלים גדולים של שפה, חלק מהמדדים משווים בין הטקסט שנוצר לבין טקסט עזר. לדוגמה, נניח שאתם מנסים לקבוע את מידת היעילות של מודל למידת מכונה בתרגום מצרפתית להולנדית. במקרה זה:

הטקסט שנוצר הוא התרגום ההולנדי שמופק על ידי מודל ה-ML.
טקסט העזר הוא התרגום ההולנדי שנוצר על ידי מתרגם אנושי (או תוכנה).

חשוב לזכור שחלק משיטות ההערכה לא כוללות טקסט עזר.

בינה מלאכותית גנרטיבית

#language

#image

#generativeAI

תחום מתפתח של טרנספורמציה ללא הגדרה רשמית. עם זאת, רוב המומחים מסכימים שמודלים של AI גנרטיבי יכולים ליצור ('לגנרט'] תוכן שעומד בכל הקריטריונים הבאים:

מורכב
עקבי
מקורית

לדוגמה, מודל של AI גנרטיבי יכול ליצור תמונות או מאמרים מתוחכמים.

גם טכנולוגיות קודמות מסוימות, כולל LSTM ו-RNN, יכולות ליצור תוכן מקורי ועקבי. יש מומחים שמתייחסים לטכנולוגיות הקודמות האלה כאל AI גנרטיבי, ויש מומחים אחרים שחושבים ש-AI גנרטיבי אמיתי דורש תוצרים מורכבים יותר ממה שאפשר ליצור באמצעות הטכנולוגיות הקודמות האלה.

בניגוד ללמידת מכונה חזוי.

תגובה מוזהבת

#language

#generativeAI

תשובה ידועה כטובה. לדוגמה, בהתאם להנחיה הבאה:

2 + 2

התשובה המושלמת היא:

4

כאן אפשר לקרוא הערות על התשובה המושלמת ועל טקסט העזר.

מדדי הערכה מסוימים, כמו ROUGE, משווים בין טקסט העזר לבין טקסט שנוצר על ידי מודל. כשיש תשובה נכונה אחת להנחיה, התשובה המושלמת משמשת בדרך כלל כטקסט העזר.

להנחיות מסוימות אין תשובה נכונה אחת. לדוגמה, להנחיה Summarize this document (סיכום המסמך הזה) יהיו כנראה הרבה תשובות נכונות. בפרומפטים כאלה, לרוב לא מעשי להשתמש בטקסט עזר כי המודל יכול ליצור מגוון רחב מאוד של סיכומים אפשריים. עם זאת, תשובה מוכנה מראש עשויה לעזור במצב הזה. לדוגמה, תגובה מושלמת שמכילה סיכום טוב של מסמך יכולה לעזור לאמן כלי למתן ציונים אוטומטי לזהות דפוסים של סיכומים טובים של מסמכים.

GPT (Generative Pre-trained Transformer)

#language

משפחה של מודלים גדולים של שפה שמבוססים על טרנספורמרים, שפותחו על ידי OpenAI.

אפשר להחיל וריאנטים של GPT על כמה מודלים, כולל:

יצירת תמונות (לדוגמה, ImageGPT)
יצירת תמונות מטקסט (לדוגמה, DALL-E).

H

הזיה

#language

יצירת תוצאה שנראית אמינה אבל לא נכונה מבחינה עובדתית על ידי מודל של AI גנרטיבי שמתיימר להציג טענה לגבי העולם האמיתי. לדוגמה, מודל AI גנרטיבי שטוען שברק אובמה מת בשנת 1865 הוא מופרע.

הערכה אנושית

#language

#generativeAI

תהליך שבו אנשים בודקים את איכות הפלט של מודל למידת מכונה. לדוגמה, אנשים דו-לשוניים בודקים את איכות מודל התרגום של למידת המכונה. הערכה אנושית שימושית במיוחד כשמדובר במודלים שאין להם תשובה נכונה אחת.

בניגוד להערכה אוטומטית ולהערכה על ידי מערכת למתן ציונים אוטומטית.

I

למידה בהקשר

#language

#generativeAI

מונח נרדף להנחיות עם כמה דוגמאות.

L

LaMDA (מודל שפה לאפליקציות שיחה)

#language

מודל שפה גדול (LLM) שמבוסס על Transformer שפותח על ידי Google. המודל הזה אומן על מערך נתונים גדול של שיחות, והוא יכול ליצור תשובות מציאותיות לשיחות.

סקירה כללית מופיעה במאמר LaMDA: הטכנולוגיה פורצת הדרך שלנו לשיחות.

מודל שפה

#language

מודל שמעריך את ההסתברות של אסימון או רצף של אסימונים שמתרחשים ברצף ארוך יותר של אסימונים.

לוחצים על הסמל כדי להוסיף הערות.

למרות שזה נשמע לא הגיוני, מודלים רבים שמעריכים טקסט הם לא מודלים של שפה. לדוגמה, מודלים של סיווג טקסט ומודלים של ניתוח סנטימנטים הם לא מודלים גדולים של שפה.

מודל שפה גדול (LLM)

#language

לפחות מודל שפה עם מספר גבוה מאוד של פרמטרים. באופן לא רשמי, כל מודל שפה שמבוסס על Transformer, כמו Gemini או GPT.

מרחב סמוי

#language

שם נרדף למרחב להטמעה.

מרחק Levenshtein

#language

#metric

מדד edit distance שמחשב את מספר פעולות המחיקה, ההוספה וההחלפה המינימלי שנדרש כדי לשנות מילה אחת למילה אחרת. לדוגמה, המרחק של Levenshtein בין המילים heart (לב) ו-darts (חץ) הוא שלוש, כי שלושת העריכות הבאות הן השינויים המינימליים שצריך לבצע כדי להפוך את המילה אחת לשנייה:

heart → deart (החלפת האות 'h' באות 'd')
deart → dart (מחיקה של האות 'e')
חץ → חיצים (מוסיפים "s")

חשוב לזכור שהרצף הקודם הוא לא הנתיב היחיד של שלוש פעולות עריכה.

LLM

#language

#generativeAI

קיצור של מודל שפה גדול (LLM).

הערכות של LLM (evals)

#language

#generativeAI

קבוצה של מדדים ואמות מידה להערכת הביצועים של מודלים גדולים של שפה (LLMs). ברמת העל, הערכות LLM:

לעזור לחוקרים לזהות תחומים שבהם LLMs צריכים שיפור.
שימושיים להשוואה בין מודלים שונים של LLM ולזיהוי המודל הטוב ביותר למשימות מסוימות.
עוזרים לוודא שהשימוש ב-LLMs בטוח ואתי.

LoRA

#language

#generativeAI

קיצור של התאמה לעומס ברמה נמוכה.

התאמה לרמה נמוכה (LoRA)

#language

#generativeAI

טכניקה יעילה מבחינת פרמטרים לכוונון עדין, שבה "מקפיאים" את המשקולות של המודל שאומנו מראש (כך שלא ניתן יותר לשנות אותם), ולאחר מכן מוסיפים למודל קבוצה קטנה של משקולות שניתן לאמן. קבוצת המשקלים הניתנים לאימון (שנקראת גם 'מטריצות עדכון') קטנה בהרבה מהמודל הבסיסי, ולכן אימון הקבוצה הזו מהיר הרבה יותר.

היתרונות של LoRA:

שיפור האיכות של התחזיות של מודל לדומיין שבו מתבצע השיפור.
התאמה אישית מתבצעת מהר יותר מאשר בשיטות שדורשות התאמה אישית של כל הפרמטרים של המודל.
הפחתת עלות החישוב של הסקת מסקנות על ידי הפעלת הצגה בו-זמנית של כמה מודלים מיוחדים שמשתמשים באותו מודל בסיס.

לוחצים על הסמל כדי לקבל מידע נוסף על מטריצות עדכון ב-LoRa.

מטריצות העדכון שמשמשות ב-LoRA מורכבות ממטריצות פירוק לפי דירוג, שמתקבלות מהמודל הבסיסי כדי לסנן את הרעשים ולהתמקד באימון על המאפיינים החשובים ביותר של המודל.

M

מודל התממת שפה (MLM)

#language

מודל שפה שמתבסס על ניתוח נתונים כדי לחזות את הסבירות של אסימונים מועמדים למלא את החללים ברצף. לדוגמה, מודל שפה מוצפן יכול לחשב את הסבירויות של מילים מועמדות שיכולות להחליף את הקו התחתון במשפט הבא:

ה____ שבכובע חזר.

בספרות בדרך כלל נעשה שימוש במחרוזת MASK במקום קו תחתון. לדוגמה:

ה-'MASK' בכובע חזר.

רוב המודלים המודרניים של התממת שפה הם דו-כיווניים.

דיוק ממוצע ממוצע ב-k (mAP@k)

#language

#generativeAI

הממוצע הסטטיסטי של כל הציונים של הדיוק הממוצע ב-k במערך נתונים לצורך אימות. אחת מהשימושים של רמת הדיוק הממוצעת הממוצעת ב-k היא להעריך את איכות ההמלצות שנוצרות על ידי מערכת המלצות.

למרות שהביטוי 'ממוצע ממוצע' נשמע מיותר, השם של המדד מתאים. אחרי הכל, המדד הזה מחשב את הממוצע של כמה ערכים של רמת דיוק ממוצעת ב-k.

לוחצים על הסמל כדי לראות דוגמה.

נניח שאתם יוצרים מערכת המלצות שיוצרת רשימה מותאמת אישית של רומנים מומלצים לכל משתמש. על סמך משוב ממשתמשים נבחרים, מחשבים את חמש רמות הדיוק הממוצעות הבאות ב-k ציונים (ציון אחד לכל משתמש):

0.73
0.77
0.67
0.82
0.76

לכן, הדיוק הממוצע הממוצע ב-K הוא:

$$\text{mean } = \frac{\text{0.73 + 0.77 + 0.67 + 0.82 + 0.76}} {\text{5}} = \text{0.75}$$

למידה ברמת המטא

#language

תת-קבוצה של למידת מכונה שמאפשרת לגלות או לשפר אלגוריתם למידה. מערכת למטא-למידה יכולה גם לאמן מודל ללמוד במהירות משימה חדשה מכמות קטנה של נתונים או מהניסיון שנצבר במשימות קודמות. בדרך כלל, אלגוריתמים של למידה ברמת המטא מנסים להשיג את היעדים הבאים:

לשפר או ללמוד תכונות שפותחו באופן ידני (כמו מאתחלים או אופטימיזציות).
יעילות רבה יותר בשימוש בנתונים ובמחשוב.
שיפור היכולת להכליל.

מטא-למידה קשורה ללמידה מסוג few-shot.

תערובת של מומחים

#language

#generativeAI

תוכנית להגדלת היעילות של רשת עצבית באמצעות שימוש רק בקבוצת משנה של הפרמטרים שלה (שנקראת מומחה) כדי לעבד אסימון או דוגמה מסוימים של קלט. רשת גידור מפנה כל אסימון קלט או דוגמה למומחים המתאימים.

פרטים נוספים זמינים במאמרים הבאים:

MMIT

#language

#image

#generativeAI

קיצור של multimodal instruction-tuned.

מודל

#language

קטגוריית נתונים ברמה גבוהה. לדוגמה, מספרים, טקסט, תמונות, וידאו ואודיו הם חמישה מודלים שונים.

מודל מקביל

#language

דרך להתאמה לעומס של אימון או של הסקת מסקנות, שבה חלקים שונים של מודל אחד ממוקמים במכשירים שונים. באמצעות מודל מקבילי אפשר להשתמש במודלים גדולים מדי מכדי שיוכלו להתאים למכשיר אחד.

כדי להטמיע מקבילות של מודלים, המערכת בדרך כלל מבצעת את הפעולות הבאות:

מחלק את המודל לחלקים קטנים יותר.
המערכת מפזרת את האימון של החלקים הקטנים האלה בין כמה מעבדים. כל מעבד מאמן את החלק שלו במודל.
שילוב התוצאות ליצירת מודל אחד.

במקביליות של מודל, אימון המודל מתעכב.

אפשר לעיין גם במאמר מקבילות נתונים.

MOE

#language

#image

#generativeAI

קיצור של תערובת של מומחים.

תשומת לב עצמית עם כמה ראשים

#language

תוספת לתשומת לב עצמית שמפעילה את מנגנון תשומת הלב העצמית כמה פעמים לכל מיקום ברצף הקלט.

Transformers הציגה תשומת לב עצמית עם כמה ראשים.

התאמה של הוראות למולטי-מודלים

#language

מודל המותאם להוראות שיכול לעבד קלט מעבר לטקסט, כמו תמונות, סרטונים וקטעי אודיו.

מודל מולטי-מודאלי

#language

מודל שהקלט ו/או הפלט שלו כוללים יותר ממודל אחד. לדוגמה, נניח שיש מודל שמקבל גם תמונה וגם כותרת טקסט (שתי מודליות) בתור מאפיינים, ומפיק ציון שמציין את מידת ההתאמה של כותרת הטקסט לתמונה. לכן, הקלט של המודל הזה הוא מרובת מצבים והפלט הוא חד-מצבי.

לא

עיבוד שפה טבעית (NLP)

#language

תחום שמטרתו ללמד מחשבים לעבד את מה שמשתמש אמר או הקליד באמצעות כללים לשוניים. כמעט כל עיבוד השפה הטבעי המודרני מבוסס על למידת מכונה.

הבנת שפה טבעית (NLU)

#language

קבוצת משנה של עיבוד שפה טבעית שמאפשרת לקבוע את הכוונות של משהו שנאמר או הקליד. הבנת שפה טבעית יכולה להתקדם מעבר לעיבוד שפה טבעית (NLP) ולקחת בחשבון היבטים מורכבים של שפה כמו הקשר, סרקזם ורגשות.

N-gram

#seq

#language

רצף מסודר של N מילים. לדוגמה, truly madly הוא 2-gram. מכיוון שהסדר רלוונטי, madly truly הוא גרם דו-מילוני שונה מ-truly madly.

לא	השמות של סוג ה-n-gram הזה	דוגמאות
2	שתי מילים ברצף (bigram) או שתי מילים (2-gram)	to go, go to, eat lunch, eat dinner
3	טריגרמ או 3-גרם	ate too much, three blind mice, the bell tolls
4	4 גרם	walk in the park, dust in the wind, the boy ate lentils

מודלים רבים של הבנת שפה טבעית מסתמכים על מילוני N-grams כדי לחזות את המילה הבאה שהמשתמש ידפיס או יגיד. לדוגמה, נניח שמשתמש הקליד three blind. מודל NLU שמבוסס על טריגרמות צפוי לחזות שהמשתמש ידפיס בשלב הבא את המילה mice.

בניגוד ל-n-grams, תיק מילים הוא קבוצה של מילים ללא סדר.

NLP

#language

קיצור של עיבוד שפה טבעית.

NLU

#language

קיצור של הבנת שפה טבעית.

אין תשובה נכונה אחת (NORA)

#language

#generativeAI

הנחיה עם כמה תשובות מתאימות. לדוגמה, להנחיה הבאה אין תשובה נכונה אחת:

Tell me a joke about elephants.‎

הערכה של הנחיות ללא תשובה נכונה יכולה להיות מאתגרת.

NORA

#language

#generativeAI

קיצור של אין תשובה נכונה אחת.

O

הנחיה חד-פעמית

#language

#generativeAI

הנחיה שמכילה דוגמה אחת שמראה איך מודל השפה הגדול צריך להגיב. לדוגמה, ההנחיה הבאה מכילה דוגמה אחת שמראה למודל שפה גדול איך לענות על שאילתה.

חלקים של הנחיה אחת	הערות
`מהו המטבע הרשמי של המדינה שצוינה?`	השאלה שעליה רוצים שה-LLM יענה.
`צרפת: EUR`	דוגמה אחת.
`הודו:`	השאילתה בפועל.

הנחיה חד-פעמית לעומת המונחים הבאים:

הנחיה ישירה (zero-shot)
הנחיות עם כמה דוגמאות

P

כוונון יעיל בפרמטרים

#language

#generativeAI

קבוצה של שיטות לביצוע כוונון מדויק של מודל שפה גדול (PLM), בצורה יעילה יותר מביצוע כוונון מדויק מלא. בכוונון יעיל בפרמטרים, בדרך כלל מתבצעת התאמה אישית של פחות פרמטרים בהשוואה להתאמה אישית מלאה, אבל בדרך כלל נוצר מודל שפה גדול שמניב ביצועים טובים (או כמעט טובים) כמו של מודל שפה גדול שנוצר כתוצאה מהתאמה אישית מלאה.

השוואה בין כוונון יעיל בפרמטרים לבין:

כוונון יעיל בפרמטרים נקרא גם כוונון יעיל בפרמטרים.

צינור עיבוד נתונים

#language

סוג של מודל מקבילי שבו העיבוד של המודל מחולק לשלבים עוקבים וכל שלב מבוצע במכשיר אחר. בזמן ששלב מסוים מעבד קבוצה אחת, השלב הקודם יכול לעבד את הקבוצה הבאה.

אפשר גם לעיין במאמר הדרכה מדורגת.

PLM

#language

#generativeAI

קיצור של מודל שפה שעבר אימון מראש.

קידוד מיקומי

#language

שיטה להוספת מידע על המיקום של טוקן ברצף להטמעת הטוקן. מודלים של Transformer משתמשים בקידוד מיקומי כדי להבין טוב יותר את הקשר בין חלקים שונים ברצף.

הטמעה נפוצה של קידוד מיקומי מתבססת על פונקציה סינוסית. (בפרט, התדירות והמשרעת של הפונקציה הסינוסואידית נקבעות לפי המיקום של האסימון ברצף). הטכניקה הזו מאפשרת למודל Transformer ללמוד להתמקד בחלקים שונים של הרצף על סמך המיקום שלהם.

מודל לאחר אימון

#language

#image

#generativeAI

מונח לא מוגדר במדויק שמתייחס בדרך כלל למודל שהודרן מראש שעבר עיבוד פוסט-טראיטמנט, כמו אחת או יותר מהפעולות הבאות:

דיוק ברמה k (precision@k)

#language

מדד להערכת רשימה של פריטים (מסודרת) לפי דירוג. הדיוק ב-k מתייחס לחלק מהפריטים הראשונים ברשימה (k) שהם 'רלוונטיים'. כלומר:

\[\text{precision at k} = \frac{\text{relevant items in first k items of the list}} {\text{k}}\]

הערך של k חייב להיות קטן או שווה לאורך הרשימה שמוחזרת. שימו לב שאורך הרשימה שמוחזרת לא נכלל בחישוב.

הרלוונטיות היא לרוב סובייקטיבית, וגם בודקים אנושיים מומחים לא תמיד מסכימים על הפריטים הרלוונטיים.

השווה ל:

דיוק ממוצע ב-k
רמת הדיוק הממוצעת הממוצעת ב-k

לוחצים על הסמל כדי לראות דוגמה.

נניח שמודל שפה גדול מקבל את השאילתה הבאה:

List the 6 funniest movies of all time in order.

ומודל השפה הגדול מחזיר את הרשימה שמופיעה בשתי העמודות הראשונות בטבלה הבאה:

מיקום	סרט	רלוונטי?
1	The General	כן
2	Mean Girls	כן
3	Platoon	לא
4	שושבינות	כן
5	Citizen Kane	לא
6	This is Spinal Tap	כן

שניים משלושת הסרטים הראשונים רלוונטיים, כך שדיוק ברמה 3 הוא:

$$\text{precision at 3} = \frac{\text{2}} {\text{3}} = 0.67$$

ארבעה מתוך חמשת הסרטים הראשונים מצחיקים מאוד, כך שהדיוק ב-5 הוא:

$$\text{precision at 5} = \frac{\text{4}} {\text{5}} = 0.8$$

מודל שעבר אימון מראש

#language

#image

#generativeAI

בדרך כלל, מודל שכבר אומן. המונח יכול גם להתייחס לוקטור הטמעה שעבר אימון קודם.

המונח מודל שפה שהודרן מראש מתייחס בדרך כלל למודל שפה גדול שכבר אומן.

אימון מקדים

#language

#image

#generativeAI

האימון הראשוני של מודל על מערך נתונים גדול. חלק מהמודלים שהוכשרו מראש הם 'ענקים גמלוניים', ובדרך כלל צריך לשפר אותם באמצעות אימון נוסף. לדוגמה, מומחי למידת מכונה עשויים לאמן מראש מודל שפה גדול על מערך נתונים עצום של טקסט, כמו כל הדפים באנגלית בוויקיפדיה. אחרי האימון המקדים, אפשר לשפר את המודל שנוצר באמצעות אחת מהשיטות הבאות:

זיקוק
התאמה אישית
התאמת הוראות
כוונון יעיל בפרמטרים
prompt-tuning

הנחיה

#language

#generativeAI

כל טקסט שמוזן כקלט למודל שפה גדול כדי לכוונן את המודל להתנהגות מסוימת. ההנחיות יכולות להיות קצרות כמו ביטוי או ארוכות ככל הצורך (לדוגמה, כל הטקסט של רומן). ההנחיות מחולקות לכמה קטגוריות, כולל אלה שמפורטות בטבלה הבאה:

קטגוריית ההנחיה	דוגמה	הערות
שאלה	`מהי מהירות הטיסה של יונה?`
הוראות	`כתיבת שיר מצחיק על מיקסום רווחים.`	הנחיה שמבקשת ממודל השפה הגדול לבצע משהו.
דוגמה	`תרגום קוד Markdown ל-HTML. לדוגמה: Markdown: * פריט ברשימת HTML: <ul> <li>פריט ברשימת</li> </ul>`	המשפט הראשון בהנחיה הזו הוא הוראה. שאר ההנחיה היא הדוגמה.
תפקיד	`הסבר למה משתמשים בירידת שיפוע (gradient descent) באימון של למידת מכונה לצורך קבלת דוקטורט בפיזיקה.`	החלק הראשון של המשפט הוא הוראה, והביטוי "לתואר דוקטור בפיזיקה" הוא החלק של התפקיד.
קלט חלקי למודל להשלמה	`ראש ממשלת בריטניה מתגורר בכתובת`	הנחיה חלקית להזנת קלט יכולה להסתיים באופן פתאומי (כמו בדוגמה הזו) או להסתיים בקו תחתון.

מודל של בינה מלאכותית גנרטיבית יכול להגיב להנחיה באמצעות טקסט, קוד, תמונות, מיקומים מוטמעים, סרטונים… כמעט כל דבר.

למידה מבוססת-הנחיה

#language

#generativeAI

יכולת של מודלים מסוימים שמאפשרת להם להתאים את ההתנהגות שלהם בתגובה לקלט טקסט שרירותי (הנחיות). בפרדיגמה רגילה של למידה מבוססת-הנחיה, מודל שפה גדול מגיב להנחיה על ידי יצירת טקסט. לדוגמה, נניח שמשתמש מזין את ההנחיה הבאה:

לסכם את חוק התנועה השלישי של ניוטון.

מודל שיכול ללמוד מבקשות לא עובר אימון ספציפי כדי לענות על ההנחיה הקודמת. במקום זאת, המודל 'יודע' הרבה עובדות על פיזיקה, הרבה על כללי שפה כלליים והרבה על מה שמהווה תשובות שימושיות באופן כללי. הידע הזה מספיק כדי לספק תשובה (מקווה) שימושית. משוב אנושי נוסף ('התשובה הזו הייתה מורכבת מדי' או 'מהי תגובה?') מאפשר לחלק ממערכות הלמידה שמבוססות על הנחיות לשפר בהדרגה את התועלת של התשובות שלהן.

עיצוב הנחיות

#language

#generativeAI

מילה נרדפת ל-הנדסת הנחיות.

הנדסת הנחיות

#language

#generativeAI

האמנות של יצירת הנחיות שמניבות את התשובות הרצויות ממודל שפה גדול. בני אדם מבצעים את תהליך הנדסת ההנחיות. כתיבת הנחיות עם מבנה טוב היא חלק חיוני כדי לקבל תשובות מועילות ממודל שפה גדול. תכנון ההנחיות תלוי בגורמים רבים, כולל:

מערך הנתונים שמשמש לאימון מקדים ולעיתים גם לכוונון עדין של מודל השפה הגדול.
הטמפרטורה ופרמטרים אחרים של פענוח שבהם המודל משתמש כדי ליצור תשובות.

מבוא לתכנון הנחיות – מידע נוסף על כתיבת הנחיות מועילות.

עיצוב הנחיות הוא מונח נרדף להנדסת הנחיות.

כוונון של הנחיות

#language

#generativeAI

מנגנון כוונון יעיל בפרמטרים שמלמד את המערכת להוסיף 'תחילית' להנחיה בפועל.

וריאציה אחת של התאמת ההנחיה – שנקראת לפעמים התאמת תחילית – היא הוספת התחילית לכל שכבה. לעומת זאת, רוב ההתאמות של ההנחיות מוסיפות רק קידומת לשכבת הקלט.

אפשר ללחוץ על הסמל כדי לקבל מידע נוסף על תחיליות.

לצורך כוונון ההנחיה, ה'קידומת' (שנקראת גם 'הנחיה רכה') היא קבוצה של וקטורים ספציפיים למשימה שנלמדו, שמתווספים ל-embeddings של אסימוני הטקסט מהנחיה בפועל. המערכת לומדת את ההנחיה הלא רשמית על ידי הקפאה של כל שאר הפרמטרים של המודל וביצוע כוונון עדין למשימה ספציפית.

R

recall at k‏ (recall@k)

#language

מדד להערכת מערכות שמפיקות רשימה של פריטים (מסודרת) לפי דירוג. החזרה ב-k מזהה את החלק היחסי של הפריטים הרלוונטיים ב-k הפריטים הראשונים ברשימה הזו, מתוך המספר הכולל של הפריטים הרלוונטיים שהוחזרו.

\[\text{recall at k} = \frac{\text{relevant items in first k items of the list}} {\text{total number of relevant items in the list}}\]

בניגוד לדיוק ברמה k.

לוחצים על הסמל כדי לראות דוגמה.

נניח שמודל שפה גדול מקבל את השאילתה הבאה:

List the 10 funniest movies of all time in order.

ומודל השפה הגדול מחזיר את הרשימה שמוצגת בשתי העמודות הראשונות:

מיקום	סרט	רלוונטי?
1	The General	כן
2	Mean Girls	כן
3	Platoon	לא
4	שושבינות	כן
5	This is Spinal Tap	כן
6	מטוס!	כן
7	יום המרמיטה	כן
8	Monty Python and the Holy Grail	כן
9	אופנהיימר	לא
10	Clueless	כן

שמונה מהסרטים ברשימה הקודמת מצחיקים מאוד, ולכן הם נחשבים ל'פריטים רלוונטיים ברשימה'. לכן, 8 יהיה המכנה בכל החישובים של אחזור ב-k. מה קורה עם המונה? 3 מתוך 4 הפריטים הראשונים רלוונטיים, כך שהזיכרון ב-4 הוא:

$$\text{recall at 4} = \frac{\text{3}} {\text{8}} = 0.375$$

7 מתוך 8 הסרטים הראשונים מצחיקים מאוד, כך שהזיכרון ב-8 הוא:

$$\text{recall at 8} = \frac{\text{7}} {\text{8}} = 0.875$$

טקסט עזר

#language

#generativeAI

תשובה של מומחה להנחיה. לדוגמה, בהנחיה הבאה:

תרגום השאלה "What is your name?‎" מאנגלית לצרפתית.

התשובה של המומחה עשויה להיות:

Comment vous appelez-vous?

מדדים שונים (כמו ROUGE) מודדים את מידת ההתאמה של טקסט העזר לטקסט שנוצר של מודל ה-ML.

הצגת הנחיות לגבי התפקיד

#language

#generativeAI

חלק אופציונלי בהנחיה שמזהה את קהל היעד לתשובה של מודל AI גנרטיבי. ללא הנחיה לגבי תפקיד, מודל שפה גדול מספק תשובה שעשויה להיות או לא להיות שימושית לאדם ששואל את השאלות. בעזרת הנחיה לגבי תפקיד, מודל שפה גדול יכול להשיב בצורה שתהיה מתאימה ומועילה יותר לקהל יעד ספציפי. לדוגמה, החלק של הנחיות התפקיד בהנחיות הבאות מודגש:

סיכום של המאמר הזה לקבלת דוקטורט בכלכלה.
תארו את האופן שבו פועלות הגאות והשפל לילדים בני עשר.
הסבר על המשבר הפיננסי של 2008. דברו כמו שאתם מדברים עם ילד קטן או עם גולדן רטריבר.

ROUGE (Recall-Oriented Understudy for Gisting Evaluation)

#language

משפחה של מדדים שמאפשרים להעריך סיכומים אוטומטיים ומודלים של תרגום מכונה. מדדי ROUGE קובעים את מידת החפיפה בין טקסט העזר לבין טקסט שנוצר על ידי מודל ה-ML. כל אחד מהמדדים במשפחת ROUGE חופף לקודם בצורה שונה. ככל שציוני ROUGE גבוהים יותר, כך יש דמיון גדול יותר בין טקסט העזרה לטקסט שנוצר בהשוואה לציונים נמוכים יותר של ROUGE.

בדרך כלל, כל בן משפחה ב-ROUGE יוצר את המדדים הבאים:

דיוק
זכירות
F₁

לפרטים נוספים ולדוגמאות, אפשר לעיין במאמרים הבאים:

ROUGE-L
ROUGE-N
ROUGE-S

ROUGE-L

#language

משפחה של מדדי ROUGE שמתמקדת באורך של רצף המשנה המשותף הארוך ביותר בטקסט העזר ובטקסט שנוצר. הנוסחאות הבאות מחשבות את הרגישות והדיוק של ROUGE-L:

$$\text{ROUGE-L recall} = \frac{\text{longest common sequence}} {\text{number of words in the reference text} }$$

$$\text{ROUGE-L precision} = \frac{\text{longest common sequence}} {\text{number of words in the generated text} }$$

לאחר מכן אפשר להשתמש ב-F₁ כדי לקבץ את הרגישות של ROUGE-L ואת הדיוק של ROUGE-L למדד אחד:

$$\text{ROUGE-L F} {_1} = \frac{\text{2} * \text{ROUGE-L recall} * \text{ROUGE-L precision}} {\text{ROUGE-L recall} + \text{ROUGE-L precision} }$$

לוחצים על הסמל כדי לראות דוגמה לחישוב של ROUGE-L.

כדאי להביא בחשבון את הטקסט לדוגמה ואת הטקסט שנוצר.

קטגוריה	מי הפיק?	טקסט
טקסט עזר	מתרגם אנושי	אני רוצה להבין מגוון רחב של דברים.
הטקסט שנוצר	מודל למידת מכונה	אני רוצה ללמוד הרבה דברים.

לכן:

רצף המשנה הארוך ביותר הוא 5 (I want to of things)
מספר המילים בטקסט העזר הוא 9.
מספר המילים בטקסט שנוצר הוא 7.

כתוצאה מכך:

$$\text{ROUGE-L recall} = \frac{\text{5}} {\text{9} } = 0.56$$

$$\text{ROUGE-L precision} = \frac{\text{5}} {\text{7} } = 0.71$$

$$\text{ROUGE-L F} {_1} = \frac{\text{2} * \text{0.56} * \text{0.71}} {\text{0.56} + \text{0.71} } = 0.63$$

ה-ROUGE-L מתעלם מכל שורות חדשות בטקסט העזרה ובטקסט שנוצר, כך שרצף המשנה הארוך ביותר יכול לחול על כמה משפטים. כשטקסט העזרה והטקסט שנוצר כוללים כמה משפטים, בדרך כלל מדד טוב יותר הוא וריאנט של ROUGE-L שנקרא ROUGE-Lsum. המדד ROUGE-Lsum קובע את רצף המשנה הארוך ביותר המשותף לכל משפט בפסקה, ולאחר מכן מחשב את הממוצע של רצפי המשנה הארוכים המשותפים האלה.

לוחצים על הסמל כדי לראות דוגמה לחישוב של ROUGE-Lsum.

כדאי להביא בחשבון את הטקסט לדוגמה ואת הטקסט שנוצר.

קטגוריה	מי הפיק?	טקסט
טקסט עזר	מתרגם אנושי	פני השטח של מאדים יבשים. כמעט כל המים נמצאים עמוק מתחת לאדמה.
הטקסט שנוצר	מודל למידת מכונה	למאדים יש משטח יבש. עם זאת, רוב המים נמצאים מתחת לאדמה.

לכן:

	המשפט הראשון	המשפט השני
הרצף המשותף הארוך ביותר	2 (מאדים יבש)	3 (המים נמצאים מתחת לאדמה)
אורך המשפט בטקסט העזר	6	7
אורך המשפט של הטקסט שנוצר	5	8

כתוצאה מכך:

$$\text{recall of first sentence} = \frac{\text{2}} {\text{6}} = 0.33 $$

$$\text{recall of second sentence} = \frac{\text{3}} {\text{7}} = 0.43 $$

$$\text{ROUGE-Lsum recall} = \frac{\text{0.33} + \text{0.43}} {\text{2}} = 0.38 $$

$$\text{precision of first sentence} = \frac{\text{2}} {\text{5}} = 0.4 $$

$$\text{precision of second sentence} = \frac{\text{3}} {\text{8}} = 0.38 $$

$$\text{ROUGE-Lsum precision} = \frac{\text{0.4} + \text{0.38}} {\text{2}} = 0.39 $$

$$\text{ROUGE-Lsum F}{_1} = \frac{\text{2} * \text{0.38} * \text{0.39}} {\text{0.38} + \text{0.39}} = 0.38 $$

ROUGE-N

#language

קבוצת מדדים במשפחת ROUGE שמשווים בין רצפי N-grams משותפים בגודל מסוים בטקסט העזר לבין טקסט שנוצר. לדוגמה:

ROUGE-1 מודד את מספר האסימונים המשותפים בטקסט העזר ובטקסט שנוצר.
ROUGE-2 מודד את מספר ביגרמים (2-גרמים) המשותפים בטקסט העזר ובטקסט שנוצר.
ROUGE-3 מודד את מספר טריגרמות (3-גראמים) המשותפות בטקסט העזר ובטקסט שנוצר.

אפשר להשתמש בנוסחאות הבאות כדי לחשב את רמת החזרה (recall) ורמאת הדיוק (precision) של ROUGE-N לכל חבר במשפחת ROUGE-N:

$$\text{ROUGE-N recall} = \frac{\text{number of matching N-grams}} {\text{number of N-grams in the reference text} }$$

$$\text{ROUGE-N precision} = \frac{\text{number of matching N-grams}} {\text{number of N-grams in the generated text} }$$

לאחר מכן אפשר להשתמש ב-F₁ כדי לקבץ את רמת החזרה (recall) של ROUGE-N ואת רמת הדיוק (precision) של ROUGE-N למדד אחד:

$$\text{ROUGE-N F}{_1} = \frac{\text{2} * \text{ROUGE-N recall} * \text{ROUGE-N precision}} {\text{ROUGE-N recall} + \text{ROUGE-N precision} }$$

לוחצים על הסמל כדי לראות דוגמה.

נניח שאתם מחליטים להשתמש ב-ROUGE-2 כדי למדוד את היעילות של תרגום של מודל למידת מכונה בהשוואה לתרגום של מתרגם אנושי.

קטגוריה	מי הפיק?	טקסט	ביטויים שמורכבים משני מילים
טקסט עזר	מתרגם אנושי	אני רוצה להבין מגוון רחב של דברים.	אני רוצה, רוצה, להבין, להבין, מגוון רחב, מגוון רחב, של, של דברים
הטקסט שנוצר	מודל למידת מכונה	אני רוצה ללמוד הרבה דברים.	I want, want to, to learn, learn plenty, plenty of, of things

לכן:

מספר ה-2-גרמים התואמים הוא 3 (I want,‏ want to ו-of things).
מספר ה-2-גרמים בטקסט העזר הוא 8.
מספר ה-2-גרמים בטקסט שנוצר הוא 6.

כתוצאה מכך:

$$\text{ROUGE-2 recall} = \frac{\text{3}} {\text{8} } = 0.375$$

$$\text{ROUGE-2 precision} = \frac{\text{3}} {\text{6} } = 0.5$$

$$\text{ROUGE-2 F}{_1} = \frac{\text{2} * \text{0.375} * \text{0.5}} {\text{0.375} + \text{0.5} } = 0.43$$

ROUGE-S

#language

גרסה סלחנית של ROUGE-N שמאפשרת התאמה של skip-gram. כלומר, ב-ROUGE-N נספרות רק N-grams שתואמים בדיוק, אבל ב-ROUGE-S נספרות גם N-grams שמפרידות ביניהם מילה אחת או יותר. לדוגמה, שקול את הדברים הבאים:

טקסט העזרה: עננים לבנים
טקסט שנוצר: עננים לבנים ומתנפחים

כשמחשבים את ROUGE-N, ה-2-gram White clouds לא תואם ל-White billowing clouds. עם זאת, כשמחשבים את ROUGE-S, עננים לבנים תואם ל-עננים לבנים בוערים.

S

קשב עצמי (נקרא גם שכבת קשב עצמי)

#language

שכבת רשת נוירונים שממירה רצף של הטמעות (למשל, הטמעות של אסימונים) לרצף אחר של הטמעות. כל הטמעה בסדרת הפלט נוצרת על ידי שילוב מידע מהרכיבים של סדרת הקלט באמצעות מנגנון תשומת לב.

החלק self ב-self-attention מתייחס לרצף שמתמקד בעצמו ולא בהקשר אחר כלשהו. הקשב העצמי הוא אחד מאבני הבניין העיקריות של טרנספורמרים, והוא משתמש במונחים של חיפוש במילון, כמו 'שאילתה', 'מפתח' ו'ערך'.

שכבת קשב עצמי מתחילה ברצף של ייצוגי קלט, אחד לכל מילה. ייצוג הקלט של מילה יכול להיות הטמעה פשוטה. לכל מילה ברצף הקלט, הרשת מעניקה ניקוד לרלוונטיות של המילה לכל רכיב ברצף המילים כולו. ציונים הרלוונטיות קובעים עד כמה הייצוג הסופי של המילה כולל את הייצוגים של מילים אחרות.

לדוגמה, נניח את המשפט הבא:

החיה לא חצתה את הרחוב כי היא הייתה עייפת מדי.

באיור הבא (מתוך Transformer: A Novel Neural Network Architecture for Language Understanding) מוצג דפוס תשומת הלב של שכבת תשומת הלב העצמית לשם העצם it, כאשר עוצמת החושך של כל שורה מציינת את מידת התרומה של כל מילה לייצוג:

המשפט הבא מופיע פעמיים: The animal didn't cross the
street because it was too tired. הקווים מקשרים את לשון הפנייה it במשפט אחד לחמישה אסימונים (The,‏ animal,‏ street,‏ it והנקודה) במשפט השני. הקו בין לשון הפנייה it לבין המילה animal הוא החזק ביותר.

שכבת הקשב העצמי מדגישה מילים שרלוונטיות ל-"it". במקרה הזה, שכבת תשומת הלב למדה להדגיש מילים שהיא עשויה להתייחס אליהן, והקצתה את המשקל הגבוה ביותר ל-animal.

ברצף של n אסימונים, התכונה 'תשומת לב עצמית' משפרת רצף של הטמעות (embeddings) n פעמים נפרדות, פעם אחת בכל מיקום ברצף.

כדאי לעיין גם במאמרים בנושא תשומת לב ותשומת לב עצמית עם כמה ראשים.

ניתוח סנטימנט

#language

שימוש באלגוריתמים סטטיסטיים או באלגוריתמים של למידת מכונה כדי לקבוע את הגישה הכוללת של קבוצה כלשהי – חיובית או שלילית – כלפי שירות, מוצר, ארגון או נושא. לדוגמה, באמצעות הבנה של שפה טבעית, אלגוריתם יכול לבצע ניתוח סנטימנטים על המשוב הטקסטואלי מקורסים באוניברסיטה כדי לקבוע עד כמה התלמידים אהבו או לא אהבו את הקורס באופן כללי.

משימה מסוג 'רצף לרצף'

#language

משימה שממירה רצף קלט של אסימונים לרצף פלט של אסימונים. לדוגמה, שני סוגים פופולריים של משימות 'רצף לרצף' הם:

מתרגמים:
- דוגמה לרצף קלט: "אני אוהב אותך".
- רצף פלט לדוגמה: "Je t'aime".
מענה לשאלות:
- רצף קלט לדוגמה: "Do I need my car in New York City?‎"
- דוגמה לרצף פלט: "No. Please keep your car at home".

skip-gram

#language

n-gram שעשוי להשמיט (או "לדלג") מילים מההקשר המקורי, כלומר יכול להיות שהמילים N לא היו צמודות זו לזו במקור. באופן מדויק יותר, 'n-gram עם k דילוגים' הוא n-gram שעשויים להיות דילוגים של עד k מילים.

לדוגמה, במשפט "the quick brown fox" יש את ה-2-גרמים האפשריים הבאים:

"the quick"
"quick brown"
"brown fox"

'1-skip-2-gram' הוא זוג מילים עם מילה אחת לכל היותר ביניהן. לכן, למונח "the quick brown fox" יש את ה-2-grams הבאים עם דילוג אחד:

"the brown"
"quick fox"

בנוסף, כל ה-2-grams הם גם 2-grams עם דילוג אחד, כי אי אפשר לדלג על פחות ממילה אחת.

מודלים של skip-gram מאפשרים להבין טוב יותר את ההקשר שמקיף מילה. בדוגמה, המילה 'fox' שויך ישירות למילה 'quick' בקבוצה של 2-grams עם דילוג אחד, אבל לא בקבוצה של 2-grams.

Skip-grams עוזרים לאמן מודלים של הטמעת מילים.

כוונון של הנחיות רכות

#language

#generativeAI

טכניקה לכוונון מודל שפה גדול למשימה מסוימת, בלי כוונון עדין שמבזבז משאבים. במקום לאמן מחדש את כל המשקלים במודל, התאמת ההנחיה הרכה משנה באופן אוטומטי את ההנחיה כדי להשיג את אותו יעד.

בהנחיית טקסט, בדרך כלל מתבצעת התאמה של ההנחיה באמצעות הטמעת טוקנים נוספים בהנחיה, ושימוש בהתפשטות לאחור (backpropagation) כדי לבצע אופטימיזציה של הקלט.

הנחיה 'קשה' מכילה טוקנים אמיתיים במקום הטמעות של טוקנים.

תכונה דלילה

#language

#fundamentals

מאפיין שהערכים שלו הם בעיקר אפס או ריקים. לדוגמה, מאפיין שמכיל ערך 1 יחיד ומיליון ערכים של 0 הוא דל. לעומת זאת, למאפיין צפוף יש ערכים שברובם לא אפס או ריקים.

בלמידת מכונה, מספר מפתיע של תכונות הן תכונות דלילות. תכונות קטגוריות הן בדרך כלל תכונות דלילות. לדוגמה, מתוך 300 מיני עצים אפשריים ביער, דוגמה אחת עשויה לזהות רק עץ מייפל. למשל, מתוך מיליוני הסרטונים האפשריים בספריית סרטונים, דוגמה אחת עשויה לזהות רק את 'קזבלנקה'.

במודל, בדרך כלל מייצגים תכונות דלילות באמצעות קידוד one-hot. אם קידוד ה-one-hot גדול, אפשר להוסיף שכבת הטמעה מעל קידוד ה-one-hot כדי לשפר את היעילות.

ייצוג דליל

#language

#fundamentals

אחסון רק את המיקומים של רכיבים שאינם אפס בתכונה דלילה.

לדוגמה, נניח שתכונה קטגורית בשם species מזהה את 36 מיני העצים ביער מסוים. נניח גם שכל דוגמה מזהה רק מין אחד.

אפשר להשתמש בווקטור one-hot כדי לייצג את מיני העצים בכל דוגמה. וקטור one-hot יכיל 1 יחיד (כדי לייצג את מין העץ הספציפי בדוגמה הזו) ו-35 ערכים של 0 (כדי לייצג את 35 מיני העצים שאינם בדוגמה הזו). לכן, הייצוג של maple במצב one-hot עשוי להיראות כך:

וקטור שבו המיקומים 0 עד 23 מכילים את הערך 0, המיקום 24 מכיל את הערך 1 והמיקומים 25 עד 35 מכילים את הערך 0.

לחלופין, ייצוג דליל פשוט יזהה את המיקום של המין הספציפי. אם maple נמצא במיקום 24, הייצוג הדליל של maple יהיה פשוט:

שימו לב שהייצוג הדליל קומפקטי הרבה יותר מהייצוג של ערכים חד-ממדיים.

לוחצים על הסמל כדי לראות דוגמה מורכבת יותר.

נניח שכל דוגמה במודל צריכה לייצג את המילים – אבל לא את הסדר שלהן – במשפט באנגלית. האנגלית מורכבת מ-170,000 מילים, כך שהיא מאפיין קטגורי עם כ-170,000 רכיבים. ברוב המשפטים באנגלית נעשה שימוש בחלק זעיר מאוד מ-170,000 המילים האלה, כך שסביר להניח שקבוצת המילים בדוגמה אחת תהיה דלילה.

נבחן את המשפט הבא:

My dog is a great dog

אפשר להשתמש בגרסה של וקטור one-hot כדי לייצג את המילים במשפט הזה. בגרסה הזו, כמה תאים בוקטור יכולים להכיל ערך שאינו אפס. בנוסף, בגרסה הזו, תא יכול להכיל מספר שלם שאינו אחד. המילים 'ה', 'הוא', 'כלב' ו'גדול' מופיעות רק פעם אחת במשפט, אבל המילה 'כלב' מופיעה פעמיים. שימוש בגרסה הזו של וקטורים חד-חמים כדי לייצג את המילים במשפט הזה מניב את הווקטור הבא עם 170,000 רכיבים:

ייצוג דליל של אותו משפט יהיה פשוט:

אם אתם לא מבינים משהו, תוכלו ללחוץ על הסמל.

המונח 'ייצוג דל' מביא לבלבל אצל הרבה אנשים, כי ייצוג דל הוא לא וקטור דל. במקום זאת, ייצוג דל הוא למעשה ייצוג צפוף של וקטור דל. המונח ייצוג אינדקס ברור יותר מ'ייצוג דל'.

אימון מדורג

#language

טקטיקה לאימון מודל ברצף של שלבים נפרדים. המטרה יכולה להיות לזרז את תהליך האימון או לשפר את איכות המודל.

איור של הגישה של הערמה הדרגתית מוצג בהמשך:

שלב 1 מכיל 3 שכבות סמויות, שלב 2 מכיל 6 שכבות סמויות ושלב 3 מכיל 12 שכבות סמויות.
בשלב 2 מתחילים את האימון עם המשקלים שנלמדו ב-3 השכבות המוסתרות של שלב 1. בשלב 3 מתחילים את האימון עם המשקולות שנלמדו ב-6 השכבות המוסתרות של שלב 2.

שלושה שלבים, שמסומנים בתווית שלב 1, שלב 2 ושלב 3.
כל שלב מכיל מספר שונה של שכבות: שלב 1 מכיל 3 שכבות, שלב 2 מכיל 6 שכבות ושלב 3 מכיל 12 שכבות.
3 השכבות משלב 1 הופכות ל-3 השכבות הראשונות של שלב 2.
באופן דומה, 6 השכבות משלב 2 הופכות ל-6 השכבות הראשונות של שלב 3.

אפשר לעיין גם במאמר בנושא צנרת עיבוד נתונים.

טוקן של מילה משנה

#language

במודלים של שפה, אסימון שהוא מחרוזת משנה של מילה, שיכולה להיות המילה כולה.

לדוגמה, מילה כמו 'itemize' עשויה להתחלק לחלקים 'item' (מילה בסיס) ו-'ize' (סיומת), שכל אחד מהם מיוצג על ידי אסימון משלו. פיצול של מילים נדירות לחלקים כאלה, שנקראים מילים משנה, מאפשר למודלים של שפה לפעול על החלקים העיקריים הנפוצים יותר של המילה, כמו תחיליות וסיומת.

לעומת זאת, מילים נפוצות כמו 'going' לא יתפרקו ויכול להיות שהן יוצגו באמצעות אסימון יחיד.

T

T5

#language

מודל של למידת העברה מ-טקסט לטקסט, שהוצג על ידי Google AI בשנת 2020. ‏T5 הוא מודל מקודד-מפענח שמבוסס על הארכיטקטורה של Transformer, ומודרך על מערך נתונים גדול במיוחד. הוא יעיל במגוון משימות של עיבוד שפה טבעית (NLP), כמו יצירת טקסט, תרגום שפות וענות על שאלות בצורה שיחה.

השם T5 נגזר מחמש האותיות T במילים Text-to-Text Transfer Transformer (טרנספורמציה של העברה מטקסט לטקסט).

T5X

#language

מסגרת למידת מכונה בקוד פתוח, שנועדה לפתח וללאמן מודלים של עיבוד שפה טבעית (NLP) בקנה מידה גדול. T5 מוטמע בקוד הבסיס של T5X (שבנוי על JAX ו-Flax).

טמפרטורה

#language

#image

#generativeAI

פרמטר היפר שקובע את מידת הרנדומיזציה של הפלט של המודל. ככל שהטמפרטורה גבוהה יותר, התוצאה תהיה יותר אקראית, ואילו ככל שהטמפרטורה נמוכה יותר, התוצאה תהיה פחות אקראית.

בחירת הטמפרטורה הטובה ביותר תלויה באפליקציה הספציפית ובמאפיינים המועדפים של הפלט של המודל. לדוגמה, כדאי להגדיל את הטמפרטורה כשיוצרים אפליקציה שמפיקה נכסי קריאייטיב. לעומת זאת, כשיוצרים מודל לסיווג תמונות או טקסט, כדאי להוריד את הטמפרטורה כדי לשפר את הדיוק והעקביות של המודל.

לרוב משתמשים בטמפרטורה עם softmax.

קטע טקסט

#language

טווח של אינדקס מערך שמשויך לקטע משנה ספציפי במחרוזת טקסט. לדוגמה, המילה good במחרוזת Python‏ s="Be good now" תופסת את טווח הטקסט מ-3 עד 6.

token

#language

במודל שפה, היחידה האטומית שבה מתבצע אימון המודל והחיזויים. אסימון הוא בדרך כלל אחד מהפריטים הבאים:

מילה – לדוגמה, הביטוי 'dogs like cats' מורכב משלושה אסימוני מילים: 'dogs',‏ 'like' ו-'cats'.
תו – לדוגמה, הביטוי 'bike fish' מורכב מתשעה אסימונים של תווים. (שימו לב שהרווח הריק נחשב לאחד האסימונים).
מילים משנה – שבהן מילה אחת יכולה להיות אסימון אחד או כמה אסימונים. מילה משנה מורכבת ממילה בסיס, מקידומת או מסופן. לדוגמה, מודל שפה שמשתמש במילים משנה כאסימונים עשוי להתייחס למילה 'dogs' כשני אסימונים (מילת השורש 'dog' והסיומת לצורת הרבים 's'). אותו מודל שפה עשוי להתייחס למילה היחידה 'גבוה יותר' כשתי מילים משנה (מילת השורש 'גבוה' והסיומת ' יותר').

בדומיינים מחוץ למודלים של שפה, אסימונים יכולים לייצג סוגים אחרים של יחידות אטומיות. לדוגמה, בתכונה 'ראייה ממוחשבת', אסימון יכול להיות קבוצת משנה של תמונה.

דיוק Top-K

#language

אחוז הפעמים ש'תווית היעד' מופיעה ב-k המיקומים הראשונים ברשימות שנוצרו. הרשימות יכולות להיות המלצות בהתאמה אישית או רשימה של פריטים שממוינים לפי softmax.

הדיוק של Top-k נקרא גם דיוק ב-k.

לוחצים על הסמל כדי לראות דוגמה.

נניח שמערכת למידת מכונה משתמשת ב-softmax כדי לזהות את הסבירויות של עצים על סמך תמונה של עלים של עצים. בטבלה הבאה מוצגות רשימות פלט שנוצרו מחמש תמונות של עצים שהוזנו. כל שורה מכילה תווית יעד ואת חמשת העצים הסבירים ביותר. לדוגמה, כשתווית היעד הייתה maple, מודל למידת המכונה זיהה את elm כעץ הסביר ביותר, את oak כעץ השני הסביר ביותר וכן הלאה.

תווית יעד	1	2	3	4	5
maple	בוקיצה	אלון	maple	אשור	poplar
קרנית	אלון	dogwood	poplar	Hickory	maple
אלון	oak	לבנה	שדפון	אלמון	Linden
Linden	maple	paw-paw	אלון	לבנה	poplar
אלון	שדפון	Linden	oak	maple	paw-paw

תווית היעד מופיעה במיקום הראשון רק פעם אחת, ולכן הדיוק ב-Top-1 הוא:

$$\text{top-1 accuracy} = \frac{\text{1}} {\text{5}} = 0.2$$

תווית היעד מופיעה באחת משלוש המיקומים המובילים ארבע פעמים, כך שדיוק המיקומים המובילים הוא:

$$\text{top-1 accuracy} = \frac{\text{4}} {\text{5}} = 0.8$$

תוכן רעיל

#language

מידת הפגיעה, האיום או הפגיעה בתוכן. יש הרבה מודלים של למידת מכונה שיכולים לזהות ולמדוד תכנים רעילים. רוב המודלים האלה מזהים רעילות לפי כמה פרמטרים, כמו רמת השפה הפוגענית ורמת השפה המאיימת.

Transformer

#language

ארכיטקטורה של רשת עצבית שפותחה ב-Google, שמסתמכת על מנגנונים של התמקדות עצמית כדי להפוך רצף של הטמעות קלט לרצף של הטמעות פלט, בלי להסתמך על קונבולוציות או על רשתות עצביות חזרתיות. אפשר להתייחס ל-Transformer בתור סטאק של שכבות של קשב עצמי.

טרנספורמר יכול לכלול כל אחד מהרכיבים הבאים:

מקודד
מפענח
גם מקודד וגם מפענח

מקודד ממיר רצף של הטמעות (embeddings) לרצף חדש באורך זהה. מקודד כולל N שכבות זהות, שכל אחת מהן מכילה שתי שכבות משנה. שתי שכבות המשנה האלה חלות בכל מיקום של רצף הטמעת הקלט, ומעבירות כל רכיב ברצף לטמעה חדשה. שכבת המשנה הראשונה של המקודד אוספת מידע מכל רצף הקלט. שכבת המשנה השנייה של המקודד ממירה את המידע המצטבר להטמעת פלט.

מפענח ממיר רצף של הטמעות קלט לרצף של הטמעות פלט, אולי באורך שונה. מפענח כולל גם N שכבות זהות עם שלוש שכבות משנה, ששתיים מהן דומות לשכבות המשנה של המקודד. שכבת המשנה השלישית של המפענח מקבלת את הפלט של המקודד ומחילה את המנגנון של הקשב העצמי כדי לאסוף ממנו מידע.

בפוסט בבלוג Transformer: A Novel Neural Network Architecture for Language Understanding יש מבוא טוב לטרנספורמרים.

טריגרמ

#seq

#language

N-gram שבו N=3.

U

חד-כיווני

#language

מערכת שמעריכה רק את הטקסט שמקדים קטע יעד של טקסט. לעומת זאת, מערכת דו-כיוונית מעריכה גם את הטקסט שמקדים וגם את הטקסט שבא אחריו קטע יעד של טקסט. פרטים נוספים זמינים במאמר דו-כיווני.

מודל שפה חד-כיווני

#language

מודל שפה שמבוסס את ההסתברויות שלו רק על אסימונים שמופיעים לפני, ולא אחרי, האסימונים של היעד. בניגוד למודל שפה דו-כיווני.

V

מקודד אוטומטי וריאציוני (VAE)

#language

סוג של אוטו-קoder שמשתמש בפערים בין הקלט לפלט כדי ליצור גרסאות משופרות של הקלט. מקודדים אוטומטיים משתנים שימושיים בבינה מלאכותית גנרטיבית.

VAEs מבוססים על אינפורמציה וריאציונלית: טכניקה להערכת הפרמטרים של מודל הסתברות.

W

הטמעת מילה

#language

ייצוג של כל מילה בקבוצת מילים בוקטור הטמעה, כלומר ייצוג של כל מילה כוקטור של ערכים בנקודה צפה בין 0.0 ל-1.0. למילים עם משמעויות דומות יש ייצוגים דומים יותר מאשר למילים עם משמעויות שונות. לדוגמה, לגזרים, לסלרי ולמלפפונים יהיו ייצוגים דומים יחסית, שיהיה שונה מאוד מהייצוגים של מטוס, משקפי שמש ומשחת שיניים.

Z

הנחיה ישירה (Zero-shot)

#language

#generativeAI

הנחיה שלא כוללת דוגמה לאופן שבו אתם רוצים שמודל השפה הגדול יגיב. לדוגמה:

חלקים של הנחיה אחת	הערות
`מהו המטבע הרשמי של המדינה שצוינה?`	השאלה שעליה רוצים שה-LLM יענה.
`הודו:`	השאילתה בפועל.

מודל השפה הגדול עשוי להשיב באחת מהאפשרויות הבאות:

רופיות
INR
₹
רופי הודי
הרופי
הרופי ההודי

כל התשובות נכונות, אבל יכול להיות שתעדיפו פורמט מסוים.

השוואה בין הנחיה ללא טירגוט לבין המונחים הבאים:

הנחיה עם דוגמה אחת (one-shot)
הנחיות עם כמה דוגמאות