מילון מונחים ללמידת מכונה: הערכת שפה

דף זה מכיל מונחי מילון מונחים להערכת שפה. כאן אפשר למצוא את כל המונחים במילון המונחים.

A

תשומת הלב,

#language

מנגנון ברשת נוירונים שמציין את החשיבות של מילה מסוימת או חלק ממילה. כשמפעילים את תשומת הלב, המערכת דוחסת את כמות המידע שהמודל צריך כדי לחזות את האסימון/המילה הבאים. מנגנון תשומת לב אופייני עשוי לכלול סכום משוקלל על גבי קבוצה של סוגי קלט, כאשר המשקל של כל קלט מחושב על ידי חלק אחר ברשת הנוירונים.

כדאי גם לקרוא את המאמרים קשב עצמי וקשב עצמי מרובה ראש, שהם אבני הבניין של טרנספורמרים.

מקודד אוטומטי

#language
#image

מערכת שלומדת לחלץ את המידע החשוב ביותר מהקלט. מקודדים אוטומטיים הם שילוב של מקודד ומפענח. מקודדים אוטומטיים פועלים לפי התהליך הדו-שלבי הבא:

  1. המקודד ממפה את הקלט לפורמט עם אובדן-ממדי נמוך (בדרך כלל) (ביניים).
  2. המפענח בונה גרסה עם אובדן של הקלט המקורי על ידי מיפוי של הפורמט במימדים נמוכים יותר לפורמט הקלט המקורי בעל המאפיינים הגבוהים יותר.

מקודדים אוטומטיים מאומנים מקצה לקצה כך שהמפענח מנסה לשחזר את הקלט המקורי מפורמט הביניים של המקודד, ככל האפשר. מכיוון שפורמט הביניים קטן יותר (במימדי תחתון) מהפורמט המקורי, המקודד האוטומטי נאלץ ללמוד איזה מידע מהקלט הוא חיוני, והפלט לא יהיה זהה לחלוטין לקלט.

לדוגמה:

  • אם נתוני הקלט הם גרפיקה, העותק הלא מדויק יהיה דומה לגרפיקה המקורית, אבל ישתנה קצת. אולי העותק הלא מדויק מסיר את הרעש מהגרפיקה המקורית או ממלא כמה פיקסלים חסרים.
  • אם נתוני הקלט הם טקסט, מקודד אוטומטי יוצר טקסט חדש שמחקה את הטקסט המקורי (אבל לא זהה לו).

למידע נוסף, ראו גם מקודדים אוטומטיים הווריאנטים.

מודל רגרסיבי אוטומטי

#language
#image
#generativeAI

model שמסיק חיזוי על סמך חיזויים קודמים שלו. לדוגמה, מודלים של שפה עם רגרסיה אוטומטית חוזים את האסימון הבא על סמך האסימונים הצפויים בעבר. כל מודלים גדולים של שפה (LLM) שמבוססים על Transformer הם רגרסיביות אוטומטית.

לעומת זאת, מודלים של תמונות שמבוססים על GAN בדרך כלל לא רגרסיביים אוטומטית, כי הם יוצרים תמונה בהעברה אחת להעברה, ולא באופן איטרטיבי בשלבים. עם זאת, חלק מהמודלים ליצירת תמונות חוזרים באופן אוטומטי כי הם יוצרים תמונה בשלבים.

B

שק של מילים

#language

ייצוג של המילים בביטוי או בקטע, ללא קשר לסדר. לדוגמה, 'שק של מילים' מייצג את שלושת הביטויים הבאים באופן זהה:

  • הכלב קופץ
  • קופץ על הכלב
  • כלב קופץ

כל מילה ממופה לאינדקס בוקטור sparse, שבו לווקטור יש אינדקס לכל מילה באוצר המילים. לדוגמה, הביטוי הכלב קופץ ממופה לווקטור מאפיין עם ערכים שאינם אפס בשלושת האינדקסים שתואמים למילים the, dog ו-jumps. הערך שאינו אפס יכול להיות כל אחד מהערכים הבאים:

  • A 1 לציון נוכחות של מילה.
  • מספר הפעמים שמילה תופיע בתיק. לדוגמה, אם הביטוי היה כלב חום ערמוני הוא כלב עם פרווה חום ערמוני, גם חום ערמוני וגם כלב מיוצגים כ-2 והמילים האחרות מיוצגות כ-1.
  • ערך נוסף, כמו הלוגריתם של מספר הפעמים שמילה מופיעה בתיק.

BERT (ייצוגים דו-כיווניים של מקודד מטרנספורמרים)

#language

ארכיטקטורה של מודל לייצוג של טקסט. מודל BERT מאומן יכול לשמש כחלק ממודל גדול יותר לסיווג טקסטים או למשימות אחרות של למידת מכונה.

ל-BERT יש את המאפיינים הבאים:

הווריאציות של BERT כוללות:

  • ALBERT, שהם ראשי תיבות של A Light BERT.
  • LaBSE.

סקירה כללית על BERT זמינים במאמר Open Sourcing BERT: הדרכה מראש על עיבוד שפה טבעית (NLP).

דו-כיווני

#language

מונח המשמש לתיאור מערכת שמעריכה את הטקסט שמופיע לפני קטע הטקסט וגם מופיע אחרי קטע היעד. לעומת זאת, מערכת חד-כיוונית בודקת רק את הטקסט שקודם קטע היעד בטקסט.

לדוגמה, כדאי להשתמש במודל שפה מוסווה שחייב לקבוע הסתברויות למילה או למילים שמייצגות את הקו התחתון בשאלה הבאה:

מה _____ איתך?

מודל שפה חד-כיווני צריך לבסס את ההסתברויות שלו רק על ההקשר שמספק המילים "מה", "הוא" ו "ה". לעומת זאת, מודל שפה דו-כיווני יכול גם לקבל הקשר מ'עם' ומ'אתם', מה שיכול לעזור למודל ליצור חיזויים טובים יותר.

מודל שפה דו-כיווני

#language

מודל שפה שקובע את ההסתברות לכך שאסימון נתון נמצא במיקום נתון בקטע טקסט, על סמך הטקסט הקודם והעוקב.

Bigram

#seq
#language

N-gram שבו N=2.

BLEU (למידה דו-לשונית)

#language

ציון בין 0.0 ל-1.0, כולל, שמציין את איכות התרגום בין שתי שפות אנושיות (למשל, בין אנגלית לרוסית). ציון BLEU של 1.0 מציין תרגום מושלם, וציון BLEU של 0.0 מציין תרגום גרוע.

C

מודל שפה סיבתי

#language

מילה נרדפת למודל שפה חד-כיווני.

אפשר לעיין בקטע מודל שפה דו-כיווני כדי להשוות גישות כיווניות שונות בבניית מודלים של שפות.

הנחיית שרשרת מחשבות

#language
#generativeAI

שיטת הנדסת בקשות שמעודדת מודל שפה גדול (LLM) להסביר את הסיבות שלו, שלב אחרי שלב. לדוגמה, נסו לחשוב על ההנחיה הבאה, שתשימו לב במיוחד למשפט השני:

כמה כוחות G היה נהג לחוות במכונית שנוסעת מ-0 עד 90 מייל לשעה ב-7 שניות? בתשובה, מציגים את כל החישובים הרלוונטיים.

סביר להניח שהתגובה של מודל השפה הגדול:

  • הצגת רצף של נוסחאות בפיזיקה על ידי הזנת הערכים 0, 60 ו-7 במקומות המתאימים.
  • הסבירו מדוע היא בחרה בנוסחאות האלו ומה המשמעות של המשתנים השונים.

עידוד שרשרת חשיבה גורמת ל-LLM לבצע את כל החישובים, מה שיכול להוביל לתשובה נכונה יותר. בנוסף, בקשת שרשרת מחשבות מאפשרת למשתמש לבחון את השלבים במודל השפה הגדול כדי לקבוע אם התשובה הגיונית.

ניתוח הבוחרים

#language

פיצול משפט למבנים דקדוקיים קטנים יותר ("מרכיבים"). בחלק מאוחר יותר במערכת למידת המכונה, כמו מודל הבנת שפה טבעית (NLP), אפשר לנתח את המרכיבים בקלות רבה יותר מהמשפט המקורי. לדוגמה, נסו לחשוב על המשפט הבא:

חבר שלי אימץ שני חתולים.

מנתח בחירות יכול לחלק את המשפט הזה לשני המרכיבים הבאים:

  • חבר שלי הוא שם לשון.
  • אימץ שני חתולים הוא ביטוי הפועל.

אפשר לחלק את המרכיבים האלה למרכיבים קטנים יותר. לדוגמה, המילה 'פועל'

אימצו שני חתולים

ניתן לחלק לקבוצות משנה נוספות:

  • adopted הוא פועל.
  • שני חתולים הוא שם עצם נוסף.

התרסקות

#language

משפט או ביטוי עם משמעות לא ברורה. פריחות של קריסות הן בעיה משמעותית בהבנת שפה טבעית. לדוגמה, הכותרת Red Tape Holds Up Skyscraper מכסה את הנושא של פריחה, מפני שמודל NLU יכול לפרש את הכותרת באופן מילולי או מילולי.

D

מפענח,

#language

באופן כללי, כל מערכת למידת מכונה שממירה מייצוג מעובד, צפוף או פנימי לייצוג גולמי, תמציתי או חיצוני יותר.

לעיתים קרובות מפענחים הם רכיב במודל גדול יותר, ולעיתים קרובות הם מותאמים באמצעות מקודד.

במשימות של רצף לרצף, המפענח מתחיל במצב הפנימי שנוצר על ידי המקודד כדי לחזות את הרצף הבא.

במאמר Transformer מוסבר איך מגדירים מפענח בארכיטקטורת טרנספורמר.

סינון רעשים

#language

גישה נפוצה ללמידה בפיקוח עצמי, שבה:

  1. רעש נוסף באופן מלאכותי למערך הנתונים.
  2. model מנסה להסיר את הרעש.

סינון רעשים מאפשר ללמוד מדוגמאות ללא תוויות. מערך הנתונים המקורי משמש בתור היעד או התווית, ואת הנתונים עם הרעש כקלט.

בחלק ממודלים של אנונימיזציה נעשה שימוש בסינון רעשים באופן הבא:

  1. רעש מתווסף באופן מלאכותי למשפט ללא תווית באמצעות התממה של חלק מהאסימונים.
  2. המודל מנסה לחזות את האסימונים המקוריים.

שליחת הודעה ישירה

#language
#generativeAI

מילה נרדפת ל-zero-shot Prompting.

E

עריכת המרחק

#language

מדד שמראה עד כמה שתי מחרוזות טקסט דומות זו לזו. בלמידת מכונה, עריכת המרחק היא שימושית כי היא פשוטה וקלה לחישוב, והיא מהווה דרך יעילה להשוות בין שתי מחרוזות שידוע שהן דומות או למצוא מחרוזות שדומות למחרוזת נתונה.

יש כמה הגדרות לעריכת המרחק, וכל אחת מהן משתמשת בפעולות שונות של מחרוזות. לדוגמה, המרחק של Levenshtein כולל את הכמות המינימלית ביותר של פעולות מחיקה, הוספה והחלפה.

לדוגמה, המרחק בין המילים "לב" ל "חיצים" הוא 3, כי 3 העריכות הבאות הן רק הרמה מעטה של שינויים שבוצעו כדי להפוך מילה אחת לשנייה:

  1. לב ← deart (מחליפים את 'h' ב-'d')
  2. deart → dart (מחיקה של 'e')
  3. dart → קליעה (insert 's)

שכבת הטמעה

#language
#fundamentals

שכבה מוסתרת מיוחדת שמתאמנים על מאפיין קטגורייתי במימד גבוה כדי ללמוד בהדרגה וקטור הטמעה של מאפיין נמוך יותר. שכבת הטמעה מאפשרת לרשת נוירונים לאמן הרבה יותר ביעילות מאשר לאמן רק את המאפיין הקטגוריאלי בעל הממדים הגבוהים.

לדוגמה, Google Earth תומך כרגע בכ-73,000 זני עצים. נניח שמיני עצים הם תכונה במודל, ושכבת הקלט של המודל כוללת וקטור אחד לוהט באורך של 73,000 רכיבים. לדוגמה, ייתכן שהייצוג של baobab ייראה כך:

מערך של 73,000 רכיבים. 6,232 הרכיבים הראשונים מכילים את הערך
     0. הרכיב הבא מכיל את הערך 1. 66,767 הרכיבים הסופיים מכילים את הערך אפס.

מערך המכיל 73,000 רכיבים הוא ארוך מאוד. אם לא תוסיפו למודל שכבת הטמעה, האימון יהיה צורך זמן רב כתוצאה מהכפלת 72,999 אפסים. אולי בחרתם בשכבת ההטמעה שתהיה כוללת 12 מאפיינים. כתוצאה מכך, שכבת ההטמעה תלמד בהדרגה וקטור הטמעה חדש לכל סוג של עץ.

במצבים מסוימים, hashing הוא חלופה סבירה לשכבת הטמעה.

מרחב הטמעה

#language

ממופים של המרחב הווקטורי הדו-ממדי שמוצג ממרחב וקטורי גבוה יותר. באופן אידיאלי, מרחב ההטמעה מכיל מבנה שמניב תוצאות מתמטיות משמעותיות. לדוגמה, במרחב הטמעה אידיאלי, חיבור וחיסור של הטמעות יכול לפתור משימות של אנלוגיה של מילים.

מכפלת הנקודות של שתי הטמעות היא מדד של הדמיון ביניהן.

וקטור הטמעה

#language

באופן כללי, מערך של מספרים של נקודה צפה (floating-point) שנלקחו מכל שכבה מוסתרת שמתארת את הקלט לשכבה המוסתרת. לעיתים קרובות, וקטור הטמעה הוא מערך של מספרים בנקודה צפה (floating-point) שאומנו בשכבת הטמעה. לדוגמה, נניח ששכבת ההטמעה חייבת ללמוד וקטור הטמעה לכל אחד מ-73,000 זני העצים בכדור הארץ. אולי המערך הבא הוא וקטור ההטמעה של עץ baobab:

מערך של 12 רכיבים, שכל אחד מהם מכיל מספר נקודה צפה (floating-point) בין 0.0 ל-1.0.

וקטור הטמעה אינו קבוצה של מספרים אקראיים. שכבת ההטמעה קובעת את הערכים האלה באמצעות אימון, בדומה לאופן שבו רשת נוירונים לומדת משקולות אחרות במהלך האימון. כל רכיב של המערך הוא דירוג לאורך מאפיין של מיני עץ. איזה רכיב מייצג את המאפיין של מינים של עצים? זה קשה מאוד לבני אדם לקבוע זאת.

החלק הבולט מבחינה מתמטית של וקטור ההטמעה הוא שלפריטים דומים יש קבוצות דומות של מספרים בנקודה צפה (floating-point). לדוגמה, לזנים דומים של עצים יש קבוצה דומה יותר של מספרים בנקודה צפה (floating-point) מאשר של מיני עצים דומים. עצי הסקויה והסקוויה הם מינים קשורים של עצים, ולכן קבוצת המספרים המוצפים דומה יותר לזו של עצי הסקויה ועצי הקוקוס. המספרים בווקטור ההטמעה ישתנו בכל פעם שתאמנים מחדש את המודל, גם אם תאמנו את המודל מחדש עם קלט זהה.

מקודד

#language

באופן כללי, כל מערכת למידת מכונה שממירה מייצוג גולמי, מצומצם או חיצוני לייצוג מעובד, צפוף או פנימי יותר.

לעיתים קרובות מקודדים הם רכיב במודל גדול יותר, ולעיתים קרובות הם מותאמים באמצעות מפענח. חלק מהטרנספורמרים מתאימים מקודדים למפענחים, אבל אחרים משתמשים רק במקודד או רק במפענח.

בחלק מהמערכות נעשה שימוש בפלט של המקודד כקלט לרשת סיווג או רגרסיה.

במשימות של רצף לרצף, המקודד לוקח את רצף הקלט ומחזיר מצב פנימי (וקטור). לאחר מכן, המפענח משתמש במצב הפנימי הזה כדי לחזות את הרצף הבא.

במאמר טרנספורמר מוסבר איך מגדירים מקודד בארכיטקטורת טרנספורמר.

F

פרומפט עם כמה דוגמאות

#language
#generativeAI

הודעה שמכילה יותר מדוגמה אחת ("מעט") שמדגימה איך מודל שפה גדול (LLM) צריך להגיב. לדוגמה, בהודעה הארוכה הבאה יש שתי דוגמאות שמציגות מודל שפה גדול איך לענות על שאילתה.

חלקים של פרומפט אחד הערות
מהו המטבע הרשמי של המדינה שצוינה? השאלה שאתם רוצים שה-LLM יענה עליה.
צרפת: EUR דוגמה אחת.
בריטניה: GBP דוגמה נוספת.
הודו: השאילתה עצמה.

בדרך כלל, כשמתקבלת הודעה על כך, מקבלים תוצאות רצויות יותר מאשר פרומפט ישיר (zero-shot). ופרומפט ישיר (one-shot). עם זאת, כדי ליצור הנחיה ארוכה יותר, נדרש פרומפט ארוך יותר.

הנחיות עם מעט פקודות הן סוג של למידה מבוססת-מספרים שרלוונטית ללמידה מבוססת-בקשות.

כינור

#language

ספריית הגדרה עם דגש על Python שמגדירה את הערכים של פונקציות ומחלקות בלי תשתית או קוד פולשניים. במקרה של Pax ובסיסי קוד אחרים של למידת מכונה, הפונקציות והמחלקות האלה מייצגות מודלים ואימון היפר-פרמטרים.

ההנחה של Fiddle היא שבסיסי קוד של למידת מכונה מחולקים בדרך כלל לשניים:

  • קוד הספרייה, שמגדיר את השכבות ואת כלי האופטימיזציה.
  • קוד "דבק" של מערך נתונים, שקורא לספריות ולחוטים יחד.

הכינור מתעד את מבנה הקריאה של קוד התג באופן שאינו מוערך, וניתן לשינוי.

כוונון עדין

#language
#image
#generativeAI

פס אימון נוסף שספציפי למשימה מבוצע על מודל שעבר אימון מראש, כדי לחדד את הפרמטרים שלו בתרחיש ספציפי לדוגמה. לדוגמה, רצף האימון המלא בחלק ממודלים גדולים של שפה הוא:

  1. הדרכה מקדימה: אימון מודל שפה גדול על מערך נתונים כללי גדול, כמו כל דפי הוויקיפדיה באנגלית.
  2. כוונון עדין: אפשר לאמן את המודל שעבר אימון מראש לבצע משימה ספציפית, כמו מענה לשאילתות רפואיות. לרוב, כוונון עדין כולל מאות או אלפי דוגמאות שמתמקדות במשימה הספציפית.

דוגמה נוספת: רצף האימון המלא של מודל תמונה גדול הוא:

  1. pre-training: אימון מודל תמונה גדול על מערך נתוני תמונות כללי נרחב, כמו כל התמונות ב-Wikimedia Common.
  2. כוונון עדין: אפשר לאמן את המודל שעבר אימון מראש לבצע משימה ספציפית, כמו יצירת תמונות של אורקות.

כוונון עדין יכול לכלול כל שילוב של האסטרטגיות הבאות:

  • שינוי כל הפרמטרים הקיימים במודל שעבר אימון מראש. פעולה זו נקראת לפעמים כוונון עדין מלא.
  • שינוי רק חלק מהפרמטרים הקיימים של המודל שעבר אימון מראש (בדרך כלל, השכבות הקרובות ביותר לשכבת הפלט), תוך השארת הפרמטרים הקיימים ללא שינוי (בדרך כלל, השכבות הקרובות ביותר לשכבת הקלט). למידע נוסף, ראו כוונון לפי פרמטר יעיל.
  • הוספת שכבות נוספות, בדרך כלל מעל השכבות הקיימות הקרובות ביותר לשכבת הפלט.

כוונון עדין הוא סוג של העברת למידה. לכן, יכול להיות שכוונון עדין ישתמש בפונקציית אובדן אחרת או בסוג מודל אחר מאלה ששימשו לאימון המודל שעבר אימון מראש. לדוגמה, אפשר לכוונן מודל תמונה גדול שעבר אימון מראש כדי ליצור מודל רגרסיה שמחזיר את מספר הציפורים בתמונת קלט.

משווים ומשווים כוונון עדין בעזרת המונחים הבאים:

פשתן

#language

ספריית קוד פתוח בעלת ביצועים גבוהים ללמידה עמוקה, המבוססת על JAX. Flax מספק פונקציות לאימון רשתות נוירונים, וכן שיטות להערכת הביצועים.

פשתן

#language

ספרייה של טרנספורמר בקוד פתוח, שמבוססת על Flax, שמיועדת בעיקר לעיבוד שפה טבעית (NLP) ולמחקר מרובה מצבים.

G

בינה מלאכותית גנרטיבית

#language
#image
#generativeAI

שדה טרנספורמטיבי מתפתח ללא הגדרה רשמית. עם זאת, רוב המומחים מסכימים שמודלים של בינה מלאכותית גנרטיבית יכולים ליצור ("ליצור") תוכן שכולו:

  • מורכב
  • קוהרנט
  • מקורית

לדוגמה, מודל של בינה מלאכותית גנרטיבית יכול ליצור תמונות או מאמרים מתוחכמים.

כמה מהטכנולוגיות הקודמות, כולל LSTM ורשתות RNN, יכולות גם ליצור תוכן מקורי ועקבי. חלק מהמומחים מתייחסים לטכנולוגיות הקודמות האלה כבינה מלאכותית גנרטיבית, ואילו אחרים סבורים שבינה מלאכותית גנרטיבית אמיתית דורשת פלט מורכב יותר מאשר הטכנולוגיות הקודמות יכולות להפיק.

בניגוד ללמידת מכונה חזויה.

GPT (טרנספורמר גנרטיבי שעבר אימון מראש)

#language

משפחה של מודלים גדולים של שפה (LLM) שמבוססים על Transformer, שפותחו על ידי OpenAI.

וריאציות של GPT יכולות לחול על כמה שיטות, כולל:

  • יצירת תמונה (לדוגמה, ImageGPT)
  • יצירת טקסט לתמונה (לדוגמה, DALL-E).

H

תגובות לא תואמות נתונים (hallucination)

#language

ייצור של פלט שנראית הגיונית, אבל עם עובדות שגויות, על ידי מודל של בינה מלאכותית גנרטיבית, שמתיימר להסתמך על טענה לגבי העולם האמיתי. לדוגמה, מודל של בינה מלאכותית גנרטיבית שטוען שברק אובמה נפטר בשנת 1865 גורם להגיון.

I

למידה בהקשר

#language
#generativeAI

מילה נרדפת ל-few-shot פרומפטים.

L

LaMDA (מודל שפה לאפליקציות דיאלוג)

#language

מודל שפה גדול (LLM) מבוסס טרנספורמר שפותח על ידי Google על בסיס מערך נתונים גדול של דיאלוג, שיכול ליצור תשובות מציאותיות לשיחות.

LaMDA: טכנולוגיית השיחה פורצת הדרך שלנו מספקת סקירה כללית.

מודל שפה

#language

model שמעריך את ההסתברות שmodel או רצף אסימונים יתרחשו ברצף ארוך יותר של אסימונים.

מודל שפה גדול (LLM)

#language

מונח לא רשמי ללא הגדרה מחמירה, שלרוב הוא מודל שפה שיש לו מספר גבוה של פרמטרים. חלק מהמודלים גדולים של שפה מכילים יותר מ-100 מיליארד פרמטרים.

M

מודל התממת שפה (MLM)

#language

מודל שפה שחוזה את ההסתברות שאסימונים מועמדים ימלאו תאים ריקים ברצף. לדוגמה, מודל שפה מוסווה יכול לחשב הסתברויות למילים אפשריות, ולהחליף את הקו התחתון במשפט הבא:

ה-____ בכובע חזר.

בספרות משתמשים בדרך כלל במחרוזת "MASK" במקום בקו תחתון. לדוגמה:

סמל ה-"MASK" בכובע חזר.

רוב המודלים המודרניים של מסכות הם דו-כיווניים.

למידה של מטא-למידה

#language

קבוצת משנה של למידת מכונה שמגלה או משפרת אלגוריתם של למידה. מערכת מטא-למידה יכולה גם לאמן מודל ללמוד במהירות משימה חדשה מכמות קטנה של נתונים או מניסיון שצברתם במשימות קודמות. בדרך כלל, אלגוריתמים של למידת מטא צריכים להשיג את היעדים הבאים:

  • שיפור/למידה של תכונות מהונדסות ידנית (כמו מאתחל או אופטימיזציה).
  • לשפר את היעילות של הנתונים ואת היעילות של המחשוב.
  • שיפור ההכללה.

מטא-למידת מכונה קשורה ללמידה עם מעט שוטים.

מודל

#language

קטגוריה של נתונים ברמה גבוהה. מספרים, טקסט, תמונות, וידאו ואודיו הם חמש שיטות שונות, למשל.

מקבילים לדוגמה

#language

דרך להסקת מסקנות או לבצע התאמה לעומס (scaling), ששמה חלקים שונים של model אחד בmodel שונים. מקבילה בין מודלים מאפשרת למודלים שגדולים מדי מכדי להתאים למכשיר יחיד.

כדי ליישם מקבילה של מודלים, בדרך כלל המערכת מבצעת את הפעולות הבאות:

  1. פיצול (מחלק) את המודל לחלקים קטנים יותר.
  2. מחלק את האימון של החלקים הקטנים האלה בין מספר מעבדים. כל מעבד מאמן חלק משלו במודל.
  3. שילוב התוצאות ליצירת מודל יחיד.

מודל מקבילות מאט את האימון.

כדאי לעיין גם בקטע מקבילה של נתונים.

קשב עצמי מרובה ראש

#language

תוסף של תשומת לב עצמית שמפעיל את מנגנון הקשב העצמי כמה פעמים על כל מיקום ברצף הקלט.

טרנספורמרים כוללים עכשיו יכולת של קשב עצמי מרובה ראש.

מודל מרובה מצבים

#language

מודל שהקלט ו/או הפלט שלו כוללים יותר משיטה אחת. לדוגמה, נניח שמודל מקבל גם תמונה וגם כיתוב טקסט (שתי שיטות) כתכונות, ומפיק ציון שמציין עד כמה כיתוב הטקסט מתאים לתמונה. לכן, הקלט של המודל הזה הוא מרובה מצבים, והפלט הוא חד-מודאלי.

צ'

הבנת שפה טבעית (NLU)

#language

קביעת הכוונות של המשתמש על סמך מה שהוא הקליד או אמר. לדוגמה, מנוע חיפוש משתמש בהבנת שפה טבעית (NLP) כדי לקבוע מה המשתמש מחפש על סמך מה שהוא הקליד או אמר.

N גראם

#seq
#language

רצף מסודר של N מילים. לדוגמה, המילה truly madly (ממש משוגע) היא 2 גרם. בגלל שהסדר רלוונטי, הערך של אכן אמיתי שונה מ-2 גרמים מאשר באמת משוגע.

צ' שמות לסוג N-gram כזה דוגמאות
2 Bigram או 2 גרם להגיע, ללכת, לאכול ארוחת צהריים, לאכול ארוחת ערב
3 טריגרם או 3 גרם אכלת יותר מדי, שלושה עכברים עיוורים, צלצול פעמון
4 4 גרם הליכה בפארק, אבק ברוח, הילד אכל עדשים

הרבה מודלים של הבנת שפה טבעית מסתמכים על N-gram כדי לחזות את המילה הבאה שהמשתמש יקליד או יאמר. לדוגמה, נניח שמשתמש הקליד שלושה עיוורים. מודל NLU שמבוסס על טריגרים צפוי לחזות שהמשתמש הבא יקליד עכברים.

תיק מילים, שהוא קבוצת מילים לא ממוינת, בניגוד לגרם.

NLU

#language

קיצור של הבנת שפה טבעית (NLP).

O

הנחיה בפעולה אחת

#language
#generativeAI

הודעה שמכילה דוגמה אחת שמדגימה איך מודל שפה גדול (LLM) אמור להגיב. לדוגמה, הפקודה הבאה מכילה דוגמה למודל שפה גדול (LLM) איך הוא צריך לענות על שאילתה.

חלקים של פרומפט אחד הערות
מהו המטבע הרשמי של המדינה שצוינה? השאלה שאתם רוצים שה-LLM יענה עליה.
צרפת: EUR דוגמה אחת.
הודו: השאילתה עצמה.

ניתן להשוות בין פקודות של צילום אחד למונחים הבאים:

P

כוונון עם יעילות פרמטר

#language
#generativeAI

קבוצת שיטות לכוונון גדול יותר של מודל שפה שעבר אימון מראש (PLM) בצורה יעילה יותר מאשר כוונון עדין מלא. בדרך כלל, כוונון באמצעות פרמטר יעיל מכוונן פחות פרמטרים מכוונון עדין מלא. עם זאת, לרוב הוא יוצר מודל שפה גדול (LLM) עם ביצועים טובים (או כמעט שווה) לעומת מודל שפה גדול (LLM) שנוצר מכוונון מלא.

משווים ומשווים כוונון עם יעילות פרמטרים באמצעות:

כוונון לפי יעילות פרמטר נקרא גם כוונון עדין יעיל מבחינת פרמטר.

צינור עיבוד נתונים

#language

מקבילה של מודל, שבה העיבוד של המודל מחולק לשלבים רצופים, וכל שלב מבוצע במכשיר אחר. בזמן ששלב הוא עיבוד של אצווה אחת, השלב הקודם יכול לפעול גם על הקבוצה הבאה.

אפשר לעיין גם בהדרכה מדורגת.

מודל PLM

#language
#generativeAI

קיצור של מודל שפה שעבר אימון מראש.

קידוד מיקום

#language

שיטה להוספת מידע על המיקום של אסימון ברצף אל תהליך ההטמעה של האסימון. מודלים של טרנספורמרים משתמשים בקידוד לפי מיקום כדי להבין טוב יותר את הקשר בין חלקים שונים ברצף.

אחת השיטות הנפוצות של קידוד מיקום היא פונקציה סינוסואידאלית. (באופן ספציפי, התדירות והמשרעת של הפונקציה הסינוסואידית נקבעות לפי המיקום של האסימון ברצף). הטכניקה הזו מאפשרת למודל טרנספורמר ללמוד לקלוט חלקים שונים ברצף על סמך המיקום שלהם.

שעבר אימון מקדים

#language
#image
#generativeAI

מודלים או רכיבי מודל (למשל וקטור הטמעה) שכבר אומנו. לפעמים צריך להזין וקטורים של הטמעה מאומנים ברשת נוירונים. במקרים אחרים, המודל יאמן את הווקטורים של ההטמעה בעצמם במקום להסתמך על הטמעות שעברו אימון מראש.

המונח מודל שפה שעבר אימון מראש מתייחס למודל שפה גדול (LLM) שעבר אימון מקדים.

לפני אימון

#language
#image
#generativeAI

אימון ראשוני של מודל על מערך נתונים גדול. חלק מהמודלים שאומנו מראש הם ענקיים מגושמים, ובדרך כלל צריך לשפר אותם באמצעות אימון נוסף. לדוגמה, מומחי למידת מכונה יכולים לאמן מראש מודל שפה גדול על מערך נתונים גדול של טקסט, כמו כל הדפים באנגלית בוויקיפדיה. לאחר אימון מראש, אפשר לשפר את המודל שיתקבל באמצעות כל אחת מהשיטות הבאות:

פרומפט

#language
#generativeAI

כל טקסט שהוזן כקלט במודל שפה גדול, כדי שהמודל יתנהג בצורה מסוימת. הפרומפטים יכולים להיות קצרים כמו ביטוי או ארוכים באופן שרירותי (לדוגמה, הטקסט המלא של רומן). הודעות נכללות בכמה קטגוריות, כולל אלה שמוצגות בטבלה הבאה:

קטגוריית ההודעה דוגמה הערות
שאלה כמה מהר יונה יכול לעוף?
הוראות כדאי לכתוב שיר מצחיק על ארביטראז'. הודעה שמבקשת ממודל השפה הגדול לבצע פעולה כלשהי.
דוגמה תרגום קוד Markdown ל-HTML. לדוגמה:
Markdown: * פריט ברשימה
HTML: <ul> <li>פריט רשימה</li> </ul>
המשפט הראשון פרומפט לדוגמה הזה הוא הוראה. המשך הפרומפט הוא הדוגמה.
התפקיד מסבירים למה משתמשים בירידה הדרגתית באימון של למידת מכונה לקראת דוקטורט בפיזיקה. החלק הראשון של המשפט הוא הוראה; הביטוי "לדוקטור בפיזיקה" הוא חלק התפקיד.
קלט חלקי שיש להשלים את המודל ראש ממשלת בריטניה גר ב- הנחיית קלט חלקית יכולה להסתיים בפתאומיות (כמו בדוגמה הזו) או להסתיים בקו תחתון.

מודל של בינה מלאכותית גנרטיבית יכול להגיב להנחיה עם טקסט, קוד, תמונות, הטמעות, סרטונים... כמעט כל דבר.

למידה מבוססת-הנחיה

#language
#generativeAI

יכולת של מודלים מסוימים שמאפשרת להם לשנות את ההתנהגות שלהם בתגובה לקלט טקסט שרירותי (הודעות בקשה). בפרדיגמה טיפוסית של למידה מבוססת-הנחיה, מודל שפה גדול מגיב להנחיה באמצעות יצירת טקסט. לדוגמה, נניח שמשתמש מזין את הבקשה הבאה:

תסכם את חוק התנועה השלישי של ניוטון.

מודל עם יכולות של למידה מבוססת-הנחיה לא הוכשר באופן ספציפי לענות על ההנחיה הקודמת, אלא, המודל "יודע" הרבה עובדות על פיזיקה, הרבה על כללי שפה כלליים והרבה על מה מורכב מתשובות שימושיות באופן כללי. הידע הזה יספיק כדי לספק תשובה מועילה (בתקווה). משוב אנושי נוסף ("התשובה הייתה מורכבת מדי" או "מה הייתה התגובה?") מאפשר למערכות למידה מסוימות לשפר בהדרגה את מידת היעילות של התשובות שלהן.

עיצוב פרומפט

#language
#generativeAI

מילה נרדפת להנדסת בקשות.

הנדסת פרומפטים

#language
#generativeAI

יצירת הודעות בקשה שמפיקות את התגובות הרצויות ממודל שפה גדול (LLM). בני אדם מבצעים הנדסת פרומפטים. חשוב מאוד לכתוב הנחיות שמובנות בצורה טובה כדי להבטיח תשובות מועילות ממודל שפה גדול. הנדסת הפרומפטים תלויה בגורמים רבים, כולל:

במאמר מבוא לעיצוב פרומפטים מוסבר איך לכתוב הנחיות מועילות.

עיצוב פרומפטים הוא מילה נרדפת להנדסת פרומפטים.

כוונון של הנחיות

#language
#generativeAI

מנגנון כוונון יעיל של פרמטר שלומד "קידומת" שהמערכת מצרפת לפני הבקשה בפועל.

אחת הווריאציות של כוונון הנחיות, שלפעמים נקראת כוונון קידומת, היא להוסיף את הקידומת בתחילת כל שכבה. לעומת זאת, ברוב המקרים כוונון של הנחיות מוסיף קידומת רק לשכבת הקלט.

R

הצעות לתפקידים

#language
#generativeAI

חלק אופציונלי מהודעה שמזהה קהל יעד בתגובה של מודל בינה מלאכותית גנרטיבית. בלי בקשת תפקידים, מודל שפה גדול (LLM) מספק תשובה מועילה שיכול להיות, או לא, מועילה למי ששואל את השאלות. עם בקשת תפקידים, מודל שפה גדול יכול לענות על השאלה בצורה נכונה ומועילה יותר לקהל יעד ספציפי. לדוגמה, החלק של בקשות התפקיד בהודעות הבאות מופיע בגופן מודגש:

  • תסכם את המאמר הזה לקבלת דוקטורט בכלכלה.
  • תארו איך פועלים גאות ושפל לילדים בני עשר.
  • להסביר את המשבר הפיננסי ב-2008. דברו כמו שאתם אומרים לילד צעיר או לגולדן רטריבר.

S

קשב עצמי (נקרא גם שכבת הקשב העצמי)

#language

שכבה של רשת נוירונים שהופכת רצף של הטמעות (לדוגמה, הטמעות של אסימון) לרצף אחר של הטמעות. כל הטמעה ברצף הפלט נוצרת על ידי שילוב מידע מהאלמנטים של רצף הקלט באמצעות מנגנון תשומת לב.

הקטע עצמי מתוך תשומת לב עצמית מתייחס לרצף שממוקד לעצמו, ולא להקשר אחר. קשב עצמי הוא אחד מאבני הבניין העיקריות של טרנספורמרים, והוא מבוסס על טרמינולוגיה של חיפוש מילון, כמו "query", "key" ו-"value".

שכבת הקשב עצמי מתחילה ברצף של ייצוגי קלט – אחד לכל מילה. ייצוג הקלט של מילה יכול להיות הטמעה פשוטה. הרשת מציינת את הרלוונטיות של כל מילה ברצף הקלט לכל רכיב ברצף המילים. ציוני הרלוונטיות קובעים עד כמה הייצוג הסופי של המילה כולל את הייצוגים של מילים אחרות.

לדוגמה, נבחן את המשפט הבא:

החיה לא חצה את הרחוב כי היא הייתה עייפה מדי.

באיור הבא (מתוך Transformer: A Novel Neural Network Architecture for LanguageUnderstanding) ניתן לראות דפוס תשומת לב של שכבת הקשב העצמי ללשון הפנייה זה. מידת הכהות בכל שורה מייצגת עד כמה כל מילה תורמת למיוצג:

המשפט הבא מופיע פעמיים: &#39;בעל החיים לא חצה את הרחוב כי הוא היה עייף מדי&#39;.  השורות מחברות את המילה &#39;it&#39; במשפט אחד לחמישה אסימונים (&#39;The&#39;, &#39;animal&#39;, &#39;street&#39;, &#39;it&#39; והנקודה) במשפט האחר.  הקו בין &#39;it&#39; לבין &#39;בעל חיים&#39; הוא החזקה ביותר.

השכבה 'קשב-עצמי' מדגישה מילים שרלוונטיות למילה הזו. במקרה הזה, שכבת תשומת הלב למדה להדגיש מילים שהיא עשויה להתייחס אליהן, ולהקצות את המשקל הגבוה ביותר למילה בעל חיים.

עבור רצף של n אסימונים, הקשב העצמי ממיר רצף של הטמעות n פעמים נפרדות, פעם אחת בכל מיקום ברצף.

כדאי גם לקרוא את המאמרים תשומת לב וקשב עצמי מרובה ראש.

ניתוח סנטימנט

#language

שימוש באלגוריתמים סטטיסטיים או אלגוריתמים של למידת מכונה כדי לקבוע את הגישה הכוללת (חיובית או שלילית) של קבוצה כלפי שירות, מוצר, ארגון או נושא. לדוגמה, באמצעות הבנת שפה טבעית, אלגוריתם יכול לבצע ניתוח סנטימנטים על המשוב הטקסטואלי מקורס באוניברסיטה, כדי לקבוע באיזו מידה התלמידים אהבו או לא אהבו באופן כללי את הקורס.

משימת רצף לרצף

#language

משימה שממירה רצף קלט של אסימונים לרצף פלט של אסימונים. לדוגמה, יש שני סוגים פופולריים של משימות רצף לרצף:

  • מתרגמים:
    • רצף קלט לדוגמה: "אני אוהב/ת אותך".
    • דוגמה לרצף פלט: "Je t'aime".
  • מענה על שאלה:
    • רצף קלט לדוגמה: "האם אני צריך את המכונית שלי בתל אביב?"
    • רצף פלט לדוגמה: "לא. יש להשאיר את הרכב בבית".

תכונה מועטה

#language
#fundamentals

תכונה שהערכים שלה הם בעיקר אפס או ריקים. לדוגמה, מאפיין שמכיל ערך בודד של 1 ומיליון 0 ערכים הוא נדיר. לעומת זאת, לתכונה צפופה יש ערכים שרובם אינם אפס או שהם ריקים.

בלמידת מכונה, מספר מפתיע של תכונות הן תכונות מועטות. תכונות קטגוריות הן בדרך כלל תכונות מועטות. לדוגמה, מתוך 300 סוגים שונים של עצים ביער, דוגמה אחת יכולה לזהות רק עץ מייפל. לחלופין, מתוך מיליוני הסרטונים האפשריים בספריית הסרטונים, דוגמה אחת תוכל לזהות רק את "קזבלנקה".

במודל, אתם בדרך כלל מייצגים תכונות מיעוט באמצעות קידוד חד-פעמי. אם הקידוד בשימוש חד-פעמי גדול, תוכלו להוסיף שכבת הטמעה מעל לקידוד חד-פעמי כדי לשפר את היעילות.

ייצוג מועט

#language
#fundamentals

אחסון רק המיקום או המיקומים של רכיבים שאינם אפס בתכונה מצומצמת.

לדוגמה, נניח שתכונה קטגורית בשם species מזהה את 36 מיני העצים ביער מסוים. נניח בנוסף שכל דוגמה מזהה זן אחד בלבד.

אפשר להשתמש בווקטור חד-פעמי לייצוג זני העצים בכל דוגמה. וקטור אחד לוהט מכיל 1 אחד (שמייצג את סוג העצים הספציפי בדוגמה הזו) ו-35 0 (שמייצג את 35 זני העצים לא בדוגמה הזו). אז הייצוג החם היחיד של maple עשוי להיראות כך:

וקטור שבו מיקומים 0 עד 23 מחזיקים את הערך 0, מיקום 24 מכיל את הערך 1 ומיקומים 25 עד 35 מכילים את הערך 0.

לחלופין, ייצוג מועט פשוט יאפשר לזהות את המיקום של המינים מסוימים. אם maple נמצא במיקום 24, הייצוג הדחוס של maple יהיה פשוט:

24

שימו לב שהייצוג הדחוס הוא הרבה יותר קומפקטי מהייצוג בעל אופי אחיד.

אימון מתוזמן

#language

טקטיקה של אימון מודל ברצף של שלבים נפרדים. המטרה יכולה להיות לזרז את תהליך האימון או לשפר את איכות המודל.

איור של גישת הסידור בערימה הדרגתית:

  • שלב 1 מכיל 3 שכבות מוסתרות, שלב 2 מכיל 6 שכבות מוסתרות ושלב 3 מכיל 12 שכבות מוסתרות.
  • שלב 2 מתחיל להתאמן עם המשקולות שנלמדות בשלוש השכבות המוסתרות של שלב 1. שלב 3 מתחיל להתאמן עם המשקולות שנלמדות ב-6 השכבות המוסתרות בשלב 2.

שלושה שלבים, שמתויגים כ &#39;שלב 1&#39;, &#39;שלב 2&#39; ו &#39;שלב 3&#39;.
          כל שלב מכיל מספר שונה של שכבות: שלב 1 מכיל 3 שכבות, שלב 2 מכיל 6 שכבות ושלב 3 מכיל 12 שכבות.
          3 השכבות משלב 1 הופכות ל-3 השכבות הראשונות של שלב 2.
          באופן דומה, 6 השכבות משלב 2 הופכות ל-6 השכבות הראשונות של שלב 3.

כדאי לעיין גם בצינור עיבוד נתונים.

T

T5

#language

מודל של העברת למידה מטקסט לטקסט, שהושק על ידי Google AI בשנת 2020. T5 הוא מודל מקודד-מפענח, שמבוסס על ארכיטקטורת Transformer, שעבר אימון על מערך נתונים גדול במיוחד. הוא יעיל במגוון משימות של עיבוד שפה טבעית (NLP) כמו יצירת טקסט, תרגום שפות ומענה על שאלות תוך כדי שיחה.

T5 מקבל את שמו מחמשת סימני ה-T ב-"Text-to-Text Transfer Transformer".

T5X

#language

מסגרת של למידת מכונה בקוד פתוח, שנועדה ליצור לאמן מודלים גדולים של עיבוד שפה טבעית (NLP) בקנה מידה נרחב. החלק T5 מוטמע ב-codebase T5X (שמבוסס על JAX ו-Flax).

טמפרטורה

#language
#image
#generativeAI

היפר-פרמטר שקובע את מידת האקראיות של הפלט של המודל. טמפרטורה גבוהה יותר מובילה לפלט אקראי יותר, וטמפרטורות נמוכות יותר מניבות פחות פלט אקראי.

בחירת הטמפרטורה הטובה ביותר תלויה באפליקציה הספציפית ובמאפיינים הרצויים של הפלט של המודל. לדוגמה, סביר להניח להעלות את הטמפרטורה כשיוצרים אפליקציה שיוצרת פלט של קריאייטיב. לעומת זאת, כדאי להוריד את הטמפרטורה כשבונים מודל שמסווג תמונות או טקסט כדי לשפר את הדיוק והעקביות של המודל.

משתמשים בטמפרטורה בדרך כלל בעזרת softmax.

טווח טקסט

#language

טווח האינדקס של המערך המשויך לקטע משנה ספציפי של מחרוזת טקסט. לדוגמה, המילה good במחרוזת Python s="Be good now" מכילה את הטקסט מ-3 עד 6.

אסימון

#language

במודל שפה, זוהי היחידה האטומית שעליה המודל מתאמן ומבצע תחזיות. אסימון הוא בדרך כלל אחד מהגורמים הבאים:

  • מילה מסוימת – לדוגמה, הביטוי "כלבים כמו חתולים" מורכב משלושה אסימונים של מילים: "כלבים", "כמו" ו "חתולים".
  • תו - לדוגמה, הביטוי "bike fish" מכיל תשעה תווים אסימונים. (שימו לב שהרווח הריק נחשב אחד מהאסימונים).
  • מילות משנה – שבהן מילה יחידה יכולה להיות אסימון יחיד או מספר אסימונים. מילת משנה מורכבת ממילה בסיסית, מקידומת או מסיומת. לדוגמה, במודל שפה שמשתמשים במילות משנה כאסימונים, המילה "כלבים" עשויה להופיע כשני אסימונים (המילה הבסיסית 'כלב' והסיומת 's' ברבים). באותו מודל שפה, המילה הנפרדת "Tall" עשויה להתייחס לשתי מילות משנה (המילה הבסיסית "tall" והסיומת "er").

בדומיינים מחוץ למודלים של שפה, אסימונים יכולים לייצג סוגים אחרים של יחידות אטומיות. לדוגמה, בראייה ממוחשבת, אסימון יכול להיות קבוצת משנה של תמונה.

שנאי

#language

הארכיטקטורה של רשת נוירונים שפותחה ב-Google מסתמכת על מנגנוני קשב עצמי כדי להפוך רצף של הטמעות קלט לרצף של הטמעות פלט, בלי להסתמך על קונבולוציות או על רשתות נוירונים חוזרות. אפשר להציג את הטרנספורמר כמקבץ של שכבות של תשומת לב עצמית.

טרנספורמר יכול לכלול כל אחת מהאפשרויות הבאות:

מקודד הופך רצף של הטמעות לרצף חדש באותו אורך. המקודד כולל N שכבות זהות, שכל אחת מהן מכילה שתי שכבות משנה. שתי שכבות המשנה האלה מיושמות בכל מיקום של רצף ההטמעה של הקלט, וכל רכיב ברצף הופך להטמעה חדשה. שכבת המשנה הראשונה של המקודד צוברת מידע מכל רצף הקלט. שכבת המשנה השנייה של המקודד הופכת את המידע הנצבר להטמעת פלט.

מפענח ממיר רצף של הטמעות קלט לרצף של הטמעות פלט, אולי באורך שונה. מפענח כולל גם N שכבות זהות עם שלוש שכבות משנה, ששתיים מהן דומות לשכבות המשנה של המקודד. שכבת המשנה השלישית של המפענח לוקחת את פלט המקודד ומפעילה את מנגנון self-attention כדי לאסוף ממנו מידע.

בפוסט בבלוג Transformer: A Novel Neural Network Architecture for LanguageUnderstanding ניתן למצוא מבוא טוב לטרנספורמרים.

Trigram, טריגרם

#seq
#language

N-gram שבו N=3.

U

חד-כיווני

#language

מערכת שמעריכה רק את הטקסט שקודם לקטע יעד בטקסט. לעומת זאת, מערכת דו-כיוונית מעריכה גם את הטקסט שמופיע לפני קטע הטקסט וגם שעוקב אחרי קטע היעד. פרטים נוספים זמינים במאמר דו-כיווני.

מודל שפה חד-כיווני

#language

מודל שפה שמבסס את ההסתברויות שלו רק על האסימונים שמופיעים לפני, ולא אחרי אסימוני היעד. ההגדרה הזו מנוגדת למודל שפה דו-כיווני.

V

מקודד אוטומטי וריאציוני (VAE)

#language

סוג של מקודד אוטומטי שמנצל את חוסר ההתאמה בין קלט לפלט כדי ליצור גרסאות מותאמות של הקלט. מקודדים אוטומטיים וריאציוניים (VAE) שימושיים למטרות של בינה מלאכותית גנרטיבית.

משתני VAE מבוססים על מסקנות ווריאציות: שיטה להערכת הפרמטרים של מודל הסתברות.

W

הטמעת מילים

#language

ייצוג כל מילה בקבוצת מילים בתוך וקטור הטמעה. כלומר, כל מילה היא וקטור של ערכים של נקודה צפה (floating-point) בין 0.0 ל-1.0. למילים עם משמעות דומה יש ייצוגים דומים יותר ממילים עם משמעויות שונות. לדוגמה, לגזרים, לסלרי ולמלפפון יש ייצוגים דומים יחסית, והם יהיו שונים מאוד מהייצוגים של מטוס, משקפי שמש ומשחת שיניים.

Z

פרומפט ישיר (zero-shot).

#language
#generativeAI

הודעה שלא מספקת דוגמה לאופן שבו רוצים שמודל השפה הגדול יגיב. לדוגמה:

חלקים של פרומפט אחד הערות
מהו המטבע הרשמי של המדינה שצוינה? השאלה שאתם רוצים שה-LLM יענה עליה.
הודו: השאילתה עצמה.

מודל השפה הגדול עשוי להגיב באמצעות אחת מהאפשרויות הבאות:

  • רופיות
  • INR
  • רופי הודי
  • הרופי
  • רופי הודי

כל התשובות נכונות, אם כי ייתכן שתעדיפו פורמט מסוים.

ניתן להשוות בין פקודות שמוצגות על ידי אפס קוד באמצעות המונחים הבאים: