הדף הזה מכיל מונחי מילון של בינה מלאכותית גנרטיבית. לכל המונחים במילון המונחים, לחצו כאן.
A
מודל רגרסיבי אוטומטי
model שמסיק חיזוי על סמך החיזויים הקודמים שלו. לדוגמה, מודלים של שפה רגרסיביים אוטומטיים חוזים את האסימון הבא על סמך האסימונים הצפויים בעבר. כל מודלים גדולים של שפה (LLM) שמבוססים על טרנספורמרים הם רגרסיביים אוטומטיים.
לעומת זאת, מודלים של תמונות שמבוססים על GAN הם בדרך כלל לא רגרסיביים אוטומטיים, כי הם יוצרים תמונה במעבר אחד, ולא באופן איטרטיבי בשלבים. עם זאת, בחלק מהמודלים ליצירת תמונות הם רגרסיביים באופן אוטומטי כי הם יוצרים תמונה בשלבים.
C
הנחיות בטכניקת שרשרת מחשבה
שיטה של הנדסת פרומפטים שמעודדת מודל שפה גדול (LLM) להסביר את הסיבה שלו שלב אחרי שלב. לדוגמה, כדאי לחשוב על ההנחיה הבאה, ולהקדיש תשומת לב ספציפית למשפט השני:
כמה כוחות g היה נהג במכונית שנסעת מ-0 ל-96 ק"מ לשעה ב-7 שניות? בתשובה, הצג את כל החישובים הרלוונטיים.
סביר להניח שהתגובה של ה-LLM תהיה:
- מציגים רצף של נוסחאות בפיזיקה, מחברים את הערכים 0, 60 ו-7 במקומות המתאימים.
- הסבירו מדוע הם בחרו בנוסחאות האלה ומה המשמעות של המשתנים השונים.
הנחיה של שרשרת מחשבה מאלצת את ה-LLM לבצע את כל החישובים, מה שיכול להוביל לתשובה נכונה יותר. בנוסף, בקשה משרשרת מחשבה מאפשרת למשתמשים לבחון את השלבים של ה-LLM כדי להחליט אם התשובה הגיונית או לא.
צ'אט, צ'ט, צאט, צט
התוכן של דיאלוג הלוך ושוב עם מערכת למידת מכונה, בדרך כלל מודל שפה גדול (LLM). האינטראקציה הקודמת בצ'אט (מה הקלדתם והאופן שבו מודל השפה הגדול הגיב) הופכת להקשר של החלקים הבאים בצ'אט.
צ'אט בוט הוא אפליקציה של מודל שפה גדול (LLM).
הטמעת שפה לפי הקשר
הטמעה שקרובה ל "הבנה" של מילים וביטויים באופן שדוברים ילידיים יכולים. הטמעות של שפות לפי הקשר יכולות להבין תחביר, סמנטיקה והקשר מורכבים.
לדוגמה, כדאי לשקול הטמעות של המילה באנגלית cow (פרה). הטמעות ישנות יותר, כמו word2vec, יכולות לייצג מילים באנגלית, כך שהמרחק בשטח ההטמעה מפרה לשור דומה למרחק בין ewe (כבש) ל-Ram (כבש זכר) או מנקבה לזכר. הטמעות של שפות לפי הקשר יכולות לקחת צעד אחד קדימה, באמצעות ההכרה בכך שדוברי אנגלית לפעמים משתמשים במילה פרה בתור פרה או שור.
חלון הקשר
מספר האסימונים שמודל יכול לעבד בהנחיה נתונה. ככל שחלון ההקשר גדול יותר, כך המודל יכול להשתמש במידע רב יותר כדי לספק תשובות עקביות ועקביות להנחיה.
D
הנחיות ישירות
מילה נרדפת להנחיה ישירה (zero-shot).
זיקוק
תהליך הקטנת הגודל של model אחד (שנקרא model) למודל קטן יותר (שנקרא model) שמדם את התחזיות של המודל המקורי בצורה נאמנה ככל האפשר. הזיקוק מועיל, כי למודל הקטן יותר יש שני יתרונות עיקריים על פני המודל הגדול יותר (המורה):
- זמן הסקת מסקנות מהיר יותר
- צריכת זיכרון ואנרגיה מופחתת
עם זאת, החיזויים של התלמידים בדרך כלל פחות טובים מהחיזויים של המורה.
זיקוק מאמן את המודל של התלמידים למזער פונקציית הפסד על סמך ההבדל בין הפלט של התחזיות של המודלים של התלמידים ושל המורים.
השוו בין זיקוקים לבין המונחים הבאים:
נ
יצירת הנחיות בכמה דוגמאות
הודעה שמכילה יותר מדוגמה אחת ('מעט') שממחישה איך צריך להגיב מודל שפה גדול (LLM). לדוגמה, ההנחיה הארוכה הבאה מכילה שתי דוגמאות למודל שפה גדול (LLM) כדי לענות על שאילתה.
חלקים מהנחיה אחת | הערות |
---|---|
מהו המטבע הרשמי של המדינה שצוינה? | השאלה שעליה אתם רוצים שה-LLM יענה. |
צרפת: EUR | דוגמה אחת. |
בריטניה: GBP | דוגמה נוספת. |
הודו: | השאילתה עצמה. |
בדרך כלל, יצירת הנחיות מכמה דוגמאות מניבה תוצאות יותר רצויות מאשר יצירת הנחיות מאפס והנחיות בדוגמה אחת. אבל כדי ליצור הנחיות עם כמה דוגמאות, צריך הנחיה ארוכה יותר.
הנחיות מכמה דוגמאות הן סוג של למידה עם כמה דוגמאות שחלה על למידה מבוססת-הנחיות.
כוונון עדין
העברת אימון שנייה ספציפית למשימה באמצעות מודל שעבר אימון מראש, כדי לשפר את הפרמטרים שלו בתרחיש ספציפי לדוגמה. לדוגמה, רצף האימון המלא של חלק ממודלים גדולים של שפה הוא:
- אימון מראש: אימון מודל שפה גדול (LLM) במערך נתונים כללי נרחב, כמו כל דפי הוויקיפדיה באנגלית.
- כוונון: אימון המודל שעבר אימון מראש לביצוע משימה ספציפית, כמו מענה לשאילתות רפואיות. בדרך כלל הכוונון כולל מאות או אלפי דוגמאות שמתמקדות במשימה הספציפית.
דוגמה נוספת: רצף האימון המלא של מודל תמונה גדול הוא:
- אימון מראש: אימון מודל תמונה גדול על מערך נתונים כללי של תמונות, כמו כל התמונות ב-Wikimedia Common.
- כוונון: אימון המודל שעבר אימון מראש לביצוע משימה ספציפית, כמו יצירת תמונות של קטלנים.
כוונון עדין יכול לכלול כל שילוב של האסטרטגיות הבאות:
- שינוי כל הפרמטרים הקיימים של המודל שעבר אימון מראש. פעולה זו נקראת לפעמים כוונון מלא.
- שינוי רק חלק מהפרמטרים הקיימים של המודל שעבר אימון מראש (בדרך כלל, השכבות הקרובות ביותר לשכבת הפלט), תוך השארת פרמטרים קיימים ללא שינוי (בדרך כלל, השכבות הקרובות ביותר לשכבת הקלט). למידע נוסף, ראו כוונון יעיל בפרמטרים.
- הוספת שכבות נוספות, בדרך כלל על גבי השכבות הקיימות הקרובות ביותר לשכבת הפלט.
כוונון הוא סוג של למידה בהעברה. לכן, כוונון עדין עשוי להשתמש בפונקציית אובדן אחרת או בסוג מודל שונה מאלה ששימשו לאימון המודל שעבר אימון מראש. לדוגמה, אפשר לכוונן מודל תמונה גדול שעבר אימון מראש כדי ליצור מודל רגרסיה שמחזיר את מספר הציפורים בתמונת קלט.
השוו והבדילו בין כוונון באמצעות המונחים הבאים:
G
בינה מלאכותית גנרטיבית
שדה טרנספורמטיבי מתפתח ללא הגדרה רשמית. עם זאת, רוב המומחים מסכימים שמודלים של בינה מלאכותית גנרטיבית יכולים ליצור ('ליצור' תוכן שהוא:
- מורכב
- עקבי
- מקורית
לדוגמה, מודל של בינה מלאכותית גנרטיבית יכול ליצור מאמרים או תמונות מתוחכמים.
גם חלק מהטכנולוגיות הקודמות, כולל LSTM ו-RNN, יכולות ליצור תוכן מקורי ועקבי. חלק מהמומחים מתייחסים לטכנולוגיות הקודמות האלה כבינה מלאכותית גנרטיבית, ואילו אחרים סבורים שבינה מלאכותית גנרטיבית אמיתי דורשת פלט מורכב יותר מאשר הטכנולוגיות הקודמות יכולות להפיק.
בניגוד ללמידת מכונה חזויה.
I
למידה בהקשר
מילה נרדפת להנחיה עם כמה דוגמאות.
כוונון לפי הוראות
סוג של כוונון שמשפר את היכולת של מודל בינה מלאכותית גנרטיבית לפעול לפי ההוראות. כוונון ההוראה כולל אימון של מודל על סדרה של הנחיות הוראה, שבדרך כלל מכסות מגוון רחב של משימות. לאחר מכן, המודל שעבר כוונון הוראה נוטה ליצור תשובות מועילות להנחיות מאפס במגוון משימות.
השוו והבדילו עם:
L
LoRA
קיצור של התאמה בדירוג נמוך.
התאמה בדירוג נמוך (LoRA)
אלגוריתם לביצוע כוונון יעיל בפרמטרים שמחדד רק קבוצת משנה של פרמטרים של מודל שפה גדול. אלה היתרונות של LoRA:
- כוונון מהיר יותר מאשר טכניקות שדורשות כוונון עדין של כל הפרמטרים של המודל.
- הפחתת עלות החישוב של הֶקֵּשׁ במודל הכוונון עדין.
מודל שעבר כוונון בעזרת LoRA שומר או משפר את איכות החיזויים שלו.
שיטת LoRA מאפשרת להפעיל מספר גרסאות מיוחדות של מודל.
M
דירוג לפי מודל
מערכת שבוחרת את model האידיאלי לשאילתה ספציפית להסקה.
נניח שיש לכם קבוצה של מודלים – מגדול מאוד (פרמטרים רבים) למודלים הרבה יותר קטנים (הרבה פחות פרמטרים). מודלים גדולים מאוד צורכים יותר משאבי חישובי בזמן ההסקה מאשר מודלים קטנים יותר. עם זאת, מודלים גדולים מאוד יכולים בדרך כלל להסיק בקשות מורכבות יותר ממודלים קטנים יותר. הדירוג של המודלים קובע את המורכבות של שאילתת ההסקה, ואז בוחר את המודל המתאים לביצוע ההסקה. המוטיבציה העיקרית של התאמת המודלים היא לצמצם את עלויות ההסקה, על ידי בחירה במודלים קטנים יותר ובחירה במודל גדול יותר לשאילתות מורכבות יותר.
תארו לעצמכם שמודל קטן פועל בטלפון וגרסה גדולה יותר של המודל הזה פועלת בשרת מרוחק. דירוג טוב של מודל טוב מפחית את העלות ואת זמן האחזור בכך שהוא מאפשר למודל הקטן יותר לטפל בבקשות פשוטות, וקריאה למודל המרוחק בלבד לטפל בבקשות מורכבות.
נתב מודל
האלגוריתם שקובע את model האידיאלי לmodel בmodel. נתב לדוגמה הוא בדרך כלל מודל של למידת מכונה שלומד בהדרגה איך לבחור את המודל הטוב ביותר לקלט נתון. עם זאת, לפעמים נתב לדוגמה יכול להיות אלגוריתם פשוט יותר של למידה שלא מכונה.
O
הנחיות בנוסחה אחת
הודעה שמכילה דוגמה אחת שממחישה איך צריך להגיב מודל שפה גדול (LLM). לדוגמה, ההנחיה הבאה מכילה דוגמה אחת למודל שפה גדול (LLM) שבו הוא צריך לענות על שאילתה.
חלקים מהנחיה אחת | הערות |
---|---|
מהו המטבע הרשמי של המדינה שצוינה? | השאלה שעליה אתם רוצים שה-LLM יענה. |
צרפת: EUR | דוגמה אחת. |
הודו: | השאילתה עצמה. |
השוו והבדילו בין יצירת הנחיות מדוגמה אחת לבין המונחים הבאים:
P
כוונון יעיל בפרמטרים
קבוצת שיטות לכוונון מודל שפה גדול שעבר אימון מראש (PLM) בצורה יעילה יותר מאשר כוונון מלא. בדרך כלל, כוונון יעיל בפרמטרים מכוונן הרבה פחות פרמטרים מאשר כוונון מלא, אבל בדרך כלל יוצר מודל שפה גדול (LLM) שמניב ביצועים טובים (או כמעט טוב) כמודל שפה גדול שמבוסס על כוונון מלא.
השוו בין כוונון יעיל בפרמטרים עם:
כוונון יעיל בפרמטרים נקרא גם כוונון יעיל בפרמטרים.
PLM
קיצור של מודל שפה שעבר אימון מראש.
מודל שעבר אימון מראש
מודלים או רכיבי מודל (למשל וקטור הטמעה) שכבר אומנו. לפעמים מזינים וקטורים של הטמעה שעברו אימון ברשת נוירונים. במקרים אחרים, המודל יאמן את הווקטורים של ההטמעה בעצמו במקום להסתמך על ההטמעות שעברו אימון.
המונח מודל שפה שעבר אימון מראש מתייחס למודל שפה גדול (LLM) שעבר אימון מראש.
אימון מראש
האימון הראשוני של מודל על מערך נתונים גדול. חלק מהמודלים שעברו אימון מראש הם ענקיים מגושמים, ובדרך כלל צריך לשפר אותם באמצעות אימון נוסף. לדוגמה, מומחי למידת מכונה יכולים לאמן מראש מודל שפה גדול על מערך נתונים נרחב של טקסט, כמו כל הדפים באנגלית בוויקיפדיה. אחרי האימון מראש, אפשר לשפר את המודל שמתקבל באמצעות אחת מהשיטות הבאות:
הצעה לפעולה
כל טקסט שהוזן כקלט במודל שפה גדול (LLM) כדי להתנות שהמודל יתנהג בצורה מסוימת. הנחיות יכולות להיות קצרות כמו ביטוי או ארוכות באופן שרירותי (לדוגמה, הטקסט כולו של הספר). ההנחיות מחולקות לכמה קטגוריות, כולל אלו שמוצגות בטבלה הבאה:
קטגוריית ההצעה לפעולה | דוגמה | הערות |
---|---|---|
שאלה | כמה מהר יונה יכול לעוף? | |
הוראות | כתיבת שיר מצחיק על ארביטראז'. | הודעה שמבקשת ממודל השפה הגדול לבצע פעולה כלשהי. |
דוגמה | תרגום של קוד Markdown ל-HTML. לדוגמה:
Markdown: * פריט ברשימה HTML: <ul> <li>פריט רשימה</li> </ul> |
המשפט הראשון בהנחיה לדוגמה הזו הוא הוראה. שאר ההנחיה היא הדוגמה. |
תפקיד | להסביר למה משמשים ירידה הדרגתית באימון למידת מכונה לתואר דוקטור בפיזיקה. | החלק הראשון של המשפט הוא הוראה. הביטוי "אל דוקטורט בפיזיקה" הוא חלק התפקיד. |
קלט חלקי להשלמת המודל | ראש ממשלת בריטניה גר | הנחיה עם קלט חלקי יכולה להסתיים בפתאומיות (כמו בדוגמה הזו) או להסתיים בקו תחתון. |
מודל של בינה מלאכותית גנרטיבית יכול להשיב להנחיה עם טקסט, קוד, תמונות, הטמעות, סרטונים... כמעט כל דבר.
למידה מבוססת-הנחיה
יכולת של מודלים מסוימים שמאפשרת להם להתאים את ההתנהגות שלהם בתגובה לקלט טקסט שרירותי (הנחיות). בפרדיגמה טיפוסית של למידה מבוססת הנחיות, מודל שפה גדול מגיב להנחיה על ידי יצירת טקסט. לדוגמה, נניח שמשתמש מזין את ההנחיה הבאה:
תסכם את חוק התנועה השלישי של ניוטון.
מודל שאפשר ללמידה מבוססת הנחיות לא עבר אימון ספציפי לענות על ההנחיה הקודמת. במקום זאת, המודל "יודע" הרבה עובדות על פיזיקה, הרבה על כללי שפה כלליים והרבה על מה הן תשובות שימושיות באופן כללי. הידע הזה מספיק כדי לספק תשובה (יש לקוות) מועילה. משוב אנושי נוסף ("התשובה הייתה מורכבת מדי" או "מהי תגובה?") מאפשר למערכות למידה מסוימות לשפר בהדרגה את השימושיות של התשובות שלהן.
עיצוב הנחיות
מילה נרדפת ל-prompt Engineering.
הנדסת הנחיות
יצירת הודעות פתיחה שגורמות לתגובות הרצויות ממודל שפה גדול (LLM). בני אדם מבצעים הנדסת הנחיות. כדי להבטיח תשובות מועילות ממודל שפה גדול, חשוב מאוד לכתוב הנחיות שמובנות היטב. הנדסת פרומפטים תלויה בגורמים רבים, כולל:
- מערך הנתונים שמשמש לאימון מראש ואולי לצמצום מודל השפה הגדול (LLM).
- הטמפרטורה ופרמטרים אחרים של פענוח שהמודל משתמש בהם כדי ליצור תשובות.
תוכלו לקרוא מידע נוסף על כתיבת הנחיות מועילות במאמר מבוא לעיצוב הנחיות.
עיצוב הנחיות הוא מילה נרדפת להנדסת פרומפטים.
כוונון של הנחיות
מנגנון כוונון יעיל בפרמטרים שלומד 'קידומת' שהמערכת מצרפת מראש להודעה בפועל.
אחת מהגרסאות של כוונון של הנחיות – שלפעמים נקראת כוונון קידומת – היא להוסיף את הקידומת לתחילת כל שכבה. לעומת זאת, ברוב המקרים כוונון של הנחיות מוסיף קידומת רק לשכבת הקלט.
R
חיזוק הלמידה ממשוב אנושי (RLHF)
שימוש במשוב ממדרגים אנושיים לשיפור איכות התשובות של המודל. לדוגמה, מנגנון RLHF יכול לבקש ממשתמשים לדרג את איכות התשובה של דוגמן באמצעות 👍 או 👎. לאחר מכן המערכת תוכל לשנות את התשובות העתידיות שלה בהתאם למשוב הזה.
הנחיות ליצירת תפקידים
חלק אופציונלי בהודעה שמזהה את קהל היעד לתשובה של מודל AI גנרטיבי. ללא בקשה לתפקידים, מודל שפה גדול (LLM) מספק תשובה שעשויה להיות מועילה או לא מועילה לאדם ששואל את השאלות. עם בקשת תפקידים, מודל שפה גדול יכול לענות באופן מתאים ומועיל יותר לקהל יעד ספציפי. לדוגמה, החלק של בקשת התפקיד בהודעות הבאות מופיע בגופן מודגש:
- תסכם את המאמר הזה לתואר דוקטור בכלכלה.
- תארו כיצד פועלים גאות עבור ילד בן עשר.
- הסבר על המשבר הפיננסי ב-2008. דברו כמו במקרה של ילד קטן או גולדן רטריבר.
S
כוונון של הנחיות עם יכולת שחזור
שיטה לכוונון מודל שפה גדול (LLM) למשימה מסוימת, ללא כוונון עדין עתיר משאבים. במקום לאמן מחדש את כל המשקלים במודל, כוונון של הנחיות עם יכולת שחזור מתאים באופן אוטומטי הודעה כדי להשיג את אותה המטרה.
בהינתן הנחיה טקסטואלית, בדרך כלל, כוונון של הנחיות רכה מצרף להנחיה עוד הטמעות של אסימונים, ומשתמש בהפצה לאחור כדי לבצע אופטימיזציה של הקלט.
הנחיה 'קשה' מכילה אסימונים בפועל במקום הטמעות אסימונים.
T
טמפרטורה
היפר-פרמטר שקובע את מידת הרנדומיזציה של הפלט של המודל. טמפרטורה גבוהה יותר מובילה לפלט אקראי יותר, וטמפרטורות נמוכות יותר מניבות פלט אקראי פחות.
בחירת הטמפרטורה הטובה ביותר תלויה באפליקציה הספציפית ובמאפיינים המועדפים של הפלט של המודל. לדוגמה, סביר להניח שתרצו להעלות את הטמפרטורה כשיוצרים אפליקציה שמייצרת פלט של קריאייטיב. לעומת זאת, כדאי להוריד את הטמפרטורה כשבונים מודל שמסווג תמונות או טקסט כדי לשפר את הדיוק והעקביות של המודל.
לרוב, משתמשים בטמפרטורה כשמשתמשים ב-softmax.
Z
יצירת הנחיות מאפס
הודעה שלא מספקת דוגמה לאופן שבו אתם רוצים שמודל השפה הגדול יגיב. למשל:
חלקים מהנחיה אחת | הערות |
---|---|
מהו המטבע הרשמי של המדינה שצוינה? | השאלה שעליה אתם רוצים שה-LLM יענה. |
הודו: | השאילתה עצמה. |
מודל השפה הגדול יכול להגיב עם אחת מהאפשרויות הבאות:
- רופיות
- INR
- ₹
- רופי הודי
- הרופי
- רופי הודי
כל התשובות נכונות, אבל ייתכן שתעדיפו פורמט מסוים.
השוו והבדילו בין יצירת הנחיות מאפס לבין המונחים הבאים: