מילון מונחים ללמידת מכונה: מודלים של תמונות

דף זה מכיל מונחי מילון מונחים של מודלים של תמונות. לכל המונחים במילון המונחים, לחצו כאן.

A

מציאות רבודה

#image

טכנולוגיה שמוסיפה תמונה שנוצרה על ידי מחשב לנקודת המבט של המשתמש על העולם האמיתי, ויוצרת תמונה מורכבת.

מקודד אוטומטי

#language
#image

מערכת שלומדת לחלץ את המידע החשוב ביותר מהקלט. מקודדים אוטומטיים הם שילוב של מקודד ומפענח. מקודדים אוטומטיים מסתמכים על התהליך הדו-שלבי הבא:

  1. המקודד ממפה את הקלט לפורמט (בדרך כלל) עם אבד-ממדים נמוך יותר (בינוני).
  2. המפענח בונה גרסה עם אבדן של הקלט המקורי על ידי מיפוי של הפורמט עם הממדים הנמוכים יותר לפורמט הקלט הממדי הגבוה יותר.

המקודדים האוטומטיים מאומנים מקצה לקצה, כך שהמפענח מנסה לשחזר את הקלט המקורי מפורמט הביניים של המקודד ככל האפשר. מכיוון שפורמט הביניים קטן יותר (בממדים קטנים יותר) מהפורמט המקורי, המקודד האוטומטי נאלץ ללמוד איזה מידע בקלט הוא חיוני, והפלט לא יהיה זהה לחלוטין לקלט.

למשל:

  • אם נתוני הקלט הם גרפיים, העותק הלא מדויק יהיה דומה לגרפיקה המקורית, אבל השתנה מעט. אולי העותק הלא מדויק מסיר רעש מהגרפיקה המקורית או ממלא פיקסלים חסרים.
  • במקרה שנתוני הקלט הם טקסט, מקודד אוטומטי ייצור טקסט חדש שמחקה (אבל לא זהה) לטקסט המקורי.

ראו גם מקודדים אוטומטיים משתנים.

מודל רגרסיבי אוטומטי

#language
#image
#generativeAI

model שמסיק חיזוי על סמך החיזויים הקודמים שלו. לדוגמה, מודלים של שפה רגרסיביים אוטומטיים חוזים את האסימון הבא על סמך האסימונים הצפויים בעבר. כל מודלים גדולים של שפה (LLM) שמבוססים על טרנספורמרים הם רגרסיביים אוטומטיים.

לעומת זאת, מודלים של תמונות שמבוססים על GAN הם בדרך כלל לא רגרסיביים אוטומטיים, כי הם יוצרים תמונה במעבר אחד, ולא באופן איטרטיבי בשלבים. עם זאת, בחלק מהמודלים ליצירת תמונות הם רגרסיביים באופן אוטומטי כי הם יוצרים תמונה בשלבים.

B

תיבה תוחמת (bounding box)

#image

בתמונה, הקואורדינטות (x, y) של מלבן מסביב לאזור עניין, כמו הכלב בתמונה למטה.

תמונה של כלב שיושב על ספה. תיבה תוחמת ירוקה
          
          עם קואורדינטות (275, 1271) בפינה השמאלית העליונה וקואורדינטות ימין למטה של (2954, 2761) תוחמת את גוף הכלב

C

קונבולציה

#image

במתמטיקה, בדיבור יומיומי, שילוב של שתי פונקציות. בלמידת מכונה, קונבולציה משלבת את המסנן הקונבולוציה ואת מטריצת הקלט כדי לאמן משקולות.

לרוב, המונח 'קונבולציה' בלמידת מכונה מתייחס בצורה מקוצרת לפעולה קונבולטיבית או לשכבה קונסולה.

בלי קונבולציות, אלגוריתם של למידת מכונה יצטרך ללמוד משקל נפרד לכל תא ב-tensor גדול. לדוגמה, אימון של אלגוריתם של למידת מכונה על תמונות בגודל 2Kx2K יאלץ למצוא 4 מיליון משקולות נפרדות. הודות לקיפולים, אלגוריתם של למידת מכונה צריך למצוא משקולות לכל תא רק במסנן המתפתל, וכך לצמצם באופן משמעותי את הזיכרון הדרוש לאימון המודל. כשמחילים את המסנן הקונבולוציה, הוא פשוט משוכפל בין תאים כך שכל אחד מהם יוכפל במסנן.

מסנן קונבולציה

#image

אחד משני המשתתפים בפעולה מתוכננת. (השחקן השני הוא פרוסה של מטריצת קלט). מסנן קונבולוציה הוא מטריצה שיש לה דירוג זהה לזה של מטריצת הקלט, אבל צורה קטנה יותר. לדוגמה, בהינתן מטריצת קלט של 28x28, המסנן יכול להיות כל מטריצה דו-ממדית קטנה מ-28x28.

בפעולות פוטוגרפיות, כל התאים במסנן המתפתל מוגדרים בדרך כלל לדפוס קבוע של אפסים ואחדים. בלמידת מכונה, מסננים אקטיביים מיוצרים בדרך כלל עם מספרים אקראיים, ואז אימונים של הרשת הם הערכים האידאליים.

שכבה מתקפלת

#image

שכבה של רשת נוירונים עמוקה שבה מסנן סינכרוני מעביר מטריצת קלט. לדוגמה, מסנן קונבולציה בגודל 3x3:

מטריצה של 3x3 עם הערכים הבאים: [[0,1,0], [1,0,1], [0,1,0]]

האנימציה הבאה מציגה שכבת קונבולוציה שמורכבת מ-9 פעולות קונבולציה שכוללות את מטריצת הקלט 5x5. שימו לב שכל פעולה רציונלית פועלת על פרוסה שונה של 3x3 במטריצת הקלט. המטריצה של 3x3 שתתקבל (בצד ימין) מורכבת מהתוצאות של 9 הפעולות המתחברות:

אנימציה שמוצגות בה שתי מטריצות. המטריצה הראשונה היא המטריצה בגודל 5x5:
          המטריצה השנייה היא מטריצה של 3x3:
          [[181,303,618], [115,338,605], [169,351,560]].
          המטריצה השנייה מחושבת על ידי החלת המסנן הקונבולוציה [[0, 1, 0], [1, 0, 1], [0, 1, 0]] על פני קבוצות משנה שונות של 3x3 במטריצה של 5x5.

רשת עצבית מתקפלת

#image

רשת נוירונים שבה לפחות שכבה אחת היא שכבה קונספירציה. רשת עצבית מתקפלת טיפוסית מורכבת משילוב כלשהו של השכבות הבאות:

רשתות נוירונים מלאכותיות נחלו הצלחה רבה בסוגים מסוימים של בעיות, כמו זיהוי תמונות.

פעולה קונבולטורית

#image

הפעולה המתמטית הדו-שלבית הבאה:

  1. הכפלה ברמת הרכיבים של המסנן הקונבולטיבי ופרוסה של מטריצת קלט. (לפרוסה של מטריצת הקלט יש דירוג וגודל זהים לאלה של המסנן הקונבולוציה).
  2. סכום כל הערכים במטריצת המוצרים שתתקבל.

לדוגמה, ניקח לדוגמה את מטריצת הקלט הבאה בגודל 5x5:

מטריצת 5x5: [[128,97,53,201,198], [35,22,25,200,195],
          [37,24,28,197,182], [33,28,92,195,179,19,100,195].

עכשיו חשבו על המסנן הקובולציה הבא בגודל 2x2:

מטריצת 2x2: [[1, 0], [0, 1]]

כל פעולת קונבולציה כוללת פרוסה אחת בגודל 2x2 של מטריצת הקלט. לדוגמה, נניח שמשתמשים בפלח 2x2 בפינה השמאלית העליונה של מטריצת הקלט. לכן, פעולת הקונבולוציה בפלח הזה נראית כך:

המערכת מחילה את המסנן הקונבולוציה [[1, 0], [0, 1]] על הקטע
          2x2 השמאלי העליון של מטריצת הקלט, שהוא [[128,97], [35,22]].
          המסנן הקונבולוציה משאיר את 128 ו-22 ללא שינוי, אבל מאפס את 97 ו-35. כתוצאה מכך, פעולת הקונבולוציה הניבה
          את הערך 150 (128+22).

שכבה קונבולציה מורכבת מסדרה של פעולות קונבולוציה, שכל אחת מהן פועלת על פרוסה שונה של מטריצת הקלט.

D

הרחבת נתונים

#image

הגדלה מלאכותית של הטווח והמספר של הדוגמאות לאימונים, על ידי טרנספורמציה של דוגמאות קיימות כדי ליצור דוגמאות נוספות. לדוגמה, נניח שתמונות הן אחת מהתכונות שלכם, אבל מערך הנתונים לא מכיל מספיק דוגמאות של תמונות כדי שהמודל יוכל ללמוד שיוכים שימושיים. במצב אידיאלי צריך להוסיף למערך הנתונים מספיק תמונות מתויגות כדי לאפשר למודל לאמן כמו שצריך. אם זה לא אפשרי, הגדלת הנתונים יכולה לסובב, למתוח ולשקף כל תמונה על מנת ליצור וריאנטים רבים של התמונה המקורית, ויכול להיות שיצטברו מספיק נתונים מתויגים כדי לאפשר אימון מצוין.

רשת עצבית מתקפלת (sepCNN) להפרדת עומק

#image

ארכיטקטורה של רשת עצבית מתקפלת שמבוססת על התחלה, אבל במקום המודולים של Inception ניתן להחליף אותם בקונפיגורציות נפרדות שניתנות להפרדה עמוקה. נקרא גם Xception.

קונבולציה ניתנת להפרדה עמוקה (שמופיעה גם כקיצור IARC עם קמורים מופרדים,) יוצרת קונבולציה תלת-ממדית רגילה לשתי פעולות קונבולציה נפרדות שהן יעילות יותר מבחינה חישובית: הראשונה, קונבולציה של עומק, עם עומק 1 (n n n k 1 בעומק 1, ואז אורך 1 בהשוואה לנקודה 1 (n n n וכן 1).

למידע נוסף קראו את המאמר Xception: Deep Learning with Depthwise Sepolutions.

דגימת למטה

#image

מונח עמוס מדי שיכול להיות בעל אחת מהאפשרויות הבאות:

  • הפחתת כמות המידע בתכונה כדי לאמן מודל בצורה יעילה יותר. לדוגמה, לפני אימון של מודל לזיהוי תמונות, כדאי להפחית את הדגימה של תמונות ברזולוציה גבוהה לפורמט של רזולוציה נמוכה יותר.
  • אימון על אחוז נמוך באופן לא פרופורציונלי של דוגמאות כיתה עם ייצוג יתר, כדי לשפר את אימון המודלים בכיתות שסובלות מחוסר ייצוג. לדוגמה, במערך נתונים לא מאוזן לסיווג, מודלים נוטים ללמוד הרבה על סיווג הרוב ולא מספיק על סיווג מיעוט. דגימת הדגימה עוזרת לאזן בין כמות האימון בכיתות הרוב לבין המיעוט.

נ

כוונון עדין

#language
#image
#generativeAI

העברת אימון שנייה ספציפית למשימה באמצעות מודל שעבר אימון מראש, כדי לשפר את הפרמטרים שלו בתרחיש ספציפי לדוגמה. לדוגמה, רצף האימון המלא של חלק ממודלים גדולים של שפה הוא:

  1. אימון מראש: אימון מודל שפה גדול (LLM) במערך נתונים כללי נרחב, כמו כל דפי הוויקיפדיה באנגלית.
  2. כוונון: אימון המודל שעבר אימון מראש לביצוע משימה ספציפית, כמו מענה לשאילתות רפואיות. בדרך כלל הכוונון כולל מאות או אלפי דוגמאות שמתמקדות במשימה הספציפית.

דוגמה נוספת: רצף האימון המלא של מודל תמונה גדול הוא:

  1. אימון מראש: אימון מודל תמונה גדול על מערך נתונים כללי של תמונות, כמו כל התמונות ב-Wikimedia Common.
  2. כוונון: אימון המודל שעבר אימון מראש לביצוע משימה ספציפית, כמו יצירת תמונות של קטלנים.

כוונון עדין יכול לכלול כל שילוב של האסטרטגיות הבאות:

  • שינוי כל הפרמטרים הקיימים של המודל שעבר אימון מראש. פעולה זו נקראת לפעמים כוונון מלא.
  • שינוי רק חלק מהפרמטרים הקיימים של המודל שעבר אימון מראש (בדרך כלל, השכבות הקרובות ביותר לשכבת הפלט), תוך השארת פרמטרים קיימים ללא שינוי (בדרך כלל, השכבות הקרובות ביותר לשכבת הקלט). למידע נוסף, ראו כוונון יעיל בפרמטרים.
  • הוספת שכבות נוספות, בדרך כלל על גבי השכבות הקיימות הקרובות ביותר לשכבת הפלט.

כוונון הוא סוג של למידה בהעברה. לכן, כוונון עדין עשוי להשתמש בפונקציית אובדן אחרת או בסוג מודל שונה מאלה ששימשו לאימון המודל שעבר אימון מראש. לדוגמה, אפשר לכוונן מודל תמונה גדול שעבר אימון מראש כדי ליצור מודל רגרסיה שמחזיר את מספר הציפורים בתמונת קלט.

השוו והבדילו בין כוונון באמצעות המונחים הבאים:

G

בינה מלאכותית גנרטיבית

#language
#image
#generativeAI

שדה טרנספורמטיבי מתפתח ללא הגדרה רשמית. עם זאת, רוב המומחים מסכימים שמודלים של בינה מלאכותית גנרטיבית יכולים ליצור ('ליצור' תוכן שהוא:

  • מורכב
  • עקבי
  • מקורית

לדוגמה, מודל של בינה מלאכותית גנרטיבית יכול ליצור מאמרים או תמונות מתוחכמים.

גם חלק מהטכנולוגיות הקודמות, כולל LSTM ו-RNN, יכולות ליצור תוכן מקורי ועקבי. חלק מהמומחים מתייחסים לטכנולוגיות הקודמות האלה כבינה מלאכותית גנרטיבית, ואילו אחרים סבורים שבינה מלאכותית גנרטיבית אמיתי דורשת פלט מורכב יותר מאשר הטכנולוגיות הקודמות יכולות להפיק.

בניגוד ללמידת מכונה חזויה.

I

זיהוי תמונות, זיהוי תמונה

#image

תהליך שמסווג אובייקטים, תבניות או מושגים בתמונה. זיהוי תמונות נקרא גם סיווג תמונות.

מידע נוסף זמין במאמר ML Practicum: סיווג תמונות.

הצטלבות באיחוד (IoU)

#image

ההצטלבות של שתי קבוצות חלקי האיחוד שלהן. במשימות של זיהוי תמונות בלמידת מכונה, נעשה שימוש ב-IoU כדי למדוד את הדיוק של התיבה תוחמת (bounding box) החזויה של המודל ביחס לתיבה התוחמת ground-truth. במקרה הזה, ה-IoU של שתי התיבות הוא היחס בין האזור החופף לשטח הכולל, והערך שלו נע מ-0 (אין חפיפה בין תיבה תוחמת חזויה ותיבה תוחמת קרקע חזויה) ל-1 (לתיבה תוחמת חזויה ולתיבה תוחמת-אמת יש אותן קואורדינטות בדיוק).

לדוגמה, בתמונה שלמטה:

  • התיבה התוחמת החזויה (הקואורדינטות שמפרידות בין המיקום של טבלת הלילה בציור) מתוארת בסגול.
  • התיבה התוחמת את הקרקע (הקואורדינטות שמפרידות את המיקום של שולחן הלילה בציור) מסומנת בירוק.

ציור של ואן גוך את חדר השינה של וינסנט בארל, עם שתי תיבות תוחמות שונות מסביב לשולחן הלילה ליד המיטה. התיבה התוחמת את הקרקע (בירוק) תוחמת בצורה מושלמת את שולחן הלילה. התיבה התוחמת החזויה (בסגול) מקוזזת 50% כלפי מטה ולימין
 של התיבה התוחמת לקרקע. היא מקיפה את החלק הימני התחתון של טבלת הלילה, אבל מתעלמת משאר הטבלה.

במקרה הזה, ההצטלבות של התיבות התוחמות לחיזוי ואמת קרקע (מתחת משמאל) היא 1, והאיחוד של התיבות התוחמות לחיזוי ואמת הקרקע (מתחת לפינה) הוא 7, כך שה-IoU הוא \(\frac{1}{7}\).

אותה תמונה כמו למעלה, אבל כל תיבה תוחמת מחולקת לארבעה ריבועים. בסך הכול יש שבעה רבעונים, כי הריבוע הימני התחתון של התיבה התוחמת את אמת הקרקע והריבוע השמאלי העליון של התיבה התוחמת החזויה חופפים זה לזה. הקטע החופף (מודגש בירוק) מייצג את
 הצומת, ושטחו הוא 1. אותה תמונה כמו למעלה, אבל כל תיבה תוחמת מחולקת לארבעה ריבועים. בסך הכול יש שבעה רבעונים, כי הריבוע הימני התחתון של התיבה התוחמת את אמת הקרקע והריבוע השמאלי העליון של התיבה התוחמת החזויה חופפים זה לזה.
          כל החלק הפנימי שמוקף בשתי תיבות תוחמות (מודגשות בירוק) מייצג את האיחוד, ויש לו שטח של 7.

K

נקודות עיקריות

#image

הקואורדינטות של תכונות מסוימות בתמונה. לדוגמה, במודל זיהוי תמונות שמבדיל בין מיני פרחים, נקודות מפתח יכולות להיות המרכז של כל עלה כותרת, גזע, נדב וכן הלאה.

L

ציוני דרך

#image

מילה נרדפת ל-keypoints.

M

MNIST

#image

מערך נתונים בדומיין ציבורי שהורכב על ידי LeCun, Cortes ו-Burse ומכיל 60,000 תמונות. כל תמונה מראה איך אדם כתב ספרה מסוימת באופן ידני בין 0 ל-9. כל תמונה מאוחסנת כמערך 28x28 של מספרים שלמים, כאשר כל מספר שלם הוא ערך בגווני אפור בין 0 ל-255, כולל.

MNIST הוא מערך נתונים קנוני ללמידת מכונה, שמשמש לעיתים קרובות לבדיקת גישות חדשות של למידת מכונה. מידע נוסף מופיע במאמר מסד הנתונים MNIST של ספרות בכתב יד.

P

מאגר

#image

הקטנת המטריצה (או המטריצה) שנוצרה על ידי שכבה מתקפלת קודמת למטריצה קטנה יותר. המאגר בדרך כלל כולל את הערך המקסימלי או הממוצע של האזור הארגוני. לדוגמה, נניח שיש לנו מטריצת 3x3 הבאה:

מטריצת 3x3 [[5,3,1], [8,2,5], [9,4,3]].

פעולת מאגרים, בדיוק כמו פעולה קונבולציה, מחלקת את המטריצה לפרוסות ולאחר מכן מחליקה את הפעולה המתקפלת בצעדים. לדוגמה, נניח שפעולת המאגר מחלקת את המטריצה המתקפלת לפרוסות בגודל 2x2 ברצף של 1x1. כפי שניתן לראות בתרשים הבא, מתבצעות ארבע פעולות של מאגרים. נניח שכל פעולת מאגר בוחרת את הערך המקסימלי של ארבע בפרוסה הזו:

מטריצת הקלט היא 3x3 עם הערכים הבאים: [[5,3,1], [8,2,5], [9,4,3]].
          תת-המטריצה השמאלית העליונה בגודל 2x2 של מטריצת הקלט היא [[5,3], [8,2]], כך
 שפעולת המאגר בצד שמאל למעלה תפיק את הערך 8 (שהוא
 הערך המקסימלי של 5, 3, 8 ו-2). תת-מטריצה 2x2 בפינה הימנית העליונה של מטריצת הקלט היא [[3,1], [2,5]], כך שפעולת המאגר בצד ימין למעלה תפיק את הערך 5. התת-מטריצה השמאלית התחתונה בגודל 2x2 של מטריצת הקלט היא
          [[8,2], [9,4]], ולכן פעולת המאגר השמאלית התחתונה תפיק את הערך
          9. תת-מטריצה זו (2x2) בפינה הימנית התחתונה של מטריצת הקלט היא
          [[2,5], [4,3]], ולכן פעולת המאגר בצד ימין למטה תפיק את הערך
          5. לסיכום, פעולת המאגר מניבה מטריצת 2x2
          [[8,5], [9,5]].

אגירת נתונים עוזרת לאכוף שונות טרנסלציונית במטריצת הקלט.

מאגר של אפליקציות ראייה ידוע באופן רשמי יותר מאגר מרחבי. אפליקציות של סדרות זמנים מתייחסות בדרך כלל למאגר כמאגר זמני. באופן פחות רשמי, המאגר נקרא subssampleing או downssampleing.

מודל שעבר אימון מראש

#language
#image
#generativeAI

מודלים או רכיבי מודל (למשל וקטור הטמעה) שכבר אומנו. לפעמים מזינים וקטורים של הטמעה שעברו אימון ברשת נוירונים. במקרים אחרים, המודל יאמן את הווקטורים של ההטמעה בעצמו במקום להסתמך על ההטמעות שעברו אימון.

המונח מודל שפה שעבר אימון מראש מתייחס למודל שפה גדול (LLM) שעבר אימון מראש.

אימון מראש

#language
#image
#generativeAI

האימון הראשוני של מודל על מערך נתונים גדול. חלק מהמודלים שעברו אימון מראש הם ענקיים מגושמים, ובדרך כלל צריך לשפר אותם באמצעות אימון נוסף. לדוגמה, מומחי למידת מכונה יכולים לאמן מראש מודל שפה גדול על מערך נתונים נרחב של טקסט, כמו כל הדפים באנגלית בוויקיפדיה. אחרי האימון מראש, אפשר לשפר את המודל שמתקבל באמצעות אחת מהשיטות הבאות:

R

שונות סיבובית

#image

במקרה של בעיה בסיווג תמונות, היכולת של אלגוריתם לסווג תמונות בהצלחה גם אם כיוון התמונה משתנה. לדוגמה, האלגוריתם עדיין יכול לזהות מחבט טניס, בין שהוא פונה למעלה, לצדדים או למטה. שים לב ששונות סיבובית אינה תמיד רצוי. לדוגמה, אין לסווג 9 הפוך כ-9.

למידע נוסף, ראו שונות תרגום ושונות גודל.

S

שונות של גודל

#image

במקרה של בעיה בסיווג תמונות, היכולת של אלגוריתם לסווג תמונות בהצלחה גם כשגודל התמונה משתנה. לדוגמה, האלגוריתם עדיין יכול לזהות חתול אם הוא צורך 2 מיליון פיקסלים או 200,000 פיקסלים. שימו לב שגם לאלגוריתמים הטובים ביותר של סיווג תמונות יש עדיין מגבלות פרקטיות על שונות בגודל. לדוגמה, סביר להניח שאלגוריתם (או בן אדם) לא יסווג בצורה נכונה תמונת חתול שצורכת 20 פיקסלים בלבד.

למידע נוסף, אפשר לעיין בקטעים שונות תרגום ושונות סיבובית.

מאגר מרחבי

#image

למידע נוסף, ראו איסוף.

צעד

#image

בפעולה קונבולטיבית או במאגר, הדלתא בכל מאפיין בסדרה הבאה של פרוסות הקלט. לדוגמה, האנימציה הבאה ממחישה פסת (1,1) במהלך פעולה מורכבת. לכן, פרוסת הקלט הבאה מתחילה מיקום אחד מימין לפרוסת הקלט הקודמת. כשהפעולה מגיעה לקצה הימני, הפרוסה הבאה נמצאת כל הדרך שמאלה, אבל מיקום אחד למטה.

מטריצת קלט של 5x5 ומסנן קונבולציה של 3x3. מכיוון שהקו הוא (1,1), המערכת מחילה מסנן קונבולציה 9 פעמים. הפלח המתקפל הראשון מעריך את התת-מטריצה השמאלית העליונה בגודל 3x3 של מטריצת הקלט. החלק השני מעריך את תת-המטריצה העליונה האמצעית של 3x3. הפלח המתקפל השלישי מעריך את תת-המטריצה בגודל 3x3
     שבפינה הימנית העליונה.  החלק הרביעי מעריך את התת-מטריצה האמצעית 3x3 השמאלית.
     החלק החמישי מעריך את התת-מטריצה האמצעית בגודל 3x3. החלק השישי
     מעריך את תת-המטריצה בגודל 3x3 מימין-אמצעית. החלק השביעי מעריך את
     התת-מטריצה השמאלית התחתונה בגודל 3x3.  החלק השמינית מעריך את
     התת-מטריצה בגודל 3x3 מלמטה. החלק התשיעי מעריך את תת-המטריצה בגודל 3x3
     שבפינה הימנית התחתונה.

הדוגמה הקודמת ממחישה קו דו-ממדי. אם מטריצת הקלט היא תלת-ממדית, גם הפס יהיה תלת-ממדי.

תת-דגימה

#image

למידע נוסף, ראו איסוף.

T

טמפרטורה

#language
#image
#generativeAI

היפר-פרמטר שקובע את מידת הרנדומיזציה של הפלט של המודל. טמפרטורה גבוהה יותר מובילה לפלט אקראי יותר, וטמפרטורות נמוכות יותר מניבות פלט אקראי פחות.

בחירת הטמפרטורה הטובה ביותר תלויה באפליקציה הספציפית ובמאפיינים המועדפים של הפלט של המודל. לדוגמה, סביר להניח שתרצו להעלות את הטמפרטורה כשיוצרים אפליקציה שמייצרת פלט של קריאייטיב. לעומת זאת, כדאי להוריד את הטמפרטורה כשבונים מודל שמסווג תמונות או טקסט כדי לשפר את הדיוק והעקביות של המודל.

לרוב, משתמשים בטמפרטורה כשמשתמשים ב-softmax.

שונות מתורגמת

#image

במקרה של בעיה בסיווג תמונות, היכולת של אלגוריתם לסווג תמונות בהצלחה גם אם מיקום האובייקטים בתוך התמונה משתנה. לדוגמה, האלגוריתם יכול עדיין לזהות כלב, בין אם הוא נמצא במרכז המסגרת או בקצה השמאלי של המסגרת.

למידע נוסף, אפשר לקרוא מידע נוסף על שונות הגודל ושונות הסיבוב.