מילון מונחים ללמידת מכונה: מודלים של תמונות

בדף הזה מפורטים מונחים ממילון המונחים של מודלים של תמונות. כאן מפורטות כל ההגדרות במילון.

A

מציאות רבודה

#image

טכנולוגיה שמאפשרת להציג תמונה שנוצרה על ידי מחשב על התצוגה של המשתמש בעולם האמיתי, וכך ליצור תצוגה מורכבת.

אוטו-קונדרטור

#language
#image

מערכת שמלמדת לחלץ את המידע החשוב ביותר מהקלט. אוטו-קונדים הם שילוב של מקודד ומפענח. אוטו-קונדים מסתמכים על התהליך הדו-שלבי הבא:

  1. המקודד ממפה את הקלט לפורמט (בדרך כלל) עם אובדן נתונים (לא איכותי) בעל ממדים נמוכים יותר (פורמט ביניים).
  2. המפענח יוצר גרסה עם אובדן נתונים של הקלט המקורי על ידי מיפוי של הפורמט בעל המאפיינים הנמוכים יותר לפורמט הקלט המקורי בעל המאפיינים הגבוהים יותר.

מקודדים אוטומטיים עוברים אימון מקצה לקצה, כך שהפעמקוד מנסה לשחזר את הקלט המקורי מהפורמט הביניים של המקודד בצורה הקרובה ביותר האפשרית. מכיוון שהפורמט הביניים קטן יותר (בממדים נמוכים יותר) מהפורמט המקורי, האוטו-קונדרטור נאלץ ללמוד איזה מידע בקלט חיוני, והפלט לא יהיה זהה לחלוטין לקלט.

לדוגמה:

  • אם נתוני הקלט הם גרפיקה, העותק הלא מדויק יהיה דומה לגרפיקה המקורית, אבל ישתנה במידה מסוימת. יכול להיות שהעותק הלא מדויק מסיר רעש מהגרפיקה המקורית או ממלא פיקסלים חסרים.
  • אם נתוני הקלט הם טקסט, אוטו-קונדר יוצר טקסט חדש שמחקה את הטקסט המקורי (אבל לא זהה לו).

אפשר לעיין גם במאמר בנושא מקודדים אוטומטיים וריאציוניים (VAE).

מודל אוטו-רגרסיבי

#language
#image
#generativeAI

מודל שמסיק חיזוי על סמך החיזויים הקודמים שלו. לדוגמה, מודלים של שפה חזרהית חוזים את האסימון הבא על סמך האסימונים שחזו קודם. כל המודלים הגדולים של השפה שמבוססים על Transformer הם אוטו-רגרסיביים.

לעומת זאת, מודלים של תמונות שמבוססים על GAN הם בדרך כלל לא רגרסיביים אוטומטיים, כי הם יוצרים תמונה בפעולה קדימה אחת ולא באופן איטרטיבי בשלבים. עם זאת, מודלים מסוימים ליצירת תמונות הם מודלים רגרסיביים אוטומטיים כי הם יוצרים תמונה בשלבים.

B

תיבה תוחמת (bounding box)

#image

בתמונה, הקואורדינטות (x, y) של מלבן סביב אזור עניין, כמו הכלב בתמונה שבהמשך.

צילום של כלב שיושב על ספה. תיבת גבול ירוקה עם קואורדינטות של (275,‏ 1271) בפינה הימנית העליונה ושל (2954,‏ 2761) בפינה הימנית התחתונה, שמקיפות את גוף הכלב

C

convolve

#image

במתמטיקה, באופן לא רשמי, שילוב של שתי פונקציות. בלמידת מכונה, עיבוד נתונים מבוסס-עיבוי (convolution) מעורבב עם מסנן העיבוי ומטריצת הקלט כדי לאמן משקלים.

המונח 'קבולציה' בלמידת מכונה הוא בדרך כלל דרך קצרה להתייחס לפעולה קונבולוציה או לשכבה קונבולוציה.

בלי עיבוד קוונטי, אלגוריתם למידת מכונה יצטרך ללמוד משקל נפרד לכל תא בטנסור גדול. לדוגמה, אימון של אלגוריתם למידת מכונה על תמונות בגודל 2K x 2K יאלץ למצוא 4 מיליון משקלים נפרדים. בזכות עיבוד קוונטי, אלגוריתם של למידת מכונה צריך למצוא משקלים רק לכל תא במסנן קוונטי, וכך לצמצם באופן משמעותי את נפח הזיכרון הנדרש לאימון המודל. כשמחילים את המסנן הקוונטי, הוא מוכפל בכל התאים כך שכל אחד מהם מוכפל במסנן.

מידע נוסף זמין בקטע מבוא לרשתות נוירונליות קונבולוציוניות בקורס 'סיווג תמונות'.

מסנן קוונטילי

#image

אחד משני הגורמים בפעולת עיבוד נתונים (convolution). (השחקן השני הוא פרוסת מטריצה של קלט). מסנן קוונטי הוא מטריצה שיש לה את אותו דרג כמו למטריצה של הקלט, אבל בצורה קטנה יותר. לדוגמה, אם נתונה מטריצת קלט בגודל 28x28, המסנן יכול להיות כל מטריצת 2D קטנה מ-28x28.

בתמונות שעברו מניפולציה, בדרך כלל כל התאים במסנן קוונטי מוגדר לדפוס קבוע של אפסים ואחדים. בלמידת מכונה, בדרך כלל מסננים קונבולוציוניים מתחילים עם מספרים אקראיים, ואז הרשת מתאמנת על הערכים האידיאליים.

מידע נוסף זמין בקטע Convolution בקורס 'סיווג תמונות'.

שכבת convolve

#image

שכבה של רשת עצבית עמוקה שבה מסנן קוונטי עובר לאורך מטריצת קלט. לדוגמה, מסנן קוונטילציה בגודל 3x3:

מטריצת 3x3 עם הערכים הבאים: [[0,1,0], [1,0,1], [0,1,0]]

באנימציה הבאה מוצגת שכבת convolutinon שמכילה 9 פעולות convolutinon שכוללות את מטריית הקלט 5x5. שימו לב שכל פעולה קוונטית פועלת על פרוסה שונה בגודל 3x3 של מטריצת הקלט. המטריצה 3x3 שמתקבלת (בצד שמאל) מורכבת מהתוצאות של 9 פעולות הקוונטילציה:

אנימציה שבה מוצגות שתי מטריצות. המטריצה הראשונה היא מטריצה 5x5:‏ [[128,97,53,201,198], [35,22,25,200,195],
          [37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]].
          המטריצה השנייה היא המטריצה 3x3:
          [[181,303,618], [115,338,605], [169,351,560]].
          המטריצה השנייה מחושבת על ידי החלת המסנן הקוונטי [[0, 1, 0], [1, 0, 1], [0, 1, 0]] על קבוצות משנה שונות בגודל 3x3 של המטריצה בגודל 5x5.

מידע נוסף זמין בקטע שכבות מחוברות בקורס 'סיווג תמונות'.

רשת נוירונים מלאכותית (CNN)

#image

רשת נוירונים שבה שכבה אחת לפחות היא שכבה קוונטית. רשת נוירונלית רגילה מסוג convolutional מורכבת משילוב כלשהו של השכבות הבאות:

רשתות נוירונים מלאכותיות (CNN) הצליחו מאוד בפתרון בעיות מסוימות, כמו זיהוי תמונות.

פעולת convolve

#image

הפעולה המתמטית הבאה בשני שלבים:

  1. מכפלה של כל רכיב במסנן קוונטי ופרוסה של מטריית קלט. (לפרוסת מטריצת הקלט יש את אותו דירוג וגודל כמו למסנן הקוונטי.)
  2. סיכום כל הערכים במטריצה של המוצר שנוצר.

לדוגמה, נניח את מטריצת הקלט הבאה בגודל 5x5:

המטריצה 5x5: [[128,97,53,201,198], [35,22,25,200,195],
          [37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]].

עכשיו נדמיין מסנן קוונטי 2x2:

המטריצה 2x2: [[1, 0], [0, 1]]

כל פעולת convolve כוללת פרוסה אחת בגודל 2x2 של מטריצת הקלט. לדוגמה, נניח שאנחנו משתמשים בפרוסת 2x2 בפינה הימנית העליונה של מטריצת הקלט. לכן, פעולת ההתמרה ההרמונית על הפרוסה הזו נראית כך:

החלת המסנן הקוונטי [[1, 0], [0, 1]] על הקטע 2x2 בפינה הימנית העליונה של מטריצת הקלט, שהוא [[128,97], [35,22]].
          המסנן הקוונטי משנה את הערכים של 128 ו-22, אבל משאיר את הערכים של 97 ו-35 ללא שינוי. לכן, פעולת ההתמרה מניבת את הערך 150 (128+22).

שכבת נוירונים רגולריים מורכבת מסדרה של פעולות נוירונים רגולריים, שכל אחת פועלת על פרוסה שונה של מטריצת הקלט.

D

הרחבת נתונים

#image

הגדלה מלאכותית של המגוון והמספר של דוגמאות לאימון, על ידי שינוי של דוגמאות קיימות כדי ליצור דוגמאות נוספות. לדוגמה, נניח שתמונות הן אחת מהמאפיינים שלכם, אבל מערך הנתונים לא מכיל מספיק דוגמאות של תמונות כדי שהמודל יוכל ללמוד אסוציאציות מועילות. באופן אידיאלי, כדאי להוסיף למערך הנתונים מספיק תמונות מתויגות כדי לאפשר לאמן את המודל בצורה תקינה. אם זה לא אפשרי, אפשר להשתמש בהגדלת נתונים כדי לסובב, למתוח ולהציג תמונת מראה של כל תמונה כדי ליצור הרבה וריאציות של התמונה המקורית. כך אפשר לקבל מספיק נתונים מתויגים כדי לאפשר אימון מצוין.

רשת עצבית קונבולוציה (CNN) עם הפרדה לפי עומק (sepCNN)

#image

ארכיטקטורה של רשת עצבית קונבולוציונית שמבוססת על Inception, אבל שבה המודולים של Inception מוחלפים בקונטרוולים נפרדים לפי עומק. ידוע גם כ-Xception.

עיבוד נתונים באמצעות convolve נפרד לפי עומק (נקרא גם convolve נפרד) מחלק convolve 3D רגיל לשתי פעולות convolve נפרדות שיעילות יותר מבחינה חישובית: קודם, convolve לפי עומק, עם עומק של 1 (n ✕ n ✕ 1), ואז convolve לפי נקודה, עם אורך ורוחב של 1 (1 ✕ 1 ✕ n).

מידע נוסף זמין במאמר Xception: Deep Learning with Depthwise Separable Convlutions.

דגימה למטה

#image

מונח בעל עומס יתר שיכול להיות אחד מהמונחים הבאים:

  • הפחתת כמות המידע בתכונה כדי לאמן מודל בצורה יעילה יותר. לדוגמה, לפני אימון מודל לזיהוי תמונות, אפשר להקטין את הדגימה של תמונות ברזולוציה גבוהה לפורמט ברזולוציה נמוכה יותר.
  • אימון על אחוז נמוך באופן לא פרופורציונלי של דוגמאות לכיתות שמיוצגות יתר על המידה, כדי לשפר את אימון המודל על כיתות שמיוצגות בחסר. לדוגמה, במערך נתונים עם חוסר איזון בין הקטגוריות, המודלים נוטים ללמוד הרבה על הקטגוריה הגדולה יותר ולא מספיק על הקטגוריה הקטנה יותר. דגימה למטה עוזרת לאזן את כמות האימון של הכיתות הגדולות והקטנות.

למידע נוסף, ראו מערכי נתונים: מערכי נתונים לא מאוזנים בקטע 'קורס מקוצר על למידת מכונה'.

F

כוונון עדין

#language
#image
#generativeAI

סבב אימון שני ספציפי למשימה, שמתבצע במודל שעבר אימון מראש כדי לשפר את הפרמטרים שלו לצורך תרחיש לדוגמה ספציפי. לדוגמה, רצף האימון המלא של חלק ממודלים גדולים של שפה הוא:

  1. אימון מראש: אימון מודל גדול של שפה על מערך נתונים כללי עצום, כמו כל הדפים של ויקיפדיה באנגלית.
  2. התאמה אישית: אימון המודל שעבר אימון מראש לביצוע משימה ספציפית, כמו מענה לשאילתות רפואיות. תהליך השיפור בדרך כלל כולל מאות או אלפי דוגמאות שמתמקדות במשימה הספציפית.

דוגמה נוספת: רצף האימון המלא של מודל תמונה גדול הוא:

  1. אימון מראש: אימון מודל תמונות גדול על קבוצת נתונים כללית גדולה של תמונות, כמו כל התמונות ב-Wikimedia Commons.
  2. התאמה אישית: אימון המודל שעבר אימון מראש לביצוע משימה ספציפית, כמו יצירת תמונות של אורקות.

השיפור יכול לכלול כל שילוב של השיטות הבאות:

  • שינוי כל הפרמטרים הקיימים של המודל שעבר אימון מראש. התהליך הזה נקרא לפעמים כוונון מדויק מלא.
  • שינוי של חלק מהפרמטרים הקיימים של המודל המאומן מראש (בדרך כלל השכבות הקרובות ביותר לשכבת הפלט), תוך שמירה על הפרמטרים הקיימים האחרים ללא שינוי (בדרך כלל השכבות הקרובות ביותר לשכבת הקלט). כוונון יעיל בפרמטרים
  • הוספת עוד שכבות, בדרך כלל מעל השכבות הקיימות הקרובות ביותר לשכבת הפלט.

כוונון עדין הוא סוג של למידה באמצעות העברה. לכן, יכול להיות שבתהליך השיפור המדויק של המודל נעשה שימוש בפונקציית אובדן או בסוג מודל שונים מאלה שבהם נעשה שימוש לאימון המודל שעבר אימון מקדים. לדוגמה, אפשר לשפר מודל תמונה גדול שעבר אימון מראש כדי ליצור מודל רגרסיה שמחזיר את מספר הציפורים בתמונה קלט.

השוואה וניגוד בין כוונון מדויק לבין המונחים הבאים:

מידע נוסף זמין בקטע התאמה אישית במאמר קורס מקוצר על למידת מכונה.

G

Gemini

#language
#image
#generativeAI

הסביבה העסקית שמכילה את ה-AI המתקדם ביותר של Google. רכיבים במערכת האקולוגית הזו כוללים:

מודלים של Gemini

#language
#image
#generativeAI

מודלים מולטימודאליים מבוססי Transformer מתקדמים של Google. המודלים של Gemini תוכננו במיוחד לשילוב עם סוכנים.

המשתמשים יכולים לקיים אינטראקציה עם מודלים של Gemini במגוון דרכים, כולל באמצעות ממשק אינטראקטיבי של תיבת דו-שיח דרך ערכות SDK.

בינה מלאכותית גנרטיבית

#language
#image
#generativeAI

תחום מתפתח של טרנספורמציה ללא הגדרה רשמית. עם זאת, רוב המומחים מסכימים שמודלים של AI גנרטיבי יכולים ליצור ('לגנרט'] תוכן שעומד בכל הקריטריונים הבאים:

  • מורכב
  • עקבי
  • מקורית

לדוגמה, מודל של AI גנרטיבי יכול ליצור תמונות או מאמרים מתוחכמים.

גם טכנולוגיות קודמות מסוימות, כולל LSTM ו-RNN, יכולות ליצור תוכן מקורי ועקבי. יש מומחים שמתייחסים לטכנולוגיות הקודמות האלה כאל AI גנרטיבי, ויש מומחים אחרים שחושבים ש-AI גנרטיבי אמיתי דורש תוצרים מורכבים יותר ממה שאפשר ליצור באמצעות הטכנולוגיות הקודמות האלה.

בניגוד ללמידת מכונה חזוי.

I

זיהוי תמונות, זיהוי תמונה

#image

תהליך שמסווג אובייקטים, דפוסים או מושגים בתמונה. זיהוי תמונות נקרא גם סיווג תמונות.

מידע נוסף זמין במאמר ML Practicum: Image Classification.

מידע נוסף זמין בקורס ML Practicum: Image Classification.

חיתוך על איחוד (IoU)

#image

החיתוך של שתי קבוצות חלקי האיחוד שלהן. במשימות של זיהוי תמונות בלמידת מכונה, נעשה שימוש ב-IoU כדי למדוד את הדיוק של תיבת הסימון הצפויה של המודל ביחס לתיבת הסימון של האמת המוחלטת. במקרה כזה, ערך ה-IoU של שתי התיבות הוא היחס בין האזור החופף לאזור הכולל, והוא נע בין 0 (אין חפיפה בין תיבת ה-bounding הצפויה לתיבת ה-bounding של עובדות הקרקע) ל-1 (תיבת ה-bounding הצפויה ותיבת ה-bounding של עובדות הקרקע כוללות את אותן קואורדינטות בדיוק).

לדוגמה, בתמונה הבאה:

  • הקו המודגש בצבע סגול מסמן את תיבת הגבול הצפויה (הקואורדינטות שמגדירות את המיקום שבו המודל צופה ששולחן הלילה נמצא בציור).
  • תיבת הגבול של האמת (הקואורדינטות שמגדירות את המיקום בפועל של שולחן הלילה בציור) מסומנת בקו ירוק.

הציור של ואן גוך 'חדר השינה של וינסנט בארל', עם שני תיבות מסגרת שונות סביב שולחן הלילה ליד המיטה. תיבת הגבול של האמת (בירוק) מקיף בצורה מושלמת את שולחן הלילה. תיבת הגבול הצפויה (בארגמן) מוסטת ב-50% למטה ולימין של תיבת הגבול של נתוני האמת. היא כוללת את הרבע השמאלי התחתון של שולחן הלילה, אבל לא את שאר הטבלה.

כאן, החיתוך של תיבות הסף לחיזוי ולעובדות (בפינה הימנית התחתונה) הוא 1, והאיחוד של תיבות הסף לחיזוי ולעובדות (בפינה הימנית התחתונה) הוא 7, כך ש-IoU הוא \(\frac{1}{7}\).

אותה תמונה כמו למעלה, אבל כל תיבת גבול מחולקת לארבעה רבעים. יש בסך הכול שבעה רבעונים, כי הרבעון הימני התחתון של תיבת ה-bounding של עובדות הקרקע והרבעון הימני העליון של תיבת ה-bounding הצפויה חופפים זה לזה. הקטע החופף הזה (מודגש בירוק) מייצג את הצומת, ושטחו הוא 1. אותה תמונה כמו למעלה, אבל כל תיבת גבול מחולקת לארבעה רבעים. יש בסך הכול שבעה רבעונים, כי הרבעון הימני התחתון של תיבת ה-bounding של עובדות הקרקע והרבעון הימני העליון של תיבת ה-bounding הצפויה חופפים זה לזה.
          כל השטח הפנימי שמוקף בשני תיבות הסימון (מודגש בירוק) מייצג את האיחוד, ושטחו הוא 7.

K

נקודות עיקריות

#image

הקואורדינטות של תכונות מסוימות בתמונה. לדוגמה, במודל זיהוי תמונות שמבדיל בין מינים של פרחים, נקודות מפתח יכולות להיות מרכז כל כותרת, הגבעול, האבקן וכו'.

L

ציוני דרך

#image

מילה נרדפת לנקודות מפתח.

M

MMIT

#language
#image
#generativeAI

קיצור של multimodal instruction-tuned.

MNIST

#image

מערך נתונים בתחום הציבורי שנאסף על ידי LeCun,‏ Cortes ו-Burges, ומכיל 60,000 תמונות. בכל תמונה מוצגת דרך שבה אדם כתב באופן ידני ספרה מסוימת מ-0 עד 9. כל תמונה מאוחסנת כמערך של מספרים שלמים בגודל 28x28, כאשר כל מספר שלם הוא ערך בגווני אפור בין 0 ל-255, כולל.

MNIST הוא מערך נתונים קנוני ללמידת מכונה, שמשמש לעיתים קרובות לבדיקת גישות חדשות ללמידת מכונה. פרטים נוספים זמינים במאמר בסיס הנתונים MNIST של ספרות בכתב יד.

MOE

#language
#image
#generativeAI

קיצור של תערובת של מומחים.

P

איחוד

#image

צמצום של מטריצה (או מטריצות) שנוצרו על ידי שכבת עיבוד קוונטי מוקדמת יותר למטריצה קטנה יותר. בדרך כלל, הצבירה כוללת את הערך המקסימלי או הממוצע של האזור המצטבר. לדוגמה, נניח שיש לנו את המטריצה הבאה בגודל 3x3:

המטריצה 3x3‏ [[5,3,1], [8,2,5], [9,4,3]].

פעולת צבירה, כמו פעולת convolve, מחלקת את המטריצה הזו לפרוסות ואז מחליקה את פעולת ה-convolve לפי strides. לדוגמה, נניח שפעולת ה-pooling מחלקת את מטריצת הקוונטילציה לפרוסות בגודל 2x2 עם צעד של 1x1. כפי שמוצג בתרשים הבא, מתבצעות ארבע פעולות של צבירת נתונים. נניח שכל פעולת צבירה בוחרת את הערך המקסימלי מתוך ארבעת הערכים באותו פרוסת זמן:

מטריצת הקלט היא 3x3 עם הערכים: [[5,3,1], [8,2,5], [9,4,3]].
          מטריצת המשנה 2x2 בפינה הימנית העליונה של מטריצת הקלט היא [[5,3], [8,2]], כך שפעולת ה-pooling בפינה הימנית העליונה מניבה את הערך 8 (הערך המקסימלי של 5, 3, 8 ו-2). מטריצת המשנה 2x2 בפינה השמאלית העליונה של מטריצת הקלט היא [[3,1], [2,5]], כך שפעולת ה-pooling בפינה השמאלית העליונה מניבה את הערך 5. מטריצת המשנה 2x2 בפינה הימנית התחתונה של מטריצת הקלט היא
          [[8,2], [9,4]], כך שפעולת ה-pooling בפינה הימנית התחתונה מניבה את הערך
          9. מטריצת המשנה 2x2 בפינה השמאלית התחתונה של מטריצת הקלט היא
          [[2,5], [4,3]], כך שפעולת ה-pooling בפינה השמאלית התחתונה מניבה את הערך
          5. לסיכום, פעולת ה-pooling מניבה את המטריצה 2x2‏ ‎[[8,5], [9,5]].

המצטבר עוזר לאכוף עמידות בטרנספורמציה במטריית הקלט.

הצבירה של נתונים לאפליקציות ראייה נקראת באופן רשמי צבירה מרחבית. באפליקציות של סדרות זמן, בדרך כלל קוראים לצבירה צבירה זמנית. באופן לא רשמי, יצירת מאגרים נקראת לעיתים קרובות דגימה משנית או דגימה לגודל קטן יותר.

מודל לאחר אימון

#language
#image
#generativeAI

מונח לא מוגדר במדויק שמתייחס בדרך כלל למודל שהודרן מראש שעבר עיבוד פוסט-טראיטמנט, כמו אחת או יותר מהפעולות הבאות:

מודל שעבר אימון מראש

#language
#image
#generativeAI

בדרך כלל, מודל שכבר אומן. המונח יכול גם להתייחס לוקטור הטמעה שעבר אימון קודם.

המונח מודל שפה שהודרן מראש מתייחס בדרך כלל למודל שפה גדול שכבר אומן.

אימון מקדים

#language
#image
#generativeAI

האימון הראשוני של מודל על מערך נתונים גדול. חלק מהמודלים שהוכשרו מראש הם 'ענקים גמלוניים', ובדרך כלל צריך לשפר אותם באמצעות אימון נוסף. לדוגמה, מומחי למידת מכונה עשויים לאמן מראש מודל שפה גדול על מערך נתונים עצום של טקסט, כמו כל הדפים באנגלית בוויקיפדיה. אחרי האימון המקדים, אפשר לשפר את המודל שנוצר באמצעות אחת מהשיטות הבאות:

R

סבירות ללא תלות בסיבוב

#image

בבעיה של סיווג תמונות, היכולת של אלגוריתם לסווג תמונות גם כשהכיוון שלהן משתנה. לדוגמה, האלגוריתם עדיין יכול לזהות מחבט טניס גם אם הוא מופנה למעלה, לצדדים או למטה. חשוב לזכור שלא תמיד רצוי שהתמונה תהיה עקבית ביחס לסיבוב. לדוגמה, לא צריך לסווג 9 הפוך כ-9.

אפשר גם לעיין במאמרים עקביות ביחס לטרנסלציה ועקביות ביחס לגודל.

S

חוסר תלות בגודל

#image

בבעיה של סיווג תמונות, היכולת של אלגוריתם לסווג תמונות בהצלחה גם כשגודל התמונה משתנה. לדוגמה, האלגוריתם עדיין יכול לזהות חתול גם אם הוא צורך 2 מיליון פיקסלים וגם אם הוא צורך 200 אלף פיקסלים. חשוב לזכור שלאלגוריתמים הטובים ביותר לסיווג תמונות עדיין יש מגבלות מעשיות על חוסר תלות בגודל. לדוגמה, סביר להניח שאלגוריתם (או אדם) לא יסווג בצורה נכונה תמונה של חתול שמכילה רק 20 פיקסלים.

אפשר לעיין גם במאמרים בנושא אי-תלות בטרנסלציה ואי-תלות בכיוון.

צבירת נתונים מרחבית

#image

אוסף

פסיעה

#image

בפעולה קונבולוציונית או ב-pooling, הדלתה בכל מאפיין של הסדרה הבאה של פרוסות הקלט. לדוגמה, באנימציה הבאה מוצגת פסיעה (1,1) במהלך פעולת convolve. לכן, פרוסת הקלט הבאה מתחילה במיקום אחד מימין לפרוסת הקלט הקודמת. כשהפעולה מגיעה לקצה הימני, הפרוסה הבאה נמצאת בצד ימין אבל עמודה אחת למטה.

מטריצת קלט 5x5 ומסנן קוונטי 3x3. מכיוון שהצעד הוא (1,1), מסנן קוונטי יחול 9 פעמים. הפרוסה הראשונה של הגלול מבצעת הערכה של מטריצת המשנה 3x3 בפינה הימנית העליונה של מטריצת הקלט. בפרוסת הנתונים השנייה מתבצעת הערכה של מטריצת המשנה 3x3 בחלק העליון האמצעי. הפרוסה השלישית של המכפיל הקונוולואטיבי מעריכה את מטריצת המשנה 3x3 בפינה השמאלית העליונה.  בפרוסה הרביעית מתבצעת הערכה של מטריצת המשנה 3x3 שמשמאל למעלה.
     בפרוסה החמישית מתבצעת הערכה של מטריצת המשנה האמצעית בגודל 3x3. הפרוסה השישית מחשבת את מטריצת המשנה 3x3 שבאמצע-ימין. הפרוסה השביעית מעריכה את מטריצת המשנה 3x3 בפינה הימנית התחתונה.  הפרוסה השמינית מעריכה את מטריצת המשנה 3x3 שבחלק התחתון-התיכון. בפרוסה התשיעית מתבצעת הערכה של מטריצת המשנה 3x3 בפינה השמאלית התחתונה.

הדוגמה הקודמת מדגימה צעד דו-מימדי. אם מטריצת הקלט תהיה תלת-ממדית, גם הצעדים יהיו תלת-ממדיים.

דגימת משנה

#image

אוסף

T

טמפרטורה

#language
#image
#generativeAI

פרמטר היפר שקובע את מידת הרנדומיזציה של הפלט של המודל. ככל שהטמפרטורה גבוהה יותר, התוצאה תהיה יותר אקראית, ואילו ככל שהטמפרטורה נמוכה יותר, התוצאה תהיה פחות אקראית.

בחירת הטמפרטורה הטובה ביותר תלויה באפליקציה הספציפית ובמאפיינים המועדפים של הפלט של המודל. לדוגמה, כדאי להגדיל את הטמפרטורה כשיוצרים אפליקציה שמפיקה נכסי קריאייטיב. לעומת זאת, כשיוצרים מודל לסיווג תמונות או טקסט, כדאי להוריד את הטמפרטורה כדי לשפר את הדיוק והעקביות של המודל.

לרוב משתמשים בטמפרטורה עם softmax.

טרנספורמציה חסרת תלות

#image

בבעיה של סיווג תמונות, היכולת של אלגוריתם לסווג תמונות בהצלחה גם כשהמיקום של האובייקטים בתמונה משתנה. לדוגמה, האלגוריתם עדיין יכול לזהות כלב, גם אם הוא נמצא במרכז המסגרת וגם אם הוא נמצא בקצה השמאלי של המסגרת.

אפשר לעיין גם במאמרים בנושא עמידות בגודל ועמידות בסיבוב.