דף זה מכיל מונחי מילון מונחים של מודלים של תמונות. לכל המונחים במילון המונחים, לחצו כאן.
A
מציאות רבודה
טכנולוגיה שמוסיפה תמונה שנוצרה על ידי מחשב לנקודת המבט של המשתמש על העולם האמיתי, ויוצרת תמונה מורכבת.
מקודד אוטומטי
מערכת שלומדת לחלץ את המידע החשוב ביותר מהקלט. מקודדים אוטומטיים הם שילוב של מקודד ומפענח. מקודדים אוטומטיים מסתמכים על התהליך הדו-שלבי הבא:
- המקודד ממפה את הקלט לפורמט (בדרך כלל) עם אבד-ממדים נמוך יותר (בינוני).
- המפענח בונה גרסה עם אבדן של הקלט המקורי על ידי מיפוי של הפורמט עם הממדים הנמוכים יותר לפורמט הקלט הממדי הגבוה יותר.
המקודדים האוטומטיים מאומנים מקצה לקצה, כך שהמפענח מנסה לשחזר את הקלט המקורי מפורמט הביניים של המקודד ככל האפשר. מכיוון שפורמט הביניים קטן יותר (בממדים קטנים יותר) מהפורמט המקורי, המקודד האוטומטי נאלץ ללמוד איזה מידע בקלט הוא חיוני, והפלט לא יהיה זהה לחלוטין לקלט.
למשל:
- אם נתוני הקלט הם גרפיים, העותק הלא מדויק יהיה דומה לגרפיקה המקורית, אבל השתנה מעט. אולי העותק הלא מדויק מסיר רעש מהגרפיקה המקורית או ממלא פיקסלים חסרים.
- במקרה שנתוני הקלט הם טקסט, מקודד אוטומטי ייצור טקסט חדש שמחקה (אבל לא זהה) לטקסט המקורי.
ראו גם מקודדים אוטומטיים משתנים.
מודל רגרסיבי אוטומטי
model שמסיק חיזוי על סמך החיזויים הקודמים שלו. לדוגמה, מודלים של שפה רגרסיביים אוטומטיים חוזים את האסימון הבא על סמך האסימונים הצפויים בעבר. כל מודלים גדולים של שפה (LLM) שמבוססים על טרנספורמרים הם רגרסיביים אוטומטיים.
לעומת זאת, מודלים של תמונות שמבוססים על GAN הם בדרך כלל לא רגרסיביים אוטומטיים, כי הם יוצרים תמונה במעבר אחד, ולא באופן איטרטיבי בשלבים. עם זאת, בחלק מהמודלים ליצירת תמונות הם רגרסיביים באופן אוטומטי כי הם יוצרים תמונה בשלבים.
B
תיבה תוחמת (bounding box)
בתמונה, הקואורדינטות (x, y) של מלבן מסביב לאזור עניין, כמו הכלב בתמונה למטה.
C
קונבולציה
במתמטיקה, בדיבור יומיומי, שילוב של שתי פונקציות. בלמידת מכונה, קונבולציה משלבת את המסנן הקונבולוציה ואת מטריצת הקלט כדי לאמן משקולות.
לרוב, המונח 'קונבולציה' בלמידת מכונה מתייחס בצורה מקוצרת לפעולה קונבולטיבית או לשכבה קונסולה.
בלי קונבולציות, אלגוריתם של למידת מכונה יצטרך ללמוד משקל נפרד לכל תא ב-tensor גדול. לדוגמה, אימון של אלגוריתם של למידת מכונה על תמונות בגודל 2Kx2K יאלץ למצוא 4 מיליון משקולות נפרדות. הודות לקיפולים, אלגוריתם של למידת מכונה צריך למצוא משקולות לכל תא רק במסנן המתפתל, וכך לצמצם באופן משמעותי את הזיכרון הדרוש לאימון המודל. כשמחילים את המסנן הקונבולוציה, הוא פשוט משוכפל בין תאים כך שכל אחד מהם יוכפל במסנן.
מסנן קונבולציה
אחד משני המשתתפים בפעולה מתוכננת. (השחקן השני הוא פרוסה של מטריצת קלט). מסנן קונבולוציה הוא מטריצה שיש לה דירוג זהה לזה של מטריצת הקלט, אבל צורה קטנה יותר. לדוגמה, בהינתן מטריצת קלט של 28x28, המסנן יכול להיות כל מטריצה דו-ממדית קטנה מ-28x28.
בפעולות פוטוגרפיות, כל התאים במסנן המתפתל מוגדרים בדרך כלל לדפוס קבוע של אפסים ואחדים. בלמידת מכונה, מסננים אקטיביים מיוצרים בדרך כלל עם מספרים אקראיים, ואז אימונים של הרשת הם הערכים האידאליים.
שכבה מתקפלת
שכבה של רשת נוירונים עמוקה שבה מסנן סינכרוני מעביר מטריצת קלט. לדוגמה, מסנן קונבולציה בגודל 3x3:
האנימציה הבאה מציגה שכבת קונבולוציה שמורכבת מ-9 פעולות קונבולציה שכוללות את מטריצת הקלט 5x5. שימו לב שכל פעולה רציונלית פועלת על פרוסה שונה של 3x3 במטריצת הקלט. המטריצה של 3x3 שתתקבל (בצד ימין) מורכבת מהתוצאות של 9 הפעולות המתחברות:
רשת עצבית מתקפלת
רשת נוירונים שבה לפחות שכבה אחת היא שכבה קונספירציה. רשת עצבית מתקפלת טיפוסית מורכבת משילוב כלשהו של השכבות הבאות:
רשתות נוירונים מלאכותיות נחלו הצלחה רבה בסוגים מסוימים של בעיות, כמו זיהוי תמונות.
פעולה קונבולטורית
הפעולה המתמטית הדו-שלבית הבאה:
- הכפלה ברמת הרכיבים של המסנן הקונבולטיבי ופרוסה של מטריצת קלט. (לפרוסה של מטריצת הקלט יש דירוג וגודל זהים לאלה של המסנן הקונבולוציה).
- סכום כל הערכים במטריצת המוצרים שתתקבל.
לדוגמה, ניקח לדוגמה את מטריצת הקלט הבאה בגודל 5x5:
עכשיו חשבו על המסנן הקובולציה הבא בגודל 2x2:
כל פעולת קונבולציה כוללת פרוסה אחת בגודל 2x2 של מטריצת הקלט. לדוגמה, נניח שמשתמשים בפלח 2x2 בפינה השמאלית העליונה של מטריצת הקלט. לכן, פעולת הקונבולוציה בפלח הזה נראית כך:
שכבה קונבולציה מורכבת מסדרה של פעולות קונבולוציה, שכל אחת מהן פועלת על פרוסה שונה של מטריצת הקלט.
D
הרחבת נתונים
הגדלה מלאכותית של הטווח והמספר של הדוגמאות לאימונים, על ידי טרנספורמציה של דוגמאות קיימות כדי ליצור דוגמאות נוספות. לדוגמה, נניח שתמונות הן אחת מהתכונות שלכם, אבל מערך הנתונים לא מכיל מספיק דוגמאות של תמונות כדי שהמודל יוכל ללמוד שיוכים שימושיים. במצב אידיאלי צריך להוסיף למערך הנתונים מספיק תמונות מתויגות כדי לאפשר למודל לאמן כמו שצריך. אם זה לא אפשרי, הגדלת הנתונים יכולה לסובב, למתוח ולשקף כל תמונה על מנת ליצור וריאנטים רבים של התמונה המקורית, ויכול להיות שיצטברו מספיק נתונים מתויגים כדי לאפשר אימון מצוין.
רשת עצבית מתקפלת (sepCNN) להפרדת עומק
ארכיטקטורה של רשת עצבית מתקפלת שמבוססת על התחלה, אבל במקום המודולים של Inception ניתן להחליף אותם בקונפיגורציות נפרדות שניתנות להפרדה עמוקה. נקרא גם Xception.
קונבולציה ניתנת להפרדה עמוקה (שמופיעה גם כקיצור IARC עם קמורים מופרדים,) יוצרת קונבולציה תלת-ממדית רגילה לשתי פעולות קונבולציה נפרדות שהן יעילות יותר מבחינה חישובית: הראשונה, קונבולציה של עומק, עם עומק 1 (n n n k 1 בעומק 1, ואז אורך 1 בהשוואה לנקודה 1 (n n n וכן 1).
למידע נוסף קראו את המאמר Xception: Deep Learning with Depthwise Sepolutions.
דגימת למטה
מונח עמוס מדי שיכול להיות בעל אחת מהאפשרויות הבאות:
- הפחתת כמות המידע בתכונה כדי לאמן מודל בצורה יעילה יותר. לדוגמה, לפני אימון של מודל לזיהוי תמונות, כדאי להפחית את הדגימה של תמונות ברזולוציה גבוהה לפורמט של רזולוציה נמוכה יותר.
- אימון על אחוז נמוך באופן לא פרופורציונלי של דוגמאות כיתה עם ייצוג יתר, כדי לשפר את אימון המודלים בכיתות שסובלות מחוסר ייצוג. לדוגמה, במערך נתונים לא מאוזן לסיווג, מודלים נוטים ללמוד הרבה על סיווג הרוב ולא מספיק על סיווג מיעוט. דגימת הדגימה עוזרת לאזן בין כמות האימון בכיתות הרוב לבין המיעוט.
נ
כוונון עדין
העברת אימון שנייה ספציפית למשימה באמצעות מודל שעבר אימון מראש, כדי לשפר את הפרמטרים שלו בתרחיש ספציפי לדוגמה. לדוגמה, רצף האימון המלא של חלק ממודלים גדולים של שפה הוא:
- אימון מראש: אימון מודל שפה גדול (LLM) במערך נתונים כללי נרחב, כמו כל דפי הוויקיפדיה באנגלית.
- כוונון: אימון המודל שעבר אימון מראש לביצוע משימה ספציפית, כמו מענה לשאילתות רפואיות. בדרך כלל הכוונון כולל מאות או אלפי דוגמאות שמתמקדות במשימה הספציפית.
דוגמה נוספת: רצף האימון המלא של מודל תמונה גדול הוא:
- אימון מראש: אימון מודל תמונה גדול על מערך נתונים כללי של תמונות, כמו כל התמונות ב-Wikimedia Common.
- כוונון: אימון המודל שעבר אימון מראש לביצוע משימה ספציפית, כמו יצירת תמונות של קטלנים.
כוונון עדין יכול לכלול כל שילוב של האסטרטגיות הבאות:
- שינוי כל הפרמטרים הקיימים של המודל שעבר אימון מראש. פעולה זו נקראת לפעמים כוונון מלא.
- שינוי רק חלק מהפרמטרים הקיימים של המודל שעבר אימון מראש (בדרך כלל, השכבות הקרובות ביותר לשכבת הפלט), תוך השארת פרמטרים קיימים ללא שינוי (בדרך כלל, השכבות הקרובות ביותר לשכבת הקלט). למידע נוסף, ראו כוונון יעיל בפרמטרים.
- הוספת שכבות נוספות, בדרך כלל על גבי השכבות הקיימות הקרובות ביותר לשכבת הפלט.
כוונון הוא סוג של למידה בהעברה. לכן, כוונון עדין עשוי להשתמש בפונקציית אובדן אחרת או בסוג מודל שונה מאלה ששימשו לאימון המודל שעבר אימון מראש. לדוגמה, אפשר לכוונן מודל תמונה גדול שעבר אימון מראש כדי ליצור מודל רגרסיה שמחזיר את מספר הציפורים בתמונת קלט.
השוו והבדילו בין כוונון באמצעות המונחים הבאים:
G
בינה מלאכותית גנרטיבית
שדה טרנספורמטיבי מתפתח ללא הגדרה רשמית. עם זאת, רוב המומחים מסכימים שמודלים של בינה מלאכותית גנרטיבית יכולים ליצור ('ליצור' תוכן שהוא:
- מורכב
- עקבי
- מקורית
לדוגמה, מודל של בינה מלאכותית גנרטיבית יכול ליצור מאמרים או תמונות מתוחכמים.
גם חלק מהטכנולוגיות הקודמות, כולל LSTM ו-RNN, יכולות ליצור תוכן מקורי ועקבי. חלק מהמומחים מתייחסים לטכנולוגיות הקודמות האלה כבינה מלאכותית גנרטיבית, ואילו אחרים סבורים שבינה מלאכותית גנרטיבית אמיתי דורשת פלט מורכב יותר מאשר הטכנולוגיות הקודמות יכולות להפיק.
בניגוד ללמידת מכונה חזויה.
I
זיהוי תמונות, זיהוי תמונה
תהליך שמסווג אובייקטים, תבניות או מושגים בתמונה. זיהוי תמונות נקרא גם סיווג תמונות.
מידע נוסף זמין במאמר ML Practicum: סיווג תמונות.
הצטלבות באיחוד (IoU)
ההצטלבות של שתי קבוצות חלקי האיחוד שלהן. במשימות של זיהוי תמונות בלמידת מכונה, נעשה שימוש ב-IoU כדי למדוד את הדיוק של התיבה תוחמת (bounding box) החזויה של המודל ביחס לתיבה התוחמת ground-truth. במקרה הזה, ה-IoU של שתי התיבות הוא היחס בין האזור החופף לשטח הכולל, והערך שלו נע מ-0 (אין חפיפה בין תיבה תוחמת חזויה ותיבה תוחמת קרקע חזויה) ל-1 (לתיבה תוחמת חזויה ולתיבה תוחמת-אמת יש אותן קואורדינטות בדיוק).
לדוגמה, בתמונה שלמטה:
- התיבה התוחמת החזויה (הקואורדינטות שמפרידות בין המיקום של טבלת הלילה בציור) מתוארת בסגול.
- התיבה התוחמת את הקרקע (הקואורדינטות שמפרידות את המיקום של שולחן הלילה בציור) מסומנת בירוק.
במקרה הזה, ההצטלבות של התיבות התוחמות לחיזוי ואמת קרקע (מתחת משמאל) היא 1, והאיחוד של התיבות התוחמות לחיזוי ואמת הקרקע (מתחת לפינה) הוא 7, כך שה-IoU הוא \(\frac{1}{7}\).
K
נקודות עיקריות
הקואורדינטות של תכונות מסוימות בתמונה. לדוגמה, במודל זיהוי תמונות שמבדיל בין מיני פרחים, נקודות מפתח יכולות להיות המרכז של כל עלה כותרת, גזע, נדב וכן הלאה.
L
ציוני דרך
מילה נרדפת ל-keypoints.
M
MNIST
מערך נתונים בדומיין ציבורי שהורכב על ידי LeCun, Cortes ו-Burse ומכיל 60,000 תמונות. כל תמונה מראה איך אדם כתב ספרה מסוימת באופן ידני בין 0 ל-9. כל תמונה מאוחסנת כמערך 28x28 של מספרים שלמים, כאשר כל מספר שלם הוא ערך בגווני אפור בין 0 ל-255, כולל.
MNIST הוא מערך נתונים קנוני ללמידת מכונה, שמשמש לעיתים קרובות לבדיקת גישות חדשות של למידת מכונה. מידע נוסף מופיע במאמר מסד הנתונים MNIST של ספרות בכתב יד.
P
מאגר
הקטנת המטריצה (או המטריצה) שנוצרה על ידי שכבה מתקפלת קודמת למטריצה קטנה יותר. המאגר בדרך כלל כולל את הערך המקסימלי או הממוצע של האזור הארגוני. לדוגמה, נניח שיש לנו מטריצת 3x3 הבאה:
פעולת מאגרים, בדיוק כמו פעולה קונבולציה, מחלקת את המטריצה לפרוסות ולאחר מכן מחליקה את הפעולה המתקפלת בצעדים. לדוגמה, נניח שפעולת המאגר מחלקת את המטריצה המתקפלת לפרוסות בגודל 2x2 ברצף של 1x1. כפי שניתן לראות בתרשים הבא, מתבצעות ארבע פעולות של מאגרים. נניח שכל פעולת מאגר בוחרת את הערך המקסימלי של ארבע בפרוסה הזו:
אגירת נתונים עוזרת לאכוף שונות טרנסלציונית במטריצת הקלט.
מאגר של אפליקציות ראייה ידוע באופן רשמי יותר מאגר מרחבי. אפליקציות של סדרות זמנים מתייחסות בדרך כלל למאגר כמאגר זמני. באופן פחות רשמי, המאגר נקרא subssampleing או downssampleing.
מודל שעבר אימון מראש
מודלים או רכיבי מודל (למשל וקטור הטמעה) שכבר אומנו. לפעמים מזינים וקטורים של הטמעה שעברו אימון ברשת נוירונים. במקרים אחרים, המודל יאמן את הווקטורים של ההטמעה בעצמו במקום להסתמך על ההטמעות שעברו אימון.
המונח מודל שפה שעבר אימון מראש מתייחס למודל שפה גדול (LLM) שעבר אימון מראש.
אימון מראש
האימון הראשוני של מודל על מערך נתונים גדול. חלק מהמודלים שעברו אימון מראש הם ענקיים מגושמים, ובדרך כלל צריך לשפר אותם באמצעות אימון נוסף. לדוגמה, מומחי למידת מכונה יכולים לאמן מראש מודל שפה גדול על מערך נתונים נרחב של טקסט, כמו כל הדפים באנגלית בוויקיפדיה. אחרי האימון מראש, אפשר לשפר את המודל שמתקבל באמצעות אחת מהשיטות הבאות:
R
שונות סיבובית
במקרה של בעיה בסיווג תמונות, היכולת של אלגוריתם לסווג תמונות בהצלחה גם אם כיוון התמונה משתנה. לדוגמה, האלגוריתם עדיין יכול לזהות מחבט טניס, בין שהוא פונה למעלה, לצדדים או למטה. שים לב ששונות סיבובית אינה תמיד רצוי. לדוגמה, אין לסווג 9 הפוך כ-9.
למידע נוסף, ראו שונות תרגום ושונות גודל.
S
שונות של גודל
במקרה של בעיה בסיווג תמונות, היכולת של אלגוריתם לסווג תמונות בהצלחה גם כשגודל התמונה משתנה. לדוגמה, האלגוריתם עדיין יכול לזהות חתול אם הוא צורך 2 מיליון פיקסלים או 200,000 פיקסלים. שימו לב שגם לאלגוריתמים הטובים ביותר של סיווג תמונות יש עדיין מגבלות פרקטיות על שונות בגודל. לדוגמה, סביר להניח שאלגוריתם (או בן אדם) לא יסווג בצורה נכונה תמונת חתול שצורכת 20 פיקסלים בלבד.
למידע נוסף, אפשר לעיין בקטעים שונות תרגום ושונות סיבובית.
מאגר מרחבי
למידע נוסף, ראו איסוף.
צעד
בפעולה קונבולטיבית או במאגר, הדלתא בכל מאפיין בסדרה הבאה של פרוסות הקלט. לדוגמה, האנימציה הבאה ממחישה פסת (1,1) במהלך פעולה מורכבת. לכן, פרוסת הקלט הבאה מתחילה מיקום אחד מימין לפרוסת הקלט הקודמת. כשהפעולה מגיעה לקצה הימני, הפרוסה הבאה נמצאת כל הדרך שמאלה, אבל מיקום אחד למטה.
הדוגמה הקודמת ממחישה קו דו-ממדי. אם מטריצת הקלט היא תלת-ממדית, גם הפס יהיה תלת-ממדי.
תת-דגימה
למידע נוסף, ראו איסוף.
T
טמפרטורה
היפר-פרמטר שקובע את מידת הרנדומיזציה של הפלט של המודל. טמפרטורה גבוהה יותר מובילה לפלט אקראי יותר, וטמפרטורות נמוכות יותר מניבות פלט אקראי פחות.
בחירת הטמפרטורה הטובה ביותר תלויה באפליקציה הספציפית ובמאפיינים המועדפים של הפלט של המודל. לדוגמה, סביר להניח שתרצו להעלות את הטמפרטורה כשיוצרים אפליקציה שמייצרת פלט של קריאייטיב. לעומת זאת, כדאי להוריד את הטמפרטורה כשבונים מודל שמסווג תמונות או טקסט כדי לשפר את הדיוק והעקביות של המודל.
לרוב, משתמשים בטמפרטורה כשמשתמשים ב-softmax.
שונות מתורגמת
במקרה של בעיה בסיווג תמונות, היכולת של אלגוריתם לסווג תמונות בהצלחה גם אם מיקום האובייקטים בתוך התמונה משתנה. לדוגמה, האלגוריתם יכול עדיין לזהות כלב, בין אם הוא נמצא במרכז המסגרת או בקצה השמאלי של המסגרת.
למידע נוסף, אפשר לקרוא מידע נוסף על שונות הגודל ושונות הסיבוב.