פראצלום למידת מכונה: סיווג תמונה

מומלץ לקרוא: איך Google פיתחה את מודל הסיווג המתקדם של חיפוש תמונות ב-Google Photos. בחרו את מסלול הקריסה ברשתות נוירונים מפותלות

דרישות מוקדמות

מבוא

במאי 2013, Google שחררה חיפוש של תמונות אישיות. הדף מאפשר למשתמשים לאחזר תמונות בספריות שלהם על סמך האובייקטים שקיימים בתמונות.

צילום מסך מ-Google Photos המציג חיפוש של חתולים סיאמיים איור 1. ב-Google Photos אפשר למצוא חתולים סיאמיים (למשל, חתולים!)

התכונה משנת 2015, ששולבה מאוחר יותר ב-Google Photos, נתפסה באופן נרחב כגורם שמשנים את המשחק, ראיה לתפיסה שתוכנת ראייה ממוחשבת יכולה לסווג תמונות לסטנדרטים אנושיים, ולהוסיף ערך בכמה דרכים:

  • אין יותר צורך לתייג תמונות באמצעות תוויות כמו "Beach" כדי לבטל את הסיווג של תוכן התמונה, ובכך לבטל משימה ידנית שעלולה להיות מעיינת בניהול קבוצות של מאות או אלפי תמונות.
  • המשתמשים יכולים לחקור את אוסף התמונות שלהם בדרכים חדשות. הם יכולים להשתמש במונחי חיפוש כדי לאתר תמונות עם אובייקטים שאולי לא תייגו. לדוגמה, הם יכולים לחפש את התחביר 'עצי דקל' ו'ציטוט' כדי להציג את כל תמונות החופשה שלהם שבעורפו עצי דקל.
  • תוכנה יכולה להיות &מירכאות; לראות&להשוואה; הבחנות טקסונומיות שמשתמשי הקצה עצמם לא יכולים לתפוס (למשל, הבחנה בין חתולים סיאמיים לחתולים אביסיאניים), וכך מחזקת את הידע של המשתמשים'.

סיווג תמונות – איך זה עובד?

"סיווג תמונות" הוא בעיית למידה בפיקוח: הגדירו קבוצה של מחלקות יעד (אובייקטים לזיהוי בתמונות) והנחו מודל לזהות אותן באמצעות תמונות לדוגמה עם תוויות. מודלים מוקדמים של ראייה ממוחשבת נסתמכו על נתוני פיקסלים גולמיים בתור קלט למודל. עם זאת, כפי שמתואר באיור 2, נתוני פיקסלים גולמיים בלבד אינם מספקים ייצוג יציב מספיק כדי לכלול את הווריאציות השונות של אובייקט, כפי שמתואר בתמונה. המיקום של האובייקט, הרקע של האובייקט, תאורה בסביבה, זווית המצלמה והתמקדות המצלמה יכולים להניב תנודתיות בנתוני הפיקסלים הגולמיים. ההבדלים האלו משמעותיים מספיק כך שלא ניתן לתקן אותם באמצעות ממוצע משוקלל של ערכי RGB של פיקסלים.

קולאז' של תמונות עם חתולים במגוון מיקומים, עם רקעים ומצבי תאורה שונים, וכן נתוני הפיקסלים הממוצעים שמתקבלים מהתמונות איור 2. שמאל: חתולים יכולים לצלם תמונה במגוון תנוחות, עם רקעים שונים ותנאי תאורה שונים. ימין: חישוב ממוצע של נתוני פיקסלים כדי לקחת בחשבון את המגוון הזה לא יוצר מידע משמעותי.

כדי ליצור מודלים של אובייקטים בצורה גמישה יותר, מודלים של ראייה ממוחשבת מוסיפים תכונות חדשות מנתוני פיקסל, כמו היסטוגרמה של צבעים, מרקמים ועיצובים. החיסרון של הגישה הזו היה שמהנדסי תכונות הפכו לעומס אמיתי, מכיוון שהיו כל כך הרבה קלטים שצריך לשנות. באילו סיווגים לחתולים, אילו צבעים היו הכי רלוונטיים? איך ההגדרות של הגמישות צריכות להיות גמישות? מכיוון שהתכונות צריכות היה להיות מתוקנות כל כך, הבניית דגמים חזקים הייתה די מאתגרת וחוסר דיוק.