וריאציות של GAN

חוקרים ממשיכים למצוא טכניקות משופרות של GAN ושימושים חדשים ב-GAN. הנה דגימה של וריאציות GAN כדי לתת לך מושג לגבי האפשרויות.

GAN מתקדם

ב-GAN מתקדם, השכבות הראשונות של המחולל מייצרות תמונות ברזולוציה נמוכה מאוד, והשכבות הבאות מוסיפות פרטים. הטכניקה הזו מאפשרת ל-GAN לאמן מהר יותר מ-GAN לא פרוגרמטי מקביל, ויוצרת תמונות ברזולוציה גבוהה יותר.

מידע נוסף זמין במאמר Karas et al, 2017.

GAN מותנה

קבוצות GAN מותנות באימון מערך נתונים שמאפשר לסמן את התוויות של כל מכונה שנוצרה. לדוגמה, GNIST GAN ללא תנאי ייצור ספרות אקראיות, בעוד ש-MNIST GAN מותנה מאפשר לציין איזו ספרה GAN צריך ליצור.

במקום ליצור מודל של ההסתברות המשותפת P(X, Y), ה-GAN עם התנאי מותנה בבניית ההסתברות המותנית P(X | Y).

למידע נוסף על GAN מותנה, ראו Mirza et al, 2014.

תרגום של תמונה לתמונה

כדי להשתמש ב-GAN של תרגום תמונה לתמונה, יש לצלם תמונה כקלט ולמפות אותה לתמונת פלט שנוצרה עם מאפיינים שונים. לדוגמה, אנחנו יכולים לצלם מסכה עם בועות צבע בצורת מכונית, וה-GAN יכול למלא את הצורה עם פרטים פוטו-ריאליסטיים של מכונית.

באופן דומה, אפשר ללמד את GAN "תמונה-תמונה" לצלם תיקים של תיקי יד, ולהפוך אותם לתמונות מציאותיות של תיקי יד.

טבלת תמונות של תיקי יד בגודל 3x3. בכל שורה מוצג סגנון שונה של תיק יד. בכל שורה, התמונה השמאלית ביותר היא ציור קו פשוט, תיק יד, התמונה האמצעית היא תמונה של תיק יד אמיתי, והתמונה הימנית ביותר היא תמונה פוטוריאליסטית שנוצרה על-ידי GAN. שלוש העמודות מסומנות בתווית 'קלט' ו'יבשתי' ו 'פלט'

במקרים כאלה, ההפסד הוא שילוב משוקלל של ההפסד הרגיל המבוסס על אפליה, ואובדן פיקסלים שמשפיע על המחולל בגין יציאה מתמונת המקור.

לקבלת מידע נוסף, עיינו במאמר Isola et al., 2016.

רכיבה על אופניים

מחזורים לומדים להפוך תמונות מקבוצה אחת לתמונות שאולי שייכות לקבוצה אחרת. לדוגמה, CycleGAN ייצר את התמונה השמאלית שבהמשך כאשר הוא מקבל את התמונה השמאלית כקלט. היא צילמה תמונה של סוס והפכה אותה לתמונה של זברה.

תמונה של סוס רצוף, ותמונה שנייה
שזהה בכל מקום מלבד שהסוס הוא זברה.

נתוני האימון של ה-CycleGAN הם פשוט שתי קבוצות של תמונות (במקרה זה, קבוצה של תמונות סוסים וקבוצה של תמונות זברה). אין צורך בתוויות או בתכתובות בין התמונות.

למידע נוסף: Zhu et al, 2017, שממחיש את השימוש ב-CycleGAN לביצוע תרגום של תמונה לתמונה ללא נתונים מותאמים.

סינתזת טקסט-לתמונה

מספרי GAN-Text-text משתמשים בטקסט בתור קלט ומפיקים תמונות שניתן לזהות ולתאר באמצעותן. לדוגמה, תמונת הפרח שלמטה נוצרה על ידי הזנת תיאור הטקסט ב-GAN.

"בפרח הזה יש עלי כותרת שצהובים עם גוונים של כתום." פרח עם עלי כותרת שהם צהובים
    עם צלליים של כתום.

חשוב לשים לב שבמערכת הזו ה-GAN יכול ליצור תמונות רק מקבוצה קטנה של כיתות.

למידע נוסף, עיינו בקטע Zhang et al, 2016.

רזולוציה גבוהה

רשתות GAN ברזולוציה גבוהה מגדילים את הרזולוציה של התמונות ומוסיפות פרטים שצריך למלא באזורים מטושטשים. לדוגמה, התמונה האמצעית המטושטשת שלמטה היא גרסה עם דגימה של התמונה המקורית בצד שמאל. עקב התמונה המטושטשת, ה-GAN ייצר את התמונה החדה יותר מימין:

מקורמטושטששוחזר באמצעות GAN
ציור של ילדה עם
      כיסוי ראש מסובך. קשת השיער של הכתובת אינה חתוכת תבנית מורכבת. גרסה מטושטשת של ציור של ילדה שלובשת כתובת מורכבת. ציור חד וברור של ילדה עם כיסוי ראש מורכב. השרטוט הזה כמעט זהה
      לתמונה הראשונה בטבלה זו, אבל חלק מפרטי הדפוס
      בכינוי שלה ובביגוד שונים במידה מועטה.

התמונה שנוצרה על ידי ה-GAN נראית דומה מאוד לתמונה המקורית, אך אם תסתכלו היטב על סרט השיער, תראי ש-GAN לא שיחזר את דפוס הפיצ'ר 'כוכב'. במקום זאת, היא הכילה דפוס ניתן להחלפה שמחליף את הדפוס שנמחק על ידי הדגימה.

למידע נוסף: Ledig et al., 2017.

צביעת פנים

שימוש ב-GAN למשימת הציור הסמנטי. במשימת הצביעה, קטעים של תמונה מושחרים והמערכת מנסה למלא את החלקים החסרים.

Yeh et al, 2017 השתמש ב-GAN כדי להשיג ביצועים טובים יותר משיטות אחרות לצביעת תמונות פנים:

הזנת קלטפלט GAN
ארבע תמונות. כל תמונה היא
                                     תמונה של פנים שתחומים מסוימים הוחלפו
                                     בשחור. ארבע תמונות. כל תמונה היא תמונה של פנים שזהה לאחת מהתמונות בעמודה 'קלט'', אלא שאין אזורים שחורים.

המרת טקסט לדיבור (TTS)

לא כל ה-GAN יוצרים תמונות. לדוגמה, חוקרים השתמשו גם ב-GAN כדי ליצור דיבור מסונתז מקלט טקסט. למידע נוסף: Yang et 2017.