וריאציות של GAN

חוקרים ממשיכים למצוא שיטות משופרות של GAN ושימושים חדשים ל-GAN. ריכזנו כאן כמה וריאציות של GAN כדי לתת לכם מושג על האפשרויות.

GANs מתקדמים

ב-GAN מתקדם, השכבות הראשונות של הגנרטור יוצרות תמונות ברזולוציה נמוכה מאוד, והשכבות הבאות מוסיפות פרטים. הטכניקה הזו מאפשרת ל-GAN להתאמן מהר יותר מאשר GANs לא מתקדמים דומים, ומייצרת תמונות ברזולוציה גבוהה יותר.

מידע נוסף זמין במאמר Karras et al, 2017.

מודלים גנרטיביים מותנים (Conditional GANs)

מודלים של GAN מותנים מתאמנים על קבוצת נתונים מתויגים ומאפשרים לציין את התווית לכל מכונה שנוצרת. לדוגמה, GAN ללא תנאי של MNIST ייצור ספרות אקראיות, בעוד ש-GAN ללא תנאי של MNIST יאפשר לכם לציין איזו ספרה ה-GAN צריך ליצור.

במקום ליצור מודל של ההסתברות המשותפת P(X, Y), מודלים של GAN מותנים יוצרים מודל של ההסתברות המותנית P(X | Y).

מידע נוסף על GANs מותנים זמין במאמר של Mirza et al,‏ 2014.

תרגום תמונה לתמונה

רשתות GAN לתרגום תמונה לתמונה מקבלות תמונה כקלט וממפות אותה לתמונה יוצאת שנוצרה עם מאפיינים שונים. לדוגמה, אפשר להשתמש בתמונה עם מסכה עם כתמים צבעוניים בצורת רכב, וה-GAN יכול למלא את הצורה בפרטי רכב ריאליסטיים.

באופן דומה, אפשר לאמן מודלים של GAN מסוג 'תמונה לתמונה' כדי להפוך סקיצות של תיקי יד לתמונות פוטו-ריאליסטיות של תיקי יד.

טבלה 3x3 של תמונות של תיקי יד. בכל שורה מוצג סגנון תיק שונה. בכל שורה, התמונה שבצד הכי ימין היא תמונה פוטוריאליסטית שנוצרה על ידי GAN, התמונה שבאמצע היא תמונה של תיק יד אמיתי והתמונה שבצד הכי ימין היא ציור קווים פשוט של תיק יד. שלוש העמודות מסומנות בתווית 'קלט', 'עובדות' ו 'פלט'.

במקרים כאלה, האובדן הוא שילוב משוקלל של האובדן הרגיל שמבוסס על המזהה, ואיבוד לפי פיקסל שמעניש את הגנרטור על סטייה מהתמונה המקורית.

מידע נוסף זמין במאמר Isola et al, 2016.

CycleGAN

מודלים של CycleGAN לומדים להפוך תמונות מקבוצה אחת לתמונות שיכולות להשתייך לקבוצה אחרת. לדוגמה, התמונה שבצד ימין היא תוצר של CycleGAN, כשהתמונה שבצד ימין שימשה כקלט. המערכת לקחה תמונה של סוס והפכה אותה לתמונה של זברה.

תמונה של סוס שרץ ותמונה שנייה זהה מכל הבחינות, מלבד העובדה שהסוס הוא זברה.

נתוני האימון של CycleGAN הם פשוט שתי קבוצות של תמונות (במקרה הזה, קבוצה של תמונות של סוסים וקבוצה של תמונות של זברות). המערכת לא דורשת תוויות או התאמות בין תמונות.

מידע נוסף זמין במאמר Zhu et al,‏ 2017, שבו מוסבר איך משתמשים ב-CycleGAN כדי לבצע תרגום של תמונה לתמונה בלי נתונים מותאמים.

סינתזה של טקסט לתמונה

רשתות GAN מסוג 'טקסט לתמונה' מקבלות טקסט כקלט ויוצרות תמונות אמינות שמתוארות בטקסט. לדוגמה, תמונה של פרח שמופיעה בהמשך נוצרה על ידי הזנת תיאור טקסט ל-GAN.

"This flower has petals that are yellow with shades of orange." פרח עם עלי כותרת צהובים עם גוונים של כתום.

חשוב לזכור שבמערכת הזו, ה-GAN יכול ליצור תמונות רק מקבוצה קטנה של קטגוריות.

מידע נוסף זמין במאמר Zhang et al, 2016.

רזולוציה גבוהה במיוחד

מודלים של GAN ברזולוציה גבוהה מגדילים את הרזולוציה של תמונות, ומוסיפים פרטים במקרים שבהם יש צורך כדי למלא אזורים מטושטשים. לדוגמה, התמונה המטושטשת באמצע היא גרסה עם דגימה נמוכה יותר של התמונה המקורית בצד ימין. על סמך התמונה המטושטשת, ה-GAN יצר את התמונה החדה יותר בצד ימין:

מקורמטושטששחזור באמצעות GAN
ציור של ילדה עם כתרים מורכבים. אבנט הכובע סרוג בדוגמה מורכבת. גרסה מטושטשת של הציור של נערה עם כובע ראש מורכב. ציור חד וברור של ילדה עם כובע מורכב. הציור הזה כמעט זהה לתמונה הראשונה בטבלה הזו, אבל יש הבדלים קלים בחלק מהפרטים של הדפוסים על הכובע והלבוש שלה.

התמונה שנוצרה על ידי ה-GAN נראית דומה מאוד לתמונה המקורית, אבל אם תבחינו היטב בחלק של סרט הקשירה, תראו שה-GAN לא יצר את דפוס כוכב השביט מהתמונה המקורית. במקום זאת, הוא יצר דפוס סביר משלו כדי להחליף את הדפוס שנמחק על ידי דגימת הירידה.

מידע נוסף זמין במאמר Ledig et al, 2017.

השלמת פנים

השתמשו ב-GAN במסגרת המשימה של השלמת תמונות באופן סמנטי. במשימה של ציור בתמונה, קטעים של תמונה מטושטשים והמערכת מנסה למלא את הקטעים החסרים.

Yeh et al, 2017 השתמשו ב-GAN כדי להשיג ביצועים טובים יותר משיטות אחרות לשחזור תמונות של פנים:

קלטפלט GAN
ארבע תמונות. כל תמונה היא תמונה של פנים שבה חלק מהאזורים הוחלפו בשחור. ארבע תמונות. כל תמונה היא תמונה של פנים זהה לאחת מהתמונות בעמודה 'קלט', מלבד העובדה שאין בה אזורים שחורים.

המרת טקסט לדיבור (TTS)

לא כל ה-GANs יוצרים תמונות. לדוגמה, חוקרים השתמשו ב-GAN גם כדי ליצור דיבור ממוכן ממידע שהוזן בטקסט. מידע נוסף זמין במאמר Yang et al, 2017.