חוקרים ממשיכים למצוא טכניקות משופרות של GAN ושימושים חדשים ב-GAN. הנה דגימה של וריאציות GAN כדי לתת לך מושג לגבי האפשרויות.
GAN מתקדם
ב-GAN מתקדם, השכבות הראשונות של המחולל מייצרות תמונות ברזולוציה נמוכה מאוד, והשכבות הבאות מוסיפות פרטים. הטכניקה הזו מאפשרת ל-GAN לאמן מהר יותר מ-GAN לא פרוגרמטי מקביל, ויוצרת תמונות ברזולוציה גבוהה יותר.
מידע נוסף זמין במאמר Karas et al, 2017.
GAN מותנה
קבוצות GAN מותנות באימון מערך נתונים שמאפשר לסמן את התוויות של כל מכונה שנוצרה. לדוגמה, GNIST GAN ללא תנאי ייצור ספרות אקראיות, בעוד ש-MNIST GAN מותנה מאפשר לציין איזו ספרה GAN צריך ליצור.
במקום ליצור מודל של ההסתברות המשותפת P(X, Y), ה-GAN עם התנאי מותנה בבניית ההסתברות המותנית P(X | Y).
למידע נוסף על GAN מותנה, ראו Mirza et al, 2014.תרגום של תמונה לתמונה
כדי להשתמש ב-GAN של תרגום תמונה לתמונה, יש לצלם תמונה כקלט ולמפות אותה לתמונת פלט שנוצרה עם מאפיינים שונים. לדוגמה, אנחנו יכולים לצלם מסכה עם בועות צבע בצורת מכונית, וה-GAN יכול למלא את הצורה עם פרטים פוטו-ריאליסטיים של מכונית.
באופן דומה, אפשר ללמד את GAN "תמונה-תמונה" לצלם תיקים של תיקי יד, ולהפוך אותם לתמונות מציאותיות של תיקי יד.
במקרים כאלה, ההפסד הוא שילוב משוקלל של ההפסד הרגיל המבוסס על אפליה, ואובדן פיקסלים שמשפיע על המחולל בגין יציאה מתמונת המקור.
לקבלת מידע נוסף, עיינו במאמר Isola et al., 2016.
רכיבה על אופניים
מחזורים לומדים להפוך תמונות מקבוצה אחת לתמונות שאולי שייכות לקבוצה אחרת. לדוגמה, CycleGAN ייצר את התמונה השמאלית שבהמשך כאשר הוא מקבל את התמונה השמאלית כקלט. היא צילמה תמונה של סוס והפכה אותה לתמונה של זברה.
נתוני האימון של ה-CycleGAN הם פשוט שתי קבוצות של תמונות (במקרה זה, קבוצה של תמונות סוסים וקבוצה של תמונות זברה). אין צורך בתוויות או בתכתובות בין התמונות.
למידע נוסף: Zhu et al, 2017, שממחיש את השימוש ב-CycleGAN לביצוע תרגום של תמונה לתמונה ללא נתונים מותאמים.
סינתזת טקסט-לתמונה
מספרי GAN-Text-text משתמשים בטקסט בתור קלט ומפיקים תמונות שניתן לזהות ולתאר באמצעותן. לדוגמה, תמונת הפרח שלמטה נוצרה על ידי הזנת תיאור הטקסט ב-GAN.
"בפרח הזה יש עלי כותרת שצהובים עם גוונים של כתום." |
חשוב לשים לב שבמערכת הזו ה-GAN יכול ליצור תמונות רק מקבוצה קטנה של כיתות.
למידע נוסף, עיינו בקטע Zhang et al, 2016.
רזולוציה גבוהה
רשתות GAN ברזולוציה גבוהה מגדילים את הרזולוציה של התמונות ומוסיפות פרטים שצריך למלא באזורים מטושטשים. לדוגמה, התמונה האמצעית המטושטשת שלמטה היא גרסה עם דגימה של התמונה המקורית בצד שמאל. עקב התמונה המטושטשת, ה-GAN ייצר את התמונה החדה יותר מימין:
מקור | מטושטש | שוחזר באמצעות GAN |
התמונה שנוצרה על ידי ה-GAN נראית דומה מאוד לתמונה המקורית, אך אם תסתכלו היטב על סרט השיער, תראי ש-GAN לא שיחזר את דפוס הפיצ'ר 'כוכב'. במקום זאת, היא הכילה דפוס ניתן להחלפה שמחליף את הדפוס שנמחק על ידי הדגימה.
למידע נוסף: Ledig et al., 2017.
צביעת פנים
שימוש ב-GAN למשימת הציור הסמנטי. במשימת הצביעה, קטעים של תמונה מושחרים והמערכת מנסה למלא את החלקים החסרים.
Yeh et al, 2017 השתמש ב-GAN כדי להשיג ביצועים טובים יותר משיטות אחרות לצביעת תמונות פנים:
הזנת קלט | פלט GAN |
המרת טקסט לדיבור (TTS)
לא כל ה-GAN יוצרים תמונות. לדוגמה, חוקרים השתמשו גם ב-GAN כדי ליצור דיבור מסונתז מקלט טקסט. למידע נוסף: Yang et 2017.