חוקרים ממשיכים למצוא שיטות משופרות של GAN ושימושים חדשים ל-GAN. ריכזנו כאן כמה וריאציות של GAN כדי לתת לכם מושג על האפשרויות.
GANs מתקדמים
ב-GAN מתקדם, השכבות הראשונות של הגנרטור יוצרות תמונות ברזולוציה נמוכה מאוד, והשכבות הבאות מוסיפות פרטים. הטכניקה הזו מאפשרת ל-GAN להתאמן מהר יותר מאשר GANs לא מתקדמים דומים, ומייצרת תמונות ברזולוציה גבוהה יותר.
מידע נוסף זמין במאמר Karras et al, 2017.
מודלים גנרטיביים מותנים (Conditional GANs)
מודלים של GAN מותנים מתאמנים על קבוצת נתונים מתויגים ומאפשרים לציין את התווית לכל מכונה שנוצרת. לדוגמה, GAN ללא תנאי של MNIST ייצור ספרות אקראיות, בעוד ש-GAN ללא תנאי של MNIST יאפשר לכם לציין איזו ספרה ה-GAN צריך ליצור.
במקום ליצור מודל של ההסתברות המשותפת P(X, Y), מודלים של GAN מותנים יוצרים מודל של ההסתברות המותנית P(X | Y).
מידע נוסף על GANs מותנים זמין במאמר של Mirza et al, 2014.תרגום תמונה לתמונה
רשתות GAN לתרגום תמונה לתמונה מקבלות תמונה כקלט וממפות אותה לתמונה יוצאת שנוצרה עם מאפיינים שונים. לדוגמה, אפשר להשתמש בתמונה עם מסכה עם כתמים צבעוניים בצורת רכב, וה-GAN יכול למלא את הצורה בפרטי רכב ריאליסטיים.
באופן דומה, אפשר לאמן מודלים של GAN מסוג 'תמונה לתמונה' כדי להפוך סקיצות של תיקי יד לתמונות פוטו-ריאליסטיות של תיקי יד.
במקרים כאלה, האובדן הוא שילוב משוקלל של האובדן הרגיל שמבוסס על המזהה, ואיבוד לפי פיקסל שמעניש את הגנרטור על סטייה מהתמונה המקורית.
מידע נוסף זמין במאמר Isola et al, 2016.
CycleGAN
מודלים של CycleGAN לומדים להפוך תמונות מקבוצה אחת לתמונות שיכולות להשתייך לקבוצה אחרת. לדוגמה, התמונה שבצד ימין היא תוצר של CycleGAN, כשהתמונה שבצד ימין שימשה כקלט. המערכת לקחה תמונה של סוס והפכה אותה לתמונה של זברה.
נתוני האימון של CycleGAN הם פשוט שתי קבוצות של תמונות (במקרה הזה, קבוצה של תמונות של סוסים וקבוצה של תמונות של זברות). המערכת לא דורשת תוויות או התאמות בין תמונות.
מידע נוסף זמין במאמר Zhu et al, 2017, שבו מוסבר איך משתמשים ב-CycleGAN כדי לבצע תרגום של תמונה לתמונה בלי נתונים מותאמים.
סינתזה של טקסט לתמונה
רשתות GAN מסוג 'טקסט לתמונה' מקבלות טקסט כקלט ויוצרות תמונות אמינות שמתוארות בטקסט. לדוגמה, תמונה של פרח שמופיעה בהמשך נוצרה על ידי הזנת תיאור טקסט ל-GAN.
"This flower has petals that are yellow with shades of orange." | ![]() |
חשוב לזכור שבמערכת הזו, ה-GAN יכול ליצור תמונות רק מקבוצה קטנה של קטגוריות.
מידע נוסף זמין במאמר Zhang et al, 2016.
רזולוציה גבוהה במיוחד
מודלים של GAN ברזולוציה גבוהה מגדילים את הרזולוציה של תמונות, ומוסיפים פרטים במקרים שבהם יש צורך כדי למלא אזורים מטושטשים. לדוגמה, התמונה המטושטשת באמצע היא גרסה עם דגימה נמוכה יותר של התמונה המקורית בצד ימין. על סמך התמונה המטושטשת, ה-GAN יצר את התמונה החדה יותר בצד ימין:
מקור | מטושטש | שחזור באמצעות GAN |
![]() |
![]() |
![]() |
התמונה שנוצרה על ידי ה-GAN נראית דומה מאוד לתמונה המקורית, אבל אם תבחינו היטב בחלק של סרט הקשירה, תראו שה-GAN לא יצר את דפוס כוכב השביט מהתמונה המקורית. במקום זאת, הוא יצר דפוס סביר משלו כדי להחליף את הדפוס שנמחק על ידי דגימת הירידה.
מידע נוסף זמין במאמר Ledig et al, 2017.
השלמת פנים
השתמשו ב-GAN במסגרת המשימה של השלמת תמונות באופן סמנטי. במשימה של ציור בתמונה, קטעים של תמונה מטושטשים והמערכת מנסה למלא את הקטעים החסרים.
Yeh et al, 2017 השתמשו ב-GAN כדי להשיג ביצועים טובים יותר משיטות אחרות לשחזור תמונות של פנים:
קלט | פלט GAN |
![]() |
![]() |
המרת טקסט לדיבור (TTS)
לא כל ה-GANs יוצרים תמונות. לדוגמה, חוקרים השתמשו ב-GAN גם כדי ליצור דיבור ממוכן ממידע שהוזן בטקסט. מידע נוסף זמין במאמר Yang et al, 2017.