นักวิจัยยังคงพบเทคนิค GAN ที่ปรับปรุงใหม่และการใช้งาน GAN ใหม่ๆ การสุ่มตัวอย่างเวอร์ชันต่างๆ ของ GAN จะช่วยให้คุณทราบถึงความเป็นไปได้
Progressive GAN
ใน GAN แบบก้าวหน้า ชั้นแรกของโปรแกรมสร้างจะให้รูปภาพที่มีความละเอียดต่ํามาก และเลเยอร์ต่อๆ ไปจะเพิ่มรายละเอียด เทคนิคนี้ช่วยให้ GAN ฝึกได้เร็วกว่า GAN แบบไม่พัฒนาที่เทียบเคียงได้ และสร้างรูปภาพที่มีความละเอียดสูงขึ้น
โปรดดูข้อมูลเพิ่มเติมที่ Karras et al, 2017
GAN ตามเงื่อนไข
GAN แบบมีเงื่อนไขจะฝึกบนชุดข้อมูลที่ติดป้ายกํากับและให้คุณระบุป้ายกํากับสําหรับอินสแตนซ์ที่สร้างขึ้นแต่ละรายการ ตัวอย่างเช่น MNIST GAN ที่ไม่มีเงื่อนไขจะสร้างตัวเลขสุ่ม ส่วน MNIST GAN แบบมีเงื่อนไขจะช่วยให้คุณระบุตัวเลขที่ GAN ควรสร้างได้
แทนที่จะประมาณความน่าจะเป็นของความน่าจะเป็น P(X, Y) GAN แบบมีเงื่อนไขจะประมาณความน่าจะเป็นแบบมีเงื่อนไข P(X | Y)
ดูข้อมูลเพิ่มเติมเกี่ยวกับ GAN แบบมีเงื่อนไขได้ที่ Mirza et al, 2014การแปลจากรูปภาพเป็นรูปภาพ
GAN เพื่อแปลงจากรูปภาพเป็นรูปภาพ 1 รูป จะใช้รูปภาพเป็นอินพุตและจับคู่กับรูปภาพเอาต์พุตที่สร้างขึ้นพร้อมพร็อพเพอร์ตี้ที่ต่างกัน เช่น เราใส่หน้ากากที่มีเฉดสีเป็นรูปทรงรถ แล้ว GAN ก็จะเติมแต่งรูปร่างให้มีรายละเอียดของรถแบบสมจริง
ในทํานองเดียวกัน คุณสามารถฝึก GAN แบบภาพต่อภาพเพื่อถ่ายภาพกระเป๋าถือ แล้วเปลี่ยนให้เป็นภาพกระเป๋าถือที่สมจริง
ในกรณีเหล่านี้ การสูญเสียคือชุดค่าผสมของการถ่วงน้ําหนักของการสูญเสียจากการเลือกปฏิบัติตามปกติ และการสูญเสียที่วัดด้วยพิกเซลซึ่งจะลงโทษเครื่องที่ออกจากภาพต้นฉบับ
ดูข้อมูลเพิ่มเติมได้ที่ Isola et al, 2016
รอบวงจร
CycleGANs เรียนรู้การเปลี่ยนรูปภาพจากชุดหนึ่งเป็นรูปภาพที่อาจอยู่ในชุดอื่น เช่น CycleGAN จะสร้างรูปภาพด้านขวา ด้านล่างเมื่อใส่รูปภาพด้านซ้ายมือเป็นรูปภาพ จึงได้ถ่ายภาพม้า แล้วเปลี่ยนให้เป็นภาพม้าลาย
ข้อมูลการฝึกการทํางานของ CycleGAN เป็นเพียงรูปภาพ 2 ชุด (ในกรณีนี้คือชุดภาพม้าและชุดม้าลาย) ระบบไม่ต้องใช้ป้ายกํากับหรือการจับคู่รูปภาพระหว่างกัน
ดูข้อมูลเพิ่มเติมได้ที่ Zhu et al,2017 ซึ่งแสดงให้เห็นการใช้ CycleGAN ในการแปลภาพจากภาพหนึ่งไปยังอีกภาพหนึ่งโดยไม่มีข้อมูลที่จับคู่
การสังเคราะห์รูปภาพเป็นรูปภาพ
GAN ต่อข้อความจะนําข้อความไปใช้เป็นรูปภาพและสร้างรูปภาพที่ดูน่าเชื่อถือและอธิบายด้วยข้อความ เช่น รูปภาพดอกไม้ด้านล่างเกิดจากการให้ฟีดคําอธิบายข้อความแก่ GAN
" ดอกไม้นี้มีกลีบเป็นสีเหลืองและมีเฉดสีส้ม " |
โปรดทราบว่าในระบบนี้ GAN จะสร้างรูปภาพจากชั้นเรียนจํานวนน้อยเท่านั้น
ดูข้อมูลเพิ่มเติมได้ที่ Zhang et al, 2016
ความละเอียดสูงสุด
GAN ความละเอียดสูงจะเพิ่มความละเอียดของรูปภาพ ซึ่งจะเพิ่มรายละเอียดที่จําเป็นในพื้นที่ที่จะเบลอ เช่น รูปภาพตรงกลางเบลอด้านล่างคือ เวอร์ชันต้นฉบับของรูปภาพซ้ายล่าง เมื่อได้รูปภาพที่เบลอแล้ว GAN จะสร้างรูปภาพที่คมชัดกว่าทางด้านขวา ดังนี้
เดิม | เบลอ | กู้คืนด้วย GAN |
รูปภาพที่สร้างโดย GAN ดูคล้ายกับภาพต้นฉบับมาก แต่ถ้าดูแถบคาดศีรษะอย่างใกล้ชิด คุณจะพบว่า GAN ไม่ได้เลียนแบบรูปแบบดาวกระจายจากต้นฉบับ แต่กลับสร้างรูปแบบที่เป็นไปได้เองขึ้นเพื่อแทนที่รูปแบบที่มีการสุ่มตัวอย่างลดลง
ดูข้อมูลเพิ่มเติมได้ที่ Ledig et al,2017
เพนท์หน้า
มีการใช้ GAN สําหรับงานการระบายสีรูปภาพเชิงความหมาย ในงานทาสี
Yeh et al, 2017 ใช้ GAN เพื่อเพิ่มประสิทธิภาพ เทคนิคอื่นๆ เกี่ยวกับการทาสีรูปภาพใบหน้า
อินพุต | เอาต์พุต GAN |
การอ่านออกเสียงข้อความ
GAN บางรายการอาจไม่ได้สร้างรูปภาพ ตัวอย่างเช่น นักวิจัยยังใช้ GAN เพื่อผลิตเสียงพูดสังเคราะห์จากการป้อนข้อความ ดูข้อมูลเพิ่มเติมได้ที่ Yang et al, 2017