รูปแบบของ GAN

นักวิจัยยังคงพบเทคนิค GAN ที่ปรับปรุงใหม่และการใช้งาน GAN ใหม่ๆ การสุ่มตัวอย่างเวอร์ชันต่างๆ ของ GAN จะช่วยให้คุณทราบถึงความเป็นไปได้

Progressive GAN

ใน GAN แบบก้าวหน้า ชั้นแรกของโปรแกรมสร้างจะให้รูปภาพที่มีความละเอียดต่ํามาก และเลเยอร์ต่อๆ ไปจะเพิ่มรายละเอียด เทคนิคนี้ช่วยให้ GAN ฝึกได้เร็วกว่า GAN แบบไม่พัฒนาที่เทียบเคียงได้ และสร้างรูปภาพที่มีความละเอียดสูงขึ้น

โปรดดูข้อมูลเพิ่มเติมที่ Karras et al, 2017

GAN ตามเงื่อนไข

GAN แบบมีเงื่อนไขจะฝึกบนชุดข้อมูลที่ติดป้ายกํากับและให้คุณระบุป้ายกํากับสําหรับอินสแตนซ์ที่สร้างขึ้นแต่ละรายการ ตัวอย่างเช่น MNIST GAN ที่ไม่มีเงื่อนไขจะสร้างตัวเลขสุ่ม ส่วน MNIST GAN แบบมีเงื่อนไขจะช่วยให้คุณระบุตัวเลขที่ GAN ควรสร้างได้

แทนที่จะประมาณความน่าจะเป็นของความน่าจะเป็น P(X, Y) GAN แบบมีเงื่อนไขจะประมาณความน่าจะเป็นแบบมีเงื่อนไข P(X | Y)

ดูข้อมูลเพิ่มเติมเกี่ยวกับ GAN แบบมีเงื่อนไขได้ที่ Mirza et al, 2014

การแปลจากรูปภาพเป็นรูปภาพ

GAN เพื่อแปลงจากรูปภาพเป็นรูปภาพ 1 รูป จะใช้รูปภาพเป็นอินพุตและจับคู่กับรูปภาพเอาต์พุตที่สร้างขึ้นพร้อมพร็อพเพอร์ตี้ที่ต่างกัน เช่น เราใส่หน้ากากที่มีเฉดสีเป็นรูปทรงรถ แล้ว GAN ก็จะเติมแต่งรูปร่างให้มีรายละเอียดของรถแบบสมจริง

ในทํานองเดียวกัน คุณสามารถฝึก GAN แบบภาพต่อภาพเพื่อถ่ายภาพกระเป๋าถือ แล้วเปลี่ยนให้เป็นภาพกระเป๋าถือที่สมจริง

ตารางกระเป๋าถือขนาด 3x3 รูป แต่ละแถวแสดงกระเป๋าถือสไตล์ต่างกัน ในแต่ละแถว ภาพซ้ายสุดคือการวาดเส้นแบบง่ายๆ เป็นกระเป๋าถือ ส่วนรูปภาพตรงกลางคือภาพกระเป๋าถือจริง ส่วนรูปภาพขวาสุดคือรูปภาพที่สมจริงของ GAN คอลัมน์
3 คอลัมน์มีข้อความกํากับไว้ 'Input', 'Ground Truth', &'output'

ในกรณีเหล่านี้ การสูญเสียคือชุดค่าผสมของการถ่วงน้ําหนักของการสูญเสียจากการเลือกปฏิบัติตามปกติ และการสูญเสียที่วัดด้วยพิกเซลซึ่งจะลงโทษเครื่องที่ออกจากภาพต้นฉบับ

ดูข้อมูลเพิ่มเติมได้ที่ Isola et al, 2016

รอบวงจร

CycleGANs เรียนรู้การเปลี่ยนรูปภาพจากชุดหนึ่งเป็นรูปภาพที่อาจอยู่ในชุดอื่น เช่น CycleGAN จะสร้างรูปภาพด้านขวา ด้านล่างเมื่อใส่รูปภาพด้านซ้ายมือเป็นรูปภาพ จึงได้ถ่ายภาพม้า แล้วเปลี่ยนให้เป็นภาพม้าลาย

รูปภาพม้าวิ่ง และรูปที่ 2 เหมือนกันทุกภาพ ยกเว้นว่าม้าเป็นม้าลาย

ข้อมูลการฝึกการทํางานของ CycleGAN เป็นเพียงรูปภาพ 2 ชุด (ในกรณีนี้คือชุดภาพม้าและชุดม้าลาย) ระบบไม่ต้องใช้ป้ายกํากับหรือการจับคู่รูปภาพระหว่างกัน

ดูข้อมูลเพิ่มเติมได้ที่ Zhu et al,2017 ซึ่งแสดงให้เห็นการใช้ CycleGAN ในการแปลภาพจากภาพหนึ่งไปยังอีกภาพหนึ่งโดยไม่มีข้อมูลที่จับคู่

การสังเคราะห์รูปภาพเป็นรูปภาพ

GAN ต่อข้อความจะนําข้อความไปใช้เป็นรูปภาพและสร้างรูปภาพที่ดูน่าเชื่อถือและอธิบายด้วยข้อความ เช่น รูปภาพดอกไม้ด้านล่างเกิดจากการให้ฟีดคําอธิบายข้อความแก่ GAN

" ดอกไม้นี้มีกลีบเป็นสีเหลืองและมีเฉดสีส้ม " ดอกไม้ที่มีกลีบดอกไม้เป็นสีเหลืองและมีเฉดสีส้ม

โปรดทราบว่าในระบบนี้ GAN จะสร้างรูปภาพจากชั้นเรียนจํานวนน้อยเท่านั้น

ดูข้อมูลเพิ่มเติมได้ที่ Zhang et al, 2016

ความละเอียดสูงสุด

GAN ความละเอียดสูงจะเพิ่มความละเอียดของรูปภาพ ซึ่งจะเพิ่มรายละเอียดที่จําเป็นในพื้นที่ที่จะเบลอ เช่น รูปภาพตรงกลางเบลอด้านล่างคือ เวอร์ชันต้นฉบับของรูปภาพซ้ายล่าง เมื่อได้รูปภาพที่เบลอแล้ว GAN จะสร้างรูปภาพที่คมชัดกว่าทางด้านขวา ดังนี้

เดิมเบลอกู้คืนด้วย GAN
ภาพวาดเด็กผู้หญิงสวมเครื่องประดับศีรษะอันงามวิจิตร ที่คาดศีรษะของเฮดเดอร์นั้นถักแบบซับซ้อน ภาพเบลอของเด็กหญิงสวมเครื่องประดับศีรษะอันงามวิจิตร ภาพวาดของเด็กผู้หญิงที่สวมผ้าโพกหัวอย่างประณีต ภาพวาดนี้แทบจะเหมือนกับภาพแรกในตารางนี้เลย แต่รายละเอียดบางอย่างของลายบนสีผมและเสื้อผ้าของเธอนั้นต่างกันโดยสิ้นเชิง

รูปภาพที่สร้างโดย GAN ดูคล้ายกับภาพต้นฉบับมาก แต่ถ้าดูแถบคาดศีรษะอย่างใกล้ชิด คุณจะพบว่า GAN ไม่ได้เลียนแบบรูปแบบดาวกระจายจากต้นฉบับ แต่กลับสร้างรูปแบบที่เป็นไปได้เองขึ้นเพื่อแทนที่รูปแบบที่มีการสุ่มตัวอย่างลดลง

ดูข้อมูลเพิ่มเติมได้ที่ Ledig et al,2017

เพนท์หน้า

มีการใช้ GAN สําหรับงานการระบายสีรูปภาพเชิงความหมาย ในงานทาสี

Yeh et al, 2017 ใช้ GAN เพื่อเพิ่มประสิทธิภาพ เทคนิคอื่นๆ เกี่ยวกับการทาสีรูปภาพใบหน้า

อินพุตเอาต์พุต GAN
4 ภาพ แต่ละรูปภาพคือรูปภาพใบหน้าที่มีพื้นที่บางส่วนถูกแทนที่ด้วยสีดํา 4 ภาพ แต่ละรูปเป็นรูปภาพของใบหน้าที่เหมือนกับภาพใดภาพหนึ่งในคอลัมน์ 'อินพุต' ยกเว้นตรงที่ไม่มีพื้นที่สีดํา

การอ่านออกเสียงข้อความ

GAN บางรายการอาจไม่ได้สร้างรูปภาพ ตัวอย่างเช่น นักวิจัยยังใช้ GAN เพื่อผลิตเสียงพูดสังเคราะห์จากการป้อนข้อความ ดูข้อมูลเพิ่มเติมได้ที่ Yang et al, 2017