รูปแบบของ GAN

นักวิจัยยังคงค้นพบเทคนิค GAN ที่ปรับปรุงแล้วและการใช้งานใหม่ๆ ของ GAN อย่างต่อเนื่อง ต่อไปนี้คือตัวอย่างรูปแบบ GAN บางส่วนเพื่อให้คุณเห็นถึงศักยภาพ

Progressive GAN

ใน GAN แบบเป็นขั้นๆ เลเยอร์แรกของ Generator จะสร้างรูปภาพที่มีความละเอียดต่ำมาก และเลเยอร์ต่อๆ ไปจะเพิ่มรายละเอียด เทคนิคนี้ช่วยให้ GAN ฝึกได้เร็วกว่า GAN แบบไม่ก้าวหน้าที่เปรียบเทียบได้ และสร้างรูปภาพที่มีความละเอียดสูงขึ้น

ดูข้อมูลเพิ่มเติมได้ที่ Karras et al, 2017

GAN แบบมีเงื่อนไข

GAN แบบมีเงื่อนไขจะฝึกจากชุดข้อมูลที่ติดป้ายกำกับและให้คุณระบุป้ายกำกับสำหรับอินสแตนซ์ที่สร้างขึ้นแต่ละรายการ ตัวอย่างเช่น MNIST GAN แบบไม่มีเงื่อนไขจะสร้างตัวเลขแบบสุ่ม ขณะที่ MNIST GAN แบบมีเงื่อนไขจะช่วยให้คุณระบุตัวเลขที่ GAN ควรสร้างได้

GAN แบบมีเงื่อนไขจะประมาณความน่าจะเป็นแบบมีเงื่อนไข P(X | Y) แทนที่จะประมาณความน่าจะเป็นร่วม P(X, Y)

ดูข้อมูลเพิ่มเติมเกี่ยวกับ GAN แบบมีเงื่อนไขได้ที่ Mirza et al, 2014

การแปลรูปภาพเป็นรูปภาพ

GAN สำหรับการแปลรูปภาพเป็นรูปภาพจะรับรูปภาพเป็นอินพุตและจับคู่กับรูปภาพเอาต์พุตที่สร้างขึ้นซึ่งมีพร็อพเพอร์ตี้ต่างกัน เช่น เราอาจนำรูปภาพมาสก์ที่มีจุดสีเป็นรูปร่างของรถ และ GAN จะเติมรายละเอียดของรถที่เหมือนจริงในรูปร่างนั้น

ในทำนองเดียวกัน คุณสามารถฝึก GAN แบบรูปภาพต่อรูปภาพให้นำภาพสเก็ตช์กระเป๋าถือมาเปลี่ยนเป็นภาพกระเป๋าถือที่ดูสมจริง

ตาราง 3x3 ของรูปภาพกระเป๋าถือ แต่ละแถวจะแสดงกระเป๋าถือสไตล์ต่างๆ ในแต่ละแถว รูปภาพด้านซ้ายสุดคือภาพวาดเส้นเรียบง่ายของกระเป๋าถือ รูปภาพตรงกลางคือรูปภาพกระเป๋าถือจริง และรูปภาพด้านขวาสุดคือภาพเหมือนจริงที่ GAN สร้างขึ้น คอลัมน์ทั้ง 3 คอลัมน์มีป้ายกำกับว่า "อินพุต" "ข้อมูลจริง" และ "เอาต์พุต"

ในกรณีเหล่านี้ ข้อมูลสูญเสียคือค่ารวมที่มีน้ำหนักของข้อมูลสูญเสียตามตัวแยกแยะปกติและข้อมูลสูญเสียแบบพิกเซลซึ่งลงโทษ Generator สำหรับการเบี่ยงเบนจากรูปภาพต้นฉบับ

ดูข้อมูลเพิ่มเติมได้ที่ Isola et al, 2016

CycleGAN

CycleGAN จะเรียนรู้ที่จะเปลี่ยนรูปภาพจากชุดหนึ่งให้กลายเป็นรูปภาพที่ดูเหมือนจะอยู่ในชุดอื่น ตัวอย่างเช่น CycleGAN ผลิตรูปภาพด้านขวามือด้านล่างเมื่อได้รับรูปภาพด้านซ้ายมือเป็นอินพุต โปรแกรมนำรูปภาพม้าไปเปลี่ยนเป็นรูปภาพม้าลาย

รูปภาพม้าวิ่ง และรูปภาพอีกรูปที่เหมือนกันทุกประการ ยกเว้นม้าเป็นม้าลาย

ข้อมูลการฝึกสำหรับ CycleGAN คือชุดรูปภาพ 2 ชุด (ในกรณีนี้คือชุดรูปภาพม้าและชุดรูปภาพม้าลาย) ระบบไม่จําเป็นต้องมีป้ายกํากับหรือการจับคู่รูปภาพแบบคู่

ดูข้อมูลเพิ่มเติมได้ที่ Zhu et al, 2017 ซึ่งแสดงการใช้ CycleGAN ในการแปลงรูปภาพเป็นรูปภาพโดยไม่มีข้อมูลคู่

การเปลี่ยนข้อความเป็นรูปภาพ

GAN ที่ใช้แปลงข้อความเป็นรูปภาพจะรับข้อความเป็นอินพุตและสร้างรูปภาพที่สมเหตุสมผลและอธิบายโดยข้อความ ตัวอย่างเช่น รูปภาพดอกไม้ด้านล่างสร้างขึ้นโดยการป้อนคำอธิบายข้อความไปยัง GAN

"ดอกไม้นี้มีกลีบดอกสีเหลืองอมส้ม"

โปรดทราบว่าในระบบนี้ GAN จะสร้างรูปภาพจากคลาสเพียงชุดเล็กๆ เท่านั้น

ดูข้อมูลเพิ่มเติมได้ที่ Zhang et al, 2016

ความละเอียดสูง

GAN ความละเอียดสูงจะเพิ่มความละเอียดของรูปภาพ โดยเพิ่มรายละเอียดที่จำเป็นเพื่อเติมเต็มพื้นที่เบลอ ตัวอย่างเช่น รูปภาพกลางที่เบลอด้านล่างเป็นรูปภาพต้นฉบับทางด้านซ้ายที่ลดขนาด GAN สามารถสร้างรูปภาพที่คมชัดขึ้นทางด้านขวาจากรูปภาพเบลอ

ต้นฉบับ	เบลอ	กู้คืนด้วย GAN

รูปภาพที่ GAN สร้างขึ้นมีลักษณะคล้ายกับรูปภาพต้นฉบับมาก แต่หากมองที่แถบคาดศีรษะอย่างละเอียด คุณจะเห็นได้ว่า GAN ไม่ได้สร้างรูปแบบดาวกระจายจากต้นฉบับ แต่ระบบจะสร้างรูปแบบที่เป็นไปได้ขึ้นมาแทนที่รูปแบบที่ถูกลบออกจากการลดขนาด

ดูข้อมูลเพิ่มเติมได้ที่ Ledig et al, 2017

การซ่อมแซมใบหน้า

มีการใช้ GAN สำหรับงานการเติมพื้นที่ว่างในรูปภาพโดยอิงตามความหมาย ในขั้นตอนการเติมส่วนที่ขาดหายไป ระบบจะปกปิดส่วนต่างๆ ของรูปภาพให้เป็นสีดำ และพยายามเติมส่วนที่ขาดหายไป

Yeh et al, 2017 ใช้ GAN ในการวาดภาพใบหน้าให้สมบูรณ์ได้ดีกว่าเทคนิคอื่นๆ ดังนี้

อินพุต	เอาต์พุต GAN

การอ่านออกเสียงข้อความ

GAN บางรุ่นไม่ได้สร้างรูปภาพ ตัวอย่างเช่น นักวิจัยยังใช้ GAN เพื่อสร้างเสียงสังเคราะห์จากอินพุตข้อความด้วย ดูข้อมูลเพิ่มเติมได้ที่ Yang et al, 2017

ปัญหาทั่วไป

บทแนะนํา TFGAN Colab