Các nhà nghiên cứu tiếp tục tìm ra các kỹ thuật GAN cải tiến và các cách sử dụng mới cho GAN. Dưới đây là một số biến thể của GAN để bạn nắm được các khả năng.
GAN tăng tiến
Trong GAN tăng tiến, các lớp đầu tiên của trình tạo sẽ tạo ra hình ảnh có độ phân giải rất thấp và các lớp tiếp theo sẽ thêm chi tiết. Kỹ thuật này cho phép GAN đào tạo nhanh hơn so với các GAN không tăng tiến tương đương và tạo ra hình ảnh có độ phân giải cao hơn.
Để biết thêm thông tin, hãy xem Karras et al, 2017.
GAN có điều kiện
GAN có điều kiện huấn luyện trên một tập dữ liệu được gắn nhãn và cho phép bạn chỉ định nhãn cho mỗi thực thể được tạo. Ví dụ: GAN MNIST không có điều kiện sẽ tạo ra các chữ số ngẫu nhiên, trong khi GAN MNIST có điều kiện sẽ cho phép bạn chỉ định chữ số mà GAN sẽ tạo.
Thay vì lập mô hình xác suất chung P(X, Y), GAN có điều kiện lập mô hình xác suất có điều kiện P(X | Y).
Để biết thêm thông tin về GAN có điều kiện, hãy xem bài viết Mirza et al, 2014.Dịch hình ảnh sang hình ảnh
GAN dịch hình ảnh sang hình ảnh lấy một hình ảnh làm đầu vào và liên kết hình ảnh đó với một hình ảnh đầu ra được tạo có các thuộc tính khác nhau. Ví dụ: chúng ta có thể lấy một hình ảnh mặt nạ có khối màu hình ô tô và GAN có thể lấp đầy hình dạng đó bằng các chi tiết ô tô chân thực như ảnh chụp.
Tương tự, bạn có thể huấn luyện một GAN hình ảnh với hình ảnh để lấy bản phác thảo của túi xách và biến chúng thành hình ảnh túi xách chân thực.
Trong những trường hợp này, tổn thất là kết hợp trọng số của tổn thất dựa trên giá trị phân biệt thông thường và tổn thất theo từng pixel, giúp phạt trình tạo khi rời khỏi hình ảnh nguồn.
Để biết thêm thông tin, hãy xem Isola et al, 2016.
CycleGAN
CycleGAN học cách biến đổi hình ảnh từ một tập hợp thành hình ảnh có thể thuộc về một tập hợp khác. Ví dụ: CycleGAN đã tạo ra hình ảnh bên phải dưới đây khi được cung cấp hình ảnh bên trái làm dữ liệu đầu vào. Ứng dụng này đã lấy hình ảnh một con ngựa và biến nó thành hình ảnh một con ngựa vằn.
Dữ liệu huấn luyện cho CycleGAN chỉ là hai bộ hình ảnh (trong trường hợp này, một bộ hình ảnh ngựa và một bộ hình ảnh ngựa vằn). Hệ thống không yêu cầu nhãn hoặc mối tương ứng theo cặp giữa các hình ảnh.
Để biết thêm thông tin, hãy xem bài viết Zhu et al, 2017, giải thích cách sử dụng CycleGAN để dịch hình ảnh sang hình ảnh mà không cần dữ liệu ghép nối.
Tổng hợp văn bản thành hình ảnh
GAN chuyển văn bản sang hình ảnh lấy văn bản làm dữ liệu đầu vào và tạo ra hình ảnh hợp lý và được mô tả bằng văn bản. Ví dụ: hình ảnh hoa bên dưới được tạo bằng cách cung cấp nội dung mô tả bằng văn bản cho một GAN.
"Hoa này có cánh hoa màu vàng với sắc cam." | ![]() |
Xin lưu ý rằng trong hệ thống này, GAN chỉ có thể tạo hình ảnh từ một nhóm nhỏ các lớp.
Để biết thêm thông tin, hãy xem Zhang et al, 2016.
Siêu phân giải
GAN siêu phân giải tăng độ phân giải của hình ảnh, thêm chi tiết khi cần thiết để lấp đầy các vùng bị mờ. Ví dụ: hình ảnh mờ ở giữa bên dưới là phiên bản giảm mẫu của hình ảnh gốc ở bên trái. Với hình ảnh mờ, GAN đã tạo ra hình ảnh sắc nét hơn ở bên phải:
Gốc | Che mờ | Khôi phục bằng GAN |
![]() |
![]() |
![]() |
Hình ảnh do GAN tạo ra trông rất giống với hình ảnh gốc, nhưng nếu bạn nhìn kỹ vào chiếc băng đô, bạn sẽ thấy GAN không tái tạo được hoa văn hình ngôi sao trên hình ảnh gốc. Thay vào đó, thuật toán này đã tạo ra mẫu hợp lý của riêng mình để thay thế mẫu bị xoá do quá trình lấy mẫu giảm.
Để biết thêm thông tin, hãy xem Ledig et al, 2017.
Phục hồi khuôn mặt
GAN đã được sử dụng cho tác vụ vẽ hình ảnh có ngữ nghĩa. Trong tác vụ vẽ lại, các phần của hình ảnh sẽ bị bôi đen và hệ thống sẽ cố gắng lấp đầy các phần bị thiếu.
Yeh và cộng sự, 2017 đã sử dụng GAN để vượt trội hơn các kỹ thuật khác trong việc vẽ lại hình ảnh khuôn mặt:
Đầu vào | Đầu ra GAN |
![]() |
![]() |
Chuyển văn bản sang lời nói
Không phải GAN nào cũng tạo ra hình ảnh. Ví dụ: các nhà nghiên cứu cũng đã sử dụng GAN để tạo lời nói tổng hợp từ dữ liệu đầu vào dạng văn bản. Để biết thêm thông tin, hãy xem Yang et al, 2017.