Biến thể GAN

Các nhà nghiên cứu tiếp tục tìm ra các kỹ thuật GAN cải tiến và các cách sử dụng mới cho GAN. Dưới đây là một số biến thể của GAN để bạn nắm được các khả năng.

GAN tăng tiến

Trong GAN tăng tiến, các lớp đầu tiên của trình tạo sẽ tạo ra hình ảnh có độ phân giải rất thấp và các lớp tiếp theo sẽ thêm chi tiết. Kỹ thuật này cho phép GAN đào tạo nhanh hơn so với các GAN không tăng tiến tương đương và tạo ra hình ảnh có độ phân giải cao hơn.

Để biết thêm thông tin, hãy xem Karras et al, 2017.

GAN có điều kiện

GAN có điều kiện huấn luyện trên một tập dữ liệu được gắn nhãn và cho phép bạn chỉ định nhãn cho mỗi thực thể được tạo. Ví dụ: GAN MNIST không có điều kiện sẽ tạo ra các chữ số ngẫu nhiên, trong khi GAN MNIST có điều kiện sẽ cho phép bạn chỉ định chữ số mà GAN sẽ tạo.

Thay vì lập mô hình xác suất chung P(X, Y), GAN có điều kiện lập mô hình xác suất có điều kiện P(X | Y).

Để biết thêm thông tin về GAN có điều kiện, hãy xem bài viết Mirza et al, 2014.

Dịch hình ảnh sang hình ảnh

GAN dịch hình ảnh sang hình ảnh lấy một hình ảnh làm đầu vào và liên kết hình ảnh đó với một hình ảnh đầu ra được tạo có các thuộc tính khác nhau. Ví dụ: chúng ta có thể lấy một hình ảnh mặt nạ có khối màu hình ô tô và GAN có thể lấp đầy hình dạng đó bằng các chi tiết ô tô chân thực như ảnh chụp.

Tương tự, bạn có thể huấn luyện một GAN hình ảnh với hình ảnh để lấy bản phác thảo của túi xách và biến chúng thành hình ảnh túi xách chân thực.

Một bảng 3x3 gồm hình ảnh của các chiếc túi xách. Mỗi hàng cho thấy một kiểu túi xách khác nhau. Trong mỗi hàng, hình ảnh ở ngoài cùng bên trái là một bản vẽ đường nét đơn giản của một chiếc túi xách, hình ảnh ở giữa là ảnh chụp một chiếc túi xách thực và hình ảnh ở ngoài cùng bên phải là một bức ảnh chân thực do GAN tạo ra. Ba cột được gắn nhãn "Đầu vào", "Sự thật cơ bản" và "kết quả".

Trong những trường hợp này, tổn thất là kết hợp trọng số của tổn thất dựa trên giá trị phân biệt thông thường và tổn thất theo từng pixel, giúp phạt trình tạo khi rời khỏi hình ảnh nguồn.

Để biết thêm thông tin, hãy xem Isola et al, 2016.

CycleGAN

CycleGAN học cách biến đổi hình ảnh từ một tập hợp thành hình ảnh có thể thuộc về một tập hợp khác. Ví dụ: CycleGAN đã tạo ra hình ảnh bên phải dưới đây khi được cung cấp hình ảnh bên trái làm dữ liệu đầu vào. Ứng dụng này đã lấy hình ảnh một con ngựa và biến nó thành hình ảnh một con ngựa vằn.

Một hình ảnh con ngựa đang chạy và một hình ảnh thứ hai giống hệt về mọi khía cạnh ngoại trừ con ngựa là ngựa vằn.

Dữ liệu huấn luyện cho CycleGAN chỉ là hai bộ hình ảnh (trong trường hợp này, một bộ hình ảnh ngựa và một bộ hình ảnh ngựa vằn). Hệ thống không yêu cầu nhãn hoặc mối tương ứng theo cặp giữa các hình ảnh.

Để biết thêm thông tin, hãy xem bài viết Zhu et al, 2017, giải thích cách sử dụng CycleGAN để dịch hình ảnh sang hình ảnh mà không cần dữ liệu ghép nối.

Tổng hợp văn bản thành hình ảnh

GAN chuyển văn bản sang hình ảnh lấy văn bản làm dữ liệu đầu vào và tạo ra hình ảnh hợp lý và được mô tả bằng văn bản. Ví dụ: hình ảnh hoa bên dưới được tạo bằng cách cung cấp nội dung mô tả bằng văn bản cho một GAN.

"Hoa này có cánh hoa màu vàng với sắc cam."

Một bông hoa có cánh màu vàng với sắc cam.

Xin lưu ý rằng trong hệ thống này, GAN chỉ có thể tạo hình ảnh từ một nhóm nhỏ các lớp.

Để biết thêm thông tin, hãy xem Zhang et al, 2016.

Siêu phân giải

GAN siêu phân giải tăng độ phân giải của hình ảnh, thêm chi tiết khi cần thiết để lấp đầy các vùng bị mờ. Ví dụ: hình ảnh mờ ở giữa bên dưới là phiên bản giảm mẫu của hình ảnh gốc ở bên trái. Với hình ảnh mờ, GAN đã tạo ra hình ảnh sắc nét hơn ở bên phải:

Gốc	Che mờ	Khôi phục bằng GAN

Hình ảnh do GAN tạo ra trông rất giống với hình ảnh gốc, nhưng nếu bạn nhìn kỹ vào chiếc băng đô, bạn sẽ thấy GAN không tái tạo được hoa văn hình ngôi sao trên hình ảnh gốc. Thay vào đó, thuật toán này đã tạo ra mẫu hợp lý của riêng mình để thay thế mẫu bị xoá do quá trình lấy mẫu giảm.

Để biết thêm thông tin, hãy xem Ledig et al, 2017.

Phục hồi khuôn mặt

GAN đã được sử dụng cho tác vụ vẽ hình ảnh có ngữ nghĩa. Trong tác vụ vẽ lại, các phần của hình ảnh sẽ bị bôi đen và hệ thống sẽ cố gắng lấp đầy các phần bị thiếu.

Yeh và cộng sự, 2017 đã sử dụng GAN để vượt trội hơn các kỹ thuật khác trong việc vẽ lại hình ảnh khuôn mặt:

Đầu vào	Đầu ra GAN

Chuyển văn bản sang lời nói

Không phải GAN nào cũng tạo ra hình ảnh. Ví dụ: các nhà nghiên cứu cũng đã sử dụng GAN để tạo lời nói tổng hợp từ dữ liệu đầu vào dạng văn bản. Để biết thêm thông tin, hãy xem Yang et al, 2017.

Vấn đề thường gặp

Tiếp

Hướng dẫn về TFGAN Colab

Biến thể GAN Sử dụng bộ sưu tập để sắp xếp ngăn nắp các trang Lưu và phân loại nội dung dựa trên lựa chọn ưu tiên của bạn.