GAN'lar olasılık dağılımını çoğaltmaya çalışır. Bu nedenle, GAN tarafından oluşturulan verilerin dağıtımı ile gerçek verilerin dağıtımı arasındaki mesafeyi yansıtan kullanım kayıp işlevlerini kullanmaları gerekir.
GAN kaybı işlevlerindeki iki dağıtım arasındaki farkı nasıl hesaplıyorsunuz? Bu soru, etkin bir araştırma alanıdır ve birçok yaklaşım önerilmiştir. Burada, sık karşılaşılan iki GAN kaybı işlevini ele alacağız. Bunların ikisi de TF-GAN'de uygulanmaktadır:
- minimax kaybı: GAN'ları tanıtan makalede kullanılan kayıp işlevi.
- Wasserstein kaybı: TF-GAN Tahminleri için varsayılan kayıp işlevi. Öncelikle 2017 makalesinde açıklanmaktadır.
TF-GAN, başka birçok kayıp işlevi de uyguluyor.
Biri mi Bir kayıp mı?
GAN'ın biri jeneratör eğitimi, diğeri de ayrımcı eğitimi için olmak üzere iki kayıp işlevi olabilir. Olasılık dağılımları arasındaki mesafe ölçümünü yansıtmak için iki kayıp fonksiyonu birlikte nasıl çalışabilir?
Buradaki kayıp şemalarında, jeneratör ve ayrımcı kayıplar olasılık dağılımları arasındaki tek bir mesafe ölçümünden kaynaklanmaktadır. Yine de bu şemaların her ikisinde de oluşturucu, mesafe farkındaki yalnızca bir terimi (sahte verilerin dağıtımını yansıtan terim) etkileyebilir. Jeneratör eğitimi sırasında, gerçek verilerin dağılımını yansıtan diğer terimi çıkarırız.
Jeneratör ve ayrımcı kayıpları, tek bir formülden türetilseler bile en sonunda farklı görünürler.
Minimax Kaybı
GAN'ları içeren raporda jeneratör, aşağıdaki işlevi en aza indirmeye çalışırken diskriminatör bunu en üst düzeye çıkarmaya çalışıyor:
Bu işlevde:
D(x)
, gerçek veri örneği x'in gerçek olduğuna dair tahmine dayalı ayrımcılıktır.- x, tüm gerçek veri örnekleri için beklenen değerdir.
- Gürültü z verildiğinde jeneratörün çıkışı
G(z)
'dir. D(G(z))
, sahte bir örneğin gerçek olduğuna dair tahmine dayalı ayrımcıdır.- Ez, jeneratöre yapılan tüm rastgele girişler için beklenen değerdir (aslında, oluşturulan tüm sahte örneklerde beklenen değer G(z)'dir).
- Formül, gerçek ve oluşturulan dağılımlar arasındaki entropiden türetilir.
Oluşturma aracı, işlevdeki log(D(x))
terimini doğrudan etkileyemez. Bu nedenle, jeneratörde kaybı en aza indirmek log(1 -
D(G(z)))
oranını en aza indirmeye eşdeğerdir.
Bu kayıp işlevinin uygulanması için TF-GAN'da minimax_discriminator_loss ve minimax_generator_loss değerlerine bakın.
Değiştirilmiş Minimax Kaybı
Orijinal GAN belgesinde, yukarıdaki maks. kayıp fonksiyonunun, disktistin işi çok kolay olduğunda GAN eğitiminin ilk aşamalarında sıkışmasına yol açabileceğine dikkat edin. Bu nedenle, jeneratörün log D(G(z))
sayısını en üst düzeye çıkarmaya çalışması için jeneratör kaybının değiştirilmesi öneriliyor.
Bu değişikliğin uygulanması için TF-GAN'de modified_generator_loss sayfasını inceleyin.
Wasserstein Los Angeles
Varsayılan olarak, TF-GAN Wasserstein kaybını kullanır.
Bu kayıp işlevi, ayrımcının örnekleri sınıflandırmadığı GAN şemasının ("Wasserstein GAN" veya "WGAN" olarak adlandırılır) değiştirilmesine bağlıdır. Her örnek için bir sayı verilir. Bu sayının 0'dan küçük veya 0'dan büyük olması gerekmez.Bu nedenle, örneğin gerçek veya sahte olduğuna karar vermek için eşik olarak 0,5 kullanılamaz. Ayrımcı eğitim, gerçek örnekler için çıkışı yalnızca gerçek örnekler için büyütmeye çalışır.
Gerçek ve sahte ayrımcılık gerçekten olmadığı için WGAN ayrımcısına, "ayrımcılık yapan" yerine "eleştirmen" denir. Bu ayrım, teorik olarak önemlidir. Ancak pratikte, bunu kayıp işlevlerine yapılan girişlerin olasılıktan bağımsız olması gerektiği şeklinde değerlendirebiliriz.
Kaybolma işlevlerinin kendisi yanıltıcı şekilde basittir:
Önemli Kaybı: D(x) - D(G(z))
Ayrımcı bu işlevi en üst düzeye çıkarmaya çalışır. Başka bir deyişle, gerçek örneklerdeki çıkışları ile sahte örneklerdeki çıkışları arasındaki farkı en üst düzeye çıkarmaya çalışır.
Generator Loss: D(G(z))
Oluşturma aracı bu işlevi en üst düzeye çıkarmaya çalışıyor. Diğer bir deyişle, sahte örneklerde ayrımcının sonucunu en üst düzeye çıkarmaya çalışır.
Bu işlevlerde:
D(x)
, gerçek bir örnek için eleştirmen sonucudur.- Gürültü z verildiğinde jeneratörün çıkışı
G(z)
'dir. D(G(z))
, sahte bir örnek için eleştiri sonucudur.- D eleştirisinin çıkışının 1 ile 0 arasında olması gerekmez.
- Formüller, gerçek ve oluşturulan dağıtımlar arasındaki dünya taşımacı mesafesinden türetilir.
TF-GAN'da uygulamalar için wasserstein_generator_loss ve wasserstein_discriminator_loss tekniklerini inceleyin.
Koşullar
Wasserstein GAN'ın (veya WGAN'ın) teorik gerekçesi olarak, GAN'daki ağırlıkların sınırlı bir aralıkta kalacak şekilde kırpılması gerekir.
Avantajları
Wasserstein GAN'ları, sıkışma riski karşısında minimax tabanlı GAN'lara göre daha az savunmasızdır ve kaybolan gradyanlardan kaynaklanan sorunları önler. Dünya taşıyıcısının mesafesi, gerçek bir metrik olmanın da avantajını sunar: Olasılık dağılımları arasındaki mesafe ölçüsü. Çapraz entropi bu anlamda bir metrik değildir.