Sinir Ağları: Geri yayılım kullanarak eğitim

Geri yayılım, en yaygın eğitim algoritmasını ele aldık. Gradyan inişi çok katmanlı nöral ağlar için uygun hale getirir. Birçok makine öğrenimi kod kitaplığı (ör. Keras) geri yayılımı otomatik olarak ele alacağız. Bu nedenle, temel hesaplamaları yapabilirsiniz. Şu videoya göz atın: geri yayılmanın işleyiş şekliyle ilgili kavramsal genel bakış:

.

Nöral ağ eğitimi için en iyi uygulamalar

Bu bölümde, geri yayılımın başarısız olduğu durumlar ve en yaygın bir sinir ağını normalleştirmenin yaygın bir yöntemidir.

Kaybolan Gradyanlar

Alt nöral için gradyanlar ağ katmanları (giriş katmanına daha yakın olanlar) çok küçük hale gelebilir. Derin ağlarda ( birden fazla gizli katman varsa) bu renk geçişlerini hesaplamak, toplamından oluşur.

Gradyan değerleri alt katmanlar için 0’a yaklaştığında söylenebilir. Renk geçişleri kaybolan katmanlar çok yavaş eğitilir veya mümkün değil.

ReLU etkinleştirme işlevi, renk geçişlerinin kaybolmasını önlemeye yardımcı olabilir.

Patlayan Renk geçişleri

Bir ağdaki ağırlıklar çok büyükse daha düşük olan katmanlarda çok sayıda büyük terimden oluşan ürünler bulunur. Bu durumda, Patlayan renk geçişleri: yakınlaşmak için çok fazla büyüyen renk geçişleri.

Toplu normalleştirme, patlayan renk geçişlerinin önlenmesine yardımcı olabilir ve öğrenme hızı.

Ölü ReLU Birimleri

Bir ReLU biriminin ağırlıklı toplamı 0'ın altına düştüğünde ReLU birimi takıldı. 0 çıktısını verir ve ağın çıkışına herhangi bir katkı sağlamaz. ve gradyanlar geri yayılma sırasında artık bu geçişten akamaz. Şununla olduğu için, ReLU girdisi tam olarak değişmeyebilir için ağırlıklı toplamı 0'ın üzerine çıkarmaktır.

Öğrenme hızını düşürmek ReLU birimlerinin ölmesini önlemeye yardımcı olabilir.

Ayrılma Normalleştirmesi

Bir başka düzenleme biçimi ise bırakma normalleştirmesi, nöral ağlar için yararlıdır. Rastgele "ayrılma" yöntemiyle çalışır tek bir gradyan adımı için bir ağdaki birim etkinleştirmelerini gösterir. Ne kadar çok ayrılırsanız normalleştirme o kadar güçlü olur:

  • 0,0 = Kesinti normalleştirmesi yok.
  • 1.0 = Tüm düğümleri bırakın. Model hiçbir şey öğrenmez.
  • 0,0 ile 1,0 arasındaki değerler = Daha yararlı olur.