Sinir Ağlarının Eğitimi: En İyi Uygulamalar

Bu bölümde, geri yayılımının hata durumları ve bir nöral ağı normalleştirmenin en yaygın yolu açıklanmaktadır.

Hata Durumları

Geri yayılımla ilgili birçok yaygın sorun vardır.

Kaybolan Gradyanlar

Alt katmanların renk geçişleri (girişe daha yakın) çok küçük olabilir. Derin ağlarda, bu renk geçişlerinin hesaplanması, pek çok küçük terimin çarpımını almayı içerebilir.

Alt katmanlarda gradyanlar 0'a doğru kaybolduğunda, bu katmanlar çok yavaş eğitilir veya hiç eğitilmez.

ReLU etkinleştirme işlevi, renk geçişlerinin kaybolmasını önlemeye yardımcı olabilir.

Gradyanları Patlatma

Bir ağdaki ağırlıklar çok büyükse alt katmanlara ait gradyanlar birçok büyük terimin ürünlerini içerir. Bu durumda, patlayan gradyanlarınız olabilir, yani birleştirilemeyecek kadar büyük olan gradyanlar.

Toplu normalleştirme, öğrenme hızını düşürebildiği gibi patlayan gradyanların önlenmesine yardımcı olabilir.

Ölü ReLU Birimleri

Bir ReLU biriminin ağırlıklı toplamı 0'ın altına düştüğünde ReLU birimi takılabilir. 0 etkinleştirme üretir, bu da ağın çıkışına hiçbir katkı sağlamaz ve geri yayılma sırasında artık gradyanlar akışın üzerinden geçemez. Bir renk geçişi kaynağı kesilirse ReLU girişi, ağırlıklı toplamı 0'ın üzerine çıkaracak kadar değişmeyebilir.

Öğrenme hızını düşürmek ReLU birimlerinin ölmesini önlemeye yardımcı olabilir.

Dropout Normalleştirmesi

Dropout adlı bir başka normalleştirme biçimi ise nöral ağlar için yararlıdır. Bu yöntem, tek bir renk geçişi adımı için bir ağdaki birim etkinleştirmelerini rastgele "bırakarak" çalışır. Ne kadar çok dağıtım yaparsanız düzenli o kadar güçlü olur:

  • 0,0 = Ayrılma normalleştirmesi yok.
  • 1.0 = Her şeyi atla. Model hiçbir şey öğrenmez.
  • 0,0 ile 1,0 arasındaki değerler = Daha faydalıdır.