Sinir Ağlarını Eğitme

Geri yayılım, nöral ağlar için en yaygın eğitim algoritmasıdır. Gradyan inişi, çok katmanlı nöral ağlar için uygun hale getirir. TensorFlow, geri yayılımı otomatik olarak işlediğinden algoritmayı derinlemesine anlamanıza gerek kalmaz. İşleyiş şeklini anlamak için Geri yayılım algoritması görsel açıklaması başlıklı makaleyi inceleyin. Önceki açıklamada gezinirken aşağıdakileri göz önünde bulundurun:

  • Verilerin grafik üzerinden nasıl aktığı.
  • Dinamik programlama, grafikteki katlanarak fazla yolu hesaplamaktan kaçınmamızı nasıl sağlar? Burada "dinamik programlama" yalnızca ileri ve geri geçişlerinde ara sonuçların kaydedilmesi anlamına gelir.

Eğitim Sinir Ağları

  • Renk geçişleri önemlidir
    • Türetilebilir nitelikteyse, muhtemelen ondan bilgi edinebiliriz.
  • Renk geçişleri önemlidir
    • Türetilebilir nitelikteyse, muhtemelen ondan bilgi edinebiliriz.
  • Gradyanlar kaybolabilir
    • Her ek katman, sinyali ve gürültüyü arka arkaya azaltabilir
    • ReLus'lar yararlı olabilir
  • Renk geçişleri önemlidir
    • Türetilebilir nitelikteyse, muhtemelen ondan bilgi edinebiliriz.
  • Gradyanlar kaybolabilir
    • Her ek katman, sinyali ve gürültüyü arka arkaya azaltabilir
    • ReLus'lar yararlı olabilir
  • Gradyanlar patlayabilir
    • Burada öğrenme oranları önemlidir
    • Toplu normalleştirme (kullanışlı düğme) işe yarayabilir
  • Renk geçişleri önemlidir
    • Türetilebilir nitelikteyse, muhtemelen ondan bilgi edinebiliriz.
  • Gradyanlar kaybolabilir
    • Her ek katman, sinyali ve gürültüyü arka arkaya azaltabilir
    • ReLus'lar yararlı olabilir
  • Gradyanlar patlayabilir
    • Burada öğrenme oranları önemlidir
    • Toplu normalleştirme (kullanışlı düğme) işe yarayabilir
  • ReLu katmanları ölebilir
    • Sakin kalın ve öğrenme hızınızı düşürün
  • Özelliklerimizin makul ölçeklerde olmasını istiyoruz.
    • Yaklaşık olarak sıfır merkezli, [-1, 1] aralığı genellikle iyi sonuç verir
    • Gradyan inişin yakınlaşmasına yardımcı olur; NaN tuzağından kaçının
    • Aykırı değerlerden kaçınmak da
  • Birkaç standart yöntem kullanılabilir:
    • Lineer ölçeklendirme
    • Sabit sınır (atlama) ile maks., min.
    • Log ölçeklendirme
  • Dropout: NN'ler için yararlı olan başka bir normalleştirme biçimi
  • Tek bir gradyan adımı için bir ağdaki birimleri rastgele "bırakarak" çalışır
    • Topluluk modelleriyle bağlantı kuruluyor
  • Ne kadar çok dağıtım yaparsanız, düzenlileşme o kadar güçlü olur
    • 0,0 = ayrılma normalleştirmesi yok
    • 1.0 = her şeyi bırakın! hiçbir şey öğrenmez
    • Ara değerler daha faydalıdır